![]()
谷歌DeepMind CEO德米斯·哈薩比斯當地時間周二宣布推出一款新的人工智能模型“Gemini Omni”,用于視頻生成與編輯。
他表示:“該模型起初只生成視頻,但隨著時間推移,Omni將能夠從任意輸入生成任意輸出。這一直是我們為Gemini設定的目標,也是我們從一開始就構建多模態系統的原因。這條路徑更困難,但如今基礎架構開始帶來回報。今天我們推出Omni系列的首個模型——Gemini Omni Flash。”該模型將從今天起在谷歌的Gemini應用、Google Flow以及YouTube Shorts中逐步上線,公司還表示未來也將通過API開放使用。
據悉,Gemini Omni 是 Gemini 模型家族迄今為止能力最為全面的版本。“Omni”意指“全能”,該模型在處理文字、圖像、視頻、音頻等多種模態信息時,展示出前所未有的流暢性與深度。
Gemini Omni 宣稱能“從任何輸入生成任何輸出”,支持對話式編輯,用戶可一句話改變視頻中的角色、背景等元素。
把小提琴變透明:
官方展示了一個連續修改的例子:先生成一個小提琴手演奏的視頻,然后把小提琴手放進另一張圖片里的環境,再把小提琴變成透明,最后把鏡頭角度改成從小提琴手肩膀后方看。整個過程是一輪一輪接著改,而不是每次推倒重來。
谷歌還特別強調,Omni背后接的是Gemini的世界知識。它對重力、動能、流體這些物理效果有更好的理解,也可以把復雜概念做成解釋視頻。行動會產生后果,環境會對事件做出反應,敘事會按邏輯發展。
換句話說,谷歌想表達的是,AI視頻不是只能做炫酷短片,也可以變成一種知識表達工具。復雜概念、科學過程、教學內容,都可以被轉成更直觀的視頻。
Gemini Omni 帶來的不是“直接生成一部電影”,而是徹底顛覆了電影的前期籌備、中期拍攝和后期制作的工作流(Workflow)。
![]()
具體來說,首先顛覆性的“對話式視頻剪輯”(Conversational Video Editing),是對影視后期行業沖擊最大的一項創新。以往剪輯師和特效師需要依賴復雜的軌道、時間軸和圖層軟件,而 Gemini Omni 引入了多輪對話剪輯機制。
像和真人剪輯師說話一樣改視頻:導演或剪輯師可以上傳一段粗剪視頻,直接對 AI 說:“把背景換成下雨的深夜”、“在右側車道加一輛紅色的跑車”,或者“把鏡頭的機位調低,改成仰拍”。AI 會在連續的對話中記住前面的所有指令。它在修改局部畫面時,能完美保持主角的五官一致性(Character Consistency)、周圍環境細節以及鏡頭運動軌跡。
此外,Gemini Omni 最大的技術突破之一在于它不僅是“像素層面的模仿”,而是接受了大量物理規律的訓練,它對重力、流體力學、動力學和光影變化有了更深刻的理解。在官方演示中,當角色用手觸摸鏡面時,鏡面會像液體一樣泛起真實的漣漪,同時角色的手臂皮膚也會逐漸自然地演變成鏡面反射材質。
這種高難度視聽語言的物理計算,將極大地縮短科幻、奇幻電影在綠幕階段后的 CG(電腦動畫)渲染周期和成本。
在電影前期籌備(Pre-production)階段,導演可以同時上傳:一張主角的人物靜態圖、一段關于世界觀的劇本文字、以及一段特定藝術風格的參考視頻。Omni 能夠將這三種完全不同維度的輸入融為一體,瞬間生成符合要求的動態分鏡(Storyboard)或概念片花(Mood Reel)。
Omni 允許用戶通過自己的聲音和肖像生成高度逼真的視頻 AI avatar(數字分身)。演員在后期制作中如果需要補音(ADR)或修改少量面部表情,可能不再需要重回錄音棚,通過 AI 授權即可在短時間內低成本完成微調。
但這也同時面臨巨大爭議,為了應對深偽(Deepfake)和版權風險,谷歌在發布會上宣布暫不對公眾開放高級語音和音頻編輯功能。同時,所有由 Omni 生成的視頻都會被強制嵌入 DeepMind 開發的 SynthID 隱形數字水印,以此保證電影工業的版權透明度。
目前反饋來看,Gemini Omni 像是一個擁有無限算力的“全能副導演/特效總監”。現在的獨立電影人和小型工作室,憑借這個模型,就能以極低的成本制作出以往只有好萊塢大廠才能負擔得起的視覺特效。
![]()
這次谷歌發布的 Gemini Omni,和之前在電影圈備受推崇、主打影視級畫質的 Seedance 2.0,代表了AI在電影工業應用的兩個完全不同的進化方向。
前期籌備與粗剪階段可以首選 Gemini Omni,導演可以和 Omni 對話,把腦海里的想法迅速變成動態分鏡。比如:“把這個鏡頭改成王家衛風格,色調調綠,讓男主角抽口煙。”秒級生成,作為故事版和概念片用于展示。
到后期特效與成片渲染移交 Seedance 2.0當鏡頭調度和物理碰撞通過 Omni 確定后,把基礎素材喂給 Seedance 2.0,利用它強大的美學濾鏡、膠片質感和光影細節,渲染出真正可以端上大銀幕的電影畫面。
簡單來說,Gemini Omni 贏在“腦子”和“溝通”,它懂物理、懂劇本、聽得懂人話;而 Seedance 2.0 贏在“眼睛”和“雙手的藝術感”,它更像一個審美高級的資深攝影指導。
其實,我們通過最近現象級的電影《給阿嬤的情書》可知,真正好的電影仍然是有打動人的故事,AI最終只是作為輔助我們去表達的工具存在。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.