不出所料,。
不過和當時大家預想的視頻模型不同,Google 定義的 Gemini Omni 是一個能接受任意輸入,生成任意輸出的模型,視頻只是當前的一部分。
![]()
DeepMind CEO Demis Hassabis 在發布會現場,給出了多個 Gemini Omni 的演示案例。它上傳了一張自己的照片,Omni 可以快速地修改人物所處的現實環境,輕松調節不同的風格。
畫一個簡單的圓圈,Omni 可以生成一個黑洞,一場傍晚的漫步,Omni 會渲染不同風格的環境;任何素材通過 Omni 都可以成為構建全新現實的畫布。
Gemini Omni 的核心能力在于把文字、視頻、圖像、交互仿真整合進同一個生成框架。
具體來說,Omni 結合了 Google 目前最先進的幾款生成式媒體模型,包括圖像模型 Nano Banana、視頻生成模型 Veo,以及世界模型 Genie。
我們可以輸入「制作一段蛋白質折疊的動畫解說」,它會直接產出帶有 α 螺旋、β 折疊結構演示的教學視頻,而不只是文字描述。
![]()
提示詞: claymation explainer of protein folding, everything is made out of clay, no hands, stop motion, accurate
有網友也立馬用 Omni 和 Seedance 2.0 進行了更詳細的對比, 比較實際生成的質量、動態效果和一致性。
視頻來源:X@ TopviewAIhq
整體看下來,Seedance 2.0 的表現還是相當穩定,Omni 則是在某些特定的場景表現要比 Seedance 更強。
根據官方博客的介紹,Omni 的能力集中在視頻編輯和物理模擬上。
動動嘴就能剪視頻,AI 視頻的「可控時刻」
除了用來制作教學視頻,視頻編輯是 Omni 的另一個主打場景。
Omni 支持上傳自拍或任意素材,用自然語言, 像和人類剪輯師聊天一樣,對視頻進行多輪修改, 調整風格、添加元素。這套交互邏輯也和此前 Nana Banana 的圖片編輯的思路一脈相承。
在官方的演示中,這種能力顯得有些特立獨行。
拍了一段手摸鏡子的視頻,只需告訴 Omni:「當人觸摸鏡子時,讓鏡子像液體一樣泛起美麗的漣漪,人的手臂變成反光材質。」
![]()
奇跡就真的發生了。視頻沒有被完全重繪,人物動作得以保留,但鏡子的物理狀態和手臂的材質被精準替換。
更值得一提的是它的「多輪對話能力」,每一次新指令都會基于前一次結果繼續生成。
Gemini Omni 會盡量保持人物、環境、物理效果和場景上下文的一致性。
懂像素,更懂這個世界的物理法則
物理模擬則是 Gemini Omni 技術含量最高的部分。Google 稱 Omni 在模擬動能、重力等現象時有了「質的飛躍」。更逼真的視頻、圖像以及交互式仿真內容,現在都能通過 Gemini Omni 生成。
當要求它生成「一條在連鎖反應軌道上快速滾動的彈珠」時,Omni 展現出了對重力和動能的精確理解。
![]()
更復雜的 案例是一個「字母表物品視頻」。當要求模型展示 26 個英文字母,每個字母對應一個不尋常物體,例如 C 對應水豚、D 對應迪斯科球、L 對應熔巖燈。
![]()
提示詞: Prompt: The video shows items of the alphabet. An unusual item starting with each letter is shown sitting on a table (like a Capybara for C, disco globe for D and Lava Lamp for L). All 26 letters must be represented by 26 items with matching lower thirds displaying the letter. Only one item and lower third at a time. Each lower third must look like a black marker written on a slip of paper in the bottom left. Rapid fire, roughly 9 frames per item at 24FPS. Last frame is a slip of paper "THE END". The whole video is accompanied by calm smooth music.
Omni 能同時處理好字母和物體的對應關系、畫面節奏、字幕形式、幀數要求、音樂風格和視頻收尾方式,把語言、圖像和意義聯系起來,而不是只做表層的視覺匹配。
目前 Gemini Omni Flash 已同步上線所有 Google 產品, 面向全球 Google AI Plus、Pro 和 Ultra 訂閱用戶推出,用戶可以通過 Gemini app 和 Google Flow 使用。
在 Gemini 網頁和應用端,我們可以選擇「生成視頻」體驗 Omni 的能力。
![]()
Gemini 提供了年輕時尚、蒙太奇、美漫、會說話的寵物、派對邀請函、月亮、變身表情包、涂鴉特效、像素冒險等 18 種預設風格,我們的 Pro 賬戶每天有 3 次生成機會。
我們隨手輸入了一段提示詞,「 一個男的汽車博主,穿著女裝JK服裝,梳著雙馬尾辮,在一臺汽車面前 」,使用預設的 80 年代 MV 風格,就得到了下面這段讓人「欲罷不能」的視頻。
Google 還提到 YouTube Shorts 和 YouTube Create App 用戶也將從本周開始免費使用相關能力;未來幾周會通過 API 向開發者和企業客戶開放 Gemini Omni。
![]()
Omni 可以把圖片、文字、視頻和音頻作為參考素材,并整合成一個連貫輸出。
而 為了打消公眾對 AI 偽造的疑慮,Google 強調所有由 Omni 生成的視頻都會嵌入肉眼不可見的 SynthID 數字水印,并且可以輕松驗證來源。
針對真實人臉的使用, 它還推出了可以克隆外貌和聲音的 Avatar(數字分身)功能。
![]()
過去一年,谷歌用 Nano Banana 把 Gemini 的多模態能力推進到圖像生成和編輯場景。
現在,Gemini Omni 開始把同一套思路帶入視頻領域,并試圖打造視頻生成領域的「Nano Banana 時刻」。
這對視頻創作者的直接影響,是制作門檻繼續下降:一段手機拍攝的視頻、一張參考圖、一段音樂,都可能成為可對話編輯的素材。
更大的變化則在于,當視頻可以被一句話持續改寫,內容生產的速度、真實感驗證、版權邊界和平臺治理,也會被一起推到新的位置。
我們正在招募伙伴
簡歷投遞郵箱hr@ifanr.com
?? 郵件標題「姓名+崗位名稱」(請隨簡歷附上項目/作品或相關鏈接)
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.