網易首頁 > 網易號 > 正文申請入駐

剛剛，Seedance 2.0最強對手上線！這就是AI視頻的「Nano Banana 時刻」

2026-05-20 03:48:37　來源: AppSo

廣東舉報

分享至

不出所料，。

不過和當時大家預想的視頻模型不同，Google 定義的 Gemini Omni 是一個能接受任意輸入，生成任意輸出的模型，視頻只是當前的一部分。

DeepMind CEO Demis Hassabis 在發布會現場，給出了多個 Gemini Omni 的演示案例。它上傳了一張自己的照片，Omni 可以快速地修改人物所處的現實環境，輕松調節不同的風格。

畫一個簡單的圓圈，Omni 可以生成一個黑洞，一場傍晚的漫步，Omni 會渲染不同風格的環境；任何素材通過 Omni 都可以成為構建全新現實的畫布。

Gemini Omni 的核心能力在于把文字、視頻、圖像、交互仿真整合進同一個生成框架。

具體來說，Omni 結合了 Google 目前最先進的幾款生成式媒體模型，包括圖像模型 Nano Banana、視頻生成模型 Veo，以及世界模型 Genie。

我們可以輸入「制作一段蛋白質折疊的動畫解說」，它會直接產出帶有 α 螺旋、β 折疊結構演示的教學視頻，而不只是文字描述。

提示詞： claymation explainer of protein folding, everything is made out of clay, no hands, stop motion, accurate

有網友也立馬用 Omni 和 Seedance 2.0 進行了更詳細的對比，比較實際生成的質量、動態效果和一致性。

視頻來源：X@ TopviewAIhq

整體看下來，Seedance 2.0 的表現還是相當穩定，Omni 則是在某些特定的場景表現要比 Seedance 更強。

根據官方博客的介紹，Omni 的能力集中在視頻編輯和物理模擬上。

動動嘴就能剪視頻，AI 視頻的「可控時刻」

除了用來制作教學視頻，視頻編輯是 Omni 的另一個主打場景。

Omni 支持上傳自拍或任意素材，用自然語言，像和人類剪輯師聊天一樣，對視頻進行多輪修改，調整風格、添加元素。這套交互邏輯也和此前 Nana Banana 的圖片編輯的思路一脈相承。

在官方的演示中，這種能力顯得有些特立獨行。

拍了一段手摸鏡子的視頻，只需告訴 Omni：「當人觸摸鏡子時，讓鏡子像液體一樣泛起美麗的漣漪，人的手臂變成反光材質。」

奇跡就真的發生了。視頻沒有被完全重繪，人物動作得以保留，但鏡子的物理狀態和手臂的材質被精準替換。

更值得一提的是它的「多輪對話能力」，每一次新指令都會基于前一次結果繼續生成。

Gemini Omni 會盡量保持人物、環境、物理效果和場景上下文的一致性。

懂像素，更懂這個世界的物理法則

物理模擬則是 Gemini Omni 技術含量最高的部分。Google 稱 Omni 在模擬動能、重力等現象時有了「質的飛躍」。更逼真的視頻、圖像以及交互式仿真內容，現在都能通過 Gemini Omni 生成。

當要求它生成「一條在連鎖反應軌道上快速滾動的彈珠」時，Omni 展現出了對重力和動能的精確理解。

更復雜的案例是一個「字母表物品視頻」。當要求模型展示 26 個英文字母，每個字母對應一個不尋常物體，例如 C 對應水豚、D 對應迪斯科球、L 對應熔巖燈。

提示詞： Prompt: The video shows items of the alphabet. An unusual item starting with each letter is shown sitting on a table (like a Capybara for C, disco globe for D and Lava Lamp for L). All 26 letters must be represented by 26 items with matching lower thirds displaying the letter. Only one item and lower third at a time. Each lower third must look like a black marker written on a slip of paper in the bottom left. Rapid fire, roughly 9 frames per item at 24FPS. Last frame is a slip of paper "THE END". The whole video is accompanied by calm smooth music.

Omni 能同時處理好字母和物體的對應關系、畫面節奏、字幕形式、幀數要求、音樂風格和視頻收尾方式，把語言、圖像和意義聯系起來，而不是只做表層的視覺匹配。

目前 Gemini Omni Flash 已同步上線所有 Google 產品，面向全球 Google AI Plus、Pro 和 Ultra 訂閱用戶推出，用戶可以通過 Gemini app 和 Google Flow 使用。

在 Gemini 網頁和應用端，我們可以選擇「生成視頻」體驗 Omni 的能力。

Gemini 提供了年輕時尚、蒙太奇、美漫、會說話的寵物、派對邀請函、月亮、變身表情包、涂鴉特效、像素冒險等 18 種預設風格，我們的 Pro 賬戶每天有 3 次生成機會。

我們隨手輸入了一段提示詞，「一個男的汽車博主，穿著女裝JK服裝，梳著雙馬尾辮，在一臺汽車面前」，使用預設的 80 年代 MV 風格，就得到了下面這段讓人「欲罷不能」的視頻。

Google 還提到 YouTube Shorts 和 YouTube Create App 用戶也將從本周開始免費使用相關能力；未來幾周會通過 API 向開發者和企業客戶開放 Gemini Omni。

Omni 可以把圖片、文字、視頻和音頻作為參考素材，并整合成一個連貫輸出。

而為了打消公眾對 AI 偽造的疑慮，Google 強調所有由 Omni 生成的視頻都會嵌入肉眼不可見的 SynthID 數字水印，并且可以輕松驗證來源。

針對真實人臉的使用，它還推出了可以克隆外貌和聲音的 Avatar（數字分身）功能。

過去一年，谷歌用 Nano Banana 把 Gemini 的多模態能力推進到圖像生成和編輯場景。

現在，Gemini Omni 開始把同一套思路帶入視頻領域，并試圖打造視頻生成領域的「Nano Banana 時刻」。

這對視頻創作者的直接影響，是制作門檻繼續下降：一段手機拍攝的視頻、一張參考圖、一段音樂，都可能成為可對話編輯的素材。

更大的變化則在于，當視頻可以被一句話持續改寫，內容生產的速度、真實感驗證、版權邊界和平臺治理，也會被一起推到新的位置。

我們正在招募伙伴

簡歷投遞郵箱hr@ifanr.com

?? 郵件標題「姓名+崗位名稱」（請隨簡歷附上項目/作品或相關鏈接）

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.