![]()
作者 | 博雯
編輯 | 張潔
泄密信息漫天飛了小半個月的Gemini Omni,終于在今天凌晨的谷歌I/O 2026大會正式亮相!
不同于傳言中的視頻生成專用模型,也不是跟著Veo 3命名的”Veo 4“,谷歌DeepMind CEO Hassabis親自登臺宣布:
“我們正邁出下一個重要的一步——Gemini Omni,這是一個可從任何輸入創建內容的全新模型。”
![]()
也就是說,Gemini Omni是一個真正的“全能”大模型,可以接收任意形式的輸入,生成任意內容,視頻生成只是其中一部分。
目前Gemini Omni已同步上線所有谷歌產品,AI Plus、Pro和Ultra訂閱用戶均可通過Gemini或谷歌AI視頻創作平臺Flow使用。
“AI新榜”第一時間訂閱了級別最高的谷歌Ultra會員,對Gemini Omni進行了一手實測。
先說結論,有點拉。
![]()
實測前后一致性:
基本保持到位
通過自然語言微調視頻,以及在這樣的多輪編輯后,仍能保持一致性,是此次Omni重點強調的亮點。
在官方放出的案例中,原始視頻是一位小提琴家在室內演奏。分別改變背后環境,切換鏡頭,甚至完全去掉演奏主體的小提琴后,演奏者的神態、動作、光影效果,細微的演奏手型,還有音樂,都還是完美適配新環境。
不管是精細編輯的效果,還是畫面主體的一致性效果,看上去相當驚艷。
![]()
![]()
![]()
左右滑動查看
于是在實測中,我們也先來一次環境與氛圍上的替換。
先輸入提示詞:俯拍視角,兩輛車在一個十字路口相撞,其中是一輛藍色的跑車,氛圍驚險刺激。
再進行一次精細的編輯和微調,提示詞為:改為夕陽西下的金色時刻,并將藍色的車改為紅色的,兩輛車相撞后噴射出彩帶和氣球,氛圍輕松夢幻。
可以看到,車輛顏色和光線環境確實是如實改變了,視頻的整體結構和動態也基本保持了連貫,沒有出現畫面撕裂或失真。
但一個很微妙的點是,對于“撞車”這個瞬間動作,Omni理解得并不好。
兩條視頻中的兩輛車都好像是在“故意”向對方開去,甚至在相撞的瞬間還刻意放緩了速度,調整了一下角度。
怎么說呢,仿佛能看到Omni無形的大手在操控著兩輛車完成用戶的指令。
其次,我們來檢驗Omni能否在動態運動中達成一致。
標準是同一個角色在多角度切換中,其面部特征、衣服、道具乃至發型都理應保持穩定,不會出現“同一件衣服,換個角度顏色就變了”的Bug。
輸入提示詞:中景推軌鏡頭,一位穿紅色連衣裙的女舞者在老火車站跳現代舞,一個跳躍動作后切換為廣角固定鏡頭,延續同一舞蹈動作,保持紅裙和火車站背景的完全一致。
這條視頻的完成度還是比較讓人滿意的,舞者的動作連貫連貫,身上那條絲質紅色長裙的物理效果真實,鏡頭從中景切到廣角固定鏡頭也比較絲滑。
Omni還自動加上了一段背景音樂,雖然不算是非常具有藝術情緒,但也基本算是貼合舞蹈氛圍。
再進行一次微調,輸入提示詞:去掉背景音樂,只保留環境音,比如舞蹈動作同步的腳步聲和裙擺摩挲聲。
這一次就有點問題了,視頻前半段是能聽到輕微的裙擺飄動和腳掌落地的聲音的,但到了后半段,之前的背景樂不知為何又響了起來。
接下來,再測試其對于復雜人物關系和位置的理解能力。
標準是,在多個外貌、服飾各異的角色產生互動時,他們各自的特征并不會因為視角切換而錯亂。
輸入提示詞:過肩鏡頭,四五位外貌打扮皆不相同的科學家在實驗室討論全息投影,鏡頭慢慢旋轉,注意保持所有人物的容貌和著裝不變。
也許是為了完美貼合提示詞的“四五位外貌打扮皆不相同的科學家”,Omni也是貼心將給四位科學家男女老少,各色人種一應俱全。在旋轉的鏡頭里,幾位人物的外貌、服飾、聲音和相對位置關系也基本保持一致。
不過很可惜的是,視頻到了后半段突然進行了一次相當生硬的鏡頭切換。
![]()
精細控制?還得再練
編輯和微調也是此次官方放在最前面進行案例宣傳的亮點之一。
話不多說,直接拿來最近在韓網爆火的AI生成棒球觀賽視頻,再丟給Omni一張二次元小姐姐圖片(來自谷歌官網演示),讓它用圖片替換原視頻中的人物。
最后的結果呢……只能說是差強人意。
Omni替換上去的人物,只在相對位置上與原視頻保持了一致,但對于那種咬唇、眼神躲閃、發現被拍后抿嘴一笑的細微表情,幾乎都沒有表現出來。
![]()
![]()
這種在細節生成上的不如意并非個例。
我們通過提示詞,生成了一位中年男人在暗室內對著鏡子輕聲說:“我知道是你做的,別裝了”的視頻。
原視頻的表現還是不錯的,除了男人的中文口音稍微有點奇怪,他的口型與每個字基本上都是精確對應的,至于是否表現出了人性化的情緒,這個見仁見智。
但接下來,在我們試圖修改男人的臺詞時,Omni的電子腦不知為何就過載了。
提示詞:一位中年男人在暗室內對著鏡子輕聲說:“520又來了,節日快樂。”
一開始是無法理解“修改臺詞”這樣的描述,直接把新的臺詞當作字幕打在了視頻下方;之后又是一半說原臺詞,一半說新臺詞;到最后,更是直接開始口胡了。
光影倒是明亮了一些,表情也變成了微笑,只是一個男人一臉微笑地說“我知道是你做的,別裝了”,BGM還是剛才那股陰森色的味兒,簡直比原版還要詭異好嗎!
只能說,精細控制這塊兒,Omni還得練練。
![]()
世界知識理解:物理學、世界史成績不錯,但還是有Bug
最后是對于世界的理解。
官方的說法是,Omni基于Gemini旗艦大模型,對于引力、動能和流體力學等物理規則的理解,以及對于世界歷史、科學和數學的理解都進一步得到了提高。
話不多說,直接上提示詞:生成一條在連鎖反應軌道上快速滾動的彈珠。
這個效果還是比較驚艷的,Omni自己想了一套挺復雜的連鎖軌道,期間涉及到重力、彈力、離心力等等物理規則,看上去都相當真實。
不過在視頻后半段出現了個Bug,一個小球冷不丁變成了兩個。
再來一個:一個球沿著一個U形軌道內壁來回滾動,最后停在了軌道最低點。
這個效果就有點奇怪了。
雖然確實是小球沿著U形管來回滾動并停在了最低點,但總覺得重力環境并不在地球,小球輕飄飄的,甚至好像還有點穿模。
最后,我又丟了一條相當簡潔有力的提示詞過去:生成一段李世民和他老哥“玄武門對掏”的視頻。
嗯……雖然背后的“玄武門”的漢字有點問題,倆唐代人物的中文也似乎略帶口音,但還是理解了“玄武門對掏”這個中文梗,讓李世民李元吉哥倆進行了一次劍拔弩張的會面。
這么看來,Omni的世界歷史倒是還修得不錯。
![]()
實測后感受:靜待Seedance 2.1
在今天這場大會之前,Omni的消息就傳了很久了。
最早是在5月初,有個用戶在Gemini的視頻生成頁面發現了一行不起眼的小字:"Powered by Omni",頓時一石激起千層浪。
海內外技術圈都在討論:這個Omni到底是什么?是去年的谷歌 I/O 2025上的Veo 3的下一代Veo 4,還是一個全新的多模態大模型?
這也是為什么在前期的各路消息里,一會兒是Gemini Omni, 一會又是Veo 4。
而到了5月11日,一條“教授黑板推公式”的Omni內測視頻又在X上瘋傳,瀏覽量在短短幾天內就超過240萬。
視頻在短短10秒內連續切了數次鏡頭,有教授的背影,側臉,還有粉筆寫公式的特寫,配合粉筆的沙沙聲,黑板上完全正確的公式,又將大家的期待值拉到了一個新的高度。
當時的爆料是,Omni已經完全把鏡頭語言和剪輯深度技能給內化了,多視角鏡頭切換、自帶原生BGM,“直接就能出一條成片”。
![]()
但到了今天,Gemini Omni真的千呼萬喚始出來,效果卻是褒貶不一。
看來還是要期待一下Seedance 2.1了,雖然什么時候出還是個大大的問號。
歡迎分享、點贊、推薦
一起研究AI
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.