文 | 世界模型工場
Google可能要放大招了。
就在Google I/O 2026開幕前夕,兩條由Google尚未發布的新視頻模型Gemini Omni生成的視頻悄悄流出。
沒有任何官方預告,沒有任何發布會造勢,整個社交媒體都炸翻了。
一條視頻是一位教授站在黑板前,手持粉筆,一步步推導三角恒等式;
另一條是兩名男士坐在海邊高檔餐廳,安靜地吃意大利面。
Reddit和X的評論區,鋪天蓋地的都是同一句話:"這不可能是現有的技術水平。"
兩個看似普通的日常場景,為什么讓見慣了AI生成內容的技術圈集體側目?
令人震驚的視頻
先說“教授黑板講課”視頻,生成它只用了一條prompt:
"一位教授在傳統黑板上寫出三角恒等式的數學證明,同時用語言解釋他當前正在推導的步驟。"
一條指令,沒有多輪對話,沒有分步驟控制。
出來的結果是,教授手持粉筆,逐步寫下公式,同時開口講解,畫面流暢,板書工整。
![]()
聽起來好像平平無奇。
但如果你了解當前視頻生成模型的技術邊界在哪里,就會明白Gemini Omni同時做到了三件事,而這三件事,以前從來不會同時出現。
第一,推理對了。
黑板上的證明過程在數學上是成立的,不是視覺上長得像公式的符號堆砌,而是數學意義上真實有效的推導。
要做到這一點,模型至少要在token預測之外,具備一定的符號推理能力(symbolic reasoning)。
即知道下一步應該出現什么公式,而不是隨機采樣一個看起來像數學的圖案。
語義準確性疊加在視覺生成之上,正是大多數視頻模型會在這類測試中失敗的原因。
第二,空間關系對了。
評測者描述,粉筆書寫時的手部和手臂動作"讀起來是自然的",黑板上的方程式清晰可辨。
手部,是AI視頻生成里公認最容易穿幫的地方。
手指數量錯誤、關節扭曲、與物體的空間關系失真,這是行業里幾乎每一代視頻模型都栽過的坑。
一支粉筆被正確握持,在黑板上留下有意義的筆跡,手腕的力道、落筆的角度,都在合理的范圍內。
這一關,比畫一只正常的手還要難,因為手在這里還要和黑板、粉筆、書寫行為,形成完整的空間邏輯。
第三,時序對了。
這是最被低估的一件事。
教授寫下某個推導步驟的同時,口頭講解的正是這個步驟,板書進度與語音內容保持同步。
這不只是音視頻的幀級對齊(frame-level alignment),而是視覺事件、語義事件、時間事件三者之間的跨模態協調。
任何一個維度的理解出現偏差,結果就會是"手在寫A,嘴在講C"。
這種錯位,人類觀眾一眼就能感知到。
如果這三件事只是分別做到,我們可以認為是三個專項模塊拼在一起的結果。
但三者同時成立、彼此協調,更可能是模型在某個表征層面上,已經對"教授在黑板上講課"這件事形成了整體性的語義理解。
換句話說,它知道這件事在現實世界里是什么樣子,知道其中各個元素之間的約束關系。
這也是為什么"世界模型"這個詞,會在這條視頻流出后開始被頻繁提及。
在黑板視頻流出的同時,還有另一條視頻一起曝光:兩名男士在海邊高檔餐廳吃意大利面。
這個場景的選擇,不是隨機的。
2024年,一段AI生成的"Will Smith吃意大利面"視頻在網上瘋傳。
畫面里的手指數量不對,面條像活物一樣扭動,叉子和嘴的空間關系完全失控。
那段視頻成了早期AI視頻生成能力的恥辱柱。
![]()
圖為"Will Smith吃意大利面"視頻截圖
而這一次,Gemini Omni生成的結果,有用戶評論是"令人難以置信地真實"。
這背后考驗的,是模型對剛體與柔性體之間動態交互的建模能力:
叉子是硬的,面條是軟的,兩者在接觸時會產生形變,而形變的方式必須符合現實世界里的物理直覺。
這正是早期生成模型在隱式物理模擬(implicit physics simulation)上的致命短板。
一個模型,在兩條視頻里,分別碰到了視頻生成最難的兩類問題:
一類是符號、語音與畫面的同步,另一類是人與物體、剛體與柔性體的交互,并把這些問題推進到一個更可用的狀態。
Gemini Omni展示的,更像是一個對世界有著更深理解的基座模型。
Gemini Omni的沖擊
截至目前,Google還沒有發布Gemini Omni的任何技術文檔,也沒有公開任何模型參數或基準測試數據。
但關于Gemini Omni的架構,目前外界存在三種解讀。
最保守的說法是,Omni只是Veo的品牌重命名,底層推理引擎沒有根本變化;
第二種說法是,Omni是在Gemini架構下重新訓練的全新視頻模型,與Veo并行但獨立;
第三種說法最激進,認為Omni是一個真正意義上的原生多模態統一模型,在單一架構里原生處理文字、圖像、視頻和音頻。
基于以上兩段視頻的表現,第三種解讀反而像是"Omni"這個命名最合理的指向,畢竟在拉丁語中,"omnis"意味著所有。
如果Omni真正打通了多模態鏈路,模型競爭的焦點就會發生根本性的轉變。
不再是誰能拍出更像電影的畫面,而是誰是內容創作者的唯一目的地。
雖然現在還不能說Gemini Omni已經是世界模型,但它至少說明,視頻生成正在逼近世界模型要解決的問題:
如何在時間中維持一個可解釋、可編輯、可連續推演的場景。
產品層面的沖擊同樣不容忽視。
今天一條AI視頻的生產鏈路,通常需要串聯語言模型寫腳本、圖像模型做故事板、視頻模型做動畫渲染、再加外部剪輯軟件做后期處理。
每一次跨工具切換,都意味著信息損耗和風格漂移。
一旦Gemini Omni對話式視頻編輯成立,這條鏈路就可能被一個對話窗口替代了。
更關鍵的是,如果Omni被放入Gemini入口,并與Gmail、Google Docs、YouTube、Android深度打通,這是字節Seedance、快手Kling在分發層面根本無法復制的生態優勢。
技術能力決定上限,生態決定規模。
Gemini Omni真正的威脅,或許不在于它今天生成的視頻有多好,而在于它把視頻生成能力放在了一個競爭對手根本進不去的地方,后者對前者幾乎構成降維打擊。
世界模型時刻或許來臨
過去幾年,生成式AI的進化路徑相對清晰。
語言模型學會了讀和寫,圖像模型學會了看和畫,視頻模型學會了動。
每一個模態都在自己的賽道上快速迭代,但它們之間始終存在一道隱形的墻。
模型知道文字,也知道圖像,但它不理解文字和圖像之間、聲音和動作之間、邏輯和畫面之間的約束關系。
如果說ChatGPT時刻定義了語言的邊界,Sora時刻定義了視頻的邊界,那Gemini Omni指向的,很可能是第一個真正意義上的"世界模型時刻"。
模型第一次開始理解,模態與模態之間在現實世界里的約束關系,而不只是分別生成它們。
這是一次質的飛躍。
當然,Gemini Omni是否真正實現了這一點,在5月19日Google I/O 2026大會之前,沒有人能給出確定的答案。
但泄露出來的視頻,給出的信號已經足夠有力。
接下來Google會在臺上說什么,我們很快就會知道。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.