網易首頁 > 網易號 > 正文 申請入駐

世界模型元年啟示錄:動機、亂戰與暗礁

0
分享至



出品 | 智械島

作者 | 霍如筠(北京)

4月16日,阿里巴巴發布了開放式世界模型Happy Oyster,騰訊開源了3D世界模型HY-World 2.0。

同一天,兩家中國互聯網巨頭宣示了自己在世界模型賽道上的存在感。

此前不到一個月,李飛飛的World Labs剛完成10億美元融資,Yann LeCun的AMI Labs更是以10.3億美元的種子輪震驚硅谷。

資本、巨頭、創業者蜂擁而入,一個響亮的口號迅速傳遍行業:世界模型是大語言模型之后最重要的賽道。

但如果你真的去問這些玩家“世界模型到底是什么”,很可能會得到一堆彼此矛盾的回答。

有人說是“可交互的3D世界”,有人說是“理解物理規律的因果模型”,有人說是“機器人訓練的數字仿真器”,還有人干脆說“就是更高級的視頻生成”。

這不是學術討論的分歧,而是整個賽道正在經歷的認知混亂。

這篇文章試圖理清這場混亂。我們會從三個層層遞進的問題入手:為什么所有大廠突然都在押注世界模型?他們的產品到底在做什么,哪些是實、哪些是虛?以及,那些被光環掩蓋的困境和模糊地帶,究竟有多深?

一、為什么突然All in世界模型?

要理解世界模型為何突然爆火,得先回到大語言模型的一個尷尬事實。

過去兩年,ChatGPT們展示了驚人的語言能力,也暴露了一個致命短板:它們不懂物理世界。

你問一個LLM“把杯子從桌子邊緣推下去會怎樣”,它能回答“杯子會掉到地上”,卻并不能真正理解重力、加速度、碰撞,它只是從訓練數據中記住了類似的句子。

2026年初的一項研究指出,幻覺不是數據問題,不是訓練問題,而是LLM架構的內在缺陷。

這個缺陷在純文本任務中或許可以忍受,但當AI要進入真實世界:操控機器人、駕駛汽車、在工廠里作業,它就變成了一個無法繞過的坎,你不能讓一個自動駕駛模型“大概正確”地判斷前方障礙物,也不能讓一個工業機器人“差不多”地預測零件運動軌跡。

于是,一個更根本的需求浮出水面:我們需要一個能理解物理世界因果律的AI。

它不只要能說,還要能做;不只要看見,還要能預判。這就是世界模型被推到聚光燈下的根本原因。

大語言模型改變了人和信息的關系,而世界模型要改變的,是人和現實的關系。

過去兩年AI的商業化主要停留在信息處理,寫文案、做翻譯、生成代碼,但下一波增長引擎顯然在物理世界:具身智能、自動駕駛、智能制造。

這些場景的共同要求是:AI必須理解空間、預測動態、規劃動作。

所以,大廠押注世界模型,本質上是在爭奪“后LLM時代”的技術制高點。誰先讓AI真正理解物理世界,誰就能在下一輪產業周期中占據主導。

國內外玩家的打法截然不同。

美國那邊,DeepMind、World Labs、AMI Labs更像是在做基礎科學。

他們關心的是如何讓AI擁有像人類一樣的物理直覺和因果推理能力,商業化是遠期目標。Yann LeCun自己都承認,AMI的產品可能要幾年后才能看到。

中國則是另一番景象。阿里和騰訊幾乎在發布模型的同時就綁定了商業場景:Happy Oyster瞄準影視制作和游戲開發的付費用戶,HY-World 2.0直接輸出可導入Unity/UE的3D資產,做起了AI造世界的生意。

還有Sand.ai的VidMuse,圍繞音樂生成視頻這個細分場景,上線幾個月就做到了千萬美元級別的年收入。

中國團隊的邏輯很務實:世界模型首先得是一個能賺錢的產品。

這兩種路線沒有高下之分,但決定了各自的節奏和風險。美國團隊敢于押注十年后的突破,中國團隊則必須在一年內看到回報。

問題是,當所有人都擠在同一個熱詞下喊口號時,局外人很難分清誰在做什么。

二、關于技術標準的拷問

花時間看完各家產品的介紹,你很可能會陷入更大的困惑。因為每個世界模型長得都不一樣,它們的底層邏輯甚至彼此矛盾。

先來看最反直覺的一派。Yann LeCun的AMI Labs走了一條很少有人敢跟的路,他們不認為AI需要生成逼真的畫面。

LeCun的JEPA架構刻意丟棄像素細節,只在抽象的隱空間里做預測。最新發布的LeWorldModel只有1500萬參數,單GPU幾小時就能訓練完,但規劃速度比傳統方法快了48倍。

缺點是,它的輸出人類看不懂,你不能“看到”它預測的未來,只能相信它算對了。

這是一個純粹的學術路線,離普通用戶很遠,但LeCun賭的是:真正的智能不需要模擬每一片樹葉的飄落,只需要理解“風會吹落樹葉”這個因果。

另一條路來自李飛飛的World Labs。李飛飛相信,智能必須建立在三維空間的顯式理解之上。她的Marble模型能從一張照片或一段文字生成一個可編輯、可導航的3D世界,用戶可以在里面自由移動視角。

World Labs還開源了渲染引擎Spark 2.0,讓普通瀏覽器都能流暢加載上億個3D點。

一個坦誠的評價是:Marble擅長重建空間的樣子,但對空間中會發生什么的理解還比較薄弱。

你可以走進它生成的房間,但你推不動里面的椅子,也打不翻桌上的杯子。它是一個靜態世界的復刻者,而不是動態物理的模擬器。

最熱鬧的陣營當屬生成派。谷歌的Genie 3、阿里的Happy Oyster、騰訊的HY-World 2.0都屬于這一類。

他們的邏輯是:只要生成的畫面足夠逼真、交互足夠流暢,物理規律自然會被學出來。

阿里在Happy Oyster里做了一個很有意思的功能叫導演模式,用戶可以在視頻播放的過程中隨時輸入文字指令,改變劇情走向、切換鏡頭角度。騰訊更務實,直接輸出可二次編輯的3D資產,讓游戲開發者可以導入Unity或UE引擎里直接用。

但這類產品有一個共同的軟肋:長時序一致性和物理準確性仍然不穩定。

Genie 3的演示很驚艷,但幾分鐘后畫面就開始走樣。阿里的漫游模式目前只能支持1分鐘的連續位移,超過這個時間會發生什么?官方沒說。

騰訊的3D資產在單一場景下看起來不錯,但它的優勢主要體現在場景完整度和對輸入圖片的遵循程度,這些都是“看起來像”的指標,而不是“物理上對”的指標。

最后還有一個特殊的玩家:英偉達。Cosmos平臺不生產世界模型,它生產“生產世界模型的工具”。

數據處理管線、視頻分詞器、預訓練基礎模型,全部免費開放下載。黃仁勛的算盤很清楚:無論哪條路線最終勝出,訓練和推理都需要英偉達的GPU。

這是最聰明的生意,不賭方向,只賭算力。

那么,這些世界模型哪些是名副其實的?一個關鍵的技術標準是:真正的世界模型必須是“動作條件化”的,也就是說,輸入一個動作,模型要能輸出世界狀態的變化。

你用鍵盤按“W”,畫面里的視角應該向前移動;你給機器人一個抓取指令,模型應該預測物體的位置變化。

按照這個標準,李飛飛的Marble就不太合格,用戶只能看,不能做。它更像一個3D重建工具,而不是世界模擬器。

谷歌的Genie 3和阿里的Happy Oyster雖然支持交互,但物理準確性存疑。騰訊的HY-World 2.0輸出的是靜態資產,本身就不涉及動態預測。

換句話說,目前市場上幾乎沒有一家達到了“完美物理世界模擬器”的標準。每家都在自己的能力范圍內,選擇了一個可展示、可商業化的切入點。

這本身沒有錯,錯的是大家都在用“世界模型”這個模糊的大詞來包裝自己,讓外界誤以為他們已經解決了所有問題。

三、那些被刻意回避的模糊地帶

只讀各家公司的新聞稿,會覺得世界模型已經進入了規模化落地的前夜,但一些被忽略的細節拼出了一幅截然不同的圖景。

數據問題首當其沖。訓練一個真正的世界模型,需要海量的“觀察、動作、結果”三元組,但現實中沒有這樣的現成數據集。

有人用游戲數據,動作標簽完美,但游戲里的物理是引擎模擬的,不是真實物理。

有人用人類第一人稱視頻,最接近真實世界,但視頻里沒有動作標簽,而且人的頭部運動和手部動作糾纏在一起,模型根本分不清是誰在動。

還有人用真實機器人遙操作數據,保真度最高,但采集一小時數據可能要花費數萬美元,根本跑不起來規模。

這意味著每個世界模型都有天生的“能力邊界”。

評估真空是另一個麻煩。你打開任何一家世界模型公司的官網,幾乎都能看到“登頂全球權威評測榜第一”的標語。

問題是,這些評測榜單本身就不成熟。有的側重視覺逼真度,有的側重物理準確性,有的側重任務完成率。一個在視覺榜單上拿第一的模型,可能在物理榜單上墊底。

這種標準的不統一,讓各家可以各說各話。普通人根本搞不清這到底是同一個榜單的不同類別,還是營銷話術的巧妙編排。

還有一個被刻意回避的“不可能三角”。

世界模型面臨三個相互制約的指標:空間尺度、視覺保真度、實時交互性。

你不可能同時做到“世界很大、畫面很清晰、交互很流暢”。李飛飛的Marble就是最好的例子:1.1版本畫質好但空間范圍有限,1.1-Plus版本能生成大場景但畫質發糊。

昆侖萬維的Matrix-Game 3.0能做到720P下40FPS的實時生成,但演示場景的風格和復雜度都很有限。

幾乎沒有產品會主動承認自己的短板,它們更傾向于展示最優工況下的演示視頻,而把極限條件下的失敗藏起來。這種選擇性展示正在制造一個危險的泡沫。

最后,資本的狂歡也帶來了新的投機風險。

一個值得注意的現象是,資本從追捧“大廠老兵”轉向押注頂尖高校的年輕學者。逆矩陣科技的兩位創始人,一個98年、一個04年,來自北大,首輪融資超千萬美元。

他們的技術路線是“強化學習+世界模型”,目前只有論文,沒有產品。這不是說年輕人不行,而是說在范式混沌期,資本愿意為“定義下一代技術”的可能性支付極高的溢價。

但大多數這樣的實驗室項目,最終無法跨越“論文→產品”的鴻溝。Yann LeCun這樣的圖靈獎得主都承認商業化要等幾年,更何況是剛畢業的博士生?

四、結語

世界模型的目標,是讓AI能夠預測甚至干預物理世界。那么,如果AI的預測錯了,誰來承擔責任?

設想一個場景:一輛自動駕駛汽車的世界模型在仿真中“想象”出一個不存在的障礙物,導致車輛緊急剎車,被后車追尾。

這個鍋應該甩給算法工程師,還是仿真數據的提供方?

再設想:一個工業機器人的世界模型錯誤預測了零件的運動軌跡,撞壞了整條生產線。保險公司的理賠標準是什么?

更極端的場景:有人用世界模型生成了一個逼真的虛假3D災難視頻,在社交媒體上引發恐慌。平臺有沒有審核義務?法律如何界定這種“虛擬與現實混淆”的傷害?

這些問題,目前沒有任何一家公司、任何一個國家給出了清晰的答案。世界模型的倫理框架和法律邊界,遠遠落后于技術的發展速度。

當資本和媒體聚焦于“誰能造出最逼真的虛擬世界”時,一個更根本的問題被擱置了:我們真的準備好了嗎?

這或許才是世界模型賽道最被低估的變量。不是算力,不是數據,不是算法,而是責任。



智械島版權所有,未經授權,禁止轉載

聯系郵箱:Cogtopia@163.com

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
廠妹的生活

廠妹的生活

微微熱評
2026-04-19 09:02:11
1961年,毛主席得知陳賡猝然病逝后,說道:你們都不曉得他!

1961年,毛主席得知陳賡猝然病逝后,說道:你們都不曉得他!

眼底星碎
2026-04-20 12:02:53
陪玩陪睡已過時!繼關曉彤事件、注射不明物后,娛樂圈再曝潛規則

陪玩陪睡已過時!繼關曉彤事件、注射不明物后,娛樂圈再曝潛規則

叨嘮
2026-04-17 21:04:39
李雨桐泄露薛之謙身份證號手機號,被警方行拘!此前實名舉報,指控其“致自己墮胎,長期遭受網暴”

李雨桐泄露薛之謙身份證號手機號,被警方行拘!此前實名舉報,指控其“致自己墮胎,長期遭受網暴”

現代快報
2026-04-20 09:54:34
兵王張英才:前無古人的九次特等功獲得者,四百萬解放軍只他一人

兵王張英才:前無古人的九次特等功獲得者,四百萬解放軍只他一人

興趣知識
2026-04-19 17:34:27
讓人揪心的事終究來了?央行定調,5月后房產、存款或將迎來調整

讓人揪心的事終究來了?央行定調,5月后房產、存款或將迎來調整

復轉這些年
2026-04-19 23:17:41
景甜為頂級富豪代Y生子!?

景甜為頂級富豪代Y生子!?

八卦瘋叔
2026-04-18 09:48:56
吳邦國的狂草技藝,讓書壇驚嘆不已!

吳邦國的狂草技藝,讓書壇驚嘆不已!

書畫相約
2026-04-07 07:08:05
蕭旭岑遇到的事,才是圈子里最讓人膽寒的真相

蕭旭岑遇到的事,才是圈子里最讓人膽寒的真相

小椰的奶奶
2026-04-20 11:43:27
大專、野模、知三當三,孫怡浪姐"騷操作"不斷難怪王京花看不上她

大專、野模、知三當三,孫怡浪姐"騷操作"不斷難怪王京花看不上她

橙星文娛
2026-04-18 16:01:07
性需求是人的活力來源,性需求是成年人最強大的生命力

性需求是人的活力來源,性需求是成年人最強大的生命力

加油丁小文
2026-04-03 11:30:07
意外!鄭州40歲女子患肝癌,臨終前懇求前夫接走女兒,前夫回復!

意外!鄭州40歲女子患肝癌,臨終前懇求前夫接走女兒,前夫回復!

青梅侃史啊
2026-04-17 19:48:25
青島王波個人簡介,他是哪里人?

青島王波個人簡介,他是哪里人?

牛鍋巴小釩
2026-04-20 14:54:10
毛主席見韓先楚位列中將難落筆,木船勝軍艦一戰改寫地理格局

毛主席見韓先楚位列中將難落筆,木船勝軍艦一戰改寫地理格局

磊子講史
2026-03-18 10:25:31
第二名法國士兵被打死,這就是為啥川普嘲諷歐洲稱贊以色列

第二名法國士兵被打死,這就是為啥川普嘲諷歐洲稱贊以色列

移光幻影
2026-04-19 17:35:39
火箭失利仍有亮點!內線4猛將,摘17前場籃板,提升命中率可扳平

火箭失利仍有亮點!內線4猛將,摘17前場籃板,提升命中率可扳平

熊哥愛籃球
2026-04-20 19:45:47
長白山驚現“藏寶洞”,專家估值達萬億,日本得知后要求中國歸還

長白山驚現“藏寶洞”,專家估值達萬億,日本得知后要求中國歸還

抽象派大師
2026-04-20 01:30:41
隨著41歲C羅破門+利雅得勝利4-0,亞冠二級4強已誕生3席

隨著41歲C羅破門+利雅得勝利4-0,亞冠二級4強已誕生3席

側身凌空斬
2026-04-20 00:01:29
68歲張蘭泣血復盤:我兒簽下17年賣身契,我用命扛下1.8億血債

68歲張蘭泣血復盤:我兒簽下17年賣身契,我用命扛下1.8億血債

手工制作阿殲
2026-04-20 19:05:17
Opta超級計算機統計英超最新奪冠概率:阿森納73%,曼城27%

Opta超級計算機統計英超最新奪冠概率:阿森納73%,曼城27%

懂球帝
2026-04-20 02:30:55
2026-04-20 20:20:49
智械島 incentive-icons
智械島
在這里,人類和AI是島民。
22文章數 4關注度
往期回顧 全部

游戲要聞

鎖30幀!本世代主機殺手《地鐵》新作全路徑光追拉滿

頭條要聞

小學生遭多名中小學生施暴搜家 家長以"入室搶劫"報案

頭條要聞

小學生遭多名中小學生施暴搜家 家長以"入室搶劫"報案

體育要聞

阿森納已拼盡全力,但你早干嘛去了...

娛樂要聞

鹿晗生日上熱搜,被關曉彤撕下體面

財經要聞

利潤暴跌7成,字節到底在做什么

科技要聞

華為Pura90逆周期定價,4699元起,未漲價

汽車要聞

把天門山搬進廠?開仰望U8沖上45度坡的那刻 我腿軟了

態度原創

藝術
游戲
親子
公開課
軍事航空

藝術要聞

王羲之《換鵝帖》尚在人間,驚艷無比!

PS5新獨占大作獎杯列表曝光!難度炸裂 致敬33?

親子要聞

上海首家兒童運動醫學中心成立,推行微創優先、醫護康一體化服務

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

特朗普:美艦向伊朗貨船開火炸出個洞

無障礙瀏覽 進入關懷版