![]()
出品|虎嗅科技組
作者|宋思杭
編輯|苗正卿
頭圖|2026年智源大會
如果要尋找中國大模型浪潮最重要的人才源頭,智源研究院很難被繞開。
過去幾年里,從這里走出了中國大模型創業版圖中最耀眼的一批名字:智譜創始人唐杰,月之暗面創始人楊植麟,面壁智能聯合創始人劉知遠,銀河通用創始人王鶴……他們后來分別創辦了中國極具代表性的大模型公司和具身智能公司。
某種意義上,智源研究院見證了中國大模型產業從0到1的全過程。它既是悟道大模型的誕生地,也是智譜、月之暗面、面壁智能、銀河通用等公司的重要人才搖籃。
過去一年,具身智能正在接過AI行業的接力棒。公開數據顯示,2026年一季度具身智能產業鏈在一級市場累計披露融資達2560億元。
而與兩年前的大模型創業潮極為相似的是,具身智能賽道也開始出現明顯的頭部化趨勢。對于估值超百億的具身智能本體公司,大部分VC已經很難再上牌桌。在這種趨勢下,一級市場的錢則開始涌向具身智能產業鏈上游的公司。在這其中,世界模型便是極具熱度的一個方向。
盡管這個概念在過去一年頻繁出現,但行業至今并未形成統一定義。在近期舉辦的2026智源大會上,智源研究院院長王仲遠首次為世界模型的四類技術路線做了清晰劃分:
第一類是以語言為中心的世界模型,包括VLM、VLA,模型在文本空間中預測下一個詞,學到的是語言描述的世界,并不能理解背后的物理后果;
第二類是以像素為中心的世界模型,2024年初OpenAI將Sora稱為“World Simulator(世界模擬器)”,模型在視覺空間中學習視頻或圖像,學到的是像素描述的世界;
第三類是以三維結構為中心的世界模型,李飛飛創立World Labs后提出“空間智能”并多次定義世界模型,在李飛飛口中,世界模型是指讓AI理解和生成可交互的三維世界,不過模型重建3D空間不等于理解世界,幾何結構也不代表物理狀態;
第四類是以視覺表征為中心的世界模型,由Meta首席AI科學家Yann LeCun提出,他主張在隱空間(Latent Space)中學習世界規律,通過預測抽象狀態而非具體畫面來理解現實世界,但模型預測的是視覺表征的壓縮,視覺嵌入演化不等于物理規律演化。
目前智源在嘗試的正是第五種路線,以語言為中心和以視覺表征為中心相結合,也叫做潛空間表征,同一個潛空間能夠Decode不同的模態。
這些不同路線的共同目標只有一個,讓AI不再只是理解語言,而是真正理解世界。而就在這場尚未形成共識的競賽中,智源已經開始搭建起自己的世界模型版圖。
虎嗅獲悉,目前智源已經形成從基座大模型、智能體到基礎軟硬件生態的完整布局。其中,今年智源大會發布的悟界·Physis-v0.1與悟界·RoboBrain Orca,被視為其世界模型路線最重要的兩個成果。
前者定位為全球首款通用世界基座模型,由22歲青年科學家陳博遠擔任負責人。加入智源后,陳博遠已出任智源行為世界模型創新中心負責人,并帶領團隊探索下一代通用世界基座模型;后者以智源具身模型負責人王鵬偉帶隊,打造基于下一個物理狀態預測為核心的具身大腦,希望未來能更多地賦能具身智能機器人。
如今,隨著世界模型被視為人工智能下一階段的重要方向,智源正在延續其在大模型時代的前沿探索傳統,只是這一次,他們的重點不再是語言模型,而是世界模型。
從大模型到世界模型,智源為什么又提前下注?
世界模型至今仍然沒有統一定義。
有人將其理解為視頻生成模型的下一階段;有人認為它是構建三維世界的基礎設施;也有人認為它是機器人理解現實世界所必須具備的能力。在不同技術路線的描述中,世界模型更像一個能夠理解、預測并推演未來狀態的“大腦”,既可以服務于多種應用場景,也可能成為具身智能時代最重要的底層能力。
“大家對世界模型的定義都不一樣,但我們想得比較清楚。”智源研究院院長王仲遠告訴虎嗅。
在他看來,世界模型并不會像當年的大模型一樣,很快形成統一賽道和統一競爭格局。畢竟,目前技術路線未收斂,就連每家提到的世界模型都未必是同一個概念。
“主流路徑都沒有統一,意味著接下來很長一段時間里,大家都會各說各的。很多非行業人士甚至分不清楚哪些是真正的世界模型。”王仲遠表示。
在智源看來,他們真正想做的是一種具備泛化能力的通用世界基座模型。
這種模型并非單純生成視頻,也并非為了復刻現實世界中的每一個像素細節,而是能夠理解世界運行規律,并對未來狀態進行預測。
“我觀察過一個2歲的小女孩,父母從來沒有教過她怎么拆糖果、串藍莓,但通過天天刷短視頻、看著小姐姐吃,她自己就認識了真實物理世界的物品,并通過與真實物理世界的交互和嘗試,最終學會了拆糖果、串藍莓這些能力。而世界模型正是需要像人一樣自主學習這些能力”,王仲遠生動地描述了一個例子。
然而,看懂視頻與理解物理世界是兩回事。當前行業的一個普遍誤區,正是將“視覺能力”與“物理理解”混為一談——無論是視頻生成模型,還是廣泛部署于機器人公司的VLM/VLA,本質上仍停留在語言描述或像素描述的世界,并未觸及物理狀態預測的核心。
過去兩年,VLM和VLA幾乎成為所有機器人公司的標配。通過引入大模型推理能力,機器人已經能夠完成簡單指令理解、路徑規劃以及部分操作任務。
一個典型例子是,當機器人面對訓練數據中從未出現過的新場景時,其泛化能力仍然十分有限。它知道應該拿起杯子,卻不知道杯子掉落后會發生什么;它知道開門的動作,卻不一定理解門后的空間關系變化。
歸根結底,機器人仍然缺少一種對現實世界運行規律的理解能力。而這被不少研究者視為世界模型存在的意義。
“世界基座模型最重要的就是解決VLA、具身模型等遇到的痛點和卡點——不具備泛化能力,不具備自我推理和決策的能力。”王仲遠向虎嗅解釋道。
對于智源而言,這也是其決定提前布局世界模型的重要原因。
世界模型能復制大模型的故事嗎?
智源能否復現在大模型時代的引領優勢,答案值得期待。但至少在今天,世界模型還遠未走到大模型2022年所處的位置。
它沒有統一定義,沒有統一技術路線,也沒有形成行業公認的基礎架構。無論是OpenAI的World Simulator、李飛飛的空間智能,還是Yann LeCun提出的世界模型框架,本質上都還處于探索階段。
甚至直到今天,行業對于“什么才是真正的世界模型”依然存在巨大分歧。在王仲遠看來,這恰恰意味著世界模型仍然處于最早期的發展階段。
“如果做一個類比的話,今天世界模型的重要性和發展階段,大概相當于2012年的深度學習。”王仲遠這樣說道。
2012年,AlexNet橫空出世,第一次讓深度學習展現出超越傳統算法的潛力。但那個時候,沒有人知道幾年后會出現Transformer,也沒有人能夠預見ChatGPT會徹底改變整個AI產業。
站在今天回頭看,人們很容易把大模型的發展視作一條清晰的演進路徑。但對于當時的研究者而言,一切都充滿不確定性。而世界模型正在經歷類似的時刻。
它或許會成為機器人時代的基礎設施,也可能演化成一種全新的智能架構;它可能誕生于具身智能,也可能率先在數字世界完成突破。唯一可以確定的是,越來越多研究機構、創業公司和資本開始將目光投向這里。
如今,行業的焦點已經從數字世界轉向物理世界,這家研究院也將重點投入探索世界模型。可以肯定的是,在下一次范式轉變到來之際,智源已經先站到浪潮開始的地方。
本文來自虎嗅,原文鏈接:https://www.huxiu.com/article/4868035.html?f=wyxwapp
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.