01.
AI 已經很強,但還差最關鍵的一步
如今 AI 已經具備了非常強大的功能,能寫論文、可以 Coding、能生成逼真的圖片和視頻。但從"知道"到"理解",從"生成"到"行動",中間橫亙著一道巨大的鴻溝。
這也是為什么,OpenAI、谷歌、微軟等頂級科技公司,以及 Yann LeCun、李飛飛等 AI 領域最具影響力的學者,都將注意力集中到同一個方向:世界模型(World Model)。
而放眼國內,近日一家致力于打造全球首創物理世界模型的新銳高潛玩家浮出水面——清華00后特獎劉松銘領銜的LiberAI已連續完成種子輪、天使輪、天使+輪融資,融資金額數億元,獲得真格基金、紅杉中國、美團龍珠、順為資本等一眾頭部基金聯合押注。LiberAI以物理智能為縱軸,目標推出 Scaling 曲線最陡峭的世界模型。
![]()
創始人/CEO 劉松銘
要讀懂 LiberAI 的突圍關鍵,或許要從世界模型的本質出發。
02.
要理解世界模型的價值,不妨先看看人類是怎么行動的
當你走到桌邊,看到一個裝滿水的玻璃杯懸在桌子邊緣,你不需要真的伸手去推,大腦里就已經自動"播放"了一段水杯掉落摔碎的畫面。于是你會下意識地把它往桌子里面推一推。
這個"在腦子里提前推演未來"的能力,本質上就是人類的世界模型。
如今的機器人大腦,恰恰缺失這種能力。VLA的本質是模仿學習policy,如果機器人只會死記硬背人類教給它的動作來干活,一旦環境發生一點點改變,就會茫然失措,只會機械地模仿動作,并不真正理解動作背后的物理邏輯。
當前機器人所需要的,也許正是從"模仿動作"走向"因果推理"的質變——不只是看懂世界,而是能夠預判"如果我做了這個動作,世界會發生什么變化"。
03.
那什么是世界模型?
圍繞“如果我做了這個動作,世界接下來會發生什么?”這個核心問題的具體定義和解法,催生了當下幾大技術流派。
? 視頻生成派:data-driven,但學習的是相關性
視頻生成派以 OpenAI 的Sora、谷歌的Genie 為代表,是目前最主流的路線,核心思路是用海量視頻數據訓練模型,直接在像素空間里預測世界的演變。
這條路線最大的優勢是可擴展性極強。互聯網上積累的海量視頻數據天然就是訓練素材,完全 data-driven。
但它的根本局限在于:模型本質上只是在"預測下一幀像素",并沒有真正理解三維空間和物理因果。見過海量視頻后模型記住了像素演變的統計規律,而不是真正建立了對時空和物理的理解。
? 3D 空間智能派:從3D空間出發重建世界,并非端到端
以李飛飛創立的 World Labs 為代表,這一流派仿佛建筑師:顯式地重建出整個世界的空間結構,再在這個基礎上實時渲染出二維畫面。
它的核心優勢是空間一致性極強,但這條路線面臨兩個難以繞開的結構性問題。
第一是數據和成本的問題:高質量 3D 數據在互聯網上極度稀缺,采集設備昂貴,流程繁瑣;且算力消耗也遠高于視頻路線。
第二是流程割裂的問題:3D 空間的重建和世界的動態演化是兩個分開的步驟,本質上無法做到完全的端到端優化,世界"長什么樣"和世界"怎么動"之間的協同深度不足,整體 Scaling 效率也因此受限。
? 隱空間預測(JEPA)派:不畫世界,只提煉抽象本質
LeCun的核心判斷是:人在街上走路做決策時,腦子里不會精確預測每個行人的臉。真正有價值的是更高層的抽象信息:前面有人,要繞開。
因此 JEPA 完全放棄了像素生成,轉而在隱空間里直接預測世界狀態的變化。具體來說,JEPA本質上是訓練一種特征表示,讓預測器(Predictor)依托這份表征信息,重構出輸入數據中被掩碼(mask)隱藏、剔除的局部內容與動態片段。
優點是這樣的計算效率極高,天然摒棄了無用細節;理論上提煉出的抽象表示更適合 Agent 做動作規劃。
缺點有兩個層面。
一是驗證困難:隱空間里的內容看不見也摸不著,沒有人能直接判斷模型到底"理解"了什么,評估和調試不便。
二是生態割裂:JEPA 構造了一套全新的表征空間,很難直接繼承整個行業在語言和視頻方向上積累的技術紅利。
? 物理引擎派:把規律寫進公式,但存在Sim-to-Real Gap
以英偉達的 Isaac、Genesis 為代表,這一流派的邏輯最直接:嘗試用數學公式表達物理規律,嘗試將重力、摩擦力、流體動力學等寫入虛擬環境。
但這條路線的核心矛盾在于Sim-to-Real Gap。寫進代碼的物理公式,本質上都是人類經過近似和簡化的理想情況:極柔軟的衣物形變、非結構化環境里未知的摩擦系數、各種材質的復雜接觸、這些在真實世界無處不在的細節,幾乎不可能被完美仿真。
? 世界動作模型(WAM)派:預測世界,同步輸出動作
以英偉達的 DreamZero 為代表,WAM 邁出了更關鍵的一步——把"理解世界"和"指導行動"統一在同一個模型里。
模型先在腦海中生成執行任務的未來視頻,再把這套"腦內畫面"翻譯成精確的電機控制信號。
這種架構帶來了兩個額外的好處:
第一,video 提供了逐幀的監督信號,而不只是末端的一個動作標簽,數據利用效率大幅提升;
第二,模型不僅能接受 expert demonstration,還能消化多樣化的、甚至包含失敗案例的數據,因為世界模型關注的是"世界如何演變",而不是"哪個動作是對的"。
WAM代表了目前最接近"理解世界并指導行動"的技術方向,但它有一個尚未被真正解決的核心缺陷:
視頻與物理數據之間的模態對齊不足。
這個問題聽起來技術,但背后的邏輯并不復雜。WAM 的訓練數據由兩部分組成:海量的視頻數據,以及相對稀缺的物理數據(力、位置、軌跡等)。當這兩種數據被直接混合在一起訓練時,模型能從視頻里學到"90%的概率能抓起杯子",卻不知道為什么能抓起來。它建立的是相關性,而不是因果性。模型不理解"施力充足才能抓取、施力不足就會失敗"這套因果機制,自然也無法在遇到新物體、新場景時做出可靠的物理判斷。
更本質的問題是物理數據在現實中極度稀缺,而直接混合訓練的方式效率極低。在數據量有限的條件下,暴力混訓幾乎無法讓模型真正建立起對物理世界的因果理解,它只是在用海量視頻的統計規律"壓過"稀缺物理數據的信號。
04.
LiberAI 的切入點,正是從這道裂縫開始。
![]()
LiberAI 的創始人劉松銘將這個問題類比到多模態大模型的發展歷史:
互聯網上的文本數據海量,但圖文配對數據極度稀缺。這和今天世界模型面臨的“模態不平衡”困境一模一樣,視頻數據充足,但視頻與物理信息的對齊配對極難獲得。
多模態領域已經驗證了解法:不是把圖片和文字直接混在一起暴力訓練,而是專門做一步模態對齊。
把不同來源的信息映射到同一個表示空間,讓模型看到圖像時能自動與文本產生關聯,從而把跨模態問題轉化為模型已經熟悉的領域。
LLaVA-1.5 的實踐已經證明,這種對齊方式僅用 1/1000 的圖文配對數據,就能達到當時的開源最高水平。
LiberAI深挖模態對齊“四兩撥千斤”的價值,將其創新性應用到物理世界模型的架構設計與訓練中。
現有方案跳過物理數據與視頻數據的對齊,把各模態數據混混合在一起暴力訓練。但多模態領域的歷史經驗表明,跳過對齊階段直接進行聯合訓練,效率可相差 1000 倍,甚至導致不收斂。
而LiberAI通過獨有的物理Encoder預訓練,將力、位置、軌跡等物理模態信息對齊到已有的視頻表示空間。
在完成模態對齊的基礎上,Scaling 效率大幅提升,物理數據稀缺的問題被大幅緩解。少量的高質量物理數據,通過對齊機制就能激活模型在視頻模態中已經積累的大量物理常識。
除了模態對齊,LiberAI 還引入了物理先驗作為第二個核心武器。
當數據充足時,混合訓練靠規模堆出結果尚可接受。但在物理數據極度稀缺的現實條件下,模型需要從近乎零開始學習物理因果,這個過程極為低效。引入物理先驗,相當于在對齊階段主動告訴模型物理世界的基本規律,大幅減輕其從零學習的負擔,從而在數據有限的條件下顯著提升 Scaling 效率。
![]()
05.
為什么別人沒有先走這條路?
這個問題值得回答。原因或許有兩個。
第一是硬件基礎設施的限制。
這條路線高度依賴高質量物理動作數據的大規模獲取。在早期階段,行業內根本無法大規模采集物理數據,大多數團隊的自然選擇是強化學習——因為強化學習在初始階段不需要海量現成數據就能啟動。LiberAI 能走這條路,是因為在硬件設備規模化量產和真實數據采集網絡上取得了早期突破,才有條件率先布局這一方向。
第二是高質量的物理動作數據難以采集。
采集這類數據從來都不是一個純算法問題,傳統遙操作方案成本高、難以規模化;輕量化的夾爪方案又與互聯網人手視角視頻存在模態不一致,知識遷移困難。真正能規模化采集高質量物理數據的方案,需要在硬件設計、傳感器精度、數據漂移補償上同步攻克,缺少任何一環都無法跑通。大多數團隊卡在了這里,自然無法走上依賴高密度物理數據的對齊路線。
LiberAI 能率先布局,核心在于day0的全棧系統化戰略,同步解決了數據采集的硬件與算法瓶頸,率先打通了這套采集閉環。
從視頻生成到 3D 空間重建,從物理引擎到隱空間預測,世界模型的每一條路線都在逼近同一個終點:
讓 AI 真正理解物理世界,并在其中可靠地行動。這場競賽的決勝點,從來都不是誰能生成更逼真的畫面,而是誰能在有限數據下,最高效地建立起對物理世界的因果理解。
這正是 LiberAI 選擇的戰場,通過模態對齊與物理先驗的系統性引入,打造Scaling 曲線最陡峭的世界模型。而這,或許正是物理AGI走向GPT3時刻的那把鑰匙。
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.