文|周鑫雨
編輯|張雨忻
《長安的荔枝》,是 97 年清華博導李一鳴很喜歡的故事。
故事里,為了將“一日色變”的鮮荔枝從嶺南運到長安,小吏李善德必須解決保鮮、驛站、路線、補給等一系列環環相扣的難題——沒有這套完整系統,鮮荔枝寸步難行。
這個設定在唐朝的故事,在李一鳴眼中,卻與當下的“世界模型”賽道,形成了巧妙的互文:
Physical AI(物理AI)的場景、解決的問題,是“鮮荔枝”;為了達到“運送”的目的,從業者們同樣需要構建一整套涵蓋數據采集、模型研發、硬件部署的系統方案。
“世界模型的第一性原理,不是走什么技術路線,而是最終解決什么問題。”他告訴《智能涌現》,所謂的世界模型,只是“一匹運送荔枝的馬”,是解決問題的一條技術路線,離開其它環節的配合,將毫無價值。
然而,2026 年初,當這名前英偉達 Vision & Robotics 研究員,以清華大學人工智能學院助理教授的身份回到國內,他看到的 AI 賽道,正在陷入一場對“世界模型”的巨大 FOMO。
世界模型,2026 年最具迷惑性的概念之一,派系林立,眾說紛紜。
非共識和想象力,又讓世界模型成為當下估值泡沫最大的一個賽道。無論視頻模型、3D 模型,還是走 VLA(視覺-語言-行動)路線的具身大腦,只要能和仿真、物理沾上邊,都將自己劃為“世界模型”的陣營。
相對的,李一鳴覺得,比厘清世界模型定義更重要的,反而是厘清一套讓各種機器人在各個場景中泛化的系統。
近期,李一鳴團隊提出了一套由數據和物理雙輪驅動的Physical AI Infra。其中包含兩個自研組件:
數據管線:將數據采集量級快速規模化,從幾十萬小時的行業平均量級,提升到百萬到千萬小時。
物理引擎:實現 Real-to-Sim-Real 的閉環,也就是基于真實世界數據,構建一個仿真世界,用于機器人對物理世界的強化學習,最后在真實世界中執行任務。
即便世界模型并非一個獨立組件,它仍然滲透在這套系統設施的每一個環節中。比如,基于采集到的數據,系統會將“世界模型”作為預訓練的目標;在后訓練環節,“世界模型”又會成為機器人進行強化學習的仿真環境。
該基礎設施能夠實現切割、旋擰、插拔、攪拌、按壓、捏取、穿引等精細操作技能的訓練,并在不同類型的靈巧手、機械臂等本體間跨形態部署,同時可適配生產制造、零售服務、酒店運營、餐飲備料、醫療輔助等多元場景。
這套技術方案,也被 2026 年 4 月成立的「厘清智能」所采用。背靠李一鳴團隊,這個 Physical AI 領域的新玩家,成立短短兩個月內,便完成了多輪融資。
《智能涌現》獨家獲悉,厘清智能的種子輪融資金額高達數億元,投資方包括順為資本、紅杉中國、高瓴創投、峰瑞資本、星連資本、水木清華校友種子基金、SEE FUND等基金,以及智元機器人、靈心巧手、世紀金源等多方產業資本。
稀缺性,是讓一級市場押注厘清的重要理由。
一方面是軟硬一體的人才。李一鳴的履歷,橫跨空間感知、多模態推理、自動駕駛以及具身智能。
在紐約大學讀博期間,他與謝賽寧(AMI Labs 聯合創始人兼首席科學家)合作發表了具身視覺推理的研究成果;同時,他與英偉達聯合發表了多篇 CVPR 與 NeurIPS 亮點論文,并獲得了2024年度英偉達獎學金(全球僅 10 位)。
![]()
△ 李一鳴。圖源:受訪者供圖
厘清團隊的 50 余名成員,大多是清華的學生,平均年齡 23 歲。“軟硬一體的人才在國內很稀缺,所以清華給我們提供了很好的人才平臺,”李一鳴告訴我們。
另一方面,則是厘清技術路線的稀缺性。李一鳴大膽選擇了一條“很重”的路線:從數據采集,到模型訓練,到物理引擎,全棧自研。
這在國內相當少見。前期的巨大投入、跨軟硬的技術難度,已經勸退了一大波公司。但李一鳴認為,只有打通所有的環節,信息流才能在不同環節、不同模塊中暢通無阻,不同環節才能協同優化。
在李一鳴的規劃中,今年年底前,團隊將發布可以跨 B 端場景的世界模型;2028 年,厘清將實現解決方案的規模化。最終,他的目標是交付給客戶一套軟硬一體的解決方案,跨本體、跨場景地解決問題。
近期,《智能涌現》與李一鳴聊了聊他的技術判斷,以及對世界模型、Physical AI 的判斷。
以下是《智能涌現》對李一鳴觀點的整理:
Physical AI 公司,不是本體公司,也不是模型公司
我們做的不只是世界模型,而是一套系統。
我們不以技術路線為導向,而是以實際問題為導向。訓練世界模型的目的,不是為了訓模型,而是為了解決 Physical AI(物理 AI)的一些問題,去迭代優化任務的成功率。
所以,我們不在意世界模型具體是什么,而是怎么將數據、模型、硬件、Infra 耦合成一個系統,最后成為一個能在場景中 work 的世界模型。
我們的目標是構建數據和物理雙輪驅動的一套生態,“世界模型”滲透在每個環節中:
預訓練過程,是將“世界模型”作為自監督的訓練目標,同時對 state(狀態)和 action(行動)進行建模;后訓練過程,是將“世界模型”封為可交互的環境,機器人可以在環境中進行強化學習。
厘清智能其實不只是一家“世界模型公司”。整個團隊做的是包含了數據管線、世界模型、物理引擎的一整套系統,所謂的“模型”只是其中的一個技術組件。
新一代的 Physical AI 團隊,核心特點是全棧。
從數采設備到數據管線,從可微物理引擎到模型訓練,我們全部自建:
自研的全掌觸覺手套等設備,將單套成本從美元壓到人民幣量級,實現數采規模化,達到百萬小時量級。
自研的可微物理引擎,實現了 Real-to-Sim-Real 的閉環,可以建模復雜材質比如流體,軟體、彈塑性形變物體,成為高效的強化學習后訓練平臺。
基于廣泛場景中采集的數據,以及后訓練物理引擎,我們自研的世界模型操作系統,既能快速泛化到各個場景,也能實現 cross-embodiment(跨本體)。
新時代的具身公司,不應該是本體公司,也不應該是模型公司,而是一家 World Model as Service 公司。
未來隨著數據量的快速積累,我們可以實現快速的跨本體泛化,最終交付給客戶的不是世界模型,而是一套軟硬一體系統。
這套系統可以根據落地場景和客戶預算自動匹配最優硬件方案,開箱即用。
Physical AI 的人才畫像,是軟硬一體。
清華提供了很好的人才平臺,我們團隊的平均年齡是 03 年,甚至有 07 年的大一學生。
Physical AI 的人才畫像,和 LLM 不太一樣,我們需要的是軟硬一體的人才。目前這樣的人是非常稀缺的,因為我們的培養體系還在日漸成熟的過程中。
所以我們找到好苗子后會自己培養。現在的學生在一個好的團隊中差不多半年、一年的時間,就能突飛猛進。
不能只做數據采集,忽視物理規律
具身模型的參數至少要達到語言模型的量級,甚至還要比語言模型再高幾個量級,才有可能談“智能涌現”。
語言是已經被壓縮過的世界規則,現在都需要幾百B的參數量,基于自然信號訓練的具身模型,需要更多的數據與參數量。
人類數據比真機數據更好 scale up(規模化)。
全中國有幾億人在一線工作、在家庭中生活。相較于你操縱機器人采集數據,帶著設備的真人采集數據的效率高許多,畢竟 scale up 人數,比 scale up 機器數量或者采集時長容易得多。
目前,我們已經找到了工廠、酒店、物業、商場、廚房等可規模化的場景方合作,短時間內會快速積累到百萬小時的數據量。
做一整套 Physical AI Infra,只靠數據采集是不現實的,還需要很多物理規律。
現階段采集到的數據量,還不支持 Physical AI 自主泛化到所有場景。然而,現實世界有很多場景,就連兩個蘋果都長得不一樣,不可能將所有場景的數據都采一遍。
物理規律現階段可以補足數據的局限性。所謂的物理規律,就像牛頓定律、納維-斯托克斯方程(粘性牛頓流體運動規律),是人類對物理世界規則的總結,具有一定的通用性。
厘清智能設計了一套滿足物理約束的世界模型方案,可以用別人 1% 的真機數據量訓練策略模型,達到相同的成功率。
我們先通過真機采集少量數據,再將真機數據的 state transition(狀態轉移,指世界狀態隨行動產生的改變)和物理世界模型的 state transition 進行對齊,并將 loss(損失函數,指模型犯錯的程度)回傳,進而不斷優化世界模型。
這樣做的好處是,我們只需要少量的真實數據,“校準”世界模型建模的狀態轉移,就能讓機器人在虛擬世界中自主學習。
舉個例子,以前機器人學習切蘋果,需要切壞成百上千個材料;現在只需要真切十次,剩下的練習都可以在物理世界模型中完成。
VLA、視頻模型、JEPA,都不是「原生世界模型」
世界模型負責機器和世界的交互,語言模型負責機器和人的交互。
現在大家都意識到,基于 LLM 做 VLM(視覺-語言模型)、做 VLA(視覺-語言-行為模型),本質上與物理世界沒有那么適配。
因為語言模型是一個高度離散化的空間。簡單來說,我們跟世界打交道,總結出了一套語法規則。但是每個國家的語種都不一樣,語言也充滿了人對世界的 bias(偏見),而且有很多東西是無法用語言講清楚的。
本質上,語言的目的是交流,是人機交互的界面,而不是一個模態。模態是你對世界的觀測,語言則是你攝入信號后的總結。所以訓練世界模型,語言不是中心,而是輔助的。
世界模型的訓練同時需要 SFT(監督微調)加上 RL(強化學習)。
世界模型需要在物理世界中做 SFT,但物理數據的量是不夠的,所以我們需要自己采集數據,建立數據標準。
LLM 在后訓練過程中可以生成任意的詞元,但世界模型必須遵守物理規律,所以我們自研了可微物理引擎,讓后訓練可以在滿足物理約束的前提下進行。
因此,世界模型的訓練是一套 system,需要聯合預訓練、后訓練,以及數據 Infra 和硬件 Infra,才能實現訓練效益最大化。
全棧打通感知、推理、決策、動作輸出,并且面向機器和世界交互任務設計的,才是“原生世界模型”。
VLA 是非原生的世界模型,因為它的表征是離散的語言空間,不是真實世界;JEPA(聯合嵌入預測架構)只能預測狀態(state),但無法輸出動作。
視頻生成模型也不是原生世界模型,因為推理過程不是原生的。它生成的像素,只能擬合世界的表象,很難保證復雜任務策略學習需要的幾何與物理一致性。
訓練“原生世界模型”,關鍵是如何將物理世界高效 tokenization(表征)。
多模態觀測——視覺、觸覺、力覺——如何被壓縮成模型可消化、可推理的 Token 序列,直接決定了模型能理解什么,不能理解什么。這層表征質量,是后續所有能力的天花板。
我們是全球少數能將表征端 tokenization 的公司,也就是將物理世界,高效壓縮為機器容易理解和學習的 Token。
這套體系的壁壘不在技術,而是認知。它需要很強的 Know-How,需要你知道整一套生態系統該怎么搭建。比如,數據怎么清洗?模型怎么優化?這些問題都有很強的認知壁壘。
目前,我們團隊內部訓練的視覺 tokenizer(表征器,用于將物理世界轉譯為 Token),效果已經優于 Meta 的視覺基礎模型 DINOv3。后續物理世界的高效表征也會是我們團隊的重點研究方向。
如何構建 Physical AI 的 Infra,是訓練世界模型的另一個難題。
除了構建數據平臺,我們還需要設計好物理引擎 Infra。比如,如何讓物理引擎去高效建模柔性物體、流體的 state,從而高效計算 state transition。只有這樣,機器人才能在物理引擎中做強化學習。
如果一家公司所謂的“Infra”,只能支持本體做一些簡單的抓取,那就不叫真正的 Physical AI Infra。
真正的 Physical AI Infra,能夠讓你不斷優化數據效率,提升復雜任務上預訓練和后訓練的效果;或者在短程任務上訓練后,能夠泛化部署在復雜的長程任務上。
2028 年會是 Physical AI 規模化落地的 milestone
輪臂是適配大多操作場景的硬件落地形態。
人形機器人的想象空間很大,但技術難度也很大。比如,目前的負載能力(payload)會限制人形機器人執行需要較大力量和復雜操作的任務;對人體的各個部位進行精準建模,也是一個難題。
因此,我們目前部署的硬件形態以輪臂為主,也就是帶有輪子的機械臂。不同的機械臂、靈巧手會在各種細分場景中,去做泛化。
前期,我們要更積極地與場景方合作。
數據的規模化、包括機器的后訓練,都離不開和與真實場景方的合作。
我們的場景切入模式是。先 ToB,后 ToC。在 B 端積累的數據和技能,最后都能用到 C 端。
在 B 端,我們會先切入工業場景、物流場景,以及生活類、消費類的場景,這些場景工種有很強的替代性和高度重復性,客戶也有很強的降本提效需求。
當然,硬件成本完全壓到低于人力成本,肯定需要一個過程。但最重要的是先把場景鋪開,這樣才能不斷優化模型性能,以及加快成本的邊際效應。
我們的終極目標是做通用 Physical AI Infra。
我們的終極目標,是把這套系統封裝為一款通用的 Physical AI Infra。
它不是針對某個任務、某個硬件的專用方案,而是一個能夠部署在不同物理環境中的基礎平臺——像 iOS 之于移動應用一樣,讓各類物理操作任務可以規模化開發和部署。
這便是我們的“荔枝系統”。 而驅動其底層的核心能力,則來自兩方面的堅實支撐:一整套原生世界模型架構,以及一套數據與物理雙輪驅動的訓練與評測基礎設施。
2028年會是 Physical AI 的一個 milestone。根據我的推測, 數采的規模,以及電機密度都會實現躍升。到時,我們的方案才能規模化地落地。
![]()
歡迎交流!
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.