網易首頁 > 網易號 > 正文申請入駐

獨家｜清華系初創完成數億元種子輪融資：我們不想被貼上「世界模型」的標簽

2026-07-01 21:32:12　來源: 36氪

北京舉報

分享至

文｜周鑫雨

編輯｜張雨忻

《長安的荔枝》，是 97 年清華博導李一鳴很喜歡的故事。

故事里，為了將“一日色變”的鮮荔枝從嶺南運到長安，小吏李善德必須解決保鮮、驛站、路線、補給等一系列環環相扣的難題——沒有這套完整系統，鮮荔枝寸步難行。

這個設定在唐朝的故事，在李一鳴眼中，卻與當下的“世界模型”賽道，形成了巧妙的互文：

Physical AI（物理AI）的場景、解決的問題，是“鮮荔枝”；為了達到“運送”的目的，從業者們同樣需要構建一整套涵蓋數據采集、模型研發、硬件部署的系統方案。

“世界模型的第一性原理，不是走什么技術路線，而是最終解決什么問題。”他告訴《智能涌現》，所謂的世界模型，只是“一匹運送荔枝的馬”，是解決問題的一條技術路線，離開其它環節的配合，將毫無價值。

然而，2026 年初，當這名前英偉達 Vision & Robotics 研究員，以清華大學人工智能學院助理教授的身份回到國內，他看到的 AI 賽道，正在陷入一場對“世界模型”的巨大 FOMO。

世界模型，2026 年最具迷惑性的概念之一，派系林立，眾說紛紜。

非共識和想象力，又讓世界模型成為當下估值泡沫最大的一個賽道。無論視頻模型、3D 模型，還是走 VLA（視覺-語言-行動）路線的具身大腦，只要能和仿真、物理沾上邊，都將自己劃為“世界模型”的陣營。

相對的，李一鳴覺得，比厘清世界模型定義更重要的，反而是厘清一套讓各種機器人在各個場景中泛化的系統。

近期，李一鳴團隊提出了一套由數據和物理雙輪驅動的Physical AI Infra。其中包含兩個自研組件：

數據管線：將數據采集量級快速規模化，從幾十萬小時的行業平均量級，提升到百萬到千萬小時。

物理引擎：實現 Real-to-Sim-Real 的閉環，也就是基于真實世界數據，構建一個仿真世界，用于機器人對物理世界的強化學習，最后在真實世界中執行任務。

即便世界模型并非一個獨立組件，它仍然滲透在這套系統設施的每一個環節中。比如，基于采集到的數據，系統會將“世界模型”作為預訓練的目標；在后訓練環節，“世界模型”又會成為機器人進行強化學習的仿真環境。

該基礎設施能夠實現切割、旋擰、插拔、攪拌、按壓、捏取、穿引等精細操作技能的訓練，并在不同類型的靈巧手、機械臂等本體間跨形態部署，同時可適配生產制造、零售服務、酒店運營、餐飲備料、醫療輔助等多元場景。

這套技術方案，也被 2026 年 4 月成立的「厘清智能」所采用。背靠李一鳴團隊，這個 Physical AI 領域的新玩家，成立短短兩個月內，便完成了多輪融資。

《智能涌現》獨家獲悉，厘清智能的種子輪融資金額高達數億元，投資方包括順為資本、紅杉中國、高瓴創投、峰瑞資本、星連資本、水木清華校友種子基金、SEE FUND等基金，以及智元機器人、靈心巧手、世紀金源等多方產業資本。

稀缺性，是讓一級市場押注厘清的重要理由。

一方面是軟硬一體的人才。李一鳴的履歷，橫跨空間感知、多模態推理、自動駕駛以及具身智能。

在紐約大學讀博期間，他與謝賽寧（AMI Labs 聯合創始人兼首席科學家）合作發表了具身視覺推理的研究成果；同時，他與英偉達聯合發表了多篇 CVPR 與 NeurIPS 亮點論文，并獲得了2024年度英偉達獎學金（全球僅 10 位）。

△ 李一鳴。圖源：受訪者供圖

厘清團隊的 50 余名成員，大多是清華的學生，平均年齡 23 歲。“軟硬一體的人才在國內很稀缺，所以清華給我們提供了很好的人才平臺，”李一鳴告訴我們。

另一方面，則是厘清技術路線的稀缺性。李一鳴大膽選擇了一條“很重”的路線：從數據采集，到模型訓練，到物理引擎，全棧自研。

這在國內相當少見。前期的巨大投入、跨軟硬的技術難度，已經勸退了一大波公司。但李一鳴認為，只有打通所有的環節，信息流才能在不同環節、不同模塊中暢通無阻，不同環節才能協同優化。

在李一鳴的規劃中，今年年底前，團隊將發布可以跨 B 端場景的世界模型；2028 年，厘清將實現解決方案的規模化。最終，他的目標是交付給客戶一套軟硬一體的解決方案，跨本體、跨場景地解決問題。

近期，《智能涌現》與李一鳴聊了聊他的技術判斷，以及對世界模型、Physical AI 的判斷。

以下是《智能涌現》對李一鳴觀點的整理：

Physical AI 公司，不是本體公司，也不是模型公司

我們做的不只是世界模型，而是一套系統。

我們不以技術路線為導向，而是以實際問題為導向。訓練世界模型的目的，不是為了訓模型，而是為了解決 Physical AI（物理 AI）的一些問題，去迭代優化任務的成功率。

所以，我們不在意世界模型具體是什么，而是怎么將數據、模型、硬件、Infra 耦合成一個系統，最后成為一個能在場景中 work 的世界模型。

我們的目標是構建數據和物理雙輪驅動的一套生態，“世界模型”滲透在每個環節中：

預訓練過程，是將“世界模型”作為自監督的訓練目標，同時對 state（狀態）和 action（行動）進行建模；后訓練過程，是將“世界模型”封為可交互的環境，機器人可以在環境中進行強化學習。

厘清智能其實不只是一家“世界模型公司”。整個團隊做的是包含了數據管線、世界模型、物理引擎的一整套系統，所謂的“模型”只是其中的一個技術組件。

新一代的 Physical AI 團隊，核心特點是全棧。

從數采設備到數據管線，從可微物理引擎到模型訓練，我們全部自建：

自研的全掌觸覺手套等設備，將單套成本從美元壓到人民幣量級，實現數采規模化，達到百萬小時量級。

自研的可微物理引擎，實現了 Real-to-Sim-Real 的閉環，可以建模復雜材質比如流體，軟體、彈塑性形變物體，成為高效的強化學習后訓練平臺。

基于廣泛場景中采集的數據，以及后訓練物理引擎，我們自研的世界模型操作系統，既能快速泛化到各個場景，也能實現 cross-embodiment（跨本體）。

新時代的具身公司，不應該是本體公司，也不應該是模型公司，而是一家 World Model as Service 公司。

未來隨著數據量的快速積累，我們可以實現快速的跨本體泛化，最終交付給客戶的不是世界模型，而是一套軟硬一體系統。

這套系統可以根據落地場景和客戶預算自動匹配最優硬件方案，開箱即用。

Physical AI 的人才畫像，是軟硬一體。

清華提供了很好的人才平臺，我們團隊的平均年齡是 03 年，甚至有 07 年的大一學生。

Physical AI 的人才畫像，和 LLM 不太一樣，我們需要的是軟硬一體的人才。目前這樣的人是非常稀缺的，因為我們的培養體系還在日漸成熟的過程中。

所以我們找到好苗子后會自己培養。現在的學生在一個好的團隊中差不多半年、一年的時間，就能突飛猛進。

不能只做數據采集，忽視物理規律

具身模型的參數至少要達到語言模型的量級，甚至還要比語言模型再高幾個量級，才有可能談“智能涌現”。

語言是已經被壓縮過的世界規則，現在都需要幾百B的參數量，基于自然信號訓練的具身模型，需要更多的數據與參數量。

人類數據比真機數據更好 scale up（規模化）。

全中國有幾億人在一線工作、在家庭中生活。相較于你操縱機器人采集數據，帶著設備的真人采集數據的效率高許多，畢竟 scale up 人數，比 scale up 機器數量或者采集時長容易得多。

目前，我們已經找到了工廠、酒店、物業、商場、廚房等可規模化的場景方合作，短時間內會快速積累到百萬小時的數據量。

做一整套 Physical AI Infra，只靠數據采集是不現實的，還需要很多物理規律。

現階段采集到的數據量，還不支持 Physical AI 自主泛化到所有場景。然而，現實世界有很多場景，就連兩個蘋果都長得不一樣，不可能將所有場景的數據都采一遍。

物理規律現階段可以補足數據的局限性。所謂的物理規律，就像牛頓定律、納維-斯托克斯方程（粘性牛頓流體運動規律），是人類對物理世界規則的總結，具有一定的通用性。

厘清智能設計了一套滿足物理約束的世界模型方案，可以用別人 1% 的真機數據量訓練策略模型，達到相同的成功率。

我們先通過真機采集少量數據，再將真機數據的 state transition（狀態轉移，指世界狀態隨行動產生的改變）和物理世界模型的 state transition 進行對齊，并將 loss（損失函數，指模型犯錯的程度）回傳，進而不斷優化世界模型。

這樣做的好處是，我們只需要少量的真實數據，“校準”世界模型建模的狀態轉移，就能讓機器人在虛擬世界中自主學習。

舉個例子，以前機器人學習切蘋果，需要切壞成百上千個材料；現在只需要真切十次，剩下的練習都可以在物理世界模型中完成。

VLA、視頻模型、JEPA，都不是「原生世界模型」

世界模型負責機器和世界的交互，語言模型負責機器和人的交互。

現在大家都意識到，基于 LLM 做 VLM（視覺-語言模型）、做 VLA（視覺-語言-行為模型），本質上與物理世界沒有那么適配。

因為語言模型是一個高度離散化的空間。簡單來說，我們跟世界打交道，總結出了一套語法規則。但是每個國家的語種都不一樣，語言也充滿了人對世界的 bias（偏見），而且有很多東西是無法用語言講清楚的。

本質上，語言的目的是交流，是人機交互的界面，而不是一個模態。模態是你對世界的觀測，語言則是你攝入信號后的總結。所以訓練世界模型，語言不是中心，而是輔助的。

世界模型的訓練同時需要 SFT（監督微調）加上 RL（強化學習）。

世界模型需要在物理世界中做 SFT，但物理數據的量是不夠的，所以我們需要自己采集數據，建立數據標準。

LLM 在后訓練過程中可以生成任意的詞元，但世界模型必須遵守物理規律，所以我們自研了可微物理引擎，讓后訓練可以在滿足物理約束的前提下進行。

因此，世界模型的訓練是一套 system，需要聯合預訓練、后訓練，以及數據 Infra 和硬件 Infra，才能實現訓練效益最大化。

全棧打通感知、推理、決策、動作輸出，并且面向機器和世界交互任務設計的，才是“原生世界模型”。

VLA 是非原生的世界模型，因為它的表征是離散的語言空間，不是真實世界；JEPA（聯合嵌入預測架構）只能預測狀態（state），但無法輸出動作。

視頻生成模型也不是原生世界模型，因為推理過程不是原生的。它生成的像素，只能擬合世界的表象，很難保證復雜任務策略學習需要的幾何與物理一致性。

訓練“原生世界模型”，關鍵是如何將物理世界高效 tokenization（表征）。

多模態觀測——視覺、觸覺、力覺——如何被壓縮成模型可消化、可推理的 Token 序列，直接決定了模型能理解什么，不能理解什么。這層表征質量，是后續所有能力的天花板。

我們是全球少數能將表征端 tokenization 的公司，也就是將物理世界，高效壓縮為機器容易理解和學習的 Token。

這套體系的壁壘不在技術，而是認知。它需要很強的 Know-How，需要你知道整一套生態系統該怎么搭建。比如，數據怎么清洗？模型怎么優化？這些問題都有很強的認知壁壘。

目前，我們團隊內部訓練的視覺 tokenizer（表征器，用于將物理世界轉譯為 Token），效果已經優于 Meta 的視覺基礎模型 DINOv3。后續物理世界的高效表征也會是我們團隊的重點研究方向。

如何構建 Physical AI 的 Infra，是訓練世界模型的另一個難題。

除了構建數據平臺，我們還需要設計好物理引擎 Infra。比如，如何讓物理引擎去高效建模柔性物體、流體的 state，從而高效計算 state transition。只有這樣，機器人才能在物理引擎中做強化學習。

如果一家公司所謂的“Infra”，只能支持本體做一些簡單的抓取，那就不叫真正的 Physical AI Infra。

真正的 Physical AI Infra，能夠讓你不斷優化數據效率，提升復雜任務上預訓練和后訓練的效果；或者在短程任務上訓練后，能夠泛化部署在復雜的長程任務上。

2028 年會是 Physical AI 規模化落地的 milestone

輪臂是適配大多操作場景的硬件落地形態。

人形機器人的想象空間很大，但技術難度也很大。比如，目前的負載能力（payload）會限制人形機器人執行需要較大力量和復雜操作的任務；對人體的各個部位進行精準建模，也是一個難題。

因此，我們目前部署的硬件形態以輪臂為主，也就是帶有輪子的機械臂。不同的機械臂、靈巧手會在各種細分場景中，去做泛化。

前期，我們要更積極地與場景方合作。

數據的規模化、包括機器的后訓練，都離不開和與真實場景方的合作。

我們的場景切入模式是。先 ToB，后 ToC。在 B 端積累的數據和技能，最后都能用到 C 端。

在 B 端，我們會先切入工業場景、物流場景，以及生活類、消費類的場景，這些場景工種有很強的替代性和高度重復性，客戶也有很強的降本提效需求。

當然，硬件成本完全壓到低于人力成本，肯定需要一個過程。但最重要的是先把場景鋪開，這樣才能不斷優化模型性能，以及加快成本的邊際效應。

我們的終極目標是做通用 Physical AI Infra。

我們的終極目標，是把這套系統封裝為一款通用的 Physical AI Infra。

它不是針對某個任務、某個硬件的專用方案，而是一個能夠部署在不同物理環境中的基礎平臺——像 iOS 之于移動應用一樣，讓各類物理操作任務可以規模化開發和部署。

這便是我們的“荔枝系統”。而驅動其底層的核心能力，則來自兩方面的堅實支撐：一整套原生世界模型架構，以及一套數據與物理雙輪驅動的訓練與評測基礎設施。

2028年會是 Physical AI 的一個 milestone。根據我的推測，數采的規模，以及電機密度都會實現躍升。到時，我們的方案才能規模化地落地。

歡迎交流！

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

36氪

讓一部分人先看到未來

151804文章數 2848981關注度

往期回顧全部

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

家居

房產

數碼

本地

公開課

家居要聞

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
布洛芬是怎么給人止痛的？
李彥宏：百度離破產30天

手機 / 數碼

房產 / 家居

獨家｜清華系初創完成數億元種子輪融資：我們不想被貼上「世界模型」的標簽

新氧貸款：宣傳年化15%，實際頂格24%

前往日本周邊海域的中國軍艦 在日本防衛省網站"刷屏"

前往日本周邊海域的中國軍艦 在日本防衛省網站"刷屏"

賣球衣救子的門將，把德國撲出了世界杯

張凌赫：我連心疼你都隔著時差

Claude Code被曝“植入木馬”識別中國用戶

上半年累計銷量突破142萬輛 吉利6月銷量出爐

態度原創

傳奇筑 日常詩

洞察新局 | 2026年天河置業紅盤圖鑒

GPD預告9.06" PC掌機WIN MAX 3，Max+ 395 / 388處理器

強烈建議，全國高校都向這所大學看齊！

前往日本周邊海域的中國軍艦在日本防衛省網站"刷屏"

前往日本周邊海域的中國軍艦在日本防衛省網站"刷屏"

上半年累計銷量突破142萬輛吉利6月銷量出爐

傳奇筑日常詩