網易首頁 > 網易號 > 正文申請入駐

跨維智能賈奎：下一個十年是物理世界的 AGI

2026-03-24 09:06:49　來源: 真格基金

北京舉報

分享至

2016 年，賈奎結束海外學業回國，投身計算機視覺研究。彼時大量人才涌入人臉識別與圖像理解賽道，他卻轉身選擇了一條幾乎無人涉足的方向。

接下來的五年里，他反復追問兩個看似簡單的問題：3D 數據的本質是什么？Physical AGI 的定義又是什么？在他看來，這些圍繞三維世界展開的探索才是核心命題。

選擇冷門方向也意味著要付出長期「坐冷板凳」的代價。

在那些等待的日子里，他一遍遍推演模型、反復驗證假設，也不斷重構自己對世界的理解，但幾乎從未動搖過。「如果你做的就是你喜歡的事情，那為什么要換呢？」這是他判斷一個人是否幸運的標準，簡單得近乎樸素。

他對世界模型的理解同樣帶著一種近乎直覺的準確。

他認為 Physical AGI 之所以被稱為物理通用人工智能，關鍵在于它必須真正進入物理世界，并最終落到一個具體的智能終端上。

人從不同的視角觀察世界，看到的往往只是現實的一個個鏡像。當無數片面、零散的信息疊加在一起，世界便顯得極為復雜。但在賈奎眼里，物理世界是簡潔的。如果能觸達其中的真實機理，它會像愛因斯坦的 E=mc2 一樣輕盈。只有找到這種本質規律，才可能構建出真正科學的世界模型。

2025 年底，跨維智能開源了核心技術 EmbodiChain——一條在線數據流與模型生產線，實現了完全基于 100% 生成式合成數據訓練的虛擬物理模型。在這個世界里，讓 AI 去學習物理世界的本質規律，環境、對象、機器人本體都可以持續演進。

通往終點的路徑不止一條。跨維選擇的是一條更長遠的路：先創造「世界」，再讓 AI 深入物理世界的每一個角落，最終構建出通往 Physical AGI 的可持續之路。

通往 Physical AGI

Q：請先介紹下自己以及跨維現在在做的事。

賈奎：從 2021 年創立至今，跨維智能一直致力于解決 AI 與三維物理世界的交互問題。

2001 年，我就開始研究計算機視覺。從 2016 年起，我開始探索如何利用 AI 進行 3D 建模與生成，以及如何通過合成數據訓練模型，驅動機器人完成靈巧作業。

一個重要的技術節點是在 2019 年，我們發表了一個端到端模型，它能夠完全依靠混合數據訓練，實現對未知物體的精準抓取。這些技術積淀為我們 2020 年籌備創立公司打下了基礎，當時真格也作為天使投資方加入。

這幾年，隨著 Physical AI 的興起和大模型的加持，跨維智能的底層技術、產品與業務也經歷了一個從穩健到加速發展的周期。如今，我們逐步形成了一套多維協同的產品矩陣：以 DexVerse? 引擎為技術底座，配合 KINGFISHER 視覺傳感器、Dexforce W1 人形機器人本體，以及 PickWiz 機器人大腦軟件。

回到跨維智能的核心信仰：Develop a sustainable road towards Physical AGI（構建一條通往 Physical AGI 的可持續道路）。我們希望走出一條可持續的路徑，以持續的原創技術推動 AI 深入物理世界的每一個角落，在不同行業中創造真正的價值。

Q：你目前怎么理解 Physical AI？在創業過程中有什么變化？

賈奎：我始終認為 Physical AI 是一件需要在實踐中推進的事情。只有不斷做技術、做產品，才能真正走近它。人是一個典型的高級生物智能體。人的認知智能與身體形態的關系正對應著今天大語言模型與 Physical AGI 的關系。

從技術來看，目前我們仍遵循由海量數據、大模型和強算力支撐的 AI 范式。這種范式受惠于 90 年代以來互聯網所累積的文本、圖像和視頻，因此大語言模型和多模態在 2022-25 年間實現了快速積累。

但 Physical AGI 是下一個十年，甚至更長周期的命題。它對數據的要求不僅是數量的增加，更是數據產生范式的一次根本性變化。

實現 Physical AGI 的基本數據要素可能來自于真實機器人的數據采集，也可能借由視頻生成，或者是我們團隊非常擅長的 3D 生成式技術以及生成式仿真（Generative Simulation）等前沿范式。

另一方面，Physical AI 必須落地在實際的智能體上，在家庭、工廠等真實應用場景中運行。這又對終端智能體的功能提出了不同訴求。

無論是從技術還是應用角度，Physical AGI 都比目前大家看到的大模型和 AI Agent 應用更難。但它的天花板更高，想象空間更大，對整個社會經濟和人類行為的牽引作用也更大。

正在洗牌的跨維機器人

Q：你在設計跨維智能人形機器人的本體構型時有哪些考量？

賈奎：Physical AGI 之所以被稱為物理通用人工智能，核心在于它必須進入物理世界，并最終落到一個具體的智能終端上。

這個終端的形態則取決于它應用場景的第一性原理。如果是應用在工廠里的機器人，它不一定非要具備人形，它的核心訴求是能否穩定、高精度地完成既定作業任務。

在一些商業服務場景，機器人的演進路徑會變得更像人類。在社會生活或商業服務中，人是在打造自己的 IP 和人設，因為你賣的不僅僅是功能，還有品牌價值。如果我們將眼光跳出數字人，去觀察物理世界真實存在的人，就會發現營造機器人 IP，讓它本身產生衍生價值，是一件非常重要的事情。

至于家庭場景，大家對機器人有多維度的訴求。首先是解決實際的家務問題，比如我們希望在下班后，它能把鞋柜整理好；或者在家里有小朋友的情況下，能把散落一地的玩具收拾妥當。這是對它工具屬性的需求。

但如果機器人具備了人形形態，人們會有更高的陪伴訴求。這種陪伴涵蓋了語言的交流、情感的互通，甚至包括外形是否可愛、是否有溫度。這就是為什么目前有人專門研究「有溫度」的機器人，或者在外觀設計上追求極致美感。

如果你想要打造一個既能解決實際問題，又能與人產生良性互動的深度產品，兼顧外形設計與交互邏輯至關重要。

實現世界模型

Q：你怎么看現在幾種不同的數據采集方式？

賈奎：行業普遍期待，大語言模型中觀察到的 Scaling Law 也能在 Physical AI 上出現。但這里有一個前提：如果沒有足夠量級的數據支撐，單純增加模型規模或算力意義不大。

因此，具身智能當下面臨的首要問題，是如何提升數據產生的效率。

在 2024-25 年間，行業逐漸形成了一種共識：通過搭建數采場、利用真機遙操來獲取訓練數據。但這種方式的效率依然有限。后來也出現了像 UMI（Universal Manipulation Interface，通用操作接口）這樣更高效的本體采集方案，不過這種路徑究竟能訓練出多強的模型還有待驗證。

另一條被寄予厚望的路徑是視頻生成。像 Sora 這樣的模型在內容創作領域已經展現出強大的能力，但視頻生成的本質是二維結果。從技術范式來看，基于擴散模型的視頻生成本質還是在 RGB 像素空間中建模，缺乏明確的物理因果結構。這意味著它在精度、穩定性和物理一致性上，很難達到嚴格的工程標準。

我們的目標是一方面充分利用模型與算力帶來的生成效率，另一方面又保證生成內容具備嚴格的三維物理真實性。圍繞這一點，我們也做了嚴謹的原理性驗證。結果證明，完全基于 100% 生成式合成數據訓練出來的模型，在真實應用中確實可以跑通。

我們真正應該關注的不是某一種數據獲取方式本身的優劣，而是哪一種數據范式，能夠讓 AI 大模型的 Scaling Law 真正運轉起來。

Q：當時 Sora 發布的時候，你有什么感受？

賈奎：Sora 發布時一個很重要的傳播理念就是世界模型。

但世界模型這一概念早在 2018 年就在強化學習領域被提出了。它的核心邏輯是，如果要進行高效的強化學習，系統必須具備一個內在的模型來模擬世界，從而學習并產生優秀的策略。盡管這一理念在學術界早已存在，但此前一直沒有大眾化。

Sora 的驚艷之處在于它生成的視頻在外觀、動態和場景表現力上遠超以往，但它依然是在 RGB 像素空間內進行擴散模型的學習。OpenAI 試圖說明，如果我們的模型不是世界模型的話，為何能產生如此逼真的視頻結果？

Physical AI 所需模型的服務對象不是人類的眼睛，而是具體的任務執行，比如機器人要如何精準地拿起一杯咖啡并遞到你手上。

這與單純的二維視覺觀感完全不同。具備基礎機器學習或工程知識的人都明白，二維圖像只是三維世界在特定視角下的投影，這意味著信息在投影過程中必然發生缺失。生成的視頻看起來很精美，但一旦切換視角，往往會暴露出大量的失真。

目前的視頻生成視覺模型從根本上無法解決生成結果在 3D 形狀準確性、物理準確性以及動態因果準確性上的問題。

Q：目前世界模型處在一個怎樣的進程？

賈奎：這是一個大家都想要實現的目標。但究竟該如何實現，我認為首先要把問題想清楚。目前業界對于「什么是世界模型」依然缺乏一個公認且精確的定義。

在定義尚未統一時，人們只能用結果來評價一個模型是否真正具備世界模型的能力。如果你的模型是世界模型，它在無人駕駛場景中就應該始終能夠準確避障、規劃路徑；在機器人作業中，也應該精準且穩定地完成抓取與操作。

Q：跨維實現世界模型的優勢是什么？

賈奎：我們的世界模型從 AI 架構建模方式的底層邏輯上就確保了絕對的三維穩定性。如果從統計學或數學的角度來看，這個物理世界非常簡潔。

為什么大家卻覺得它復雜？因為我們在通過不同的視角觀察世界，包括人的眼睛和各種感知傳感器，而這些觀測結果都只是真實世界的鏡像。這些鏡像提供的往往是片面的信息，當無數片面且瑣碎的信息交織在一起時，就會讓人產生世界極其復雜的錯覺。

但實際上，如果你能觸達世界內蘊的真實機理，它就像愛因斯坦的 E=mc^2 一樣簡潔明了。只有找到了這種真正正確、簡潔的本質規律，你才能構建出真正科學的世界觀。

我們的核心邏輯正是通過 AI 去學習這種本質規律，而不是粗暴地利用海量視頻進行堆砌訓練。因為大量的視頻本質上只是不同視角下的景象疊加，學習效率低下，也無法從根本上保障三維物理的準確性。

其實別的團隊也不是不能做，行業內幾乎所有的團隊都會強調三維物理的重要性，也都在嘗試往這個方向努力。而我們團隊的優勢在于，在神經三維建模（Neural 3D Modeling）和神經三維生成（Neural 3D Generation）領域，即利用 AI 進行三維物理建模與生成的技術路線上，我們始終處于行業領先地位。

Q：您能簡單地講一下跨維最近的開源工作嗎？

賈奎：我們開源的 EmbodiChain 數據生成管線正面回應了為什么數據產生效率如此重要。

在《GS-World》中，我們開篇提出了效率定律（Efficiency Law），它是規模定律（Scaling Law）的前提。只有當數據產生效率滿足特定條件時，模型性能才方能持續提升。

它接著講如何用生成式的方式，嚴謹地構建出一個符合物理規律的三維虛擬世界。在這個世界里，我們可以高效地生成環境、操作對象乃至機器人本體。機器人可以在這個可控的虛擬空間中通過作業產生數據，進而形成模型，甚至實現本體的進化。

這不僅是一項具體的學術成果，也是我們的一份技術路線圖。

EmbodiChain 示意圖

基于此，我們設計了一套能夠實現效率定律的架構。這首先是一個從模擬到現實的過程。無論是通過真機遙操、UMI 這種方式，還是直接記錄人類操作的視頻，我們都能從中提取出三維邏輯動作，并將其投射到虛擬世界。隨后，我們在虛擬世界中進行高效的數據擴增和強化學習。這種范式既能生成精準的三維物理模型，也能生成動作策略。

我們也在開源的 Motion 數據集上進行了嚴格的對比測試。結果顯示，這種范式在效率和成功率上明顯優于英偉達的 GR00T、RDT 等主流模型。正如我們所發布的，跨維智能確實實現了完全使用 100% 生成的合成數據訓練出的 VLA 模型。這在全球范圍內都是絕無僅有的。

我們認為正確的邏輯是你必須首先送進去一個有價值的機器人，讓它運行起來服務客戶、產生價值。

我們效仿無人駕駛領域開啟「影子模式」，讓數據回流。在這種模式下回流的是高質量、帶標注、剔除異常數據、能直接提升模型性能的數據。此時，機器人已經在真實環境中工作并產生了收益，獲取數據只是順道完成的過程。這才是產品和服務高效演進的數據飛輪范式。

經歷「冷板凳時期」

Q：當時是什么契機開始關注到世界模型？

賈奎：當時關注到這個領域，是因為我關注的是 AI 信號的本質。

回看 2015 年，當時太多的人涌入人臉識別和圖像理解領域，但我會去思考 3D 數據的本質是什么？信號的本質又是什么？作為一個做創新研究的人，最基本的要素就是絕對不能跟風。如果一件事情已經有很多人在做了，那么它就不應該是你的首選。研究者必須遵從第一性原理，而不是人云亦云。

在那個沒有人涉足的階段，這些關于 3D 維度的探索才是 AI 領域中更本質、更重要的問題，是我認為真正有價值的創新。這種獨立研究的能力，其實是每一個成熟的博士在職業訓練階段就應該具備的基本要素。

當然，這種堅持是有代價的。研究的源頭固然可以基于好奇心，但在好奇心之上，還需要帶一點「功利」的思考，這種好奇心最終能否產生價值？無論是短線、中期還是長線的價值，你必須去推演它。

選擇非熱門方向的代價就是你可能需要長期「坐冷板凳」。我們觀察 AI 的發展史，從 1950 年代至今經歷了幾輪波峰波谷，即便像 AI 教父辛頓（Geoffrey Hinton）也經歷過極長周期的冷板凳時期。

人要有自己的堅持。

Q：你什么時候有過這種「坐冷板凳」的感覺？

賈奎：在 2016 年到 2021 年這段時間里，坦白說，我獲得的成就感遠比那些做圖像理解的人要少得多。

在學術界，你的論文引用量很大程度上取決于研究該問題的基數。如果全球范圍內關注某個 3D 任務的人只有 1000 個，而研究圖像理解的有 100 萬人，那么無論研究做得多好，在絕對影響力指標上也無法與熱門方向相比。在長達五年的時間里，這種差距是客觀存在的。

但即便是在那段時間里，我也沒有想過要更換方向。我覺得判斷一個人是否幸運的標準在于，他是不是在做自己真正喜歡的事情。如果你做的就是你喜歡的事情，那為什么要換呢？

在當時，我依然堅信自己所做的研究具有更大的價值，這與我如今對 Physical AGI 的判斷邏輯是一致的。

從企業成長和創業邏輯來看，Physical AGI 的天花板比現在的大模型廠商的天花板還要高。

Q：科研和創業有什么不同？

賈奎：科研創新與創業是不同形式的價值創造與實現。從科研創新的角度來看，你潛心鉆研，期待邏輯上成立的研究最終會產生價值，但成果還是往往停留在紙面上，這種互動相對內斂且間接。

相比之下，創業則是實打實地從商業價值出發進行反向推導。為了實現真正的價值，我們需要什么樣的產品或服務？哪些技術需要突破且具備條件？突破的周期是多久？在這種邏輯下，我們還需要思考團隊的核心優勢、差異化特色以及能否在目標商業場景中真正產生價值。

這種思維方式的轉變，能讓我們在創新的過程中擺脫一些科研慣性。我們不會為了發表論文而去做事，也不會去做那些看似有價值、實則無法在商業上產生實際貢獻的研究。

當你的產品在真實的場景中被使用起來，那種成就感與單純追求論文引用量是完全不同的。這種價值創造更加直接，能夠真實地在社會的各個層面反映出來，無論影響是大是小。

回歸勞動力本質

Q：有沒有什么具體的合作案例可以分享？

賈奎：我們在工業、物流等相對半結構化的場景中已經積累了大量經驗，部分項目的運行時間已超過兩年。我們不是單純在推廣跨維這個機器人品牌，而是要將機器人深度嵌入加盟店、品牌方和購物中心的業務流程里。

讓別人生意做得更好才是這臺人形機器人真正的價值。

一個案例是我們和「維小飯」的合作。維小飯是一家在深圳和香港的健康飲食品牌，每份盒飯都會標注卡路里。我們的機器人部署在維小飯的門店內，承擔售賣引導等工作。這種「健康飲食 + 前沿科技」的組合既是一個極具吸引力的商業噱頭，也是機器人在真實商業環境中去創造價值的實踐。

跨維在「維小飯」門店部署的機器人

Q：跨維產品的差異化特色在哪里？

賈奎：核心不在于單純的技術高低，而在于誰能真正跑通技術到細分商業場景的閉環。就像人臉識別技術，現在幾乎任何一家公司都能擁有成功率足夠高的技術，但最終勝出的是那些已經形成了品牌認知、并占據了市場的企業。當然，如果未來機器人的需求量變得極大，它的功能性價值和附加價值的主次地位可能會發生變化。

Q：跨維的下一步會是什么？

賈奎：我們的商業理念可以用一句話概括：DexBot Inside。

這個詞借用了當年英特爾著名的「Intel Inside」廣告語。作為一個人形機器人，即便在商業服務場景中具備引流作用和 IP 屬性，它最終也必須回歸到勞動力本質。

人與人之間交往，最初的新鮮感都可能在兩周內消退，機器人更是如此。如果機器人不能產生真正的勞動價值，它的 IP 和可愛外形就無法支撐其長久的商業存在。在門店等實際場景中，它最終會從一個新鮮事退化到一個勞動者的本質。

文｜Nuohan

編輯｜Cindy

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.