網易首頁 > 網易號 > 正文 申請入駐

跨維智能賈奎:下一個十年是物理世界的 AGI

0
分享至

2016 年,賈奎結束海外學業回國,投身計算機視覺研究。彼時大量人才涌入人臉識別與圖像理解賽道,他卻轉身選擇了一條幾乎無人涉足的方向。

接下來的五年里,他反復追問兩個看似簡單的問題:3D 數據的本質是什么?Physical AGI 的定義又是什么?在他看來,這些圍繞三維世界展開的探索才是核心命題。

選擇冷門方向也意味著要付出長期「坐冷板凳」的代價。

在那些等待的日子里,他一遍遍推演模型、反復驗證假設,也不斷重構自己對世界的理解,但幾乎從未動搖過。「如果你做的就是你喜歡的事情,那為什么要換呢?」這是他判斷一個人是否幸運的標準,簡單得近乎樸素。

他對世界模型的理解同樣帶著一種近乎直覺的準確。

他認為 Physical AGI 之所以被稱為物理通用人工智能,關鍵在于它必須真正進入物理世界,并最終落到一個具體的智能終端上。

人從不同的視角觀察世界,看到的往往只是現實的一個個鏡像。當無數片面、零散的信息疊加在一起,世界便顯得極為復雜。但在賈奎眼里,物理世界是簡潔的。如果能觸達其中的真實機理,它會像愛因斯坦的 E=mc2 一樣輕盈。只有找到這種本質規律,才可能構建出真正科學的世界模型。

2025 年底,跨維智能開源了核心技術 EmbodiChain——一條在線數據流與模型生產線,實現了完全基于 100% 生成式合成數據訓練的虛擬物理模型。在這個世界里,讓 AI 去學習物理世界的本質規律,環境、對象、機器人本體都可以持續演進。

通往終點的路徑不止一條。跨維選擇的是一條更長遠的路:先創造「世界」,再讓 AI 深入物理世界的每一個角落,最終構建出通往 Physical AGI 的可持續之路。


通往 Physical AGI

Q:請先介紹下自己以及跨維現在在做的事。

賈奎:從 2021 年創立至今,跨維智能一直致力于解決 AI 與三維物理世界的交互問題。

2001 年,我就開始研究計算機視覺。從 2016 年起,我開始探索如何利用 AI 進行 3D 建模與生成,以及如何通過合成數據訓練模型,驅動機器人完成靈巧作業。

一個重要的技術節點是在 2019 年,我們發表了一個端到端模型,它能夠完全依靠混合數據訓練,實現對未知物體的精準抓取。這些技術積淀為我們 2020 年籌備創立公司打下了基礎,當時真格也作為天使投資方加入。

這幾年,隨著 Physical AI 的興起和大模型的加持,跨維智能的底層技術、產品與業務也經歷了一個從穩健到加速發展的周期。如今,我們逐步形成了一套多維協同的產品矩陣:以 DexVerse? 引擎為技術底座,配合 KINGFISHER 視覺傳感器、Dexforce W1 人形機器人本體,以及 PickWiz 機器人大腦軟件。

回到跨維智能的核心信仰:Develop a sustainable road towards Physical AGI(構建一條通往 Physical AGI 的可持續道路)。我們希望走出一條可持續的路徑,以持續的原創技術推動 AI 深入物理世界的每一個角落,在不同行業中創造真正的價值。

Q:你目前怎么理解 Physical AI?在創業過程中有什么變化?

賈奎:我始終認為 Physical AI 是一件需要在實踐中推進的事情。只有不斷做技術、做產品,才能真正走近它。人是一個典型的高級生物智能體。人的認知智能與身體形態的關系正對應著今天大語言模型與 Physical AGI 的關系。

從技術來看,目前我們仍遵循由海量數據、大模型和強算力支撐的 AI 范式。這種范式受惠于 90 年代以來互聯網所累積的文本、圖像和視頻,因此大語言模型和多模態在 2022-25 年間實現了快速積累。

但 Physical AGI 是下一個十年,甚至更長周期的命題。它對數據的要求不僅是數量的增加,更是數據產生范式的一次根本性變化。

實現 Physical AGI 的基本數據要素可能來自于真實機器人的數據采集,也可能借由視頻生成,或者是我們團隊非常擅長的 3D 生成式技術以及生成式仿真(Generative Simulation)等前沿范式。

另一方面,Physical AI 必須落地在實際的智能體上,在家庭、工廠等真實應用場景中運行。這又對終端智能體的功能提出了不同訴求。

無論是從技術還是應用角度,Physical AGI 都比目前大家看到的大模型和 AI Agent 應用更難。但它的天花板更高,想象空間更大,對整個社會經濟和人類行為的牽引作用也更大。


正在洗牌的跨維機器人

Q:你在設計跨維智能人形機器人的本體構型時有哪些考量?

賈奎:Physical AGI 之所以被稱為物理通用人工智能,核心在于它必須進入物理世界,并最終落到一個具體的智能終端上。

這個終端的形態則取決于它應用場景的第一性原理。如果是應用在工廠里的機器人,它不一定非要具備人形,它的核心訴求是能否穩定、高精度地完成既定作業任務。

在一些商業服務場景,機器人的演進路徑會變得更像人類。在社會生活或商業服務中,人是在打造自己的 IP 和人設,因為你賣的不僅僅是功能,還有品牌價值。如果我們將眼光跳出數字人,去觀察物理世界真實存在的人,就會發現營造機器人 IP,讓它本身產生衍生價值,是一件非常重要的事情。

至于家庭場景,大家對機器人有多維度的訴求。首先是解決實際的家務問題,比如我們希望在下班后,它能把鞋柜整理好;或者在家里有小朋友的情況下,能把散落一地的玩具收拾妥當。這是對它工具屬性的需求。

但如果機器人具備了人形形態,人們會有更高的陪伴訴求。這種陪伴涵蓋了語言的交流、情感的互通,甚至包括外形是否可愛、是否有溫度。這就是為什么目前有人專門研究「有溫度」的機器人,或者在外觀設計上追求極致美感。

如果你想要打造一個既能解決實際問題,又能與人產生良性互動的深度產品,兼顧外形設計與交互邏輯至關重要。


實現世界模型

Q:你怎么看現在幾種不同的數據采集方式?

賈奎:行業普遍期待,大語言模型中觀察到的 Scaling Law 也能在 Physical AI 上出現。但這里有一個前提:如果沒有足夠量級的數據支撐,單純增加模型規模或算力意義不大。

因此,具身智能當下面臨的首要問題,是如何提升數據產生的效率。

在 2024-25 年間,行業逐漸形成了一種共識:通過搭建數采場、利用真機遙操來獲取訓練數據。但這種方式的效率依然有限。后來也出現了像 UMI(Universal Manipulation Interface,通用操作接口)這樣更高效的本體采集方案,不過這種路徑究竟能訓練出多強的模型還有待驗證。

另一條被寄予厚望的路徑是視頻生成。像 Sora 這樣的模型在內容創作領域已經展現出強大的能力,但視頻生成的本質是二維結果。從技術范式來看,基于擴散模型的視頻生成本質還是在 RGB 像素空間中建模,缺乏明確的物理因果結構。這意味著它在精度、穩定性和物理一致性上,很難達到嚴格的工程標準。

我們的目標是一方面充分利用模型與算力帶來的生成效率,另一方面又保證生成內容具備嚴格的三維物理真實性。圍繞這一點,我們也做了嚴謹的原理性驗證。結果證明,完全基于 100% 生成式合成數據訓練出來的模型,在真實應用中確實可以跑通。

我們真正應該關注的不是某一種數據獲取方式本身的優劣,而是哪一種數據范式,能夠讓 AI 大模型的 Scaling Law 真正運轉起來。

Q:當時 Sora 發布的時候,你有什么感受?

賈奎:Sora 發布時一個很重要的傳播理念就是世界模型。

但世界模型這一概念早在 2018 年就在強化學習領域被提出了。它的核心邏輯是,如果要進行高效的強化學習,系統必須具備一個內在的模型來模擬世界,從而學習并產生優秀的策略。盡管這一理念在學術界早已存在,但此前一直沒有大眾化。

Sora 的驚艷之處在于它生成的視頻在外觀、動態和場景表現力上遠超以往,但它依然是在 RGB 像素空間內進行擴散模型的學習。OpenAI 試圖說明,如果我們的模型不是世界模型的話,為何能產生如此逼真的視頻結果?

Physical AI 所需模型的服務對象不是人類的眼睛,而是具體的任務執行,比如機器人要如何精準地拿起一杯咖啡并遞到你手上。

這與單純的二維視覺觀感完全不同。具備基礎機器學習或工程知識的人都明白,二維圖像只是三維世界在特定視角下的投影,這意味著信息在投影過程中必然發生缺失。生成的視頻看起來很精美,但一旦切換視角,往往會暴露出大量的失真。

目前的視頻生成視覺模型從根本上無法解決生成結果在 3D 形狀準確性、物理準確性以及動態因果準確性上的問題。

Q:目前世界模型處在一個怎樣的進程?

賈奎:這是一個大家都想要實現的目標。但究竟該如何實現,我認為首先要把問題想清楚。目前業界對于「什么是世界模型」依然缺乏一個公認且精確的定義。

在定義尚未統一時,人們只能用結果來評價一個模型是否真正具備世界模型的能力。如果你的模型是世界模型,它在無人駕駛場景中就應該始終能夠準確避障、規劃路徑;在機器人作業中,也應該精準且穩定地完成抓取與操作。

Q:跨維實現世界模型的優勢是什么?

賈奎:我們的世界模型從 AI 架構建模方式的底層邏輯上就確保了絕對的三維穩定性。如果從統計學或數學的角度來看,這個物理世界非常簡潔。

為什么大家卻覺得它復雜?因為我們在通過不同的視角觀察世界,包括人的眼睛和各種感知傳感器,而這些觀測結果都只是真實世界的鏡像。這些鏡像提供的往往是片面的信息,當無數片面且瑣碎的信息交織在一起時,就會讓人產生世界極其復雜的錯覺。

但實際上,如果你能觸達世界內蘊的真實機理,它就像愛因斯坦的 E=mc^2 一樣簡潔明了。只有找到了這種真正正確、簡潔的本質規律,你才能構建出真正科學的世界觀。

我們的核心邏輯正是通過 AI 去學習這種本質規律,而不是粗暴地利用海量視頻進行堆砌訓練。因為大量的視頻本質上只是不同視角下的景象疊加,學習效率低下,也無法從根本上保障三維物理的準確性。

其實別的團隊也不是不能做,行業內幾乎所有的團隊都會強調三維物理的重要性,也都在嘗試往這個方向努力。而我們團隊的優勢在于,在神經三維建模(Neural 3D Modeling)和神經三維生成(Neural 3D Generation)領域,即利用 AI 進行三維物理建模與生成的技術路線上,我們始終處于行業領先地位。

Q:您能簡單地講一下跨維最近的開源工作嗎?

賈奎:我們開源的 EmbodiChain 數據生成管線正面回應了為什么數據產生效率如此重要。

在《GS-World》中,我們開篇提出了效率定律(Efficiency Law),它是規模定律(Scaling Law)的前提。只有當數據產生效率滿足特定條件時,模型性能才方能持續提升。

它接著講如何用生成式的方式,嚴謹地構建出一個符合物理規律的三維虛擬世界。在這個世界里,我們可以高效地生成環境、操作對象乃至機器人本體。機器人可以在這個可控的虛擬空間中通過作業產生數據,進而形成模型,甚至實現本體的進化。

這不僅是一項具體的學術成果,也是我們的一份技術路線圖。


EmbodiChain 示意圖

基于此,我們設計了一套能夠實現效率定律的架構。這首先是一個從模擬到現實的過程。無論是通過真機遙操、UMI 這種方式,還是直接記錄人類操作的視頻,我們都能從中提取出三維邏輯動作,并將其投射到虛擬世界。隨后,我們在虛擬世界中進行高效的數據擴增和強化學習。這種范式既能生成精準的三維物理模型,也能生成動作策略。

我們也在開源的 Motion 數據集上進行了嚴格的對比測試。結果顯示,這種范式在效率和成功率上明顯優于英偉達的 GR00T、RDT 等主流模型。正如我們所發布的,跨維智能確實實現了完全使用 100% 生成的合成數據訓練出的 VLA 模型。這在全球范圍內都是絕無僅有的。

我們認為正確的邏輯是你必須首先送進去一個有價值的機器人,讓它運行起來服務客戶、產生價值。

我們效仿無人駕駛領域開啟「影子模式」,讓數據回流。在這種模式下回流的是高質量、帶標注、剔除異常數據、能直接提升模型性能的數據。此時,機器人已經在真實環境中工作并產生了收益,獲取數據只是順道完成的過程。這才是產品和服務高效演進的數據飛輪范式。


經歷「冷板凳時期」

Q:當時是什么契機開始關注到世界模型?

賈奎:當時關注到這個領域,是因為我關注的是 AI 信號的本質。

回看 2015 年,當時太多的人涌入人臉識別和圖像理解領域,但我會去思考 3D 數據的本質是什么?信號的本質又是什么?作為一個做創新研究的人,最基本的要素就是絕對不能跟風。如果一件事情已經有很多人在做了,那么它就不應該是你的首選。研究者必須遵從第一性原理,而不是人云亦云。

在那個沒有人涉足的階段,這些關于 3D 維度的探索才是 AI 領域中更本質、更重要的問題,是我認為真正有價值的創新。這種獨立研究的能力,其實是每一個成熟的博士在職業訓練階段就應該具備的基本要素。

當然,這種堅持是有代價的。研究的源頭固然可以基于好奇心,但在好奇心之上,還需要帶一點「功利」的思考,這種好奇心最終能否產生價值?無論是短線、中期還是長線的價值,你必須去推演它。

選擇非熱門方向的代價就是你可能需要長期「坐冷板凳」。我們觀察 AI 的發展史,從 1950 年代至今經歷了幾輪波峰波谷,即便像 AI 教父辛頓(Geoffrey Hinton)也經歷過極長周期的冷板凳時期。

人要有自己的堅持。

Q:你什么時候有過這種「坐冷板凳」的感覺?

賈奎:在 2016 年到 2021 年這段時間里,坦白說,我獲得的成就感遠比那些做圖像理解的人要少得多。

在學術界,你的論文引用量很大程度上取決于研究該問題的基數。如果全球范圍內關注某個 3D 任務的人只有 1000 個,而研究圖像理解的有 100 萬人,那么無論研究做得多好,在絕對影響力指標上也無法與熱門方向相比。在長達五年的時間里,這種差距是客觀存在的。

但即便是在那段時間里,我也沒有想過要更換方向。我覺得判斷一個人是否幸運的標準在于,他是不是在做自己真正喜歡的事情。如果你做的就是你喜歡的事情,那為什么要換呢?

在當時,我依然堅信自己所做的研究具有更大的價值,這與我如今對 Physical AGI 的判斷邏輯是一致的。

從企業成長和創業邏輯來看,Physical AGI 的天花板比現在的大模型廠商的天花板還要高。

Q:科研和創業有什么不同?

賈奎:科研創新與創業是不同形式的價值創造與實現。從科研創新的角度來看,你潛心鉆研,期待邏輯上成立的研究最終會產生價值,但成果還是往往停留在紙面上,這種互動相對內斂且間接。

相比之下,創業則是實打實地從商業價值出發進行反向推導。為了實現真正的價值,我們需要什么樣的產品或服務?哪些技術需要突破且具備條件?突破的周期是多久?在這種邏輯下,我們還需要思考團隊的核心優勢、差異化特色以及能否在目標商業場景中真正產生價值。

這種思維方式的轉變,能讓我們在創新的過程中擺脫一些科研慣性。我們不會為了發表論文而去做事,也不會去做那些看似有價值、實則無法在商業上產生實際貢獻的研究。

當你的產品在真實的場景中被使用起來,那種成就感與單純追求論文引用量是完全不同的。這種價值創造更加直接,能夠真實地在社會的各個層面反映出來,無論影響是大是小。


回歸勞動力本質

Q:有沒有什么具體的合作案例可以分享?

賈奎:我們在工業、物流等相對半結構化的場景中已經積累了大量經驗,部分項目的運行時間已超過兩年。我們不是單純在推廣跨維這個機器人品牌,而是要將機器人深度嵌入加盟店、品牌方和購物中心的業務流程里。

讓別人生意做得更好才是這臺人形機器人真正的價值。

一個案例是我們和「維小飯」的合作。維小飯是一家在深圳和香港的健康飲食品牌,每份盒飯都會標注卡路里。我們的機器人部署在維小飯的門店內,承擔售賣引導等工作。這種「健康飲食 + 前沿科技」的組合既是一個極具吸引力的商業噱頭,也是機器人在真實商業環境中去創造價值的實踐。


跨維在「維小飯」門店部署的機器人

Q:跨維產品的差異化特色在哪里?

賈奎:核心不在于單純的技術高低,而在于誰能真正跑通技術到細分商業場景的閉環。就像人臉識別技術,現在幾乎任何一家公司都能擁有成功率足夠高的技術,但最終勝出的是那些已經形成了品牌認知、并占據了市場的企業。當然,如果未來機器人的需求量變得極大,它的功能性價值和附加價值的主次地位可能會發生變化。

Q:跨維的下一步會是什么?

賈奎:我們的商業理念可以用一句話概括:DexBot Inside。

這個詞借用了當年英特爾著名的「Intel Inside」廣告語。作為一個人形機器人,即便在商業服務場景中具備引流作用和 IP 屬性,它最終也必須回歸到勞動力本質。

人與人之間交往,最初的新鮮感都可能在兩周內消退,機器人更是如此。如果機器人不能產生真正的勞動價值,它的 IP 和可愛外形就無法支撐其長久的商業存在。在門店等實際場景中,它最終會從一個新鮮事退化到一個勞動者的本質。


文|Nuohan

編輯|Cindy



特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
別人對你說“咱倆加個微信”,千萬別說 “您掃我還是我掃您?” 高情商的人這樣做

別人對你說“咱倆加個微信”,千萬別說 “您掃我還是我掃您?” 高情商的人這樣做

德魯克博雅管理
2026-04-23 17:02:27
比土木還崩的專業,從年薪20萬跌到月薪2500,畢業即轉行!

比土木還崩的專業,從年薪20萬跌到月薪2500,畢業即轉行!

燈錦年
2026-04-23 19:35:21
48歲楊樂樂復出落淚,談婚姻不幸與放棄事業的遺憾。

48歲楊樂樂復出落淚,談婚姻不幸與放棄事業的遺憾。

螃蟹記錄站
2026-04-23 22:23:47
國產算力機會來了!DeepSeek V4全量開源,華為寒武紀贏麻了

國產算力機會來了!DeepSeek V4全量開源,華為寒武紀贏麻了

雷科技
2026-04-24 22:21:03
山西煤老板破產失蹤18年,女兒收到瑞士來電:您父親的黃金保險箱

山西煤老板破產失蹤18年,女兒收到瑞士來電:您父親的黃金保險箱

天夢見證
2025-06-22 16:47:28
遼寧2將暴走奠定季后賽基本盤!趙繼偉統領進攻,萊迪態度拉滿!

遼寧2將暴走奠定季后賽基本盤!趙繼偉統領進攻,萊迪態度拉滿!

籃球資訊達人
2026-04-25 01:15:47
馬筱梅受夠了!她做出了1個決定,說的2句話,信息量巨大

馬筱梅受夠了!她做出了1個決定,說的2句話,信息量巨大

老吳教育課堂
2026-04-24 11:21:02
美媒獻計:美日聯軍打不過解放軍,那就不打正面,美軍可以游擊戰

美媒獻計:美日聯軍打不過解放軍,那就不打正面,美軍可以游擊戰

朝子亥
2026-04-25 05:55:03
大鬧亞航假空姐社會性死亡!“底褲”被扒,正臉曝光 知情人曝更

大鬧亞航假空姐社會性死亡!“底褲”被扒,正臉曝光 知情人曝更

阿傖說事
2026-04-25 05:32:53
伊朗最大“內鬼”露面,打破叛逃傳言,搞中東統一戰線,對付美國

伊朗最大“內鬼”露面,打破叛逃傳言,搞中東統一戰線,對付美國

傾世璃歌
2026-04-25 02:24:55
軍購案協商無果,韓國瑜重磅宣布,國民黨一人和鄭麗文唱反調

軍購案協商無果,韓國瑜重磅宣布,國民黨一人和鄭麗文唱反調

DS北風
2026-04-23 18:36:06
施明離世引發李氏家族內斗!九龍塘祖屋涵碧別墅市價曝光 這棟豪宅當年曾是楊思琦分手的導火索

施明離世引發李氏家族內斗!九龍塘祖屋涵碧別墅市價曝光 這棟豪宅當年曾是楊思琦分手的導火索

TVB資訊臺
2026-04-25 00:00:46
38勝4負收官,主場21戰全勝!CBA今年的大魔王終于藏不住了

38勝4負收官,主場21戰全勝!CBA今年的大魔王終于藏不住了

煙潯渺渺
2026-04-25 04:11:01
寧夏一位36歲女博士未婚未育,吐槽無人問津:已徹底放棄結婚!

寧夏一位36歲女博士未婚未育,吐槽無人問津:已徹底放棄結婚!

番外行
2026-04-23 07:43:15
研究表明:男性嫖娼率6.4%,女性出軌率15%,且越有錢越開放!

研究表明:男性嫖娼率6.4%,女性出軌率15%,且越有錢越開放!

黯泉
2026-04-01 17:28:39
27歲單親媽媽開直播,播著播著睡著了,醒來一看后臺直接傻眼了

27歲單親媽媽開直播,播著播著睡著了,醒來一看后臺直接傻眼了

小椰的奶奶
2026-04-01 17:04:55
李湘半年時間狂甩五十斤,比16歲王詩齡狀態還好

李湘半年時間狂甩五十斤,比16歲王詩齡狀態還好

庭小娛
2026-04-23 10:46:25
一片沒買!高端芯片缺席中國市場,美商務部長:中國快研發出來了

一片沒買!高端芯片缺席中國市場,美商務部長:中國快研發出來了

混沌錄
2026-04-24 21:02:12
賴清德被摁住不足24小時,29國公開挺臺,大陸三句話直擊要害

賴清德被摁住不足24小時,29國公開挺臺,大陸三句話直擊要害

新時代精神
2026-04-25 03:26:13
毛主席:李克農是好人,當年我靠邊站沒有秘書,是他送來了葉子龍

毛主席:李克農是好人,當年我靠邊站沒有秘書,是他送來了葉子龍

史之銘
2026-04-24 15:06:18
2026-04-25 06:32:49
真格基金 incentive-icons
真格基金
創業,來真格的。
1543文章數 3663關注度
往期回顧 全部

科技要聞

DeepSeek V4牽手華為,價格依然"屠夫級"

頭條要聞

航班提前起飛10分鐘 大學生把海航告了

頭條要聞

航班提前起飛10分鐘 大學生把海航告了

體育要聞

上海男籃23連勝+主場全勝 姚明之后最強一季

娛樂要聞

停工16個月!趙露思證實接拍新劇

財經要聞

LG財閥內斗:百億美元商業帝國爭奪戰

汽車要聞

零跑Lafa5 Ultra北京車展上市:11.88-12.48萬

態度原創

家居
手機
游戲
本地
藝術

家居要聞

自然肌理 溫潤美學

手機要聞

續航大戰!紅米、vivo、榮耀手機,電池都往一萬毫安時以上堆

《光與影:33號遠征隊》發售一周年 銷量破800萬

本地新聞

云游中國|逛世界風箏都 留學生探秘中國傳統文化

藝術要聞

價值1.7億的牡丹!

無障礙瀏覽 進入關懷版