![]()
來源:機器之心
過去幾年,機器人行業最常見的高光時刻,幾乎都發生在演示視頻里。
一臺機械臂聽懂指令,伸手拿起杯子;一個人形機器人走進廚房,把雜物收回原位;它可以疊衣服、拉抽屜、倒咖啡,甚至在陌生房間里完成一連串看似自然的動作。
這些畫面很容易讓人產生一種錯覺:機器人已經開始像人一樣理解世界了。
但如果把問題拆到最底層,答案反而樸素得多。
這篇來自 Interlatent(一家聚焦具身智能后訓練與部署的早期創業公司) 的文章,試圖從第一性原理出發,把現代 AI 機器人技術重新講清楚:一個機器人到底如何理解世界,如何生成動作,又為什么會在數據、延遲和泛化上遇到如此多的困難。
文章給出的切入口非常簡單:先把機器人控制問題,看成一個函數。
有一種看似簡單、但相當準確的方式,可以用來描述 physical AI 到底在做什么。任何有 STEM 背景的人,應該都能直觀理解。和其他所有 AI 模型一樣,控制機器人的模型本質上也是一個函數。它接收觀測作為輸入,比如攝像頭像素、關節角度、夾爪感受到的阻力等等;然后輸出動作,也就是電機下一步的位置和力矩。除此之外,所有復雜的算法、訓練方法和數據擴展理論,都是為了得到這個函數的一個足夠好的版本,并把它寫入神經網絡的權重之中。
![]()
機器人策略本質上是一個函數。觀測從左側不斷輸入,網絡對其進行處理和細化,隨后一組動作指令從右側輸出,對應機械臂每一個關節,也就是它的每一個自由度。這個領域中的其他一切,都是為了讓這一個函數變得足夠好、足夠快
如果你曾經訓練過一個將輸入映射到輸出的模型,就已經能夠理解這個問題的大致形態。真正有意思的地方在于:當你把這個熟悉的問題形態,放進一個不斷運動、不斷響應的真實世界里,會發生什么。
![]()
文章地址:https://interlatent.com/blog/interlatent-modern-ai-robotics-first-principles
秘方,以及打破它的維度
有兩個核心要素可以提升這一功能的質量:算力與數據。數據是機器人智能的原始燃料,來自真實世界的物理規律如同未經加工的礦石一樣蘊藏其中。而算力則通過矩陣乘法,訓練該功能去嵌入從數據中挖掘出的這些規律。
這聽起來就像是普通的機器學習,而且在相當長一段時間里,你確實可以把它假想成普通機器學習。然而,機器人技術引入了傳統機器學習從未需要面對的第三個軸向:推理時間。一個大語言模型可以花上3 秒鐘去思考下一個 Token,而不會對任何人造成傷害,但一臺正在倒咖啡的機器人絕對不行。此時咖啡杯已經在移動,動作必須在事件發生的過程中同步生成。該功能不僅需要保證正確,還必須足夠快,快到當答案送達時,其「 正確性 」依然具有實際意義。當你的模型還在思考時,物理世界依然在持續運行,這導致機器人領域不得不做出一些既艱難又有趣的抉擇。
將大腦一分為二
最自然的第一反應,是訓練一個巨大的模型,讓它直接從觀測映射到動作。但在實踐中,這個領域逐漸走向了一種更有意思的方案。現代機器人模型通常被分成兩個部分:一個負責理解,一個負責行動。
其中的主干通常是一個大模型,典型形態是視覺語言模型(VLM)。它與 GPT-5 或 Gemini 在同時理解語言和圖像時所使用的模型屬于同一類。由于它已經在海量互聯網圖文數據上完成訓練,因此某種程度上已經「知道」世界是什么樣的。比如,無論顏色如何,杯子都是杯子;把東西收起來,意味著把它放回一個合理的位置。它承載著一種關于世界外觀和運行方式的學習表征。這個部分更像一個緩慢、審慎的規劃者,負責理解環境。
與之相連的,則是一個小得多的動作專家:一個快速模型,它唯一的任務,就是接收主干模型形成的理解,并將其在實時場景中細化為平滑的電機控制指令。NVIDIA 于 2025 年發布的人形機器人開放基礎模型 GR00T N1,就明確采用了這種拆分方式。它的 System 2 VLM 負責對場景進行較慢、更審慎的推理,而獨立的 System 1 模塊則近乎本能地生成實際動作,兩者被緊密地聯合訓練在一起。Physical Intelligence 的 π? 也采用了同樣的架構:一個負責理解的 VLM,加上一個負責行動的小型動作頭。這就構成了所謂的視覺語言動作模型(Vision-Language-Action model,VLA)。
![]()
視覺語言動作模型是一個由兩個相互耦合部分組成的網絡。大型 VLM 主干負責讀取圖像、語言和機器人狀態,并形成對場景的理解。小型動作專家則接收這種理解,從噪聲出發,在一次前向傳播中將其細化為一個動作塊:也就是一小段未來動作序列。
因此,我們從一個單體式的巨大函數,走向了兩個模型之間的協作:一個模型負責保存對世界的圖景,另一個更小的模型則負責把這幅圖景轉化為動作。
動作到底是怎么生成的?
接下來要問的是:這個函數究竟以什么形式輸出動作?答案主要有兩種,而這個領域的發展史,很大程度上就是從第一種走向第二種的過程。
第一種是離散式的:動作頭一次只生成一個動作。模型先觀察,輸出一條單步指令,執行之后再重新觀察。早期系統大多是這樣工作的。它直觀,也適合一些較簡單的問題,但速度太慢,而且小錯誤會不斷累積。每一個細微失誤,都會把機器人推向一個比訓練時見過的情況稍微陌生一點的狀態;下一次預測就會更差,再下一次還會更差。最終,機器人會逐漸偏離自己的能力邊界,導致任務失敗。
第二種是動作分塊,也就是模型一次性預測一小段未來動作序列,然后把它作為一個平滑的整體執行,之后再重新查詢模型。這個想法由斯坦福 Tony Zhao 及其合作者在 2023 年提出,名為 Action Chunking with Transformers(ACT)。它的名字借用了心理學中的「chunking」概念,指的是人類會把一連串細小動作組合成一個流暢動作。ACT 帶來了重要改進:它只需要大約十分鐘的示教數據,就能學會一些對精度要求很高的任務,比如打開半透明調料杯,或者把電池插入卡槽,成功率達到 80%–90%。預測一個動作塊,可以縮短任務的有效長度,也能緩解單步預測中反復出現的誤差累積問題。
![]()
在離散模式下,機器人一次只預測一步,小錯誤會不斷累積,最終讓它逐漸偏離自己的能力邊界。而在動作分塊模式下,機器人會一次性確定一小段動作序列,因此能夠始終緊貼預定路徑。
現代機器人學的許多思路,其實都在模仿人類行為。人類不會一次只思考一個微小動作,然后再執行它。我們是在連續流動的動作中一邊移動、一邊思考。現代機器人追求的正是這種連續、分塊的動作生成,讓動作之間沒有僵硬停頓,看起來更像一個活物,而不是一具被牽動的木偶。
當前生成這種平滑動作塊的前沿方法叫做流匹配。這是一種通過擴散過程,將帶噪聲的潛變量逐步細化為連貫軌跡的技術。π? 和 GR00T 中的動作專家,都是從噪聲出發,迭代地將其細化成一條連貫軌跡。這與現代圖像生成器所使用的是同一類技術,只不過這里生成的不是像素,而是動作。
大腦應該放在哪里:邊緣端還是云端?
一旦有了這個函數,就必須決定把它運行在哪里。這里會出現一個核心取舍:可用算力與延遲。
你可以把模型放在邊緣端,也就是直接運行在連接機器人的計算機上。這樣延遲幾乎為零,當然前提是模型能夠裝進邊緣設備。這非常適合物理世界中的實時控制,但你會受到機身可搭載硬件的限制,因此往往不得不把模型壓小。
也可以把模型放在云端,把重計算任務交給強大的服務器,再通過互聯網把動作指令傳回機器人。這樣可以運行更大的模型,但每一個動作都必須經過一次網絡往返,此時延遲就會成為敵人。
這個約束到底有多緊?以 π?.? 為例。在高端 GPU 上,它完成一次完整的感知與動作循環大約需要 274 毫秒,其中約 80% 的時間都花在迭代式流匹配細化上。而在一個以 3Hz 控制循環運行的小型邊緣設備上,每個周期總共只有約 330 毫秒,感知和動作生成都必須在這段時間內完成,幾乎沒有任何余量。
這正是整個領域必須面對的核心問題:云端能給機器人更大的大腦,邊緣端能給機器人更快的大腦。但你不能讓「思考」與「行動」之間的間隔變得太長,否則等機器人想清楚時,真實世界早已發生了變化。
![]()
![]()
在邊緣端,模型直接在設備上運行,不經過網絡,但由于加速器性能較弱,所以計算耗時更長。切換到云端后,更強的 GPU 會縮短計算時間,但現在每一個動作都要經過一次網絡往返。把網絡往返延遲往上拖動,你就會看到總耗時超過 330 毫秒的截止線。
數據瓶頸
和許多深度學習問題一樣,機器人學也受困于數據。但對機器人學來說,真正麻煩的地方尤其在于數據的多樣性。
最豐富的機器人數據來自遙操作:由人類一遍又一遍地操控機器人完成某項任務。專家示教通常能夠穩定地產生優秀策略,但它很難規模化。每一小時數據都意味著一小時的人類勞動成本;在某些情況下甚至需要更多,因為示教質量本身很重要。更糟的是,每一種機器人、每一種夾爪、每一個實驗室,往往都會產生一套彼此不兼容的小型數據集。GR00T 團隊很貼切地把這種狀況稱為由一個個「數據孤島」組成的群島,而不是一片統一、連貫、互聯網規模的數據海洋。
這與 AI 其他領域的發展路徑形成了對比。在其他 AI 領域,關鍵魔法往往是一樣的:把問題轉化為可以用計算規模化解決的形式。比如,語言建模之所以能夠擴展,是因為文本數據極其豐富,而且可以相對通用地互換使用。機器人學沒有類似的數據洪流。因此,這個領域分化出了兩種策略,用來制造那些無法簡單收集到的數據。
策略一:模擬世界
如果無法從真實世界中收集到足夠多的數據,那就構建一個假的世界,讓機器人在那里免費練習。這正是世界模型和仿真發揮作用的地方。準確地說,仿真是一個更寬泛的概念,指任何能夠足夠好地建模世界、以便在其中練習的系統。世界模型則是一種神經網絡:給定當前狀態和一個動作,它會預測世界接下來會變成什么樣。它學習行動帶來的后果,通常會通過圖像等媒介來表達;更關鍵的是,它從觀察中學習物理規律,而不是依賴人工編寫的規則,因此能夠捕捉目標環境中重要的動態特征。
2025–2026 年,這一方向的關鍵躍遷來自 Google DeepMind 的 Genie 3。它是一個世界模型,只需要文本提示,就能實時生成完全可交互、可導航的 3D 環境,并根據此前幀來預測每一幀。它對機器人學的意義顯而易見:可以提供無限、廉價的訓練場景,包括那些你絕不會想在現實中搭建的危險邊緣案例。Waymo 走的正是這條路線,構建了 Waymo World Model,用來生成同步的攝像頭與激光雷達駕駛場景,其中包含真實車輛幾乎很少遇到的罕見情況。NVIDIA 也發現,在 GR00T 的訓練中混入合成數據,相比只使用真實數據,性能提升了 40%。這個方向的愿景,是把數據問題轉化為計算問題。一旦做到這一點,機器人學就能繼承 AI 其他領域已經享受到的所有優勢。
策略二:向日常生活中的人類學習
第二種策略更隱蔽,在我們看來也更優雅。最具規模化潛力的機器人數據收集器,其實是戴著眼鏡的人,而非機器人。
Meta 的 Ego4D 等項目,以及 Project Aria 眼鏡,徹底重構了這個問題。Ego4D 收集了超過 3000 小時的人類第一視角視頻,記錄的是人們完成日常事務的過程。佐治亞理工的一套系統 EgoMimic 對這一點概括得很準確:當你看到一個龐大的人類第一視角數據集時,你看到的本質上也可以是一個龐大的機器人數據集,只不過它是由人們在日常生活中被動生成的。
你戴上眼鏡,照常生活,就已經在以人類生活本身的規模生產操作數據。那項工作中最引人注意的發現是:額外增加一小時人類手部數據,對機器人的提升效果,超過額外增加一小時機器人數據。
因此,相比需要專門投入人力的遙操作,第一視角數據收集承諾了一種更低額外成本的大規模數據路徑。
訓練
有了架構和數據之后,怎樣才能真正造出一個有能力的機器人?答案是分階段完成,每個階段都有不同目標。
![]()
能力是在一個個階段中建立起來的,每一層都建立在前一層之上。
預訓練負責塑造 VLM 主干。你向它輸入海量關于空間推理以及世界一般運行方式的數據,目標是讓它建立起對物理世界的理解和推理能力。
中期訓練負責創建動作專家。目標是得到一個在幾乎任何配置下都能大致工作的「大腦」,它能夠把自身理解轉化為各種動作,并適配多種不同類型的機器人。這需要大量來自不同環境、不同機器人形態的數據。
后訓練,也就是微調,則是把這個通用大腦調適到某個具體身體和一小組具體任務上。比如,把一個通用模型專門適配到某個雙臂機器人系統上,它就能在這種具體形態下開箱即用,并取得還不錯的效果。這個階段,真實世界數據的價值會真正體現出來:遙操作數據和第一視角數據,往往最能直接轉化為現實表現。
部署訓練的目標,是讓機器人適應某一個具體環境,直到它在那里真正安全、真正有用。這正是「能在演示里工作」和「能在你家廚房里工作」之間的差距。許多看起來很驚艷的系統,最后都會在這里悄悄失效。π?.? 之所以有意思,正是因為它試圖縮小這道鴻溝:它被設計用來清理訓練中從未見過的家庭廚房和臥室。它經常能做到,雖然并不完美,但已經能看到一絲類似人類進入陌生房間時所展現出的應變能力。
讓機器人自我教學
但這一切都有上限。一個只靠示教訓練出來的機器人,最多也只能變得和示教一樣好。它學會的是理想路徑,卻沒有學會如何從自己的錯誤中恢復,因為它從未真正見過這些錯誤。這就像只看完美駕駛視頻來學開車一樣:一旦第一次轉錯彎,就會手足無措。
出路在于像人類一樣學習:練習,并接受批評。這就是強化學習:讓機器人嘗試,對結果打分,再強化那些有效的行為。問題在于,你不可能在每一個時刻都監督機器人,也不可能為每一種可能情況都提供樣例。而在真實世界中,不同于模擬器,每一次嘗試都是串行的、緩慢的,還需要人類重新布置場景。因此,物理世界中的強化學習會變得非常困難。
另一種辦法是引入人類干預,這同樣被證明很有用。當機器人進入糟糕或不安全的狀態時,人類可以中斷推理過程,并把它帶回到更好的狀態。這也催生出一系列基于人在回路的學習算法,例如 HIL-SERL。
最近最生動的示范,是 Physical Intelligence 的 π*?.?。它采用了一種名為 RECAP 的訓練方法,把人類掌握一項技能的完整過程編織在了一起:指令學習,也就是觀看示教;指導糾錯,也就是人類遙操作員實時介入,糾正錯誤,并教會機器人如何恢復;以及自主練習,也就是機器人獨立嘗試任務,成千上萬次地執行,對自己打分,并保留有效的做法。
其中還有一個巧妙設計:流匹配模型無法直接使用標準強化學習機制,因此 RECAP 轉而教會模型區分好動作和壞動作,并在部署時直接要求它生成「好」動作。結果是,在疊衣服、制作濃縮咖啡等困難任務上,機器人吞吐量大約翻倍,失敗率降低一半甚至更多,并且能夠幾乎不間斷地運行一整天的咖啡站。
因此,自我改進算法正在解決機器人性能上的關鍵瓶頸,尤其是在泛化能力方面。
閱讀最新前沿科技趨勢報告,請訪問21世紀關鍵技術研究院的“未來知識庫”
![]()
未來知識庫是 “21世紀關鍵技術研究院”建 立的在線知識庫平臺,收藏的資料范圍包括人工智能、腦科學、互聯網、超級智能,數智大腦、能源、軍事、經濟、人類風險等等領域的前沿進展與未來趨勢。目前擁有超過8000篇重要資料。每周更新不少于100篇世界范圍最新研究資料。 歡迎掃描二維碼或訪問https://wx.zsxq.com/group/454854145828進入。
![]()
截止到2月28日 ”未來知識庫”精選的百部前沿科技趨勢報告
(加入未來知識庫,全部資料免費閱讀和下載)
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.