網易首頁 > 網易號 > 正文申請入駐

從第一性原理看機器人AI：為什么它比大模型更難？

2026-06-29 18:25:45　來源: 人工智能學家

北京舉報

分享至

來源：機器之心

過去幾年，機器人行業最常見的高光時刻，幾乎都發生在演示視頻里。

一臺機械臂聽懂指令，伸手拿起杯子；一個人形機器人走進廚房，把雜物收回原位；它可以疊衣服、拉抽屜、倒咖啡，甚至在陌生房間里完成一連串看似自然的動作。

這些畫面很容易讓人產生一種錯覺：機器人已經開始像人一樣理解世界了。

但如果把問題拆到最底層，答案反而樸素得多。

這篇來自 Interlatent（一家聚焦具身智能后訓練與部署的早期創業公司）的文章，試圖從第一性原理出發，把現代 AI 機器人技術重新講清楚：一個機器人到底如何理解世界，如何生成動作，又為什么會在數據、延遲和泛化上遇到如此多的困難。

文章給出的切入口非常簡單：先把機器人控制問題，看成一個函數。

有一種看似簡單、但相當準確的方式，可以用來描述 physical AI 到底在做什么。任何有 STEM 背景的人，應該都能直觀理解。和其他所有 AI 模型一樣，控制機器人的模型本質上也是一個函數。它接收觀測作為輸入，比如攝像頭像素、關節角度、夾爪感受到的阻力等等；然后輸出動作，也就是電機下一步的位置和力矩。除此之外，所有復雜的算法、訓練方法和數據擴展理論，都是為了得到這個函數的一個足夠好的版本，并把它寫入神經網絡的權重之中。

機器人策略本質上是一個函數。觀測從左側不斷輸入，網絡對其進行處理和細化，隨后一組動作指令從右側輸出，對應機械臂每一個關節，也就是它的每一個自由度。這個領域中的其他一切，都是為了讓這一個函數變得足夠好、足夠快

如果你曾經訓練過一個將輸入映射到輸出的模型，就已經能夠理解這個問題的大致形態。真正有意思的地方在于：當你把這個熟悉的問題形態，放進一個不斷運動、不斷響應的真實世界里，會發生什么。

文章地址：https://interlatent.com/blog/interlatent-modern-ai-robotics-first-principles

秘方，以及打破它的維度

有兩個核心要素可以提升這一功能的質量：算力與數據。數據是機器人智能的原始燃料，來自真實世界的物理規律如同未經加工的礦石一樣蘊藏其中。而算力則通過矩陣乘法，訓練該功能去嵌入從數據中挖掘出的這些規律。

這聽起來就像是普通的機器學習，而且在相當長一段時間里，你確實可以把它假想成普通機器學習。然而，機器人技術引入了傳統機器學習從未需要面對的第三個軸向：推理時間。一個大語言模型可以花上3 秒鐘去思考下一個 Token，而不會對任何人造成傷害，但一臺正在倒咖啡的機器人絕對不行。此時咖啡杯已經在移動，動作必須在事件發生的過程中同步生成。該功能不僅需要保證正確，還必須足夠快，快到當答案送達時，其「正確性」依然具有實際意義。當你的模型還在思考時，物理世界依然在持續運行，這導致機器人領域不得不做出一些既艱難又有趣的抉擇。

將大腦一分為二

最自然的第一反應，是訓練一個巨大的模型，讓它直接從觀測映射到動作。但在實踐中，這個領域逐漸走向了一種更有意思的方案。現代機器人模型通常被分成兩個部分：一個負責理解，一個負責行動。

其中的主干通常是一個大模型，典型形態是視覺語言模型（VLM）。它與 GPT-5 或 Gemini 在同時理解語言和圖像時所使用的模型屬于同一類。由于它已經在海量互聯網圖文數據上完成訓練，因此某種程度上已經「知道」世界是什么樣的。比如，無論顏色如何，杯子都是杯子；把東西收起來，意味著把它放回一個合理的位置。它承載著一種關于世界外觀和運行方式的學習表征。這個部分更像一個緩慢、審慎的規劃者，負責理解環境。

與之相連的，則是一個小得多的動作專家：一個快速模型，它唯一的任務，就是接收主干模型形成的理解，并將其在實時場景中細化為平滑的電機控制指令。NVIDIA 于 2025 年發布的人形機器人開放基礎模型 GR00T N1，就明確采用了這種拆分方式。它的 System 2 VLM 負責對場景進行較慢、更審慎的推理，而獨立的 System 1 模塊則近乎本能地生成實際動作，兩者被緊密地聯合訓練在一起。Physical Intelligence 的 π? 也采用了同樣的架構：一個負責理解的 VLM，加上一個負責行動的小型動作頭。這就構成了所謂的視覺語言動作模型（Vision-Language-Action model，VLA）。

視覺語言動作模型是一個由兩個相互耦合部分組成的網絡。大型 VLM 主干負責讀取圖像、語言和機器人狀態，并形成對場景的理解。小型動作專家則接收這種理解，從噪聲出發，在一次前向傳播中將其細化為一個動作塊：也就是一小段未來動作序列。

因此，我們從一個單體式的巨大函數，走向了兩個模型之間的協作：一個模型負責保存對世界的圖景，另一個更小的模型則負責把這幅圖景轉化為動作。

動作到底是怎么生成的？

接下來要問的是：這個函數究竟以什么形式輸出動作？答案主要有兩種，而這個領域的發展史，很大程度上就是從第一種走向第二種的過程。

第一種是離散式的：動作頭一次只生成一個動作。模型先觀察，輸出一條單步指令，執行之后再重新觀察。早期系統大多是這樣工作的。它直觀，也適合一些較簡單的問題，但速度太慢，而且小錯誤會不斷累積。每一個細微失誤，都會把機器人推向一個比訓練時見過的情況稍微陌生一點的狀態；下一次預測就會更差，再下一次還會更差。最終，機器人會逐漸偏離自己的能力邊界，導致任務失敗。

第二種是動作分塊，也就是模型一次性預測一小段未來動作序列，然后把它作為一個平滑的整體執行，之后再重新查詢模型。這個想法由斯坦福 Tony Zhao 及其合作者在 2023 年提出，名為 Action Chunking with Transformers（ACT）。它的名字借用了心理學中的「chunking」概念，指的是人類會把一連串細小動作組合成一個流暢動作。ACT 帶來了重要改進：它只需要大約十分鐘的示教數據，就能學會一些對精度要求很高的任務，比如打開半透明調料杯，或者把電池插入卡槽，成功率達到 80%–90%。預測一個動作塊，可以縮短任務的有效長度，也能緩解單步預測中反復出現的誤差累積問題。

在離散模式下，機器人一次只預測一步，小錯誤會不斷累積，最終讓它逐漸偏離自己的能力邊界。而在動作分塊模式下，機器人會一次性確定一小段動作序列，因此能夠始終緊貼預定路徑。

現代機器人學的許多思路，其實都在模仿人類行為。人類不會一次只思考一個微小動作，然后再執行它。我們是在連續流動的動作中一邊移動、一邊思考。現代機器人追求的正是這種連續、分塊的動作生成，讓動作之間沒有僵硬停頓，看起來更像一個活物，而不是一具被牽動的木偶。

當前生成這種平滑動作塊的前沿方法叫做流匹配。這是一種通過擴散過程，將帶噪聲的潛變量逐步細化為連貫軌跡的技術。π? 和 GR00T 中的動作專家，都是從噪聲出發，迭代地將其細化成一條連貫軌跡。這與現代圖像生成器所使用的是同一類技術，只不過這里生成的不是像素，而是動作。

大腦應該放在哪里：邊緣端還是云端？

一旦有了這個函數，就必須決定把它運行在哪里。這里會出現一個核心取舍：可用算力與延遲。

你可以把模型放在邊緣端，也就是直接運行在連接機器人的計算機上。這樣延遲幾乎為零，當然前提是模型能夠裝進邊緣設備。這非常適合物理世界中的實時控制，但你會受到機身可搭載硬件的限制，因此往往不得不把模型壓小。

也可以把模型放在云端，把重計算任務交給強大的服務器，再通過互聯網把動作指令傳回機器人。這樣可以運行更大的模型，但每一個動作都必須經過一次網絡往返，此時延遲就會成為敵人。

這個約束到底有多緊？以 π?.? 為例。在高端 GPU 上，它完成一次完整的感知與動作循環大約需要 274 毫秒，其中約 80% 的時間都花在迭代式流匹配細化上。而在一個以 3Hz 控制循環運行的小型邊緣設備上，每個周期總共只有約 330 毫秒，感知和動作生成都必須在這段時間內完成，幾乎沒有任何余量。

這正是整個領域必須面對的核心問題：云端能給機器人更大的大腦，邊緣端能給機器人更快的大腦。但你不能讓「思考」與「行動」之間的間隔變得太長，否則等機器人想清楚時，真實世界早已發生了變化。

在邊緣端，模型直接在設備上運行，不經過網絡，但由于加速器性能較弱，所以計算耗時更長。切換到云端后，更強的 GPU 會縮短計算時間，但現在每一個動作都要經過一次網絡往返。把網絡往返延遲往上拖動，你就會看到總耗時超過 330 毫秒的截止線。

數據瓶頸

和許多深度學習問題一樣，機器人學也受困于數據。但對機器人學來說，真正麻煩的地方尤其在于數據的多樣性。

最豐富的機器人數據來自遙操作：由人類一遍又一遍地操控機器人完成某項任務。專家示教通常能夠穩定地產生優秀策略，但它很難規模化。每一小時數據都意味著一小時的人類勞動成本；在某些情況下甚至需要更多，因為示教質量本身很重要。更糟的是，每一種機器人、每一種夾爪、每一個實驗室，往往都會產生一套彼此不兼容的小型數據集。GR00T 團隊很貼切地把這種狀況稱為由一個個「數據孤島」組成的群島，而不是一片統一、連貫、互聯網規模的數據海洋。

這與 AI 其他領域的發展路徑形成了對比。在其他 AI 領域，關鍵魔法往往是一樣的：把問題轉化為可以用計算規模化解決的形式。比如，語言建模之所以能夠擴展，是因為文本數據極其豐富，而且可以相對通用地互換使用。機器人學沒有類似的數據洪流。因此，這個領域分化出了兩種策略，用來制造那些無法簡單收集到的數據。

策略一：模擬世界

如果無法從真實世界中收集到足夠多的數據，那就構建一個假的世界，讓機器人在那里免費練習。這正是世界模型和仿真發揮作用的地方。準確地說，仿真是一個更寬泛的概念，指任何能夠足夠好地建模世界、以便在其中練習的系統。世界模型則是一種神經網絡：給定當前狀態和一個動作，它會預測世界接下來會變成什么樣。它學習行動帶來的后果，通常會通過圖像等媒介來表達；更關鍵的是，它從觀察中學習物理規律，而不是依賴人工編寫的規則，因此能夠捕捉目標環境中重要的動態特征。

2025–2026 年，這一方向的關鍵躍遷來自 Google DeepMind 的 Genie 3。它是一個世界模型，只需要文本提示，就能實時生成完全可交互、可導航的 3D 環境，并根據此前幀來預測每一幀。它對機器人學的意義顯而易見：可以提供無限、廉價的訓練場景，包括那些你絕不會想在現實中搭建的危險邊緣案例。Waymo 走的正是這條路線，構建了 Waymo World Model，用來生成同步的攝像頭與激光雷達駕駛場景，其中包含真實車輛幾乎很少遇到的罕見情況。NVIDIA 也發現，在 GR00T 的訓練中混入合成數據，相比只使用真實數據，性能提升了 40%。這個方向的愿景，是把數據問題轉化為計算問題。一旦做到這一點，機器人學就能繼承 AI 其他領域已經享受到的所有優勢。

策略二：向日常生活中的人類學習

第二種策略更隱蔽，在我們看來也更優雅。最具規模化潛力的機器人數據收集器，其實是戴著眼鏡的人，而非機器人。

Meta 的 Ego4D 等項目，以及 Project Aria 眼鏡，徹底重構了這個問題。Ego4D 收集了超過 3000 小時的人類第一視角視頻，記錄的是人們完成日常事務的過程。佐治亞理工的一套系統 EgoMimic 對這一點概括得很準確：當你看到一個龐大的人類第一視角數據集時，你看到的本質上也可以是一個龐大的機器人數據集，只不過它是由人們在日常生活中被動生成的。

你戴上眼鏡，照常生活，就已經在以人類生活本身的規模生產操作數據。那項工作中最引人注意的發現是：額外增加一小時人類手部數據，對機器人的提升效果，超過額外增加一小時機器人數據。

因此，相比需要專門投入人力的遙操作，第一視角數據收集承諾了一種更低額外成本的大規模數據路徑。

訓練

有了架構和數據之后，怎樣才能真正造出一個有能力的機器人？答案是分階段完成，每個階段都有不同目標。

能力是在一個個階段中建立起來的，每一層都建立在前一層之上。

預訓練負責塑造 VLM 主干。你向它輸入海量關于空間推理以及世界一般運行方式的數據，目標是讓它建立起對物理世界的理解和推理能力。

中期訓練負責創建動作專家。目標是得到一個在幾乎任何配置下都能大致工作的「大腦」，它能夠把自身理解轉化為各種動作，并適配多種不同類型的機器人。這需要大量來自不同環境、不同機器人形態的數據。

后訓練，也就是微調，則是把這個通用大腦調適到某個具體身體和一小組具體任務上。比如，把一個通用模型專門適配到某個雙臂機器人系統上，它就能在這種具體形態下開箱即用，并取得還不錯的效果。這個階段，真實世界數據的價值會真正體現出來：遙操作數據和第一視角數據，往往最能直接轉化為現實表現。

部署訓練的目標，是讓機器人適應某一個具體環境，直到它在那里真正安全、真正有用。這正是「能在演示里工作」和「能在你家廚房里工作」之間的差距。許多看起來很驚艷的系統，最后都會在這里悄悄失效。π?.? 之所以有意思，正是因為它試圖縮小這道鴻溝：它被設計用來清理訓練中從未見過的家庭廚房和臥室。它經常能做到，雖然并不完美，但已經能看到一絲類似人類進入陌生房間時所展現出的應變能力。

讓機器人自我教學

但這一切都有上限。一個只靠示教訓練出來的機器人，最多也只能變得和示教一樣好。它學會的是理想路徑，卻沒有學會如何從自己的錯誤中恢復，因為它從未真正見過這些錯誤。這就像只看完美駕駛視頻來學開車一樣：一旦第一次轉錯彎，就會手足無措。

出路在于像人類一樣學習：練習，并接受批評。這就是強化學習：讓機器人嘗試，對結果打分，再強化那些有效的行為。問題在于，你不可能在每一個時刻都監督機器人，也不可能為每一種可能情況都提供樣例。而在真實世界中，不同于模擬器，每一次嘗試都是串行的、緩慢的，還需要人類重新布置場景。因此，物理世界中的強化學習會變得非常困難。

另一種辦法是引入人類干預，這同樣被證明很有用。當機器人進入糟糕或不安全的狀態時，人類可以中斷推理過程，并把它帶回到更好的狀態。這也催生出一系列基于人在回路的學習算法，例如 HIL-SERL。

最近最生動的示范，是 Physical Intelligence 的 π*?.?。它采用了一種名為 RECAP 的訓練方法，把人類掌握一項技能的完整過程編織在了一起：指令學習，也就是觀看示教；指導糾錯，也就是人類遙操作員實時介入，糾正錯誤，并教會機器人如何恢復；以及自主練習，也就是機器人獨立嘗試任務，成千上萬次地執行，對自己打分，并保留有效的做法。

其中還有一個巧妙設計：流匹配模型無法直接使用標準強化學習機制，因此 RECAP 轉而教會模型區分好動作和壞動作，并在部署時直接要求它生成「好」動作。結果是，在疊衣服、制作濃縮咖啡等困難任務上，機器人吞吐量大約翻倍，失敗率降低一半甚至更多，并且能夠幾乎不間斷地運行一整天的咖啡站。

因此，自我改進算法正在解決機器人性能上的關鍵瓶頸，尤其是在泛化能力方面。

閱讀最新前沿科技趨勢報告，請訪問21世紀關鍵技術研究院的“未來知識庫”

未來知識庫是 “21世紀關鍵技術研究院”建立的在線知識庫平臺，收藏的資料范圍包括人工智能、腦科學、互聯網、超級智能，數智大腦、能源、軍事、經濟、人類風險等等領域的前沿進展與未來趨勢。目前擁有超過8000篇重要資料。每周更新不少于100篇世界范圍最新研究資料。歡迎掃描二維碼或訪問https://wx.zsxq.com/group/454854145828進入。

截止到2月28日 ”未來知識庫”精選的百部前沿科技趨勢報告

（加入未來知識庫，全部資料免費閱讀和下載）

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.