網易首頁

網易新聞
網易公開課
網易紅彩
網易嚴選
郵箱大師
網易云課堂

注冊免費郵箱

注冊VIP郵箱（特權郵箱，付費）
免費下載網易官方手機郵箱應用

移動端
網易公開課
網易嚴選
支付
郵箱

網易首頁 > 網易號 > 正文申請入駐

Generalist之后，羅劍嵐團隊推出LWD，也要變革具身智能訓練范式

2026-04-30 13:18:05　來源: 機器之心Pro

北京舉報

0

分享至

編輯｜澤南

這一次，具身智能的范式算是徹底升級了。

智元機器人的辦公室里，最近員工們一上班就能看到機器人熟練地切著水果：

有梨有黃瓜，一通操作完了之后裝進破壁機，打成了健康飲料端上來：

同樣一套設備也能玩轉調酒的全套流程：

或是做工夫茶、整理商品貨架、打包鞋盒等各種任務：

之前每臺機器人只能完成一個任務，現在基于同一個模型的機器人可以承接大量不同任務。而且，在真實世界中持續部署的過程中，它們的性能還會持續不斷地提升。

文中視頻鏈接：https://mp.weixin.qq.com/s/Z9-QfTvW-3kRAzZT2o0-zw

這么全面的能力是如何做到的？答案是直接在真實環境中搞大規模分布式強化學習訓練。它們使用的是全新的具身智能訓練范式：面向通用機器人策略的分布式多機強化學習（LWD）。這一套技術捅破了當前VLA的「天花板」。

LWD

啟動物理世界的飛輪

最近一段時間，VLA（視覺 - 語言 - 動作）大模型出現，通過端到端的訓練范式讓機器人具備了通用泛化能力：只需要收集圖像數據，讀取人類自然語言指令，大模型就能將視覺和語言轉化為空間特征，直接輸出機械臂各個關節的角度和速度，進而完成任務。

但在物理世界里，VLA 具身智能的表現仍然算不上可靠。在長程任務和復雜條件上，機器人頻頻翻車。工程師往往只能將失敗的案例（Corner Case）記錄下來，讓操作員針對特定情況再進行幾十次遙操作演示，重新微調模型。

這就形成了一個折磨人的「打地鼠」模式：物理世界的不可控因素是無窮無盡的，只要遇到沒見過的「地鼠」，機器人就會停擺，只能等待人類工程師來打補丁。

研究人員認為，改變這一現狀的核心點在于把外部提供的人工監督，改為機器人自身的交互經驗。

LWD（Learning While Deploying，部署中學習）是一套讓通才 VLA 策略在真實世界部署中持續自主改進的可擴展強化學習系統，在業內首次實現了具身 VLA 的大規模 RL 預訓練 + 后訓練。該工作由上海創智學院和智元機器人聯合發布，創智學院導師，智元首席科學家羅劍嵐老師團隊完成。

技術報告：《Learning while Deploying: Fleet-Scale Reinforcement Learning for Generalist Robot Policies》
鏈接：https://finch-static.agibot.com/LWD/lwd-paper.pdf
項目頁面：https://finch.agibot.com/research/lwd

這是對具身智能訓練邏輯的一次重構，把機器人從執行工具變成了一個「動態的智能網絡」。此前的 AI 從出廠那一刻起就是產品智力的巔峰，面對物理世界的無盡變化時經常無所適從。LWD 打破了這種靜態，構建了一個由真實世界強化學習（RL）驅動的數據飛輪。

想象一下特斯拉的影子模式（Shadow Mode），但 LWD 走得更深，后者是一個完全閉環的行動系統：

LWD 被定義為集群級（fleet-scale）的離線到在線（offline-to-online）強化學習框架，用于通用 VLA（視覺 - 語言 - 動作）策略的閉環持續訓練。

它從一個預訓練好的 VLA 模型開始，利用收集到的機器人數據，包括專家演示、歷史成功與失敗的 rollout 數據、以及人類探索邊界的「把玩」數據來進行離線強化學習預訓練。這些策略會被部署到機器人集群中，機器人在自主執行任務或由人類接管時，生成的數據會實時混合之前的離線數據，在云端持續更新策略，將進化后的更強「大腦」下發給物理集群。

這使得每一個被部署的機器人既在執行任務，也是提供學習信號的數據源。

LWD pipeline 與算法架構概覽。

在羅劍嵐團隊的具身智能訓練過程中，機器人集群被投放到真實環境中執行理貨、搬運等任務。在執行過程中，機器人身上的傳感器會記錄下每一次觸碰、每一次抓取、以及物體滑落的力覺變化。這些第一手資料被不斷傳回云端，強化學習算法開始對策略進行迭代。

數據飛輪的轉速直接由集群自身的運行規模決定，部署的機器人越多、在真實世界里運行得越久，模型吸取經驗的速度就越快

不僅是實際部署的訓練方式，LWD 的真正靈魂在于從失敗中學習的機制。在傳統的模仿學習眼里，只有人類專家的完美演示才是有效數據，這意味著 AI 只是在「背答案」。LWD 試圖賦予機器人糾偏重試的本能，在其框架下，物理世界里所有類型的交互都能被提取出學習價值，那些搞砸的失敗軌跡也會被全盤吸收。

這些都能教會它如何更好地在復雜的物理世界中維持穩態。

四大維度創新

為了讓 VLA 能夠在現實世界中持續訓練，更好地消化大規模部署的機器人集群數據，攻克超長任務的誤差累積，研究人員在 LWD 的底層架構上實現了四個維度的創新。

首先，LWD 的核心算法組件將價值評估與策略提取分離，這對于將離線到在線強化學習應用于基于流的 VLA 策略至關重要。在價值評估方面，LWD 引入了 DIVL（分布型隱式價值學習）。傳統的強化學習需要去預測一個確切的標量分數，而 DIVL 則是用類似分類的方式擬合出一個「價值分布」，并能根據不確定性自適應調整策略。

這種方法不僅保留了評估的準確性，也很大程度上適應了物理世界中獎勵稀疏、異構的集群經驗回放（Fleet Replay）以及離線到在線的分布偏移場景，確保了即使在任務獎勵極其稀疏、執行序列長達 3-5 分鐘的情況下，系統依然能精準識別出到底是哪一秒的動作決定了最終的成敗。

其次，針對目前先進 VLA 模型普遍采用的復雜流匹配（Flow-matching）架構，LWD 引入QAM（伴隨匹配 Q 學習）來進行策略提取。它將價值網絡引導的動作改進轉化為沿著流軌跡的局部回歸目標，巧妙地繞過了生成模型難以直接反向傳播的阻礙，讓動作模型能高效地聽懂優化指令，無需依賴顯式的動作似然函數，還大幅降低了算力開銷，保障了策略更新的穩定性。

第三項關鍵技術，是專為攻克「長程操作」難題設計的動態多步 TD 策略（Dynamic n-step TD Strategy）。在現實物理任務中，強化學習關注的獎勵極度稀疏。該策略會根據任務長度和訓練階段，智能調整預判未來的「步長（n）」。

例如在離線訓練長程任務時，它會將步長拉大到 n=10，讓成功信號迅速反向傳導穿透整個動作周期；而在實機在線部署時，又會切回到 n=1。

這就完美兼顧了信號回傳的效率，同時極大地降低了模型在線更新時的方差，確保了實機迭代的穩定。

最后，要讓 LWD 整個數據飛輪轉動起來，還需要有一個基礎設施底座。研究人員提出了分段異步 Actor-Learner 架構。在訓練的過程中，現實世界中負責執行和采集數據的「機器人集群（Actor）」與云端集中算力更新策略的「學習器（Learner）」徹底解耦。兩邊的規?？梢元毩U容，互不干擾。前端機器人「隨緣」地異步上傳殘次或成功的軌跡數據，而后端云端通過引入中央協調器打上「快照」截斷，把前端異步的亂流，變成了同步的、全局一致的數據集進行訓練。

這套基礎設施為整套訓練機制帶來了穩定性，前端產生的數據化為云端學習的經驗僅需 41 秒，而云端更新模型后通過發布 - 訂閱頻道推送到機器人端，中位數延遲僅需 38 秒。

真實世界大考

5 分鐘長程操作，超 90% 成功率

為了驗證 LWD 的能力，這套新方法部署到了 16 臺 Agibot G1 雙臂機器人上，并在真實環境中進行了 8 項操作任務測試。

其中最能驗出系統成色的是 4 項分鐘級長程連貫操作任務：泡功夫茶、榨果汁、調雞尾酒以及打包鞋盒。

LWD 進行的評估任務。

在目前大多數機器人的演示視頻中，我們看到的往往是「抓起蘋果放到籃子里」這種持續十幾秒的單一動作，對于商業落地來說，這還遠遠不夠。

真實世界中的具身智能任務通常需要持續 3 到 5 分鐘，包含幾十個連續的物理交互子步驟。在這個漫長的過程中，誤差會像滾雪球一樣累積。泡茶的第一步抓取時偏了 1 厘米，可能導致第三步倒水時灑出，最終導致第五步完全崩潰。

這就要求機器人不僅要動作精準，更需要擁有從中間錯誤狀態中恢復的能力，以及跨越長周期的貢獻度分配（Credit Assignment）能力。

在長任務壓力測試下， LWD 的優勢逐漸凸顯了出來。在所有 8 項任務的綜合評分中，經過在線訓練強化的 LWD (Online) 平均成功率達到了 0.95。作為對比，傳統的純行為克?。⊿FT）只有 0.76，引入了人類干預糾偏的 HG-DAgger 方案為 0.85，而業內先進的離線后訓練方案 RECAP 也止步于 0.85。

各項任務的成功率實驗結果。可見 LWD 實現了卓越的性能，在獲得更高成功率的同時，顯著縮短了周期時間。

八項真實世界操作任務的主要結果，涵蓋了四項雜貨補貨任務和四項長周期任務。LWD (Online) 方法取得了最佳的總平均分（0.95），在全部四項長周期任務中均獲最高分。

在最困難的長程任務組，LWD (Online) 取得了 0.91 的平均得分，甩開了 RECAP 的 0.77 和 Dagger-SOP 的 0.73。在速度上 LWD 也有優勢，其平均循環時間比純行為克隆短了 23.75 秒。

值得一提的是，在這項研究 652.5 小時的離線數據池中，人類專家的完美演示占 51.6%，有多達 34.8% 的內容是完全失敗的交互軌跡，包括歷史策略搞砸的 Rollout，以及人類為了幫助價值函數區分成功與失敗行為而制造的失敗數據。

LWD 賦予了機器人在復雜物理交互中極強的穩定性與從容感，完美印證了飛輪效應的設想。

具身智能也進入「下半場」了？

在人工智能的大語言模型領域，整個行業正在經歷一次重要的共識轉變：算力與資源的重心，正從預訓練（Pre-train）向后訓練（Post-training）傾斜。

去年，AI 研究領域興起了對于大模型「下半場」的討論：為什么現在的 AI 已經能在各種人類考試中超越人類，甚至拿奧賽金牌，但現實世界、經濟和 GDP 卻似乎沒有發生翻天覆地的變化？

人們認為問題在于評估（Evaluation），我們要把真實世界的效用作為新的評估標準，設計出貼近現實世界的新任務和新范式，而不是簡單地設計更難的考卷?；谶@個思路，后訓練正在得到前所未有的重視，近期的一系列基礎大模型也獲得了性能上的突破。

后訓練正在變得越來越重要，這種思考現在也得到了真實物理世界的驗證。LWD 的出現，或許會如同大模型領域的 RLHF 一樣成為轉折點，推動新一輪的 Scale Up。

未來的通用機器人，比拼的不再僅僅是出廠時喂了多少數據，而是在千行百業中部署后主動學習的速度。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

索尼研發乒乓球機器人打敗日本頂尖選手

每日經濟新聞 2026-04-23 17:49:24
1099 跟貼 1099
剛剛，國產AI雙冠王！黑馬世界模型打破全球紀錄，一鏡到底封神

新智元 2026-04-29 21:14:01
2 跟貼 2

每小時造一臺！Figure三代機器人量產提速行業或開啟“軍備競賽”？

財聯社 2026-04-30 13:19:07
0 跟貼 0

LLM數據量大管飽，機器人數據卻連1%的起跑線都沒夠到？

量子位 2026-04-13 20:54:19
0 跟貼 0
亦莊機器人馬拉松現場名場面合集

量子位 2026-04-20 00:34:54
0 跟貼 0

法國科技公司推出全地形機器人，造型一言難盡

裝甲鏟史官 2026-04-29 11:51:39
17 跟貼 17

2.69萬！宇樹最便宜人形機器人來了，王興興化身價格屠夫，這下我真買得起了

智東西 2026-04-30 13:54:30
0 跟貼 0
人形機器人半馬跑姿大賞，有的比人快多了！有的“狀況百出”

每日經濟新聞 2026-04-20 00:25:36
0 跟貼 0

模型自己找視覺線索，小紅書Video-Thinker破解視頻推理困局

機器之心Pro 2026-01-04 14:13:49
0 跟貼 0
香港科技公司推出組合式機器人，靈活性令人驚嘆

裝甲鏟史官 2026-04-30 11:20:43
0 跟貼 0
大模型外掛三維物體知識庫來了，大幅增強機器人長程自主操作能力

DeepTech深科技 2026-04-30 14:08:45
0 跟貼 0
新穎鰭足機器人，水陸兩棲行動自如，適應各種地形

裝甲鏟史官 2025-12-25 10:58:04
0 跟貼 0
宇樹科技王興興：給機器人行業多一點耐心

財聯社 2026-02-18 18:01:39
0 跟貼 0
朱旻琦：具身智能用一天進化一天、聰明一天機器人普及核心痛點是需要二次開發和適配

財聯社 2026-04-17 16:59:02
0 跟貼 0
機器人半馬成績，超越人類紀錄

財聯社 2026-04-20 00:27:12
0 跟貼 0
剛剛開源了！

機器之心Pro 2026-03-25 15:18:26
0 跟貼 0
零樣本 Sim-to-Real ！2

機器之心Pro 2026-03-25 11:40:23
0 跟貼 0
機器人打包運輸的正確方式

裝甲鏟史官 2026-02-22 10:41:15
0 跟貼 0
小紅書大調整！正式成立AI部門和海外業務部夏侯負責核心業務算法

每日經濟新聞 2026-04-30 13:08:07
0 跟貼 0
今天，Claude改變了PS和Blender的玩法！

智東西 2026-04-30 00:00:53
0 跟貼 0
安心養蝦！從OpenClaw 看云上AI安全落地路徑

量子位 2026-04-18 19:55:39
0 跟貼 0
谷歌掀桌：深度研究智能體進入自動駕駛時代

新智元 2026-04-30 11:11:42
1 跟貼 1
AI「生肉證明」堆爆GitHub！陶哲軒重磅發聲：只會解題沒用了

新智元 2026-04-30 13:04:04
0 跟貼 0
人活著的唯一理由是善良

葉檀財經 2026-02-01 17:07:04
19 跟貼 19
小心！你的AI正在一本正經地忽悠你

財聯社 2026-02-05 16:35:01
0 跟貼 0
讓你的龍蝦秒變電影《Her》里的Samantha

量子位 2026-03-23 20:37:07
0 跟貼 0
MIT研究生用NotebookLM兩天學完一學期課程

量子位 2026-03-22 10:50:49
0 跟貼 0
00后小哥復刻Claude最強神話模型OpenMythos

量子位 2026-04-23 11:44:18
0 跟貼 0
Agent斬星6k+，三天搞研究通過實習測試

量子位 2026-04-28 02:50:33
0 跟貼 0
博士生如何用龍蝦做知識管理？歡迎圍觀！

量子位 2026-03-26 23:23:30
0 跟貼 0
如何點亮小龍蝦的牛馬技能包?

量子位 2026-03-18 12:51:26
0 跟貼 0
陶哲軒：AI不能全用，深度思考不行

量子位 2026-03-19 01:35:49
0 跟貼 0
百度沈抖自曝：老忘吃藥，用AI做了個小程序

量子位 2026-03-27 11:25:23
0 跟貼 0
大模型的下半場，屬于擁有云+AI全棧引擎的玩家

量子位 2026-01-30 03:29:45
0 跟貼 0
這個時代必須以Agent為中心：三個趨勢回顧

量子位 2026-04-05 02:14:15
0 跟貼 0
AI Agent是科技革命中的一次真正的范式轉移

量子位 2026-04-03 22:52:35
0 跟貼 0
哈薩比斯出的難題，GPT之父接上了：用一個知識停在1930年的模型

機器之心Pro 2026-04-30 13:20:52
0 跟貼 0
在硅谷，追覓想找怎樣的船票？

虎嗅APP 2026-04-30 11:59:05
0 跟貼 0
懷柔長城100跑山賽上，幾千名跑步的選手，被一臺機器人帶飛！

搞笑脫口秀 2026-04-30 10:21:48
1 跟貼 1
日本造球形攝影機器人，在國際空間站拍攝日常

裝甲鏟史官 2026-04-09 11:33:37
12 跟貼 12

400個垂發，19萬噸“滅國艦隊”到位！美媒：菲見識到解放軍威力

400個垂發，19萬噸“滅國艦隊”到位！美媒：菲見識到解放軍威力

共工之錨

2026-04-29 00:12:08

伊朗動用100億美元穩局面：通脹67%失業暴漲，只?！俺缘蒙巷垺?>
</a>
<h3>
<a href=

2026-04-29 15:31:10

蘇州一對情侶，談了7年，女子提了18次分手，分手后在街頭痛哭！

蘇州一對情侶，談了7年，女子提了18次分手，分手后在街頭痛哭！

川渝視覺

2026-04-17 22:13:14

總有人吐槽56歲許晴身材發福，其實懂體態的人都看得出來

總有人吐槽56歲許晴身材發福，其實懂體態的人都看得出來

小光侃娛樂

2026-04-30 11:25:05

自取其辱！德米拉爾用亞冠金牌嘲諷利雅得勝利 C羅伸五指霸氣回擊

自取其辱！德米拉爾用亞冠金牌嘲諷利雅得勝利 C羅伸五指霸氣回擊

仰臥撐FTUer

2026-04-30 07:42:02

封殺中國20年，如今想進沒門！巴鐵喜提天宮門票，美國只能干瞪眼

封殺中國20年，如今想進沒門！巴鐵喜提天宮門票，美國只能干瞪眼

游古史

2026-04-28 19:29:32

“狡黠”不讀jiǎo jié！也不讀jiǎo xié，別再錯，丟不起那人!

“狡黠”不讀jiǎo jié！也不讀jiǎo xié，別再錯，丟不起那人!

未央看點

2026-04-10 00:09:12

女乒誰天賦最好？不是王楠、鄧亞萍，而是煙酒不離身卻拿59金的她

女乒誰天賦最好？不是王楠、鄧亞萍，而是煙酒不離身卻拿59金的她

傲傲講歷史

2026-04-30 05:05:38

張朝陽：我一不談戀愛、二不喜歡應酬，我有得是錢，沒必要結婚！

張朝陽：我一不談戀愛、二不喜歡應酬，我有得是錢，沒必要結婚！

說點事

2026-04-17 16:40:09

96歲奶奶擺攤10年還清2077萬，但凡稍微“體面”一點，都說不口

96歲奶奶擺攤10年還清2077萬，但凡稍微“體面”一點，都說不口

走讀新生

2026-04-29 10:48:15

副廳長，任工業大學黨委書記

EOL教育在線

2026-04-30 14:18:37

物業費收不齊，虧損止不?。阂荒瓿?00個物業撤場，困局何解？

物業費收不齊，虧損止不?。阂荒瓿?00個物業撤場，困局何解？

大風新聞

2026-04-30 11:26:55

“我的女兒，被這些東西毀掉了！”一盒廉價珠寶，讓家長情緒失控

“我的女兒，被這些東西毀掉了！”一盒廉價珠寶，讓家長情緒失控

妍妍教育日記

2026-04-29 09:25:09

季后賽“廣東德比”二番戰前瞻廣東東陽光能否把系列賽拉回東莞？

季后賽“廣東德比”二番戰前瞻廣東東陽光能否把系列賽拉回東莞？

廣東體育頻道

2026-04-30 13:22:16

亞足聯公示亞戰分配方案：中超2個亞冠精英席位+1個亞冠二席位

亞足聯公示亞戰分配方案：中超2個亞冠精英席位+1個亞冠二席位

云隱南山

2026-04-30 13:42:03

1960年毛主席給汪東興發去緊急密電：我身邊有“老鼠”，快回來抓

1960年毛主席給汪東興發去緊急密電：我身邊有“老鼠”，快回來抓

南書房

2026-04-30 14:25:09

國乒深夜名單突變？19歲溫瑞博或成最慘王牌，走留都已成為死局

國乒深夜名單突變？19歲溫瑞博或成最慘王牌，走留都已成為死局

越嶺尋蹤

2026-04-30 02:43:17

“天然葉酸”被發現！建議一周吃3次，骨骼強壯，防老年癡呆

“天然葉酸”被發現！建議一周吃3次，骨骼強壯，防老年癡呆

暖心萌阿菇涼

2026-04-01 18:58:34

3個前任都是大人物，為何阿sa卻嫁給了健身教練？答案俗套又露骨

3個前任都是大人物，為何阿sa卻嫁給了健身教練？答案俗套又露骨

攬星河的筆記

2026-04-28 22:48:59

網友爆料：南通山姆二店選址這里？

網友爆料：南通山姆二店選址這里？

南通濠生活

2026-04-30 11:22:27

機器之心Pro

專業的人工智能媒體

12894文章數 142640關注度

往期回顧全部

科技要聞

四巨頭財報齊發：AI已經不只是風口

頭條要聞

"上海最通透爸爸"去世女兒:他退休20多年這輩子不虧

頭條要聞

"上海最通透爸爸"去世女兒:他退休20多年這輩子不虧

體育要聞

騎士天王山：哈登、莫布里和……施羅德？

娛樂要聞

孫楊媽媽被曝！過往言行被扒大開眼界

財經要聞

醫美偷稅手法曝光借免稅優惠來避稅被封堵

汽車要聞

上汽一季報出爐在低增長周期里守住基本盤

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

本地

旅游

房產

藝術

公開課

本地新聞

用青花瓷的方式，打開西溪濕地

旅游要聞

Vlog丨來福泉赴一場600年的古城之約

房產要聞

熬了6年，漲了2億，三亞核心區這塊地再次上架

藝術要聞

安東·愛德華·基爾德魯普：19世紀丹麥風景畫家

公開課

李玫瑾：為什么性格比能力更重要？

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
七個無法存下錢的壞習慣
李彥宏：百度離破產30天

© 1997-2026 網易公司版權所有 About NetEase | 公司簡介 | 聯系方法 | 招聘信息 | 客戶服務 | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權投訴

無障礙瀏覽進入關懷版