編輯|楊文
自動(dòng)化研究,這一次真正走出代碼沙盒,進(jìn)入了真實(shí)的物理世界。
最近,NVIDIA GEAR 實(shí)驗(yàn)室負(fù)責(zé)人 Jim Fan 介紹了一個(gè)名為 ENPIRE 的最新項(xiàng)目。這是他們首次在機(jī)器人硬件上實(shí)現(xiàn)了自動(dòng)化研究
![]()
他們把 8 個(gè) Codex Agent 放到一個(gè)機(jī)器人艦隊(duì)里,分配好 GPU 算力和充足的 token 預(yù)算,只給出一個(gè)簡(jiǎn)單目標(biāo):盡快解決任務(wù)、讓機(jī)器人保持忙碌但確保安全、不要浪費(fèi)算力
接下來(lái)人類就基本退出干預(yù)。Agent 自主驅(qū)動(dòng)整個(gè)閉環(huán),包括自動(dòng)重置場(chǎng)景、搜索文獻(xiàn)、實(shí)現(xiàn)想法并搭建基礎(chǔ)設(shè)施、訓(xùn)練和部署策略、自我驗(yàn)證、分析日志并改代碼,不斷迭代,直到在真實(shí)硬件上可靠完成高精度靈巧任務(wù),比如系扎帶、插針盒整理、安裝 GPU 等。
![]()
視頻鏈接:https://mp.weixin.qq.com/s/5AquJh3AsSdudyrXqAsoAQ
他們還觀察到一種「物理 scaling law」,增加并行機(jī)器人數(shù)量(例如從少量增加到 8 個(gè)),能顯著加快任務(wù)解決速度。
目前,該實(shí)驗(yàn)室的部分系統(tǒng)已實(shí)現(xiàn)徹夜無(wú)人類干預(yù)的自我迭代,研究人員僅需在早晨查看報(bào)告即可。
Jim Fan 稱,未來(lái)目標(biāo)是讓團(tuán)隊(duì)成員安心休假,甚至連 NVIDIA CEO 黃仁勛都察覺(jué)不到實(shí)驗(yàn)室仍在自主運(yùn)行
ENPIRE 項(xiàng)目計(jì)劃完全開(kāi)源,屆時(shí)普通開(kāi)發(fā)者也有望在家中搭建類似的自主機(jī)器人研究系統(tǒng)。
![]()
項(xiàng)目地址:https://research.nvidia.com/labs/gear/enpire/
ENPIRE 系統(tǒng)架構(gòu):四個(gè)模塊構(gòu)成閉環(huán)
ENPIRE 是一個(gè)專為編碼 Agent 設(shè)計(jì)的框架系統(tǒng),通過(guò)四個(gè)核心模塊構(gòu)建可重復(fù)的物理反饋循環(huán):環(huán)境模塊(EN)負(fù)責(zé)自動(dòng)重置和驗(yàn)證,策略改進(jìn)模塊(PI)啟動(dòng)策略優(yōu)化,Rollout 模塊(R)支持單臺(tái)或多臺(tái)機(jī)器人并行評(píng)估策略,進(jìn)化模塊(E)則讓編碼 Agent 分析日志、查閱文獻(xiàn)、改進(jìn)訓(xùn)練基礎(chǔ)設(shè)施和算法代碼以解決失敗模式。
這一閉環(huán)系統(tǒng)將真實(shí)世界機(jī)器人學(xué)習(xí)轉(zhuǎn)化為一個(gè)由 Agent 管理的、可控的優(yōu)化過(guò)程,從而最大限度減少人工投入,同時(shí)支持在不同訓(xùn)練配方和 Agent 變體之間開(kāi)展公平的消融實(shí)驗(yàn)。
在 ENPIRE 的支持下,前沿編程 Agent 能夠自主開(kāi)發(fā)策略,并在 PushT、將插針整理進(jìn)針盒、使用切刀剪斷扎帶等具有挑戰(zhàn)性的真實(shí)世界靈巧操作任務(wù)中,實(shí)現(xiàn) 99% 的成功率。
關(guān)鍵發(fā)現(xiàn):重置環(huán)境比完成任務(wù)本身更容易
其中一個(gè)關(guān)鍵觀察是:對(duì)許多機(jī)器人任務(wù)而言,重置環(huán)境往往比完成任務(wù)本身更容易。
因此,ENPIRE 的做法是,先讓 Agent 通過(guò) Code-as-Policy 構(gòu)建自動(dòng)重置環(huán)境。很多情況下,所謂重置其實(shí)就是一個(gè) pick-and-place 任務(wù),可以由 Cap-X 解決。
隨后,智能體會(huì)編寫基于啟發(fā)式規(guī)則的獎(jiǎng)勵(lì)函數(shù)。研究團(tuán)隊(duì)再將該環(huán)境放入沙箱,并啟動(dòng) Agent 圍繞得分開(kāi)展自動(dòng)化研究。
這也呼應(yīng)了 Karpathy 對(duì)自動(dòng)化研究的定義:這里所說(shuō)的自動(dòng)化研究,并不是簡(jiǎn)單調(diào)一個(gè)超參數(shù),或改動(dòng)某一小段代碼。Agent 會(huì)從互聯(lián)網(wǎng)上探索不同范式,并重寫一切可能推動(dòng)性能提升的部分,包括算法、訓(xùn)練目標(biāo),甚至數(shù)據(jù)加載器。
在插針任務(wù)中,一個(gè) Agent 甚至自行編寫了接觸力安全控制器,其效果超過(guò)了單純調(diào)節(jié)若干強(qiáng)化學(xué)習(xí)參數(shù)。
![]()
新指標(biāo)MRU與MTU
ENPIRE 的擴(kuò)展能力取決于 Agent 團(tuán)隊(duì)規(guī)模和算力資源,只不過(guò)在這里,真正稀缺的資源不是 GPU,而是機(jī)器人時(shí)間。
當(dāng)研究團(tuán)隊(duì)為 Agent 提供 8 臺(tái)機(jī)器人,而不是 1 臺(tái)機(jī)器人時(shí),插針任務(wù)達(dá)到接近完美表現(xiàn)所需的時(shí)間,從 1.5 小時(shí)以上縮短到了約 40 分鐘。這些 Agent 通過(guò) Git 進(jìn)行協(xié)調(diào):共享代碼、放棄不理想的想法,并自主地挑選彼此的最佳運(yùn)行結(jié)果。
![]()
這指向了一個(gè)更大的變化:機(jī)器人研究正在變成一種環(huán)境設(shè)計(jì)工作,即為 coding Agent 搭建可以在其中進(jìn)行自動(dòng)化研究的環(huán)境;算法工作則上移到了更高一層,轉(zhuǎn)向構(gòu)建一種 Agent 能夠自行閉合的反饋循環(huán)。
而這個(gè)循環(huán)會(huì)不斷復(fù)利式累積:Agent 今天掌握的一項(xiàng)技能,明天就會(huì)成為構(gòu)建并重置更困難任務(wù)環(huán)境的基礎(chǔ)模塊。能力會(huì)自舉出新的能力。
![]()
在這一范式下,真正的硬約束是真實(shí)世界交互預(yù)算。
因此,研究團(tuán)隊(duì)提出了兩個(gè)指標(biāo):
- 平均機(jī)器人利用率(Mean Robot Utilization,MRU):機(jī)器人實(shí)際運(yùn)行實(shí)驗(yàn)的時(shí)間占總真實(shí)耗時(shí)的比例。
- 平均 Token 利用率(Mean Token Utilization,MTU):衡量 Agent 將 token 轉(zhuǎn)化為研究進(jìn)展的效率。
在他們的實(shí)驗(yàn)中,MRU 始終低于 50%。也就是說(shuō),機(jī)器人有一半時(shí)間都處于空閑狀態(tài),在等待 Agent 思考。因此,更好的 harness 和更快的模型,會(huì)直接轉(zhuǎn)化為實(shí)際收益。
![]()
PushT 是一個(gè)沿用已久的機(jī)器人操作基準(zhǔn)。通常,要完成這個(gè)任務(wù),需要大量人類示范數(shù)據(jù),再加上數(shù)小時(shí)的行為克隆訓(xùn)練。
![]()
視頻鏈接:https://mp.weixin.qq.com/s/5AquJh3AsSdudyrXqAsoAQ
但他們看到,Codex、Claude Code 和 Kimi Code 都用一套基于規(guī)則的啟發(fā)式方法,在不到 2 小時(shí)內(nèi)「解決」了這個(gè)任務(wù):不使用神經(jīng)網(wǎng)絡(luò),不進(jìn)行訓(xùn)練,也不依賴任何人類數(shù)據(jù)。
![]()
視頻鏈接:https://mp.weixin.qq.com/s/5AquJh3AsSdudyrXqAsoAQ
真實(shí)世界中的啟發(fā)式 PushT,其中機(jī)械臂會(huì)先執(zhí)行 go home 回到初始位姿,以避免遮擋視覺(jué)感知。
為了讓更多人能在家嘗試物理世界中的自動(dòng)化研究,他們基于 @LeRobotHF 的 SO-101 套件 + NVIDIA Jetson Thor 開(kāi)發(fā)了一整套全棧系統(tǒng)。這套系統(tǒng)可以完成 PushT 任務(wù)。
https://x.com/_wenlixiao/status/2066913334994358342
https://x.com/DrJimFan/status/2066921736369766762
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.