无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

為了讓你燒token,英偉達已經卷到機器人身上了

0
分享至

  • henry 發自 凹非寺
    量子位 | 公眾號 QbitAI

好好好,又給英偉達這家伙,找到了新的燒token的方式(doge)

剛剛,英偉達、CMU和Berkeley聯合推出具身智能Autoresearch框架——

ENPIRE

簡單來說,ENPIRE就是讓AI agent自己做機器人研究,讓8個Coding Agent,各自控制一臺雙臂機器人。



Agent們會自己讀論文、改算法、訓練策略、部署實驗、分析結果、總結經驗,不滿意再換個思路重來。

GEAR的研究員們不用盯著屏幕調參數,只需要第二天早上過來看報告。

在最具代表性的Pin Insertion任務中,僅用了3小時,機器人把針插進4毫米孔洞的成功率從0一路拉到99%。



全程無人類參與,項目負責人之一的Jim Fan發推說:

  • GEAR實驗室的一部分現在已經在徹夜自我改進了。我們只需要早上來讀報告。



不過也有網友表示:

  • 高情商:徹夜自我改進;低情商:沒日沒夜的燒token。

具身智能研究的harness

先說明一點,ENPIRE并不是讓Agent直接寫控制代碼操縱機器人,它更像一個機器人研究員,需要在真實世界里重置實驗場景、檢索文獻、實施想法、驗證結果、分析問題,優化下一輪迭代。

與類似code as policy的方法不同,ENPIRE的最終產物的不是一段控制腳本,而是一個真正能夠部署到機器人上的Policy。

這種給現實環境搭建自動化框架的事兒,之所以難是因為現實世界不像代碼世界。

在代碼世界,Agent寫錯代碼了,大不了刪掉重來;實驗跑崩了,重新啟動即可。

但機器人研究不一樣,實驗失敗之后,物體會歪掉,場景會亂掉,機器人甚至可能把東西碰飛。

如果每輪實驗都要靠研究員手動復位、記錄結果、整理數據,那么Agent根本不可能24小時連續做研究。

所以ENPIRE做的事情,本質上是給AI研究員搭建一套自動化實驗臺。

論文里把它稱為Harness Framework

可以理解為,它給Coding Agent配齊了一整套做物理實驗所需的基礎設施。



這套基礎設施由四部分組成,也正好對應ENPIRE這個名字:

  • EN(Environment)環境模塊:負責搭建實驗環境,包括安全邊界、自動復位和自動評分。
  • PI(Policy Improvement)策略改進:Agent根據任務目標提出新方案。行為克隆、強化學習、啟發式規則,甚至幾種方法混搭,全都可以嘗試。
  • R(Rollout)——部署測試:把新策略部署到真實機器人上執行,記錄軌跡、視頻和傳感器信號。
  • E(Evolution)——進化: 多Agent協作的核心。8個Agent各自占用一臺機器人,通過Git共享代碼,互相吸收有效方案,淘汰失敗路線。

四個模塊連起來之后,就形成了一個完整閉環:

提出想法 → 訓練策略 → 真機測試 → 自動評分 → 總結經驗 → 再提出新想法。

整個過程不需要人工值守,Agent自己負責做實驗,也自己負責從實驗里學習。

而其中最關鍵的一環,其實是Environment模塊。因為它解決的是具身智能研究里最令人頭疼的問題:

怎么讓實驗自動跑起來。

在仿真環境里,復位往往只需要一句:env.reset()

但現實世界沒有env.reset()。

一次失敗實驗結束之后,機器人必須先把場景恢復到初始狀態,下一輪實驗才能開始。

以GPU插拔任務為例,機器人需要先把GPU從主板上拔出來,再移動到指定位置釋放,然后退回初始狀態。

整個過程涉及復雜的力控操作,因為稍有不慎就可能損壞GPU針腳。

自動評分同樣如此。

例如扎帶穿扎任務中,Agent需要判斷:“扎帶尾巴到底有沒有成功穿過扎帶頭?”

為了回答這個問題,Agent甚至自己設計了一套視覺檢測方案。

頂部和側面兩個攝像頭同時觀察目標區域,各自進行圖像分割;只有當兩個視角都確認扎帶尾端已經穿過扎帶頭,系統才會判定實驗成功。

整個檢測延遲被壓縮到150毫秒以內,已經接近人類視覺反應速度。



這些自動復位、自動評分、安全控制接口一旦調通,就會被固化為標準API。

后續Agent做研究時,不再需要關心底層實驗流程。

由此,真實世界終于第一次變成了一個可以被反復調用、持續優化的研究環境。

好的agent不比研究員差

當然,光有實驗平臺還不夠。真正有意思的問題是:

當你把機器人、GPU和Token都準備好之后,Agent到底會不會做研究?

ENPIRE給出的答案是:會,而且還挺像那么回事。

如開頭所說,論文在四個高難度靈巧操作任務上進行了驗證:

Push-T(推動T形積木到目標位置)、Pin Insertion(把針插進4毫米孔洞)、GPU Insertion(把GPU插進主板插槽)以及Zip-tie(扎帶穿扎與剪切)。

最終四個任務全部達到了99%的成功率。

但比結果更有意思的,是Agent達到這個結果的過程,最典型的是Pin Insertion任務。

論文直接公開了Agent的Idea Tree,也就是它完整的研究思路演化過程。

從中可以清楚看到一條非常熟悉的研究路徑:

  • 先試行為克?。˙ehavior Cloning),效果一般;
  • 加入在線強化學習數據,性能開始提升;
  • 再增加正則化項,成功率出現明顯躍升;
  • 隨后繼續調整Batch Size,補償控制器延遲,進一步提升穩定性。

整個過程中,Agent就跟人類研究員一樣,一步一步往上試,一路把成功率從接近零推到接近100%。

整個過程中,沒有人類告訴它應該加什么模塊,也沒有人類規定實驗順序。

所有方案都來自Agent自己提出的假設,再通過真實實驗驗證。

如果把這些記錄隱藏起來,只看研究過程,很難說這和一個機器人博士生在實驗室里做研究有什么本質區別。

更有意思的是,Agent甚至會根據任務特點主動改變研究路線。

在Zip-tie任務中,它很快發現端到端訓練效果并不好。

原因很簡單,因為這個任務實在太長了:

找到剪刀 → 抓起剪刀 → 找到扎帶 → 對準位置 → 完成剪切。

整個操作鏈跨越多個階段,單純依賴端到端策略很難學好,于是Agent自己換了一條路線。

先利用VLA模型(Vision-Language-Action)完成粗定位,再調用工具API執行精細操作。

某種程度上,它甚至自己做了一次系統架構設計。

如果要找一個最直接的參照物,其實就是Karpathy前段時間提出的Autoresearch。

兩者本質上都在做同一件事:讓AI自動提出想法、運行實驗、比較結果,再根據結果繼續迭代。

區別在于,Autoresearch發生在數字世界。代碼寫崩了可以重來,實驗跑錯了可以重啟。

算力幾乎是唯一成本,而ENPIRE第一次把這套研究循環搬進了物理世界,機器人不是代碼。

你沒法對一臺撞壞的機械臂執行Git Revert,真實世界里,摩擦力在變化,物體位置在變化,光照在變化,傳感器也會產生噪聲。

ENPIRE的核心價值,就是通過自動復位、自動評分和安全控制接口,把原本混亂的物理世界包裝成Agent能夠反復調用的實驗環境。

對于Agent來說,真實世界第一次擁有了類似軟件開發環境的可迭代性。

另一個有意思的發現,是所謂的「物理Scaling」。

過去大模型Scaling的是參數、數據和算力,ENPIRE開始Scaling實驗數量。

論文里,8個Agent分別占用8臺機器人,同時探索不同路線。

結果Pin Insertion任務達到目標成功率的時間,從單機器人模式下的1.5小時縮短到40分鐘。



換句話說,如果過去的大模型是在擴展GPU集群,那么ENPIRE擴展的則是機器人艦隊。

當然,這種Scaling并不便宜。

隨著Agent數量增加,每個Agent都需要閱讀其他Agent的代碼、理解別人的發現、總結經驗并同步知識。

因此Token消耗增長得比機器人數量更快,論文甚至專門提出兩個指標來衡量這種代價:

  • Mean Robot Utilization:機器人有多少時間真正用于實驗;
  • Mean Token Utilization:系統每分鐘究竟燒掉多少Token。

看到這里,大概也能理解為什么Jim Fan會這么興奮。因為他們發現,研究本身似乎也開始具備了可擴展性。

甚至連經驗傳承都出現了,論文里有個很有意思的實驗:

Agent在Pin Insertion任務中積累的經驗,被整理成一份文字總結,然后直接塞進GPU Insertion任務的Prompt里。

結果后續研究效率明顯提升,注意,這里遷移的既不是模型權重,也不是訓練數據。

而是一份研究筆記,和人類實驗室傳幫帶時做的事情,幾乎一模一樣。

大平行的最后一塊拼圖

今年5月,Jim Fan在紅杉資本AI Ascent大會上做了一個演講,提出了大平行(The Great Parallel)框架:機器人領域正在加速重走大語言模型走過的路。



如果加上最新的自主研究,語言模型正在經歷四個階段——預訓練、對齊微調、強化學習推理、自主研究。

機器人也在走同樣的四步,只不過每一步的介質從文本變成了物理世界。

前三步英偉達已經有了對應的布局:預訓練階段有EgoScale(用兩萬小時人類第一視角視頻訓練運動先驗)和DreamZero——一種全新的世界動作模型(WAM),用視頻世界模型預測下一物理狀態,替代語言模型預測下一token;對齊階段用少量傳感化人類數據做動作微調;

強化學習階段有Dream Dojo——一個純神經仿真器,不用物理引擎,直接用視頻世界模型生成模擬環境,機器人在”夢境”里做RL。

但第四步——自主研究——在物理世界一直沒有可執行的實現。ENPIRE就是這一步。

一作肖文力(Wenli Xiao)在推特上寫道:

  • Autoresearch終于離開了沙盒,進入了具身世界。



肖文力是CMU機器人系博士生,導師是石冠亞(Guanya Shi),此前在英偉達GEAR實驗室實習了兩年。這篇論文的四位共同一作。



肖文力、謝佳(Jia Xie)、Tonghe ZhangHaotian Lin,全部來自CMU,三位共同指導教師分別是范麟熙(Jim Fan)、朱玉可(Yuke Zhu)(均來自英偉達)和石冠亞(CMU)。

Jim Fan在推特上對ENPIRE的描述大概是整篇論文最有畫面感的概括:

  • 我們給8個Codex agent一個機器人艦隊、一批GPU和充足的token預算。然后人類退場。機器人艦隊開始活過來:它們學會尋找視覺線索,重置場景,練習新技能,修改控制棧,在線讀論文,辯論,反思,卡殼,再直接在硬件上重試。我們所做的一切,就是給Codex一個通往原子世界的API。剩下的是涌現。

ENPIRE將全部開源。理論上,每個人也可以搭建自己的”自運行機器人實驗室”。

前提是你得買得起那8臺機器人、英偉達的GPU,以及跑coding agent的token。


[1]https://x.com/_wenlixiao/status/2066913196641071464

[2]https://research.nvidia.com/labs/gear/enpire/#fleet-scaling

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
馬斯克揭示:全球有影響力的國家都拒中,只因中國制造取代了他們

馬斯克揭示:全球有影響力的國家都拒中,只因中國制造取代了他們

此去經年q
2026-06-20 01:30:10
“繼承權”不用爭了!2026房產繼承新規,父母房子都以后這樣處理

“繼承權”不用爭了!2026房產繼承新規,父母房子都以后這樣處理

復轉這些年
2026-06-15 19:10:29
世界杯出局 土耳其群星崩潰倒地 皇馬9千萬紅星仰天嘆氣 多人痛哭

世界杯出局 土耳其群星崩潰倒地 皇馬9千萬紅星仰天嘆氣 多人痛哭

我愛英超
2026-06-20 13:59:32
女排0-3完敗,世界第1第2狂丟16.88分,中國女排下滑

女排0-3完敗,世界第1第2狂丟16.88分,中國女排下滑

阿衃體育
2026-06-20 18:35:58
德國總理站出來,呼吁27國聯手,用美國搞垮日本那套,來對付中方

德國總理站出來,呼吁27國聯手,用美國搞垮日本那套,來對付中方

共工之錨
2026-06-21 00:15:38
人不會無緣無故患糖尿病!研究發現:得糖尿病的人,離不開這5點

人不會無緣無故患糖尿??!研究發現:得糖尿病的人,離不開這5點

芹姐說生活
2026-06-01 19:10:38
百年信仰,一夜成灰!6月15日夜,俄羅斯導彈命中基輔

百年信仰,一夜成灰!6月15日夜,俄羅斯導彈命中基輔

果媽聊娛樂
2026-06-17 07:52:48
世界杯賭球案告破!金額超10萬+7人被刑拘 罪名確定最高判10年

世界杯賭球案告破!金額超10萬+7人被刑拘 罪名確定最高判10年

念洲
2026-06-20 14:03:07
S400導彈或已被消耗得數量不足!俄軍“馬桶”司令是烏克蘭的福將

S400導彈或已被消耗得數量不足!俄軍“馬桶”司令是烏克蘭的福將

鷹眼Defence
2026-06-20 17:15:32
克宮主人連續保持沉默,佩斯科夫敦促俄羅斯人不要糾結莫斯科遭襲

克宮主人連續保持沉默,佩斯科夫敦促俄羅斯人不要糾結莫斯科遭襲

山河路口
2026-06-19 23:59:51
雷軍直播哽咽回應“營銷”質疑,網友:真誠才是必殺技

雷軍直播哽咽回應“營銷”質疑,網友:真誠才是必殺技

追星雷達站
2026-06-20 00:49:19
0-3完敗倒下!女排世界第1第2敗,狂丟16.88分,中國女排隨之下滑

0-3完敗倒下!女排世界第1第2敗,狂丟16.88分,中國女排隨之下滑

蘭亭墨未干
2026-06-21 03:05:59
六氟化鎢大漲僅是序幕!四大小眾半導體材料,后市上漲空間打開

六氟化鎢大漲僅是序幕!四大小眾半導體材料,后市上漲空間打開

牛鍋巴小釩
2026-06-20 12:49:06
血管好不好,看排汗量就知道?提醒:血管有病的人排汗有這3異常

血管好不好,看排汗量就知道?提醒:血管有病的人排汗有這3異常

芹姐說生活
2026-06-20 23:47:59
16GB+1TB!新機官宣:6月26日,全球首發!

16GB+1TB!新機官宣:6月26日,全球首發!

科技堡壘
2026-06-20 11:52:53
1951年海南剿匪,橫行11年女匪首被捕,老政委看了一眼耳環當場嚇跪

1951年海南剿匪,橫行11年女匪首被捕,老政委看了一眼耳環當場嚇跪

睡前講故事
2026-06-18 19:33:01
傳投資者135億元集體贖回Manus,智譜唐杰回應馬斯克

傳投資者135億元集體贖回Manus,智譜唐杰回應馬斯克

字節漫游指南
2026-06-21 02:07:34
世界杯球迷歧視手勢惹眾怒,官方出手了

世界杯球迷歧視手勢惹眾怒,官方出手了

時光慢旅人
2026-06-20 00:36:57
樊振東早已戳破真相,就算孫穎莎退役,也絕不戀王楚欽、不留國乒

樊振東早已戳破真相,就算孫穎莎退役,也絕不戀王楚欽、不留國乒

傲傲講歷史
2026-06-20 10:37:09
虎撲直男靈魂拷問:絲襪穿久了,腳會有味道嗎?

虎撲直男靈魂拷問:絲襪穿久了,腳會有味道嗎?

時光慢旅人
2026-06-21 00:51:16
2026-06-21 04:20:49
量子位 incentive-icons
量子位
追蹤人工智能動態
12824文章數 176501關注度
往期回顧 全部

科技要聞

DeepSeek上線識圖模式,看誰都像梁文鋒

頭條要聞

女子被困電梯跳出后墜入20米深電梯井身亡 女兒目睹

頭條要聞

女子被困電梯跳出后墜入20米深電梯井身亡 女兒目睹

體育要聞

全隊抱頭痛哭!5億歐土耳其出局 2場轟62腳0進球

娛樂要聞

張凱麗被罵到關評!

財經要聞

金飾克價年內大跌近450元 跌幅最高達26%

汽車要聞

驚出冷汗!重慶實測奧迪A5L,華為智駕這波操作絕了…

態度原創

健康
藝術
教育
家居
時尚

吃粽子的3條保胃法則,消化科醫生推薦

藝術要聞

9個中國建筑獲“2026 RIBA國際卓越獎”

教育要聞

泰州女孩中考后喊媽刷屏,我卻想起了被一句下次努力毀掉的男孩

家居要聞

綠意盎然 自然之境

白背心能顯瘦?關鍵在領口和肩帶

無障礙瀏覽 進入關懷版