无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁

網易新聞
網易公開課
網易紅彩
網易嚴選
郵箱大師
網易云課堂

注冊免費郵箱

注冊VIP郵箱（特權郵箱，付費）
免費下載網易官方手機郵箱應用

移動端
網易公開課
網易嚴選
支付
郵箱

網易首頁 > 網易號 > 正文申請入駐

為了讓你燒token，英偉達已經卷到機器人身上了

2026-06-20 20:08:22　來源: 量子位

北京舉報

0

分享至

henry 發自凹非寺
量子位 | 公眾號 QbitAI

好好好，又給英偉達這家伙，找到了新的燒token的方式（doge）

剛剛，英偉達、CMU和Berkeley聯合推出具身智能Autoresearch框架——

ENPIRE

簡單來說，ENPIRE就是讓AI agent自己做機器人研究，讓8個Coding Agent，各自控制一臺雙臂機器人。

Agent們會自己讀論文、改算法、訓練策略、部署實驗、分析結果、總結經驗，不滿意再換個思路重來。

GEAR的研究員們不用盯著屏幕調參數，只需要第二天早上過來看報告。

在最具代表性的Pin Insertion任務中，僅用了3小時，機器人把針插進4毫米孔洞的成功率從0一路拉到99%。

全程無人類參與，項目負責人之一的Jim Fan發推說：

GEAR實驗室的一部分現在已經在徹夜自我改進了。我們只需要早上來讀報告。

不過也有網友表示：

高情商：徹夜自我改進；低情商：沒日沒夜的燒token。

具身智能研究的harness

先說明一點，ENPIRE并不是讓Agent直接寫控制代碼操縱機器人，它更像一個機器人研究員，需要在真實世界里重置實驗場景、檢索文獻、實施想法、驗證結果、分析問題，優化下一輪迭代。

與類似code as policy的方法不同，ENPIRE的最終產物的不是一段控制腳本，而是一個真正能夠部署到機器人上的Policy。

這種給現實環境搭建自動化框架的事兒，之所以難是因為現實世界不像代碼世界。

在代碼世界，Agent寫錯代碼了，大不了刪掉重來；實驗跑崩了，重新啟動即可。

但機器人研究不一樣，實驗失敗之后，物體會歪掉，場景會亂掉，機器人甚至可能把東西碰飛。

如果每輪實驗都要靠研究員手動復位、記錄結果、整理數據，那么Agent根本不可能24小時連續做研究。

所以ENPIRE做的事情，本質上是給AI研究員搭建一套自動化實驗臺。

論文里把它稱為Harness Framework

可以理解為，它給Coding Agent配齊了一整套做物理實驗所需的基礎設施。

這套基礎設施由四部分組成，也正好對應ENPIRE這個名字：

EN（Environment）環境模塊：負責搭建實驗環境，包括安全邊界、自動復位和自動評分。
PI（Policy Improvement）策略改進：Agent根據任務目標提出新方案。行為克隆、強化學習、啟發式規則，甚至幾種方法混搭，全都可以嘗試。
R（Rollout）——部署測試：把新策略部署到真實機器人上執行，記錄軌跡、視頻和傳感器信號。
E（Evolution）——進化：多Agent協作的核心。8個Agent各自占用一臺機器人，通過Git共享代碼，互相吸收有效方案，淘汰失敗路線。

四個模塊連起來之后，就形成了一個完整閉環：

提出想法 → 訓練策略 → 真機測試 → 自動評分 → 總結經驗 → 再提出新想法。

整個過程不需要人工值守，Agent自己負責做實驗，也自己負責從實驗里學習。

而其中最關鍵的一環，其實是Environment模塊。因為它解決的是具身智能研究里最令人頭疼的問題：

怎么讓實驗自動跑起來。

在仿真環境里，復位往往只需要一句：env.reset()

但現實世界沒有env.reset()。

一次失敗實驗結束之后，機器人必須先把場景恢復到初始狀態，下一輪實驗才能開始。

以GPU插拔任務為例，機器人需要先把GPU從主板上拔出來，再移動到指定位置釋放，然后退回初始狀態。

整個過程涉及復雜的力控操作，因為稍有不慎就可能損壞GPU針腳。

自動評分同樣如此。

例如扎帶穿扎任務中，Agent需要判斷：“扎帶尾巴到底有沒有成功穿過扎帶頭？”

為了回答這個問題，Agent甚至自己設計了一套視覺檢測方案。

頂部和側面兩個攝像頭同時觀察目標區域，各自進行圖像分割；只有當兩個視角都確認扎帶尾端已經穿過扎帶頭，系統才會判定實驗成功。

整個檢測延遲被壓縮到150毫秒以內，已經接近人類視覺反應速度。

這些自動復位、自動評分、安全控制接口一旦調通，就會被固化為標準API。

后續Agent做研究時，不再需要關心底層實驗流程。

由此，真實世界終于第一次變成了一個可以被反復調用、持續優化的研究環境。

好的agent不比研究員差

當然，光有實驗平臺還不夠。真正有意思的問題是：

當你把機器人、GPU和Token都準備好之后，Agent到底會不會做研究？

ENPIRE給出的答案是：會，而且還挺像那么回事。

如開頭所說，論文在四個高難度靈巧操作任務上進行了驗證：

Push-T（推動T形積木到目標位置）、Pin Insertion（把針插進4毫米孔洞）、GPU Insertion（把GPU插進主板插槽）以及Zip-tie（扎帶穿扎與剪切）。

最終四個任務全部達到了99%的成功率。

但比結果更有意思的，是Agent達到這個結果的過程，最典型的是Pin Insertion任務。

論文直接公開了Agent的Idea Tree，也就是它完整的研究思路演化過程。

從中可以清楚看到一條非常熟悉的研究路徑：

先試行為克?。˙ehavior Cloning），效果一般；
加入在線強化學習數據，性能開始提升；
再增加正則化項，成功率出現明顯躍升；
隨后繼續調整Batch Size，補償控制器延遲，進一步提升穩定性。

整個過程中，Agent就跟人類研究員一樣，一步一步往上試，一路把成功率從接近零推到接近100%。

整個過程中，沒有人類告訴它應該加什么模塊，也沒有人類規定實驗順序。

所有方案都來自Agent自己提出的假設，再通過真實實驗驗證。

如果把這些記錄隱藏起來，只看研究過程，很難說這和一個機器人博士生在實驗室里做研究有什么本質區別。

更有意思的是，Agent甚至會根據任務特點主動改變研究路線。

在Zip-tie任務中，它很快發現端到端訓練效果并不好。

原因很簡單，因為這個任務實在太長了：

找到剪刀 → 抓起剪刀 → 找到扎帶 → 對準位置 → 完成剪切。

整個操作鏈跨越多個階段，單純依賴端到端策略很難學好，于是Agent自己換了一條路線。

先利用VLA模型（Vision-Language-Action）完成粗定位，再調用工具API執行精細操作。

某種程度上，它甚至自己做了一次系統架構設計。

如果要找一個最直接的參照物，其實就是Karpathy前段時間提出的Autoresearch。

兩者本質上都在做同一件事：讓AI自動提出想法、運行實驗、比較結果，再根據結果繼續迭代。

區別在于，Autoresearch發生在數字世界。代碼寫崩了可以重來，實驗跑錯了可以重啟。

算力幾乎是唯一成本，而ENPIRE第一次把這套研究循環搬進了物理世界，機器人不是代碼。

你沒法對一臺撞壞的機械臂執行Git Revert，真實世界里，摩擦力在變化，物體位置在變化，光照在變化，傳感器也會產生噪聲。

ENPIRE的核心價值，就是通過自動復位、自動評分和安全控制接口，把原本混亂的物理世界包裝成Agent能夠反復調用的實驗環境。

對于Agent來說，真實世界第一次擁有了類似軟件開發環境的可迭代性。

另一個有意思的發現，是所謂的「物理Scaling」。

過去大模型Scaling的是參數、數據和算力，ENPIRE開始Scaling實驗數量。

論文里，8個Agent分別占用8臺機器人，同時探索不同路線。

結果Pin Insertion任務達到目標成功率的時間，從單機器人模式下的1.5小時縮短到40分鐘。

換句話說，如果過去的大模型是在擴展GPU集群，那么ENPIRE擴展的則是機器人艦隊。

當然，這種Scaling并不便宜。

隨著Agent數量增加，每個Agent都需要閱讀其他Agent的代碼、理解別人的發現、總結經驗并同步知識。

因此Token消耗增長得比機器人數量更快，論文甚至專門提出兩個指標來衡量這種代價：

Mean Robot Utilization：機器人有多少時間真正用于實驗；
Mean Token Utilization：系統每分鐘究竟燒掉多少Token。

看到這里，大概也能理解為什么Jim Fan會這么興奮。因為他們發現，研究本身似乎也開始具備了可擴展性。

甚至連經驗傳承都出現了，論文里有個很有意思的實驗：

Agent在Pin Insertion任務中積累的經驗，被整理成一份文字總結，然后直接塞進GPU Insertion任務的Prompt里。

結果后續研究效率明顯提升，注意，這里遷移的既不是模型權重，也不是訓練數據。

而是一份研究筆記，和人類實驗室傳幫帶時做的事情，幾乎一模一樣。

大平行的最后一塊拼圖

今年5月，Jim Fan在紅杉資本AI Ascent大會上做了一個演講，提出了大平行（The Great Parallel）框架：機器人領域正在加速重走大語言模型走過的路。

如果加上最新的自主研究，語言模型正在經歷四個階段——預訓練、對齊微調、強化學習推理、自主研究。

機器人也在走同樣的四步，只不過每一步的介質從文本變成了物理世界。

前三步英偉達已經有了對應的布局：預訓練階段有EgoScale（用兩萬小時人類第一視角視頻訓練運動先驗）和DreamZero——一種全新的世界動作模型（WAM），用視頻世界模型預測下一物理狀態，替代語言模型預測下一token；對齊階段用少量傳感化人類數據做動作微調；

強化學習階段有Dream Dojo——一個純神經仿真器，不用物理引擎，直接用視頻世界模型生成模擬環境，機器人在”夢境”里做RL。

但第四步——自主研究——在物理世界一直沒有可執行的實現。ENPIRE就是這一步。

一作肖文力（Wenli Xiao）在推特上寫道：

Autoresearch終于離開了沙盒，進入了具身世界。

肖文力是CMU機器人系博士生，導師是石冠亞（Guanya Shi），此前在英偉達GEAR實驗室實習了兩年。這篇論文的四位共同一作。

肖文力、謝佳（Jia Xie）、Tonghe ZhangHaotian Lin，全部來自CMU，三位共同指導教師分別是范麟熙（Jim Fan）、朱玉可（Yuke Zhu）（均來自英偉達）和石冠亞（CMU）。

Jim Fan在推特上對ENPIRE的描述大概是整篇論文最有畫面感的概括：

我們給8個Codex agent一個機器人艦隊、一批GPU和充足的token預算。然后人類退場。機器人艦隊開始活過來：它們學會尋找視覺線索，重置場景，練習新技能，修改控制棧，在線讀論文，辯論，反思，卡殼，再直接在硬件上重試。我們所做的一切，就是給Codex一個通往原子世界的API。剩下的是涌現。

ENPIRE將全部開源。理論上，每個人也可以搭建自己的”自運行機器人實驗室”。

前提是你得買得起那8臺機器人、英偉達的GPU，以及跑coding agent的token。

[1]https://x.com/_wenlixiao/status/2066913196641071464

[2]https://research.nvidia.com/labs/gear/enpire/#fleet-scaling

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

全球AI資本開支高增，通信鏈條進入景氣周期

每日經濟新聞 2026-06-12 09:30:06
0 跟貼 0
索尼研發乒乓球機器人打敗日本頂尖選手

每日經濟新聞 2026-04-23 17:49:24
1643 跟貼 1643

一文看懂芯片產業鏈：誰在撐起AI時代的算力帝國

鈦媒體APP 2026-06-09 13:41:35
3 跟貼 3

AI Agent時代的云基礎設施是怎樣的？你需要理解“Agent Runtime完整飛輪”

華爾街見聞官方 2026-06-20 17:51:21
0 跟貼 0
機器人半馬成績，超越人類紀錄

財聯社 2026-04-20 00:27:12
1 跟貼 1

亞馬遜高管證實洽售自研AI芯片與英偉達爭奪數據中心市場

財聯社 2026-06-19 01:09:12
0 跟貼 0

AI時代的"光進銅退"：為什么光互連是算力爆炸的唯一出路？

鈦媒體APP 2026-06-11 19:11:13
0 跟貼 0
給世界模型加上因果，她要讓機器人真正理解“為什么”

DeepTech深科技 2026-06-20 11:32:15
1 跟貼 1

卡位智能體支付：大廠密集布局的風口與暗礁

鈦媒體APP 2026-06-19 09:39:11
0 跟貼 0
持續領跑世界模型驅動物理AGI，極佳視界再獲10億元B2輪融資

36氪 2026-06-19 17:24:18
0 跟貼 0
半年20余倍增長，一個中國Token工廠的生意飛輪

虎嗅APP 2026-06-20 15:30:07
4 跟貼 4
100多萬人圍觀！沒頭沒腿，神似充電寶的機器人全網走紅？

機器之心Pro 2026-06-17 18:52:08
0 跟貼 0
萬幀照片級仿真2

機器之心Pro 2026-05-07 17:57:19
0 跟貼 0
520，人類如何回應AI的告白

虎嗅APP 2026-05-20 20:04:19
0 跟貼 0
朱旻琦：具身智能用一天進化一天、聰明一天機器人普及核心痛點是需要二次開發和適配

財聯社 2026-04-17 16:59:02
0 跟貼 0
人形機器人半馬跑姿大賞，有的比人快多了！有的“狀況百出”

每日經濟新聞 2026-04-20 00:25:36
0 跟貼 0
LLM數據量大管飽，機器人數據卻連1%的起跑線都沒夠到？

量子位 2026-04-13 20:54:19
0 跟貼 0
新穎鰭足機器人，水陸兩棲行動自如，適應各種地形

裝甲鏟史官 2025-12-25 10:58:04
0 跟貼 0
朗極智能面向構建智能機器人系統發力2

36氪 2026-05-18 12:47:03
0 跟貼 0
剛剛開源了！

機器之心Pro 2026-03-25 15:18:26
0 跟貼 0
亦莊機器人馬拉松現場名場面合集

量子位 2026-04-20 00:34:54
0 跟貼 0
機器人打包運輸的正確方式

裝甲鏟史官 2026-02-22 10:41:15
0 跟貼 0
美國三家最強AI公司，怎么都去搞生命科學了？

DeepTech深科技 2026-06-20 20:30:03
6 跟貼 6
小鵬副總裁回應“L3L4自動駕駛強制使用激光雷達”：新國標連激光雷達這個詞都沒提到

紅星資本局 2026-06-20 12:58:06
1814 跟貼 1814
野人先生創始人崔漸為：打冰淇淋的手藝之美是人之于機器人最大的不同

財聯社 2026-06-16 13:24:42
0 跟貼 0
馬斯克說明年Q1，唐杰說用不了那么久，誰在悶頭做中國的Mythos？

機器之心Pro 2026-06-20 18:03:45
2 跟貼 2
諾獎得主、AlphaFold之父投奔Anthropic！谷歌48小時連跑倆大將

量子位 2026-06-20 17:43:42
1 跟貼 1
大神程序員蒸餾自己，用16個skill給AI注入軟件工程之魂

量子位 2026-05-12 03:08:58
0 跟貼 0
安心養蝦！從OpenClaw看云上AI安全落地路徑

量子位 2026-03-31 20:40:57
0 跟貼 0
MIT研究生用NotebookLM兩天學完一學期課程

量子位 2026-03-22 10:50:49
0 跟貼 0
一行命令,給Agent裝上147個科研skill

量子位 2026-06-18 23:41:56
0 跟貼 0
博士生如何用龍蝦做知識管理？歡迎圍觀！

量子位 2026-03-26 23:23:30
0 跟貼 0
“AI領域最被濫用的術語”李飛飛終于把世界模型講明白了

量子位 2026-06-07 04:37:43
0 跟貼 0
這個時代必須以Agent為中心：三個趨勢回顧

量子位 2026-04-05 02:14:15
0 跟貼 0
AI Agent是科技革命中的一次真正的范式轉移

量子位 2026-04-03 22:52:35
0 跟貼 0
Agent輸出到底該用誰？卡帕西轉發：試試讓AI輸出HTML

量子位 2026-05-13 07:19:50
0 跟貼 0
百度沈抖自曝：老忘吃藥，用AI做了個小程序

量子位 2026-03-27 11:25:23
0 跟貼 0
Anthropic的AI讀心術，讓人類讀懂大模型在想啥

量子位 2026-05-10 23:00:57
0 跟貼 0
00后小哥復刻Claude最強神話模型OpenMythos

量子位 2026-04-23 11:44:18
0 跟貼 0
王曉野：Working Agent將是下一個爆發點

量子位 2026-05-21 08:05:51
0 跟貼 0

馬斯克揭示：全球有影響力的國家都拒中，只因中國制造取代了他們

馬斯克揭示：全球有影響力的國家都拒中，只因中國制造取代了他們

此去經年q

2026-06-20 01:30:10

“繼承權”不用爭了！2026房產繼承新規，父母房子都以后這樣處理

“繼承權”不用爭了！2026房產繼承新規，父母房子都以后這樣處理

復轉這些年

2026-06-15 19:10:29

世界杯出局土耳其群星崩潰倒地皇馬9千萬紅星仰天嘆氣多人痛哭

世界杯出局土耳其群星崩潰倒地皇馬9千萬紅星仰天嘆氣多人痛哭

我愛英超

2026-06-20 13:59:32

女排0-3完敗，世界第1第2狂丟16.88分，中國女排下滑

女排0-3完敗，世界第1第2狂丟16.88分，中國女排下滑

阿衃體育

2026-06-20 18:35:58

德國總理站出來，呼吁27國聯手，用美國搞垮日本那套，來對付中方

德國總理站出來，呼吁27國聯手，用美國搞垮日本那套，來對付中方

共工之錨

2026-06-21 00:15:38

人不會無緣無故患糖尿病！研究發現：得糖尿病的人，離不開這5點

人不會無緣無故患糖尿??！研究發現：得糖尿病的人，離不開這5點

芹姐說生活

2026-06-01 19:10:38

百年信仰，一夜成灰！6月15日夜，俄羅斯導彈命中基輔

百年信仰，一夜成灰！6月15日夜，俄羅斯導彈命中基輔

果媽聊娛樂

2026-06-17 07:52:48

世界杯賭球案告破！金額超10萬+7人被刑拘罪名確定最高判10年

世界杯賭球案告破！金額超10萬+7人被刑拘罪名確定最高判10年

念洲

2026-06-20 14:03:07

S400導彈或已被消耗得數量不足！俄軍“馬桶”司令是烏克蘭的福將

S400導彈或已被消耗得數量不足！俄軍“馬桶”司令是烏克蘭的福將

鷹眼Defence

2026-06-20 17:15:32

克宮主人連續保持沉默，佩斯科夫敦促俄羅斯人不要糾結莫斯科遭襲

克宮主人連續保持沉默，佩斯科夫敦促俄羅斯人不要糾結莫斯科遭襲

山河路口

2026-06-19 23:59:51

雷軍直播哽咽回應“營銷”質疑，網友：真誠才是必殺技

雷軍直播哽咽回應“營銷”質疑，網友：真誠才是必殺技

追星雷達站

2026-06-20 00:49:19

0-3完敗倒下！女排世界第1第2敗，狂丟16.88分，中國女排隨之下滑

0-3完敗倒下！女排世界第1第2敗，狂丟16.88分，中國女排隨之下滑

蘭亭墨未干

2026-06-21 03:05:59

六氟化鎢大漲僅是序幕！四大小眾半導體材料，后市上漲空間打開

六氟化鎢大漲僅是序幕！四大小眾半導體材料，后市上漲空間打開

牛鍋巴小釩

2026-06-20 12:49:06

血管好不好，看排汗量就知道？提醒：血管有病的人排汗有這3異常

血管好不好，看排汗量就知道？提醒：血管有病的人排汗有這3異常

芹姐說生活

2026-06-20 23:47:59

16GB+1TB！新機官宣：6月26日，全球首發！

16GB+1TB！新機官宣：6月26日，全球首發！

科技堡壘

2026-06-20 11:52:53

1951年海南剿匪,橫行11年女匪首被捕,老政委看了一眼耳環當場嚇跪

1951年海南剿匪,橫行11年女匪首被捕,老政委看了一眼耳環當場嚇跪

睡前講故事

2026-06-18 19:33:01

傳投資者135億元集體贖回Manus，智譜唐杰回應馬斯克

傳投資者135億元集體贖回Manus，智譜唐杰回應馬斯克

字節漫游指南

2026-06-21 02:07:34

世界杯球迷歧視手勢惹眾怒，官方出手了

世界杯球迷歧視手勢惹眾怒，官方出手了

時光慢旅人

2026-06-20 00:36:57

樊振東早已戳破真相，就算孫穎莎退役，也絕不戀王楚欽、不留國乒

樊振東早已戳破真相，就算孫穎莎退役，也絕不戀王楚欽、不留國乒

傲傲講歷史

2026-06-20 10:37:09

虎撲直男靈魂拷問：絲襪穿久了，腳會有味道嗎？

虎撲直男靈魂拷問：絲襪穿久了，腳會有味道嗎？

時光慢旅人

2026-06-21 00:51:16

追蹤人工智能動態

12824文章數 176501關注度

往期回顧全部

科技要聞

DeepSeek上線識圖模式，看誰都像梁文鋒

頭條要聞

女子被困電梯跳出后墜入20米深電梯井身亡女兒目睹

頭條要聞

女子被困電梯跳出后墜入20米深電梯井身亡女兒目睹

體育要聞

全隊抱頭痛哭!5億歐土耳其出局 2場轟62腳0進球

娛樂要聞

張凱麗被罵到關評！

財經要聞

金飾克價年內大跌近450元跌幅最高達26%

汽車要聞

驚出冷汗！重慶實測奧迪A5L，華為智駕這波操作絕了…

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

健康

藝術

教育

家居

時尚

吃粽子的3條保胃法則，消化科醫生推薦

藝術要聞

9個中國建筑獲“2026 RIBA國際卓越獎”

教育要聞

泰州女孩中考后喊媽刷屏，我卻想起了被一句下次努力毀掉的男孩

家居要聞

綠意盎然自然之境

空間微調移形換境
自由流光回溯生活真意
雅奢之序五層別墅

白背心能顯瘦？關鍵在領口和肩帶

© 1997-2026 網易公司版權所有 About NetEase | 公司簡介 | 聯系方法 | 招聘信息 | 客戶服務 | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權投訴

無障礙瀏覽進入關懷版