无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

英偉達(dá)把8個(gè)AI和8臺(tái)機(jī)器人關(guān)在一起,它們學(xué)會(huì)了自己做實(shí)驗(yàn)

0
分享至



如果未來(lái)的機(jī)器人實(shí)驗(yàn)室里沒(méi)有人類研究員,會(huì)發(fā)生什么?

今天,英偉達(dá)高級(jí)研究科學(xué)家、具身智能負(fù)責(zé)人 Jim Fan 公布了一個(gè)名為 “ENPIRE ”的新項(xiàng)目。在這個(gè)實(shí)驗(yàn)室里,8 個(gè) AI coding agent 與 8 臺(tái)機(jī)器人組成了一支“科研團(tuán)隊(duì)”:它們自己設(shè)計(jì)實(shí)驗(yàn)、自己修改代碼、自己驗(yàn)證結(jié)果,并持續(xù)優(yōu)化機(jī)器人策略,而人類研究員只負(fù)責(zé)設(shè)定目標(biāo)和觀察結(jié)果。


圖|ENPIRE 機(jī)器人實(shí)驗(yàn)平臺(tái)(來(lái)源:NVIDIA)

8 個(gè)實(shí)驗(yàn)單元上,各自配備了兩條 6 自由度 YAM 機(jī)械臂、一臺(tái) Intel RealSense 深度攝像頭,以及一臺(tái)搭載單塊 NVIDIA RTX 5090 顯卡(32GB 顯存)的工作站。所有訓(xùn)練、推理和 agent 運(yùn)行均在本地完成,沒(méi)有依賴共享計(jì)算集群。

研究團(tuán)隊(duì)同時(shí)測(cè)試了 Codex、Claude Code 和 Kimi Code 三種 coding agent。在模擬環(huán)境中三者都能夠完成任務(wù),但在真實(shí)機(jī)器人上的表現(xiàn)存在明顯差異,其中 Codex 整體表現(xiàn)最好,達(dá)到目標(biāo)成功率所需時(shí)間最短。

Jim Fan 將其稱為“AutoResearch(自動(dòng)科研)進(jìn)入物理世界的一次嘗試”。他還在帖子中打趣說(shuō),希望以后團(tuán)隊(duì)能全員溜號(hào)去度假,實(shí)驗(yàn)室全靠機(jī)器人和 AI 自己跑,老板黃仁勛都發(fā)現(xiàn)不了。

玩笑歸玩笑,這句話也交代了 ENPIRE 的一個(gè)重要目標(biāo):讓機(jī)器人在真實(shí)環(huán)境中的研發(fā)逐步實(shí)現(xiàn)自主循環(huán)。

這也是 NVIDIA GEAR(Generalist Embodied Agent Research)實(shí)驗(yàn)室近年來(lái) Physical AI 路線的延伸。此前團(tuán)隊(duì)重點(diǎn)關(guān)注機(jī)器人基礎(chǔ)模型、世界模型和仿真平臺(tái),而 ENPIRE 則進(jìn)一步將 attention 轉(zhuǎn)向機(jī)器人研發(fā)流程。目前,相關(guān)技術(shù)論文已經(jīng)同步上線,官方表示全部代碼和系統(tǒng)在未來(lái)都將開(kāi)源。


(來(lái)源:NVIDIA)

給 AI 一個(gè)機(jī)器人身體

在 ENPIRE 中,核心角色是AI coding agent,即能夠自主編寫、執(zhí)行和調(diào)試代碼的 AI 系統(tǒng)。與傳統(tǒng)聊天機(jī)器人不同,它們能夠主動(dòng)調(diào)用工具、運(yùn)行程序,并根據(jù)反饋持續(xù)修改代碼。

過(guò)去,它們只能在屏幕里寫代碼、跑程序;現(xiàn)在,它們?cè)?ENPIRE 中第一次擁有了真實(shí)世界中的機(jī)械臂、攝像頭和實(shí)驗(yàn)對(duì)象。它們寫下的代碼,不只是生成一個(gè)數(shù)字結(jié)果,而是直接驅(qū)動(dòng)機(jī)器人去抓取、插入、剪切和操作真實(shí)物體。

過(guò)去幾年里,自動(dòng)化科研已經(jīng)在數(shù)字世界取得了不少進(jìn)展。去年 Andrej Karpathy 開(kāi)源的 autoresearch 項(xiàng)目,可以讓 AI 自動(dòng)完成模型訓(xùn)練和實(shí)驗(yàn)管理;AI Scientist 等系統(tǒng)則已經(jīng)能夠自動(dòng)生成研究方案、運(yùn)行實(shí)驗(yàn)并撰寫論文。

但這些系統(tǒng)有一個(gè)共同特點(diǎn):它們始終運(yùn)行在數(shù)字環(huán)境之中。代碼運(yùn)行完成就會(huì)得到結(jié)果,模擬器里的物理規(guī)律是確定的,一次失敗可以零成本重新開(kāi)始。

真實(shí)世界則完全不同。機(jī)器人碰撞時(shí)的摩擦力會(huì)發(fā)生變化,物體位置無(wú)法被精確復(fù)原,光照條件和傳感器噪聲也始終在波動(dòng)。論文中提到,在模擬環(huán)境中的“Push-T”(機(jī)器人通過(guò)推動(dòng)而非抓取的方式,將一個(gè) T 形積木移動(dòng)到指定區(qū)域)任務(wù)里,三個(gè)被測(cè)試的 coding agent 全部成功完成了任務(wù);但當(dāng)同樣的方法被部署到真實(shí)機(jī)器人上時(shí),其中兩個(gè) agent 都失敗了。

所以,為了應(yīng)對(duì)真實(shí)世界的非確定性,ENPIRE 整個(gè)系統(tǒng)被拆分為兩個(gè)階段。

第一階段需要少量人類參與。coding agent 首先在人類指導(dǎo)下搭建一套“環(huán)境基礎(chǔ)設(shè)施”,包括安全邊界、自動(dòng)重置和自動(dòng)驗(yàn)證機(jī)制。所謂安全邊界,就是規(guī)定機(jī)器人不能執(zhí)行哪些危險(xiǎn)動(dòng)作;自動(dòng)重置負(fù)責(zé)在實(shí)驗(yàn)結(jié)束后恢復(fù)場(chǎng)景;自動(dòng)驗(yàn)證則負(fù)責(zé)判斷一次操作究竟成功還是失敗。這些模塊一旦完成,就不再修改,而是作為后續(xù)所有實(shí)驗(yàn)共享的基礎(chǔ)設(shè)施。

第二階段則完全自主。獲得環(huán)境接口之后,coding agent 開(kāi)始真正意義上的“研究工作”。它們會(huì)閱讀相關(guān)論文尋找靈感,提出新的算法假設(shè),修改訓(xùn)練代碼,調(diào)整強(qiáng)化學(xué)習(xí)和行為克隆策略的超參數(shù),然后部署到真實(shí)機(jī)器人上驗(yàn)證效果,再根據(jù)實(shí)驗(yàn)結(jié)果繼續(xù)改進(jìn)。

Jim Fan 用一句話概括了這個(gè)過(guò)程:“我們所做的只是為 Codex 提供了一個(gè)通往原子世界的 API,其余的一切都是涌現(xiàn)。”


(來(lái)源:論文)

AI 如何在真實(shí)世界做實(shí)驗(yàn)

為了驗(yàn)證這一框架,研究團(tuán)隊(duì)設(shè)計(jì)了多個(gè)真實(shí)機(jī)器人任務(wù)。一個(gè)是上文提到的 Push-T 任務(wù),團(tuán)隊(duì)要求機(jī)器人通過(guò)推的方式將一個(gè) T 形積木移動(dòng)到指定區(qū)域;還有一個(gè)是插針任務(wù),要求機(jī)器人把大頭針準(zhǔn)確插入直徑僅 4 毫米的孔洞;GPU 插入任務(wù)則是真正將 GPU 插進(jìn)主板插槽;而剪扎帶任務(wù)則要求機(jī)器人拿起剪刀并剪斷扎帶尾部。

這些任務(wù)都涉及高精度操作,其中不少還需要實(shí)時(shí)視覺(jué)反饋和復(fù)雜接觸控制。在團(tuán)隊(duì)發(fā)布的演示視頻中,GPU 插入和剪扎帶也是重點(diǎn)展示的內(nèi)容:前者要求機(jī)器人將 GPU 精確插入主板插槽,后者則涉及抓取剪刀并完成工具使用。

在插針任務(wù)中,agent 的表現(xiàn)尤其值得關(guān)注。為了提高成功率,它們自主嘗試了行為克隆、在線強(qiáng)化學(xué)習(xí)、離線強(qiáng)化學(xué)習(xí)以及多種混合方案,并不斷調(diào)整批量大小、策略更新頻率和正則化參數(shù)。最終,系統(tǒng)實(shí)現(xiàn)了連續(xù) 50 次成功插針的目標(biāo)。

更有意思的是,這支 agent 團(tuán)隊(duì)并不是簡(jiǎn)單地進(jìn)行參數(shù)搜索。團(tuán)隊(duì)的論文附錄展示了一棵“假設(shè)演化樹(shù)(Idea Tree)”,記錄了 agent 在實(shí)驗(yàn)過(guò)程中提出、驗(yàn)證和放棄的各種改進(jìn)思路。不同 agent 會(huì)圍繞獎(jiǎng)勵(lì)設(shè)計(jì)、訓(xùn)練方式、超參數(shù)設(shè)置等方向展開(kāi)探索,再根據(jù)實(shí)驗(yàn)結(jié)果決定哪些路線繼續(xù)保留、哪些路線被淘汰。

其中,僅調(diào)整行為克隆中的一個(gè)正則化項(xiàng),就帶來(lái)了 10.8% 的成功率提升,成為整個(gè)實(shí)驗(yàn)過(guò)程中貢獻(xiàn)最大的單項(xiàng)改動(dòng)。而最終的收斂速度也超過(guò)了此前依賴人類持續(xù)參與的機(jī)器人強(qiáng)化學(xué)習(xí)方法。

機(jī)器人數(shù)量成為新的 scaling 資源?

不過(guò),這些都還不是這個(gè)項(xiàng)目最引人關(guān)注的部分。

研究團(tuán)隊(duì)還發(fā)現(xiàn),當(dāng)機(jī)器人和 coding agent 的數(shù)量增加時(shí),達(dá)到同樣性能目標(biāo)所需的研發(fā)時(shí)間會(huì)明顯縮短。為此,他們搭建了由 1 臺(tái)、4 臺(tái)和 8 臺(tái)機(jī)器人組成的不同規(guī)模實(shí)驗(yàn)系統(tǒng)。結(jié)果顯示,在插針任務(wù)中,1 臺(tái)機(jī)器人需要超過(guò) 1.5 小時(shí)才能達(dá)到接近完美的成功率;4 臺(tái)機(jī)器人縮短到約 50 分鐘;8 臺(tái)機(jī)器人則進(jìn)一步縮短到約 40 分鐘。


(來(lái)源:論文)

多個(gè) coding agent 會(huì)同時(shí)探索不同路線。有的嘗試新的強(qiáng)化學(xué)習(xí)算法,有的修改獎(jiǎng)勵(lì)函數(shù),還有的負(fù)責(zé)調(diào)整訓(xùn)練基礎(chǔ)設(shè)施。一旦某個(gè)方向被證明有效,其他代理會(huì)通過(guò) Git 自動(dòng)復(fù)制、合并甚至直接復(fù)用這些成果;而效果不佳的路線則被快速淘汰。

從形式上看,這有些像一個(gè)由 AI 組成的研究團(tuán)隊(duì):多個(gè) agent 并行開(kāi)展實(shí)驗(yàn),并持續(xù)共享彼此的發(fā)現(xiàn)。這或許也意味著機(jī)器人實(shí)驗(yàn)室開(kāi)始出現(xiàn)類似 AI 領(lǐng)域的“擴(kuò)展效應(yīng)(scaling effect)”。

過(guò)去,大模型能力的提升往往來(lái)自更多 GPU、更多數(shù)據(jù)和更大的參數(shù)規(guī)模;而在 ENPIRE 中,研究團(tuán)隊(duì)開(kāi)始嘗試回答另一個(gè)問(wèn)題:如果增加機(jī)器人數(shù)量和并行實(shí)驗(yàn)規(guī)模,是否也能持續(xù)加快機(jī)器人的學(xué)習(xí)和研發(fā)過(guò)程。

但這種加速也有相應(yīng)的代價(jià)。論文顯示,隨著代理數(shù)量增加,總 token 消耗呈現(xiàn)超線性增長(zhǎng)。原因在于,每個(gè)代理不僅要做自己的實(shí)驗(yàn),還需要持續(xù)閱讀和理解其他代理的研究進(jìn)展。換句話說(shuō),系統(tǒng)用更高的計(jì)算成本換來(lái)了更短的研發(fā)時(shí)間。

另一個(gè)有趣的發(fā)現(xiàn)來(lái)自知識(shí)遷移。

完成插針任務(wù)之后,研究人員要求 agent 總結(jié)自己學(xué)到的經(jīng)驗(yàn),并生成一份 Markdown 文檔。當(dāng)新的 GPU 插入任務(wù)開(kāi)始時(shí),這份總結(jié)被直接附加到任務(wù)說(shuō)明中。結(jié)果顯示,這些文字形式的經(jīng)驗(yàn)總結(jié)能夠幫助 agent 更快掌握新任務(wù)。這說(shuō)明,在 autoresearch 的過(guò)程中被遷移的不是模型參數(shù),也不是訓(xùn)練數(shù)據(jù),而是方法論。這與人類研究者記錄實(shí)驗(yàn)筆記、總結(jié)經(jīng)驗(yàn)再應(yīng)用到新課題的方式頗為相似。

但目前來(lái)看,ENPIRE 還是存在一定的局限性。首先,系統(tǒng)并非完全自主運(yùn)行。研究人員仍需要提前搭建實(shí)驗(yàn)環(huán)境、定義安全邊界、設(shè)計(jì)自動(dòng)驗(yàn)證機(jī)制,并為不同任務(wù)開(kāi)發(fā)對(duì)應(yīng)的重置流程。agent 能夠自主改進(jìn)策略,但實(shí)驗(yàn)平臺(tái)仍然依賴大量前期工程投入。

其次,ENPIRE 目前驗(yàn)證的任務(wù)規(guī)模仍然相對(duì)有限,無(wú)論是 Push-T、插針還是 GPU 插入,本質(zhì)上都屬于結(jié)構(gòu)化程度較高的桌面操作任務(wù)。系統(tǒng)能否擴(kuò)展到更開(kāi)放、更復(fù)雜的真實(shí)環(huán)境,仍有待進(jìn)一步驗(yàn)證。

1.https://x.com/DrJimFan/status/2066921736369766762

2.https://research.nvidia.com/labs/gear/enpire/

運(yùn)營(yíng)/排版:何晨龍

注:封面/首圖由 AI 輔助生成

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
CBA最新消息!郭艾倫迎喜訊,新賽季意向球隊(duì)曝光,或攜名帥沖冠

CBA最新消息!郭艾倫迎喜訊,新賽季意向球隊(duì)曝光,或攜名帥沖冠

王大發(fā)不懂球
2026-06-21 20:46:11
何小鵬,任螞蟻集團(tuán)獨(dú)董

何小鵬,任螞蟻集團(tuán)獨(dú)董

大象新聞
2026-06-22 13:01:31
大冷門!世界杯首支出局強(qiáng)隊(duì),三大天才成笑柄,世界名帥頭號(hào)罪人

大冷門!世界杯首支出局強(qiáng)隊(duì),三大天才成笑柄,世界名帥頭號(hào)罪人

瀲滟晴方DAY
2026-06-21 22:24:58
曝字母哥未來(lái)48小時(shí)被交易!談判進(jìn)最終階段 雄鹿熱火正敲定細(xì)節(jié)

曝字母哥未來(lái)48小時(shí)被交易!談判進(jìn)最終階段 雄鹿熱火正敲定細(xì)節(jié)

羅說(shuō)NBA
2026-06-22 05:53:01
三個(gè)人同在一個(gè)軍,軍長(zhǎng)是中將,副軍長(zhǎng)是少將,師長(zhǎng)卻后來(lái)居上

三個(gè)人同在一個(gè)軍,軍長(zhǎng)是中將,副軍長(zhǎng)是少將,師長(zhǎng)卻后來(lái)居上

史之銘
2026-06-22 01:08:59
工黨“逼宮”成功,英國(guó)首相斯塔默宣布辭職

工黨“逼宮”成功,英國(guó)首相斯塔默宣布辭職

界面新聞
2026-06-22 16:44:21
新聞背景|10年間,英國(guó)6位首相辭職

新聞背景|10年間,英國(guó)6位首相辭職

新華社
2026-06-22 17:41:08
姆巴佩談梅西:我就知道他會(huì)進(jìn)球,但我不會(huì)踢到40歲還在國(guó)家隊(duì)!

姆巴佩談梅西:我就知道他會(huì)進(jìn)球,但我不會(huì)踢到40歲還在國(guó)家隊(duì)!

舟望停云
2026-06-22 11:51:50
6月22日全國(guó)農(nóng)產(chǎn)品批發(fā)市場(chǎng)豬肉平均價(jià)格為14.53元/公斤 比節(jié)前下降0.8%

6月22日全國(guó)農(nóng)產(chǎn)品批發(fā)市場(chǎng)豬肉平均價(jià)格為14.53元/公斤 比節(jié)前下降0.8%

每日經(jīng)濟(jì)新聞
2026-06-22 14:38:11
雷軍:攻擊我的人只是為了流量

雷軍:攻擊我的人只是為了流量

觀察者網(wǎng)
2026-06-22 10:58:21
吃播良子被曝“大結(jié)局”倒計(jì)時(shí):血糖破7牙齒爛光,網(wǎng)友卻祝他“早點(diǎn)猝死”

吃播良子被曝“大結(jié)局”倒計(jì)時(shí):血糖破7牙齒爛光,網(wǎng)友卻祝他“早點(diǎn)猝死”

熱搜摘要官
2026-06-20 00:49:00
非常罕見(jiàn)的老照片:退休多年的華國(guó)鋒,看望生病的老革命家彭真

非常罕見(jiàn)的老照片:退休多年的華國(guó)鋒,看望生病的老革命家彭真

文史季季紅
2026-06-22 12:20:06
再爆冷門,佛得角連續(xù)逼平兩個(gè)世界杯冠軍!門將母親安娜:感謝中國(guó)球迷

再爆冷門,佛得角連續(xù)逼平兩個(gè)世界杯冠軍!門將母親安娜:感謝中國(guó)球迷

上觀新聞
2026-06-22 12:22:05
難怪能當(dāng)兩次總統(tǒng)!特朗普簽完協(xié)議后表示:伊朗等于無(wú)條件投降!

難怪能當(dāng)兩次總統(tǒng)!特朗普簽完協(xié)議后表示:伊朗等于無(wú)條件投降!

熱點(diǎn)背后的故事
2026-06-21 17:53:53
佛得角可能與阿根廷淘汰賽相遇,門將沃齊尼亞:渴望與梅西交手,那將是夢(mèng)想成真

佛得角可能與阿根廷淘汰賽相遇,門將沃齊尼亞:渴望與梅西交手,那將是夢(mèng)想成真

紅星新聞
2026-06-22 16:57:26
40歲上市公司女副總郭智超離世,是資深摩友,死因是意外交通事故

40歲上市公司女副總郭智超離世,是資深摩友,死因是意外交通事故

娛樂(lè)圈圈圓
2026-06-22 10:09:03
245億!深交所史上最大IPO今日申購(gòu)

245億!深交所史上最大IPO今日申購(gòu)

新浪財(cái)經(jīng)
2026-06-22 18:43:38
把俄軍軍工底牌,當(dāng)開(kāi)源網(wǎng)課分享!

把俄軍軍工底牌,當(dāng)開(kāi)源網(wǎng)課分享!

寰球經(jīng)緯所
2026-06-21 15:35:11
一刀封喉!中國(guó)把10家美國(guó)公司“拉黑”,打的就是稀土七寸

一刀封喉!中國(guó)把10家美國(guó)公司“拉黑”,打的就是稀土七寸

起喜電影
2026-06-22 12:37:38
你的父親傳授過(guò)你什么經(jīng)驗(yàn)讓你受益終生網(wǎng)友:事不由東,累死無(wú)功

你的父親傳授過(guò)你什么經(jīng)驗(yàn)讓你受益終生網(wǎng)友:事不由東,累死無(wú)功

夜深愛(ài)雜談
2026-06-20 22:37:58
2026-06-22 19:40:49
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技評(píng)論獨(dú)家合作
16866文章數(shù) 515040關(guān)注度
往期回顧 全部

科技要聞

智譜盤中狂飆超40%,市值破萬(wàn)億港元

頭條要聞

29歲女主持人患癌去世:確診僅幾個(gè)月 申請(qǐng)做大體老師

頭條要聞

29歲女主持人患癌去世:確診僅幾個(gè)月 申請(qǐng)做大體老師

體育要聞

法國(guó)球星祝中國(guó)隊(duì)下屆世界杯取得好成績(jī)

娛樂(lè)要聞

陪睡陪玩是皮毛,向佐揭內(nèi)娛暗規(guī)則

財(cái)經(jīng)要聞

多部門核查"嬰幼兒紙尿褲甲酰胺問(wèn)題"

汽車要聞

華為智駕ADS限時(shí)優(yōu)惠月底結(jié)束 7月1日前下訂立省3000元

態(tài)度原創(chuàng)

藝術(shù)
教育
家居
數(shù)碼
旅游

藝術(shù)要聞

董其昌寫的神仙字,啟功學(xué)了60年也僅得皮毛

教育要聞

中考,是孩子真正的成人禮

家居要聞

綠意盎然 自然之境

數(shù)碼要聞

英特爾擬借Raptor Lake Next盤活DDR4庫(kù)存 游戲本或成重點(diǎn)落點(diǎn)

旅游要聞

文旅觀察丨端午假期,山東小眾旅游市場(chǎng)增勢(shì)明顯

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版