重磅！智元GO-2基座模型發(fā)布：具身智能跨過“知行合一”關(guān)鍵門檻

2026-04-09 20:40:04　來源: 機器人大講堂

安徽舉報

分享至

當(dāng)一句“把杯子拿過來”下達給機器人，它能聽懂指令、識別物體、規(guī)劃路徑，卻常在執(zhí)行瞬間動作偏移、抓取失敗。長期困擾具身智能領(lǐng)域的語義與運動銜接不足問題，讓高層推理與底層執(zhí)行相互割裂，最終導(dǎo)致機器人“想得明白，卻做不到位”。

核心原因在于，語義理解與運動控制之間，缺少一套穩(wěn)定、泛化、魯棒的閉環(huán)映射框架。

4月6日，智元機器人正式推出新一代具身智能基座大模型Genie Operator-2（GO-2），以統(tǒng)一架構(gòu)打通從邏輯推理到精準(zhǔn)動作的執(zhí)行閉環(huán)，依托數(shù)萬小時訓(xùn)練數(shù)據(jù)與架構(gòu)創(chuàng)新，在多項機器人基準(zhǔn)測試中取得行業(yè)領(lǐng)先成績。

01.

迭代升級：GO-2 補齊規(guī)劃與執(zhí)行斷層，加速場景落地

2025年3月，智元推出GO-1基座模型，聚焦解決具身智能三大痛點：語義與運動脫節(jié)、泛化能力不足、落地難度高。基于ViLLA架構(gòu)，GO-1實現(xiàn)視覺、語言、動作的統(tǒng)一建模，通過 VLM 多模態(tài)理解層、Latent Planner隱式規(guī)劃器與Action Expert動作專家協(xié)同，完成 “理解-規(guī)劃-執(zhí)行”閉環(huán)，讓機器人動作生成更穩(wěn)定可靠。

搭配Genie Studio一站式開發(fā)平臺，GO-1覆蓋數(shù)據(jù)采集至真機部署全流程，部署效率較傳統(tǒng)方案提升2-3倍，兼容通用數(shù)據(jù)格式，降低開發(fā)者上手與二次開發(fā)成本。該模型先后獲IROS最佳論文提名、機器人頂刊TRO接收、世界人工智能大會SAIL之星等榮譽，已深度集成至Genie Studio平臺，并完成真實場景規(guī)模化落地驗證。

GO-1讓機器人具備可靠的理解能力，能聽懂指令、識別場景、自主規(guī)劃任務(wù)流程。但進入復(fù)雜真實環(huán)境后，機器人雖能輸出合理規(guī)劃，卻難以保證動作精準(zhǔn)落地。

舉個簡單的例子，讓機器人整理廚房，它的邏輯很清晰：先從水池取出碗碟，放進洗碗機，再啟動程序。理論上流程毫無問題，但實際操作中，可能因為視覺誤差抓偏了碗沿，或者轉(zhuǎn)身時手臂軌跡稍有偏移，最終導(dǎo)致碗碟掉落。

問題不在于規(guī)劃本身，而在于規(guī)劃與執(zhí)行之間存在銜接斷層，這也是行業(yè)長期存在的語義 - 運動銜接難題。傳統(tǒng) VLA 模型鏈路為：高層語義推理→抽象表示→控制系統(tǒng)→機器人動作，高層抽象指令與真實機器人動作存在偏差，執(zhí)行階段控制模塊易脫離規(guī)劃，直接依據(jù)視覺信息生成動作，導(dǎo)致長程任務(wù)誤差累積、動作偏離計劃、系統(tǒng)穩(wěn)定性下降。

GO-2 模型聚焦解決規(guī)劃到執(zhí)行的銜接問題，讓機器人不僅能 “看懂、聽懂”，更能穩(wěn)定、可靠地完成物理操作，實現(xiàn)知行合一。

02.

兩大核心架構(gòu)：支撐機器人穩(wěn)定執(zhí)行復(fù)雜動作

要讓機器人穩(wěn)定執(zhí)行任務(wù)，需解決兩大關(guān)鍵：生成可落地的動作規(guī)劃、在真實環(huán)境中穩(wěn)定執(zhí)行規(guī)劃。GO-2 圍繞這兩點構(gòu)建完整架構(gòu)：通過動作思維鏈完成高層動作推理，通過異步雙系統(tǒng)保障穩(wěn)定執(zhí)行。

03.

動作思維鏈：先推理，再執(zhí)行

傳統(tǒng)模型多直接生成動作，GO-2 采用Action Chain-of-Thought（動作思維鏈），在動作空間完成前置推理（論文地址：https://arxiv.org/abs/2601.11404）。機器人先確定高層動作序列，搭建宏觀行為路徑，再逐層拆解為可執(zhí)行步驟，貼近人類動作規(guī)劃邏輯。

ACoT-VLA 架構(gòu)由顯式動作推理器（EAR）與隱式動作推理器（IAR）互補組成。EAR為輕量 Transformer，輸入視覺觀測與語言指令后，通過流匹配生成參考動作軌跡，提供可執(zhí)行運動線索；IAR從VLM 隱層特征中提取視覺可及性、動作語義等潛在先驗，補充隱性行為規(guī)律。

兩者輸出通過交叉注意力融合，送入動作頭完成去噪，生成流暢精準(zhǔn)動作。訓(xùn)練階段采用真實參考軌跡優(yōu)化，推理階段自主生成動作，實現(xiàn)自條件生成。該技術(shù)相關(guān)論文《ACoT-VLA》已于 2026年3月9日被CVPR 2026接收。

04.

異步雙系統(tǒng)：低頻規(guī)劃，高頻精準(zhǔn)跟隨

僅靠高層動作規(guī)劃無法應(yīng)對真實環(huán)境擾動，傳感器噪聲、接觸狀態(tài)變化與場景干擾都會導(dǎo)致執(zhí)行偏差。GO-2 采用異步雙系統(tǒng)架構(gòu)，以解耦節(jié)奏實現(xiàn)規(guī)劃與執(zhí)行的精準(zhǔn)匹配，機器人按“慢決策、快執(zhí)行”協(xié)同工作，穩(wěn)定將高層規(guī)劃轉(zhuǎn)化為真實動作。

該系統(tǒng)由低頻語義規(guī)劃模塊與高頻動作跟隨模塊協(xié)同構(gòu)成。語義規(guī)劃模塊以低頻率運行，負責(zé)生成結(jié)構(gòu)化高層動作序列，從宏觀意圖逐層拆解為分級子動作指令，提供穩(wěn)定執(zhí)行導(dǎo)向；動作跟隨模塊以高頻率運行，實時接收規(guī)劃指令并結(jié)合現(xiàn)場觀測信息生成控制信號，在擾動中動態(tài)修正姿態(tài)、力度與軌跡，始終貼合規(guī)劃路徑。

訓(xùn)練階段引入強制教學(xué)（teacher forcing）機制，以真實高層動作序列為條件并注入規(guī)劃噪聲，讓模型在非完美規(guī)劃下仍可穩(wěn)定執(zhí)行，提升部署魯棒性。

最終，這套“低頻規(guī)劃 + 高頻跟隨”設(shè)計，讓機器人兼顧任務(wù)穩(wěn)定性與精細控制能力，徹底打通規(guī)劃到執(zhí)行的關(guān)鍵鏈路。

05.

四項Benchmark全線第一！GO-2正在定義下一代具身智能標(biāo)準(zhǔn)

在全新架構(gòu)的支撐下，GO-2在多個主流具身智能基準(zhǔn)測試（benchmark）中，均取得了全面SOTA（現(xiàn)有最佳技術(shù)）成績，在任務(wù)成功率、環(huán)境魯棒性以及跨場景泛化能力上，都明顯領(lǐng)先于當(dāng)前主流模型，比如π05、NVIDIAGR00T。

具體來看各基準(zhǔn)測試的表現(xiàn)，亮點十分突出：

? LIBERO Benchmark：GO-2在Spatial（空間）、Object（物體）、Goal（目標(biāo)）與Long（長程）四類任務(wù)中，均拿下排名第一的好成績，平均成功率高達98.5%，展現(xiàn)出極強的基礎(chǔ)任務(wù)執(zhí)行能力。

? LIBERO-Plus Benchmark：這個測試專門設(shè)置了包含相機、光照、背景和噪聲等多種環(huán)境擾動的場景，GO-2在零樣本測試中，平均成功率達到86.6%，遠超目前已有的其他方法，充分體現(xiàn)出超強的環(huán)境適應(yīng)和泛化能力。

? VLA BenchBenchmark：在跨類別與紋理泛化測試中，GO-2平均得分達到47.4，尤其是在紋理泛化任務(wù)上，表現(xiàn)遠優(yōu)于其他同類模型，進一步驗證了其跨場景適配能力。

? Genie Sim3.0 Benchmark(Sim-to-Real)：這是面向真實世界遷移的評測，GO-2僅使用仿真數(shù)據(jù)訓(xùn)練，在真實環(huán)境測試中就取得了82.9%的平均成功率，零樣本跨域遷移能力表現(xiàn)出色，明顯優(yōu)于π0.5的77.5%。

06.

從靜態(tài)模型到持續(xù)進化的生產(chǎn)力系統(tǒng) GO-2模型構(gòu)建規(guī)模化落地閉環(huán)

在實驗室場景的任務(wù)執(zhí)行能力表現(xiàn)出色，但真實場景下這套模型是否具備持續(xù)進化的能力十分關(guān)鍵。研究團隊采用“基座模型+分布式強化學(xué)習(xí)”模式，讓機器人能在真實環(huán)境中不斷學(xué)習(xí)、持續(xù)進化，真正適配實際應(yīng)用中的復(fù)雜需求。

依托Genie Studio開發(fā)平臺，整個系統(tǒng)構(gòu)建起了面向真實世界的閉環(huán)學(xué)習(xí)能力：通過云端與多臺機器人的協(xié)同聯(lián)動，不斷采集機器人與環(huán)境的交互數(shù)據(jù)，再進行在線后訓(xùn)練，讓模型在真實場景中實時優(yōu)化，這一點完全區(qū)別于依賴離線數(shù)據(jù)或仿真環(huán)境做“紙上談兵”的訓(xùn)練。對機器人來說，每一次任務(wù)執(zhí)行，都是一次數(shù)據(jù)積累；每一次環(huán)境反饋，都是一次能力升級。

從官方反饋的數(shù)據(jù)來看，在工程與算法的協(xié)同優(yōu)化下，這套體系已經(jīng)具備了規(guī)模化運行的實力，能夠支持千臺級機器人的調(diào)度與同步訓(xùn)練，訓(xùn)練效率相比以往提升了約10倍；在工業(yè)任務(wù)中，實現(xiàn)了分鐘級收斂，任務(wù)成功率提升2-4倍，同時對數(shù)據(jù)的需求降低了50%以上，大幅降低了落地成本。

通過“預(yù)訓(xùn)練+后訓(xùn)練+數(shù)據(jù)閉環(huán)”的一套體系，GO-2變成了一個能夠扎根真實世界，持續(xù)學(xué)習(xí)、不斷進化，真正能創(chuàng)造價值的生產(chǎn)力系統(tǒng)。

07.

邁向具身Agent：長期記憶補齊智能最后一環(huán)

在GO-2的基礎(chǔ)上，智元正在進一步探索完整的具身智能系統(tǒng)架構(gòu)。當(dāng)機器人已經(jīng)能夠穩(wěn)定行動之后，它能不能記住過往的經(jīng)驗，并且在實踐中不斷變得更聰明？

圍繞這個方向，智元在今年3月率先推出了OpenClaw記憶系統(tǒng)（arXiv:https://arxiv.org/abs/2603.11558），這是一個面向長周期機器人操作任務(wù)的智能體框架，統(tǒng)一數(shù)據(jù)收集、策略學(xué)習(xí)與任務(wù)執(zhí)行全流程，解決傳統(tǒng)視覺-語言-動作（VLA）系統(tǒng)在長周期任務(wù)中依賴人工、易出錯、擴展性差的問題。

框架以視覺-語言模型（VLM）為元控制器，通過上下文學(xué)習(xí)與思維鏈推理，結(jié)合結(jié)構(gòu)化記憶完成環(huán)境感知、任務(wù)規(guī)劃與技能調(diào)度。核心創(chuàng)新是糾纏動作對（EAP），為每個操作策略配對正向執(zhí)行與逆向恢復(fù)行為，形成自復(fù)位循環(huán)，讓機器人無需人工干預(yù)即可持續(xù)采集在線數(shù)據(jù)，大幅降低人力成本。

OpenClaw框架在真實機器人平臺驗證，長周期任務(wù)成功率較基線提升25%，數(shù)據(jù)收集人力投入減少53.7%，子任務(wù)策略經(jīng)迭代數(shù)據(jù)學(xué)習(xí)后成功率明顯提升。

有了這個框架，機器人可以記錄下每次交互的經(jīng)驗，積累各類操作技能，遇到新任務(wù)時，還能直接復(fù)用已經(jīng)掌握的知識，不用再從零開始學(xué)習(xí)。

當(dāng)動作推理、分層執(zhí)行與長期記憶真正結(jié)合，機器人將逐步具備真正的具身Agent能力：感知世界、推理邏輯、執(zhí)行動作、記住經(jīng)驗、再優(yōu)化行動，一個完整的智能閉環(huán)正在慢慢形成。而這，也將成為下一代具身基礎(chǔ)模型的重要發(fā)展方向。

08.

結(jié)語與未來：

智元 GO-2 的發(fā)布，推動具身智能邁向推理與執(zhí)行協(xié)同的新階段。當(dāng)機器人具備感知、理解、物理交互與持續(xù)進化能力，具身智能規(guī)模化落地的進程將進一步加快。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.