當(dāng)一句“把杯子拿過來”下達給機器人,它能聽懂指令、識別物體、規(guī)劃路徑,卻常在執(zhí)行瞬間動作偏移、抓取失敗。長期困擾具身智能領(lǐng)域的語義與運動銜接不足問題,讓高層推理與底層執(zhí)行相互割裂,最終導(dǎo)致機器人“想得明白,卻做不到位”。
核心原因在于,語義理解與運動控制之間,缺少一套穩(wěn)定、泛化、魯棒的閉環(huán)映射框架。
![]()
4月6日,智元機器人正式推出新一代具身智能基座大模型Genie Operator-2(GO-2),以統(tǒng)一架構(gòu)打通從邏輯推理到精準(zhǔn)動作的執(zhí)行閉環(huán),依托數(shù)萬小時訓(xùn)練數(shù)據(jù)與架構(gòu)創(chuàng)新,在多項機器人基準(zhǔn)測試中取得行業(yè)領(lǐng)先成績。
01.
迭代升級:GO-2 補齊規(guī)劃與執(zhí)行斷層,加速場景落地
2025年3月,智元推出GO-1基座模型,聚焦解決具身智能三大痛點:語義與運動脫節(jié)、泛化能力不足、落地難度高。基于ViLLA架構(gòu),GO-1實現(xiàn)視覺、語言、動作的統(tǒng)一建模,通過 VLM 多模態(tài)理解層、Latent Planner隱式規(guī)劃器與Action Expert動作專家協(xié)同,完成 “理解-規(guī)劃-執(zhí)行”閉環(huán),讓機器人動作生成更穩(wěn)定可靠。
![]()
搭配Genie Studio一站式開發(fā)平臺,GO-1覆蓋數(shù)據(jù)采集至真機部署全流程,部署效率較傳統(tǒng)方案提升2-3倍,兼容通用數(shù)據(jù)格式,降低開發(fā)者上手與二次開發(fā)成本。該模型先后獲IROS最佳論文提名、機器人頂刊TRO接收、世界人工智能大會SAIL之星等榮譽,已深度集成至Genie Studio平臺,并完成真實場景規(guī)模化落地驗證。
![]()
GO-1讓機器人具備可靠的理解能力,能聽懂指令、識別場景、自主規(guī)劃任務(wù)流程。但進入復(fù)雜真實環(huán)境后,機器人雖能輸出合理規(guī)劃,卻難以保證動作精準(zhǔn)落地。
舉個簡單的例子,讓機器人整理廚房,它的邏輯很清晰:先從水池取出碗碟,放進洗碗機,再啟動程序。理論上流程毫無問題,但實際操作中,可能因為視覺誤差抓偏了碗沿,或者轉(zhuǎn)身時手臂軌跡稍有偏移,最終導(dǎo)致碗碟掉落。
問題不在于規(guī)劃本身,而在于規(guī)劃與執(zhí)行之間存在銜接斷層,這也是行業(yè)長期存在的語義 - 運動銜接難題。傳統(tǒng) VLA 模型鏈路為:高層語義推理→抽象表示→控制系統(tǒng)→機器人動作,高層抽象指令與真實機器人動作存在偏差,執(zhí)行階段控制模塊易脫離規(guī)劃,直接依據(jù)視覺信息生成動作,導(dǎo)致長程任務(wù)誤差累積、動作偏離計劃、系統(tǒng)穩(wěn)定性下降。
GO-2 模型聚焦解決規(guī)劃到執(zhí)行的銜接問題,讓機器人不僅能 “看懂、聽懂”,更能穩(wěn)定、可靠地完成物理操作,實現(xiàn)知行合一。
02.
兩大核心架構(gòu):支撐機器人穩(wěn)定執(zhí)行復(fù)雜動作
要讓機器人穩(wěn)定執(zhí)行任務(wù),需解決兩大關(guān)鍵:生成可落地的動作規(guī)劃、在真實環(huán)境中穩(wěn)定執(zhí)行規(guī)劃。GO-2 圍繞這兩點構(gòu)建完整架構(gòu):通過動作思維鏈完成高層動作推理,通過異步雙系統(tǒng)保障穩(wěn)定執(zhí)行。
![]()
03.
動作思維鏈:先推理,再執(zhí)行
傳統(tǒng)模型多直接生成動作,GO-2 采用Action Chain-of-Thought(動作思維鏈),在動作空間完成前置推理(論文地址:https://arxiv.org/abs/2601.11404)。機器人先確定高層動作序列,搭建宏觀行為路徑,再逐層拆解為可執(zhí)行步驟,貼近人類動作規(guī)劃邏輯。
ACoT-VLA 架構(gòu)由顯式動作推理器(EAR)與隱式動作推理器(IAR)互補組成。EAR為輕量 Transformer,輸入視覺觀測與語言指令后,通過流匹配生成參考動作軌跡,提供可執(zhí)行運動線索;IAR從VLM 隱層特征中提取視覺可及性、動作語義等潛在先驗,補充隱性行為規(guī)律。
![]()
兩者輸出通過交叉注意力融合,送入動作頭完成去噪,生成流暢精準(zhǔn)動作。訓(xùn)練階段采用真實參考軌跡優(yōu)化,推理階段自主生成動作,實現(xiàn)自條件生成。該技術(shù)相關(guān)論文《ACoT-VLA》已于 2026年3月9日被CVPR 2026接收。
04.
異步雙系統(tǒng):低頻規(guī)劃,高頻精準(zhǔn)跟隨
僅靠高層動作規(guī)劃無法應(yīng)對真實環(huán)境擾動,傳感器噪聲、接觸狀態(tài)變化與場景干擾都會導(dǎo)致執(zhí)行偏差。GO-2 采用異步雙系統(tǒng)架構(gòu),以解耦節(jié)奏實現(xiàn)規(guī)劃與執(zhí)行的精準(zhǔn)匹配,機器人按“慢決策、快執(zhí)行”協(xié)同工作,穩(wěn)定將高層規(guī)劃轉(zhuǎn)化為真實動作。
該系統(tǒng)由低頻語義規(guī)劃模塊與高頻動作跟隨模塊協(xié)同構(gòu)成。語義規(guī)劃模塊以低頻率運行,負責(zé)生成結(jié)構(gòu)化高層動作序列,從宏觀意圖逐層拆解為分級子動作指令,提供穩(wěn)定執(zhí)行導(dǎo)向;動作跟隨模塊以高頻率運行,實時接收規(guī)劃指令并結(jié)合現(xiàn)場觀測信息生成控制信號,在擾動中動態(tài)修正姿態(tài)、力度與軌跡,始終貼合規(guī)劃路徑。
訓(xùn)練階段引入強制教學(xué)(teacher forcing)機制,以真實高層動作序列為條件并注入規(guī)劃噪聲,讓模型在非完美規(guī)劃下仍可穩(wěn)定執(zhí)行,提升部署魯棒性。
![]()
最終,這套“低頻規(guī)劃 + 高頻跟隨”設(shè)計,讓機器人兼顧任務(wù)穩(wěn)定性與精細控制能力,徹底打通規(guī)劃到執(zhí)行的關(guān)鍵鏈路。
05.
四項Benchmark全線第一!GO-2正在定義下一代具身智能標(biāo)準(zhǔn)
在全新架構(gòu)的支撐下,GO-2在多個主流具身智能基準(zhǔn)測試(benchmark)中,均取得了全面SOTA(現(xiàn)有最佳技術(shù))成績,在任務(wù)成功率、環(huán)境魯棒性以及跨場景泛化能力上,都明顯領(lǐng)先于當(dāng)前主流模型,比如π05、NVIDIAGR00T。
具體來看各基準(zhǔn)測試的表現(xiàn),亮點十分突出:
? LIBERO Benchmark:GO-2在Spatial(空間)、Object(物體)、Goal(目標(biāo))與Long(長程)四類任務(wù)中,均拿下排名第一的好成績,平均成功率高達98.5%,展現(xiàn)出極強的基礎(chǔ)任務(wù)執(zhí)行能力。
![]()
? LIBERO-Plus Benchmark:這個測試專門設(shè)置了包含相機、光照、背景和噪聲等多種環(huán)境擾動的場景,GO-2在零樣本測試中,平均成功率達到86.6%,遠超目前已有的其他方法,充分體現(xiàn)出超強的環(huán)境適應(yīng)和泛化能力。
![]()
? VLA BenchBenchmark:在跨類別與紋理泛化測試中,GO-2平均得分達到47.4,尤其是在紋理泛化任務(wù)上,表現(xiàn)遠優(yōu)于其他同類模型,進一步驗證了其跨場景適配能力。
![]()
? Genie Sim3.0 Benchmark(Sim-to-Real):這是面向真實世界遷移的評測,GO-2僅使用仿真數(shù)據(jù)訓(xùn)練,在真實環(huán)境測試中就取得了82.9%的平均成功率,零樣本跨域遷移能力表現(xiàn)出色,明顯優(yōu)于π0.5的77.5%。
![]()
06.
從靜態(tài)模型到持續(xù)進化的生產(chǎn)力系統(tǒng) GO-2模型構(gòu)建規(guī)模化落地閉環(huán)
在實驗室場景的任務(wù)執(zhí)行能力表現(xiàn)出色,但真實場景下這套模型是否具備持續(xù)進化的能力十分關(guān)鍵。研究團隊采用“基座模型+分布式強化學(xué)習(xí)”模式,讓機器人能在真實環(huán)境中不斷學(xué)習(xí)、持續(xù)進化,真正適配實際應(yīng)用中的復(fù)雜需求。
![]()
依托Genie Studio開發(fā)平臺,整個系統(tǒng)構(gòu)建起了面向真實世界的閉環(huán)學(xué)習(xí)能力:通過云端與多臺機器人的協(xié)同聯(lián)動,不斷采集機器人與環(huán)境的交互數(shù)據(jù),再進行在線后訓(xùn)練,讓模型在真實場景中實時優(yōu)化,這一點完全區(qū)別于依賴離線數(shù)據(jù)或仿真環(huán)境做“紙上談兵”的訓(xùn)練。對機器人來說,每一次任務(wù)執(zhí)行,都是一次數(shù)據(jù)積累;每一次環(huán)境反饋,都是一次能力升級。
從官方反饋的數(shù)據(jù)來看,在工程與算法的協(xié)同優(yōu)化下,這套體系已經(jīng)具備了規(guī)模化運行的實力,能夠支持千臺級機器人的調(diào)度與同步訓(xùn)練,訓(xùn)練效率相比以往提升了約10倍;在工業(yè)任務(wù)中,實現(xiàn)了分鐘級收斂,任務(wù)成功率提升2-4倍,同時對數(shù)據(jù)的需求降低了50%以上,大幅降低了落地成本。
![]()
通過“預(yù)訓(xùn)練+后訓(xùn)練+數(shù)據(jù)閉環(huán)”的一套體系,GO-2變成了一個能夠扎根真實世界,持續(xù)學(xué)習(xí)、不斷進化,真正能創(chuàng)造價值的生產(chǎn)力系統(tǒng)。
07.
邁向具身Agent:長期記憶補齊智能最后一環(huán)
在GO-2的基礎(chǔ)上,智元正在進一步探索完整的具身智能系統(tǒng)架構(gòu)。當(dāng)機器人已經(jīng)能夠穩(wěn)定行動之后,它能不能記住過往的經(jīng)驗,并且在實踐中不斷變得更聰明?
![]()
圍繞這個方向,智元在今年3月率先推出了OpenClaw記憶系統(tǒng)(arXiv:https://arxiv.org/abs/2603.11558),這是一個面向長周期機器人操作任務(wù)的智能體框架,統(tǒng)一數(shù)據(jù)收集、策略學(xué)習(xí)與任務(wù)執(zhí)行全流程,解決傳統(tǒng)視覺-語言-動作(VLA)系統(tǒng)在長周期任務(wù)中依賴人工、易出錯、擴展性差的問題。
![]()
框架以視覺-語言模型(VLM)為元控制器,通過上下文學(xué)習(xí)與思維鏈推理,結(jié)合結(jié)構(gòu)化記憶完成環(huán)境感知、任務(wù)規(guī)劃與技能調(diào)度。核心創(chuàng)新是糾纏動作對(EAP),為每個操作策略配對正向執(zhí)行與逆向恢復(fù)行為,形成自復(fù)位循環(huán),讓機器人無需人工干預(yù)即可持續(xù)采集在線數(shù)據(jù),大幅降低人力成本。
OpenClaw框架在真實機器人平臺驗證,長周期任務(wù)成功率較基線提升25%,數(shù)據(jù)收集人力投入減少53.7%,子任務(wù)策略經(jīng)迭代數(shù)據(jù)學(xué)習(xí)后成功率明顯提升。
有了這個框架,機器人可以記錄下每次交互的經(jīng)驗,積累各類操作技能,遇到新任務(wù)時,還能直接復(fù)用已經(jīng)掌握的知識,不用再從零開始學(xué)習(xí)。
![]()
當(dāng)動作推理、分層執(zhí)行與長期記憶真正結(jié)合,機器人將逐步具備真正的具身Agent能力:感知世界、推理邏輯、執(zhí)行動作、記住經(jīng)驗、再優(yōu)化行動,一個完整的智能閉環(huán)正在慢慢形成。而這,也將成為下一代具身基礎(chǔ)模型的重要發(fā)展方向。
08.
結(jié)語與未來:
智元 GO-2 的發(fā)布,推動具身智能邁向推理與執(zhí)行協(xié)同的新階段。當(dāng)機器人具備感知、理解、物理交互與持續(xù)進化能力,具身智能規(guī)模化落地的進程將進一步加快。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.