近日,AGIBOT WORLD CHALLENGE@ICRA 2026于奧地利維也納完成R2A賽道線下總決賽環(huán)節(jié),賽事整體分為線上選拔與線下落地兩個階段順利收官。
![]()
這是智元機(jī)器人依托 ICRA(國際機(jī)器人與自動化會議)舉辦的具身智能競技賽事,27 個國家及地區(qū)、526 支隊伍參賽,參賽陣容橫跨中科院、清華大學(xué)、中國科學(xué)技術(shù)大學(xué)、加州大學(xué)圣迭戈分校、俄羅斯 Sber Robotics Center,以及阿里、高德、vivo 等產(chǎn)業(yè)方,超百支隊伍突破官方基準(zhǔn)線。
01.
重新定義具身智能評測邏輯的一套賽制
ICRA是機(jī)器人領(lǐng)域公認(rèn)的頂級國際學(xué)術(shù)會議,每年吸引全球頂尖研究團(tuán)隊投稿與參會。智元將AGIBOT WORLD CHALLENGE嵌入ICRA官方體系,這也使其區(qū)別于普通校園賽和純仿真賽,后兩類賽事缺乏真機(jī)驗證環(huán)節(jié),評測結(jié)果與產(chǎn)業(yè)部署的相關(guān)性有限。
![]()
這一定位也體現(xiàn)在賽道的具體設(shè)計上,賽事設(shè)置了兩條核心賽道:R2A(Reasoning to Action,推理-操作)與WM(World Model,世界模型)。前者針對機(jī)器人的全鏈條任務(wù)執(zhí)行能力,后者聚焦世界模型的訓(xùn)練與評測范式。這兩個方向指向業(yè)界公認(rèn)的兩大核心技術(shù)瓶頸——機(jī)器人能否真正理解并執(zhí)行開放式任務(wù),以及模型能否對物理世界建立準(zhǔn)確且可泛化的預(yù)測。
R2A賽道相較去年版本有明顯升級。此前的評測框架偏向單一動作執(zhí)行的準(zhǔn)確率,此次重構(gòu)為"環(huán)境理解—任務(wù)規(guī)劃—動作執(zhí)行"的完整鏈條,考核維度擴(kuò)展到開放詞匯理解、真實物理場景穩(wěn)健交互與長程任務(wù)泛化三個層面,對參賽團(tuán)隊的綜合技術(shù)儲備提出了更高要求,也更接近機(jī)器人真實工作場景的復(fù)雜度。賽道依托Genie Sim 3.0開源仿真平臺與AGIBOT WORLD開源數(shù)據(jù)集完成驗證。
WM賽道的設(shè)計則直接挑戰(zhàn)了行業(yè)慣例。傳統(tǒng)世界模型評測傾向于使用理想化的仿真數(shù)據(jù),軌跡規(guī)整、物理行為可預(yù)測。本屆賽事刻意引入"空抓"、"掉落"等非理想物理軌跡樣本,這些在真實操作中頻繁發(fā)生的失敗動作,在過去的評測體系里往往被過濾掉。將這類數(shù)據(jù)納入訓(xùn)練與評測,是在要求模型具備對真實世界不確定性的處理能力,而非僅僅在受控環(huán)境下刷高分。WM賽道基于EWMBench評測基準(zhǔn),從三個核心維度對世界模型進(jìn)行全方位考核:圖像質(zhì)量(Visual Quality)評估生成畫面的精細(xì)度與清晰度;場景一致性(Scene Consistency)專注于物體在時間和空間上的連貫性,確保場景中的物體不會憑空消失、產(chǎn)生異變或錯位;軌跡遵循度(Action Following)衡量模型對給定動作信號的響應(yīng)準(zhǔn)確度,關(guān)注生成畫面中的動作是否合理、是否符合輸入的動作條件。
![]()
![]()
WM賽道率先完成全部比拼,中科院自動化所聯(lián)合高德 CV Lab 組建的 NeoVerse-ABot 團(tuán)隊拿下冠軍,中科院工業(yè)人工智能研究院PAI@IAII團(tuán)隊、中科大 Loop 團(tuán)隊分列亞季軍。前三名均來自學(xué)術(shù)機(jī)構(gòu)或產(chǎn)學(xué)聯(lián)合團(tuán)隊,在一定程度上反映出當(dāng)前階段世界模型技術(shù)的核心攻關(guān)力量仍主要集中在科研側(cè)。
![]()
Reasoning to Action(R2A)賽道在維也納完成線下收官對決,賽道考核從單一動作執(zhí)行,拓展至環(huán)境理解、任務(wù)規(guī)劃、實體操作全鏈條能力,聚焦彌合仿真到真機(jī)落地鴻溝。最終,來自vivo的PrismBot憑借在四個場景任務(wù)的穩(wěn)定發(fā)揮獲得冠軍,來自上海蘿博派對的RP-VLA獲得第二,線上賽段持續(xù)領(lǐng)跑的俄羅斯團(tuán)隊GreenVLA獲得季軍。
![]()
02.
Sim2Real鴻溝:產(chǎn)業(yè)落地的真正卡點
Sim2Real Gap——算法在仿真環(huán)境中訓(xùn)練后部署到真實機(jī)器上性能顯著下滑,這并非新話題,但在具身智能走向商業(yè)化的當(dāng)下,它已從學(xué)術(shù)層面的技術(shù)挑戰(zhàn)演變?yōu)橹萍s行業(yè)落地速度的實際障礙。
![]()
造成這一鴻溝的原因是多層次的:仿真環(huán)境無法完整復(fù)現(xiàn)真實世界的物理摩擦、光線變化、物體形變與操作誤差;仿真數(shù)據(jù)往往過于"干凈",缺乏真實場景中的噪聲與失敗樣本。硬件個體差異和環(huán)境干擾也難以在仿真中精確建模。
![]()
這些偏差累積起來,導(dǎo)致仿真評分與真機(jī)表現(xiàn)之間存在系統(tǒng)性落差。業(yè)內(nèi)對"刷仿真分?jǐn)?shù)"的質(zhì)疑由來已久。部分團(tuán)隊通過大量仿真迭代拿到漂亮的評測數(shù)字,但換到真機(jī)就表現(xiàn)大幅下滑,學(xué)術(shù)成果難以直接轉(zhuǎn)化為產(chǎn)品能力。
![]()
本屆賽事的規(guī)則設(shè)計直接回應(yīng)了這一問題。硬件層面,組委會要求晉級線下決賽的參賽隊伍統(tǒng)一使用精靈G2機(jī)器人作為真機(jī)參賽平臺,排除了硬件差異對成績的干擾,讓算法能力成為唯一變量,也確保了不同團(tuán)隊之間的成績具有橫向可比性。
![]()
大賽同期智元還聯(lián)合Dexmal原力靈機(jī)打造了行業(yè)首個真實商超場景的全鏈路決策評測賽道,進(jìn)一步驗證真機(jī)落地能力。賽道將考場搬進(jìn)高度還原的真實商超環(huán)境,直擊行業(yè)全身控制(Whole Body Control, WBC)核心痛點。模型需直面貨架層高限制、物品隨機(jī)擺放等不可控物理復(fù)雜性,完成從自主導(dǎo)航、精細(xì)化取貨到行走放置的完整移動操作全序列,徹底告別單一抓取Demo。全程采用API遠(yuǎn)程直連模式,選手代碼直接驅(qū)動真實物理機(jī)器人完成實測,為具身智能全身控制能力提供了真實落地標(biāo)尺。
評測標(biāo)準(zhǔn)層面,賽事聚焦真機(jī)穩(wěn)定性、物理一致性與長程任務(wù)可靠性,而非仿真跑分。這套規(guī)則設(shè)計的底層邏輯是:仿真結(jié)果必須能在真機(jī)上得到驗證,否則評測數(shù)字對產(chǎn)業(yè)決策沒有參考價值。
03.
讓全球團(tuán)隊站上同一起跑線的工具鏈
智元在本屆賽事中配套推出Genie Sim 3.0仿真平臺與AGIBOT WORLD開源數(shù)據(jù)集,結(jié)合統(tǒng)一真機(jī)硬件平臺,共同構(gòu)成了"數(shù)據(jù)集+仿真平臺+硬件真機(jī)"三位一體的全鏈路體系。
![]()
Genie Sim 3.0采用與真機(jī)數(shù)據(jù)同源的設(shè)計思路:仿真環(huán)境的物理參數(shù)、傳感器模擬、交互邏輯與真機(jī)采集數(shù)據(jù)保持對齊,目標(biāo)是壓縮仿真到真機(jī)部署的性能衰減。賽事同步發(fā)布的EWMBench和Genie Sim Benchmark兩套評測基準(zhǔn),其中Genie Sim Benchmark提供多維度、全方位的仿真評測基準(zhǔn),覆蓋機(jī)器人算法核心的五大能力——語言指令理解、空間關(guān)系認(rèn)知、原子技能操作、環(huán)境擾動適應(yīng)和零樣本跨域遷移。兩套基準(zhǔn)主打評測流程自動化、指標(biāo)標(biāo)準(zhǔn)化與結(jié)果可復(fù)現(xiàn),讓不同團(tuán)隊的成果具備橫向?qū)Ρ鹊幕A(chǔ)。
在公平性保障機(jī)制上,EWMBench采用全流程自動評測,消除人為主觀干預(yù);榜單實時滾動更新,在無排隊情況下10分鐘內(nèi)即可出結(jié)果;賽事期間細(xì)分指標(biāo)不對外公開、僅展示總分的"指標(biāo)盲盒"機(jī)制,有效規(guī)避了針對指標(biāo)漏洞的定向hack;每日提測次數(shù)限制則進(jìn)一步杜絕了過擬合式刷分行為。
在數(shù)據(jù)集層面,WM賽道依托AGIBOT WORLD百萬真機(jī)開源數(shù)據(jù)集構(gòu)造了由10個不同任務(wù)組成的訓(xùn)練集,涵蓋超3萬條真實軌跡,覆蓋抓取、放置、推、拉等多樣的機(jī)器人-環(huán)境交互類型。測試集中既包含專家軌跡,也包含空抓、碰抓、掉落等不完美動作軌跡,旨在考察模型對動作信號的跟隨能力以及物理屬性的模擬能力——而這恰是多數(shù)現(xiàn)有評測基準(zhǔn)的盲區(qū):只包含完美軌跡,無法檢驗?zāi)P驮诜植纪猓∣ut-of-Distribution, OOD)情況下能否忠實跟隨動作信號、模擬非理想操作下物體的真實物理屬性。
對參賽團(tuán)隊而言,這套工具鏈的直接價值在于降低入門成本。開展具身智能研究歷來門檻較高,需要自建數(shù)據(jù)采集體系、自購或借用機(jī)器人硬件、自行搭建仿真環(huán)境。對于高校實驗室或早期創(chuàng)業(yè)團(tuán)隊,這些前期投入本身就構(gòu)成了相當(dāng)?shù)馁Y源壁壘。全鏈路開源工具鏈的存在,使得更多沒有重資產(chǎn)條件的團(tuán)隊得以參與技術(shù)競爭,也在客觀上為行業(yè)儲備了具備真機(jī)實操經(jīng)驗的技術(shù)人才。
![]()
從526支參賽隊伍的來源來看,27個國家和地區(qū)中包含俄羅斯、東南亞等機(jī)器人研究資源相對有限的地區(qū),這一覆蓋面在一定程度上反映了統(tǒng)一開放工具鏈對降低參與門檻的實際效果。
工具鏈和統(tǒng)一硬件平臺形成生態(tài)后,其長期效應(yīng)是將全球開發(fā)者和科研團(tuán)隊的技術(shù)積累沉淀在同一套基礎(chǔ)設(shè)施上。隨著使用規(guī)模擴(kuò)大,平臺的數(shù)據(jù)反饋與標(biāo)準(zhǔn)影響力也會同步增強(qiáng)。這也與智元對這套體系的定位一致。
04.
具身智能的評測話語權(quán)之爭
智元合伙人、高級副總裁姚卯青在賽事期間表示,希望通過賽事推動行業(yè)形成"可驗證、可落地"的技術(shù)共識,讓具身智能真正走進(jìn)現(xiàn)實世界。這句話背后,是具身智能評測標(biāo)準(zhǔn)的話語權(quán)問題。
過去幾年,具身智能的評測體系相當(dāng)分散。各家機(jī)構(gòu)采用不同的仿真平臺、不同的任務(wù)設(shè)計、不同的評分口徑,導(dǎo)致橫向比較幾乎無從進(jìn)行。一支團(tuán)隊聲稱在某項任務(wù)上取得顯著進(jìn)展,外部很難判斷這一成果能在多大程度上泛化到其他場景或遷移到真機(jī)。評測體系的碎片化,客觀上拖慢了行業(yè)在技術(shù)方向上形成共識的速度。
![]()
智元通過ICRA這一頂級學(xué)術(shù)會議背書,以及EWMBench、Genie Sim Benchmark兩套自研評測基準(zhǔn)的推出,試圖在評測標(biāo)準(zhǔn)上建立一套可供行業(yè)參照的坐標(biāo)系。ICRA的學(xué)術(shù)認(rèn)可度,確保了這套標(biāo)準(zhǔn)在國際研究社區(qū)具備較高的初始接受度。
EWMBench聚焦Action-conditioned World Model這一細(xì)分賽道,相比主流視頻生成基準(zhǔn)更關(guān)注物理世界的具身交互理解,在與人類主觀判斷一致性上表現(xiàn)更優(yōu)。其差異化價值在于,它并不追求通用視頻生成的視覺保真度或語言對齊,而是針對機(jī)器人操作視頻的特殊結(jié)構(gòu)約束而設(shè)計,在這一場景中,背景布局、物體配置和具身結(jié)構(gòu)應(yīng)保持不變,只有機(jī)器人的姿態(tài)和交互隨指令變化。這一設(shè)計使其能夠更細(xì)致地反映世界模型在機(jī)器人操作中的真實表征保真度與實際效用,而非停留在視覺層面的表面評分。通過引入真機(jī)不完美軌跡,讓評測更貼近世界模型在實際部署中的真實使用場景,而非停留在受控環(huán)境下的理想化表現(xiàn)。
能否真正被行業(yè)采納,還取決于幾個條件:標(biāo)準(zhǔn)本身能否隨場景復(fù)雜度持續(xù)迭代;能否吸引更多獨立機(jī)構(gòu)基于此開展研究;以及能否讓產(chǎn)業(yè)方認(rèn)為評測結(jié)果對實際部署決策有參考價值。在這一點上,本屆賽事中阿里、高德、vivo等產(chǎn)業(yè)團(tuán)隊的參賽,是一個值得關(guān)注的信號,產(chǎn)業(yè)側(cè)的參與意味著這套評測框架被認(rèn)為與實際業(yè)務(wù)場景存在關(guān)聯(lián),而非僅停留在學(xué)術(shù)考核層面。
目前,具身智能評測標(biāo)準(zhǔn)化仍處于早期階段,國際上也有其他團(tuán)隊在推進(jìn)各自的標(biāo)準(zhǔn)化工作。智元通過本屆賽事搭建了一個有內(nèi)容支撐的評測參照系,有望在接下來的時間,通過更多機(jī)構(gòu)的獨立驗證成為行業(yè)通用尺度。
05.
結(jié)語與未來
AGIBOT WORLD CHALLENGE@ICRA 2026所觸及的幾個問題:仿真與真機(jī)的鴻溝、評測標(biāo)準(zhǔn)的碎片化、學(xué)術(shù)成果到產(chǎn)業(yè)部署的轉(zhuǎn)化路徑,這些都是具身智能當(dāng)下面臨的共性挑戰(zhàn)。以真機(jī)驗證為導(dǎo)向的評測體系,配套全鏈路開源工具鏈,在降低行業(yè)重復(fù)建設(shè)成本、推動技術(shù)成果可橫向比較這兩件事上,提供了一種有具體內(nèi)容的實踐方向。具身智能從實驗室走向現(xiàn)實世界,需要的不只是算法突破,更需要可驗證、可復(fù)現(xiàn)、可落地的基礎(chǔ)設(shè)施與評測共識,這或許正是這屆賽事更深遠(yuǎn)的意義所在。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.