亚洲中文字幕乱码亚洲-蜜桃成熟视频在线观看-免费中文字幕视频在线-中国五十路熟妇洗澡视频-亚洲av伊人啪啪c-国产精品成人一区二区-国产自拍视频一区在线观看-成人一区不卡二区三区四区-亚洲情精品中文字幕99在线

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

具身大模型:先對齊評測,再對齊世界

0
分享至

過去兩年,我們見過太多絲滑的機器人Demo,除了跳舞、打球等動作秀,還有端茶倒水、疊衣服、做飯等日常任務(wù)。

但這些視頻的共同特點是,發(fā)布完論文或視頻,就銷聲匿跡,你永遠(yuǎn)不知道,它在現(xiàn)實中到底是什么樣。

這就是具身智能現(xiàn)在的核心矛盾:網(wǎng)上炒得火熱,但還停留在“視頻時代”。

最近,隨著宇樹科技IPO持續(xù)升溫,這個問題也越來越受到重視。特別是宇樹在招股書中提到,擬募資 42 億人民幣,其中半數(shù)資金砸向“智能機器人模型研發(fā)項目”,也就是俗稱的具身模型。

宇樹的成功,本質(zhì)上是硬件工程能力的勝利。成本控制、運動控制、量產(chǎn)能力,這些都已經(jīng)被驗證。

但行業(yè)已經(jīng)進(jìn)入一個階段,市場真正想要的,是另一件事:誰能做出通用的具身模型?



01.

具身模型“關(guān)公戰(zhàn)秦瓊”

如果你熟悉 AI 相關(guān)的最新研究,就會發(fā)現(xiàn)每隔一段時間,就會有來自公司或高校的研究團(tuán)隊,號稱在具身模型、VLA(視覺-語言-動作模型)上取得了突破。

它們在 Isaac Gym 或 ManiSkill 等仿真環(huán)境里,在一些任務(wù)上,展現(xiàn)出了驚人的成功率,達(dá)到 90% 甚至是 95%。模型在虛擬實驗室里動作優(yōu)雅、邏輯無瑕,好像具身智能的 ChatGPT 時刻已經(jīng)不遠(yuǎn)了。

這些研究當(dāng)然很有價值,但它們有一個根本性問題:仿真環(huán)境與真實世界之間存在巨大的現(xiàn)實差距(Sim2Real Gap)。

在仿真環(huán)境中,物體材質(zhì)、摩擦系數(shù)、傳感器噪聲、物體擺放方式等,都是可控的,而現(xiàn)實世界是不可控的。



這也是為什么,很多模型在論文里 SOTA,一上真機就崩。這種現(xiàn)象在機器人領(lǐng)域非常普遍,也是具身智能遲遲無法大規(guī)模落地的重要原因之一。

Demo 視頻越來越多,論文越來越多,但大家很難真正比較不同模型之間的能力差異,就像是“關(guān)公戰(zhàn)秦瓊”。

問題不在模型數(shù)量,而在缺乏 Benchmark。

02.

RoboChallenge:具身智能的評測基礎(chǔ)

行業(yè)迫切需要一個類似 ImageNet、GLUE、Arena 這樣的真實世界統(tǒng)一評測標(biāo)準(zhǔn),讓不同模型可以在同一環(huán)境下進(jìn)行橫向比較。

正是在這樣的背景下,RoboChallenge出現(xiàn)了。

RoboChallenge 由原力靈機與 Hugging Face 聯(lián)合發(fā)起,被認(rèn)為是全球首個大規(guī)模、多任務(wù)的真實機器人評測基準(zhǔn)平臺。



與傳統(tǒng)機器人競賽不同,RoboChallenge 的核心思想是建立一個類似大語言模型 LMSYS Arena 的評測體系:

  • 統(tǒng)一機器人硬件(UR5、Franka、ALOHA 等)
  • 統(tǒng)一任務(wù)
  • 統(tǒng)一評測指標(biāo)
  • 模型遠(yuǎn)程提交
  • 在真實機器人上執(zhí)行
  • 公開排行榜
  • 可復(fù)現(xiàn)結(jié)果

研究人員即使沒有機器人,也可以通過遠(yuǎn)程調(diào)用真實機器人測試算法,這大幅降低了具身智能研究的門檻。

這解決了一個核心問題:不同模型可以橫向比較,模型好不好,直接上機跑。

更關(guān)鍵的是,RoboChallenge不僅給分?jǐn)?shù),還給失敗軌跡。這點極其重要,因為傳統(tǒng)的機器人競賽,通常只關(guān)注最終的成功率,但對于具身模型來說,知道怎么失敗的,更有價值。開發(fā)者可以通過分析失敗環(huán)節(jié),來進(jìn)行針對性的微調(diào)和優(yōu)化。

RoboChallenge 的目標(biāo)不是做一次比賽,而是建立一個長期的評測基礎(chǔ)設(shè)施,推動具身智能從實驗室智能,走向現(xiàn)實世界智能。

截至目前:RoboChallenge 已執(zhí)行超過4萬次真機測試,單日提交達(dá)到181次,就像是機器人的工業(yè)級測試流水線。

03.

具身智能的殘酷真相

RoboChallenge 在2025年下半年才推出,但已經(jīng)暴露出了當(dāng)前具身模型的很多問題和真相。

RoboChallenge 包括名為 Table30 桌面操作基準(zhǔn)測試集,其中有 30 個精心設(shè)計的日常情境任務(wù)(一般競賽或評測的任務(wù)僅有 3-5 個),例如整理物品、抓取物體、插線、擺放物品等。

從表面上看,這些任務(wù)似乎只是簡單的桌面操作,但從能力結(jié)構(gòu)來看,這類任務(wù)實際上覆蓋了具身智能最核心的能力組合:視覺理解、語言理解、任務(wù)規(guī)劃、精細(xì)操作、長時序決策、泛化能力等等。

換句話說,Table30 是在測試具身模型是否具備通用操作能力。



RoboChallenge 前不久發(fā)布了年度報告。結(jié)論概括來說:

  • 榜首模型成功率約 50%。
  • 模型在基礎(chǔ)抓取任務(wù)上的成功率比較高,但在精細(xì)操作和長任務(wù)鏈任務(wù)上,成功率明顯下降,比如“制作三明治”這個任務(wù)還沒有模型能完成。

這說明什么?我們距離“通用操作智能”,還差很遠(yuǎn)。

有了客觀的評測體系,才能真正衡量模型的水平。

04.

具身智能不缺模型,缺排行榜

如果回顧人工智能過去十幾年的發(fā)展,會發(fā)現(xiàn)一個非常清晰的規(guī)律:幾乎所有重大技術(shù)突破,都伴隨著公開基準(zhǔn)測試與排行榜競爭。例如:

  • ImageNet 推動了深度學(xué)習(xí)視覺模型的發(fā)展
  • GLUE / SuperGLUE 推動了 NLP 模型發(fā)展
  • LMSYS Arena 推動了大語言模型競爭

公開 Benchmark 的作用不僅僅是比較模型性能,更重要的是,它能統(tǒng)一技術(shù)目標(biāo)、提供可復(fù)現(xiàn)的評測方法、加速技術(shù)路線收斂、吸引更多研究者參與。

具身智能領(lǐng)域長期沒有類似大語言模型領(lǐng)域的 benchmark,因此技術(shù)路線非常分散,很多團(tuán)隊做的是 Demo,而不是可復(fù)現(xiàn)系統(tǒng)。

RoboChallenge 的意義,可能正是在這里。

很多人討論具身智能時,往往只關(guān)注模型本身,但實際上,具身智能是一個典型的系統(tǒng)工程,其進(jìn)步也要依靠完整的基礎(chǔ)設(shè)施。

除了算力、算法、數(shù)據(jù)、硬件等環(huán)節(jié),評測體系是連接模型與應(yīng)用的關(guān)鍵環(huán)節(jié)。如果沒有統(tǒng)一評測體系,就無法判斷模型是否真的進(jìn)步,也無法形成行業(yè)共識。

從這個角度看,具身智能行業(yè)目前最缺的反而不是模型,而是一個公正的排行榜。

在今年的 AI 國際頂會 CVPR 上,還將舉行 RoboChallenge CVPR 2026 機器人比賽。到時,Table30 V2 的預(yù)覽版也將上線發(fā)布。



Table V2會從任務(wù)升級、評測升級到系統(tǒng)升級三個維度深度重構(gòu),也會對具身模型進(jìn)行了全方位的極限壓測。

如果你正在做具身智能、VLA、機器人控制,不要只做Demo,只做視頻,應(yīng)該去參與打榜比賽。

未來幾年,具身智能領(lǐng)域真正的技術(shù)突破,很可能會首先體現(xiàn)在 RoboChallenge 的排行榜上。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
俄羅斯梁贊州向各單位下達(dá)征兵命令,翻譯成中文很親切

俄羅斯梁贊州向各單位下達(dá)征兵命令,翻譯成中文很親切

李未熟擒話2
2026-04-20 10:47:19
張朝陽:我一不談戀愛、二不喜歡應(yīng)酬,我有得是錢,沒必要結(jié)婚!

張朝陽:我一不談戀愛、二不喜歡應(yīng)酬,我有得是錢,沒必要結(jié)婚!

說點事
2026-04-17 16:40:09
日本爆冷奪冠!朝鮮U20女足全場0進(jìn)球,球員賽后黑臉拒絕握手

日本爆冷奪冠!朝鮮U20女足全場0進(jìn)球,球員賽后黑臉拒絕握手

談史論天地
2026-04-19 13:52:15
48歲的老阿姨,這氣質(zhì)可以打多少分

48歲的老阿姨,這氣質(zhì)可以打多少分

鄉(xiāng)野小珥
2026-04-20 09:26:48
美伊談判破裂,加拿大總理表態(tài)拒付資金,歐洲多國跟進(jìn)取消訂單

美伊談判破裂,加拿大總理表態(tài)拒付資金,歐洲多國跟進(jìn)取消訂單

一盅情懷
2026-04-19 19:34:55
強闖臺海后,高市再惹大禍,中朝聯(lián)合亮劍,解放軍現(xiàn)身日本家門口

強闖臺海后,高市再惹大禍,中朝聯(lián)合亮劍,解放軍現(xiàn)身日本家門口

用冷眼洞悉世界
2026-04-20 04:20:00
一覺醒來美伊又開火了!多艘美艦遭襲!美軍要在全球打擊伊朗船只

一覺醒來美伊又開火了!多艘美艦遭襲!美軍要在全球打擊伊朗船只

暮色史觀
2026-04-20 08:30:30
難怪能成為大明星,小時候居然這么漂亮!大家看出來她是誰了嗎?

難怪能成為大明星,小時候居然這么漂亮!大家看出來她是誰了嗎?

阿廢冷眼觀察所
2026-04-19 22:13:42
48小時內(nèi),俄美伊都對中國提了一個要求,都認(rèn)為中國會給他們面子

48小時內(nèi),俄美伊都對中國提了一個要求,都認(rèn)為中國會給他們面子

萬物知識圈
2026-04-20 09:30:46
CBA罰單:山西主帥潘江辱罵裁判 停賽3場罰6萬 缺席首場季后賽

CBA罰單:山西主帥潘江辱罵裁判 停賽3場罰6萬 缺席首場季后賽

醉臥浮生
2026-04-19 17:22:23
樹倒猢猻散!峰學(xué)未來翻天了, 大鵬高調(diào)離職反踩一腳, 張姩菡不忍

樹倒猢猻散!峰學(xué)未來翻天了, 大鵬高調(diào)離職反踩一腳, 張姩菡不忍

阿鳧愛吐槽
2026-04-16 06:07:04
日軍艦闖臺海,中國穿咽喉!48小時三步棋,日本嘗到什么滋味

日軍艦闖臺海,中國穿咽喉!48小時三步棋,日本嘗到什么滋味

別吵吵
2026-04-20 09:50:43
在美以高壓下,伊朗內(nèi)部出現(xiàn)多起極端事件

在美以高壓下,伊朗內(nèi)部出現(xiàn)多起極端事件

高博新視野
2026-04-18 06:00:18
森蝶18歲近照曝光!下巴矯正后側(cè)臉絕了,女大十八變真不是說說

森蝶18歲近照曝光!下巴矯正后側(cè)臉絕了,女大十八變真不是說說

一盅情懷
2026-04-16 11:33:14
砸下1.2萬億,爆改3個三峽!西藏奪命公路墨脫公路為何一定要修?

砸下1.2萬億,爆改3個三峽!西藏奪命公路墨脫公路為何一定要修?

李將平老師
2026-04-19 08:26:15
1967年,黃永勝妻子想為兒子求娶林豆豆,葉群婉拒:他個子太高

1967年,黃永勝妻子想為兒子求娶林豆豆,葉群婉拒:他個子太高

顧史
2026-04-18 09:26:54
民進(jìn)黨,極有可能在下一屆臺灣地區(qū)選舉后,成為長期一家獨大政黨

民進(jìn)黨,極有可能在下一屆臺灣地區(qū)選舉后,成為長期一家獨大政黨

李橑在北漂
2026-04-02 10:22:26
初中就是:抓好初一,穩(wěn)住初二,盯緊初三!

初中就是:抓好初一,穩(wěn)住初二,盯緊初三!

好爸育兒
2026-04-20 08:34:38
4-2!凱恩27戰(zhàn)狂轟32球,迪亞斯助攻雙響,拜仁提前4輪衛(wèi)冕

4-2!凱恩27戰(zhàn)狂轟32球,迪亞斯助攻雙響,拜仁提前4輪衛(wèi)冕

我的護(hù)球最獨特
2026-04-20 01:31:37
人心惶惶!兩位經(jīng)理被裁拿到23萬、13萬補償,重慶網(wǎng)友發(fā)帖引熱議

人心惶惶!兩位經(jīng)理被裁拿到23萬、13萬補償,重慶網(wǎng)友發(fā)帖引熱議

火山詩話
2026-04-20 05:59:58
2026-04-20 11:20:49
機器人大講堂 incentive-icons
機器人大講堂
立德機器人平臺,是一個集媒體品牌、智庫咨詢、投資孵化、引智招商為一體的機器人垂直領(lǐng)域服務(wù)平臺
6472文章數(shù) 4583關(guān)注度
往期回顧 全部

科技要聞

藍(lán)色起源一級火箭完美回收 客戶衛(wèi)星未入軌

頭條要聞

失蹤女老板被找到 嫌犯曾改名整容還催警察"還我清白"

頭條要聞

失蹤女老板被找到 嫌犯曾改名整容還催警察"還我清白"

體育要聞

七大獎項候選官宣!文班或全票DPOY

娛樂要聞

章子怡!增重20斤素顏拍新片

財經(jīng)要聞

月之暗面IPO迷局

汽車要聞

外觀非常驚艷 全新一代寶馬6系有望回歸

態(tài)度原創(chuàng)

本地
教育
藝術(shù)
房產(chǎn)
軍事航空

本地新聞

12噸巧克力有難,全網(wǎng)化身超級偵探添亂

教育要聞

給孩子最深的滋養(yǎng):一半愛護(hù),一半需要

藝術(shù)要聞

王羲之《換鵝帖》尚在人間,驚艷無比!

房產(chǎn)要聞

官宣簽約最強城更!海口樓市,突然殺入神秘房企!

軍事要聞

特朗普:美艦向伊朗貨船開火炸出個洞

無障礙瀏覽 進(jìn)入關(guān)懷版