亚洲中文字幕乱码亚洲-蜜桃成熟视频在线观看-免费中文字幕视频在线-中国五十路熟妇洗澡视频-亚洲av伊人啪啪c-国产精品成人一区二区-国产自拍视频一区在线观看-成人一区不卡二区三区四区-亚洲情精品中文字幕99在线

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

鵬城實(shí)驗(yàn)室 X 中大hcp實(shí)驗(yàn)室推出 RADAR : 具身智能評(píng)測(cè)的新標(biāo)桿

0
分享至


面向真實(shí)世界的視覺(jué)-語(yǔ)言-動(dòng)作泛化能力評(píng)測(cè)。

01


核心亮點(diǎn)

RADAR(Real-world Autonomous Dynamics And Reasoning)是專為具身智能領(lǐng)域設(shè)計(jì)的全新一代評(píng)測(cè)基準(zhǔn),系統(tǒng)性地解決了現(xiàn)有評(píng)測(cè)體系的三大核心缺陷,為 VLA 模型提供真實(shí)可靠的泛化能力評(píng)估[1]。


Figure 1: 視覺(jué)-語(yǔ)言-動(dòng)作模型架構(gòu)示意圖

▎為什么需要 RADAR?

? 當(dāng)前具身智能評(píng)測(cè)面臨嚴(yán)峻的現(xiàn)實(shí)鴻溝問(wèn)題:模型在傳統(tǒng)基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)異,但在真實(shí)物理環(huán)境中卻表現(xiàn)不佳[1]。現(xiàn)有評(píng)測(cè)體系存在三大系統(tǒng)性缺陷:

? 忽視真實(shí)世界動(dòng)態(tài)性:未考慮物體配置變化、機(jī)器人初始狀態(tài)、光照變化、傳感器噪聲等關(guān)鍵因素

? 缺乏空間-物理智能測(cè)試:簡(jiǎn)化為重復(fù)性操作任務(wù),無(wú)法探測(cè)幾何推理能力

? 評(píng)估方法不可擴(kuò)展:依賴簡(jiǎn)單 2D 指標(biāo)或人工監(jiān)督,成本高昂且存在偏差

02


RADAR 的三大核心創(chuàng)新

1. 系統(tǒng)化的物理動(dòng)態(tài)性建模

RADAR 引入四維物理擾動(dòng)軸,全面模擬真實(shí)世界的復(fù)雜性:


Table 1: RADAR 物理動(dòng)態(tài)性評(píng)測(cè)維度

關(guān)鍵發(fā)現(xiàn):在傳感器噪聲條件下,主流模型的 3D IoU 性能從 0.261 驟降至 0.068,揭示了嚴(yán)重的魯棒性不足[1]。


Figure 2: 不同的擾動(dòng)條件可視化

2. 分級(jí)任務(wù)設(shè)計(jì)與空間理解任務(wù)

為全面評(píng)估各模型的魯棒性與泛化能力,RADAR構(gòu)建了包含四種場(chǎng)景復(fù)雜度遞增的任務(wù)分組的測(cè)試集。此外,不同于傳統(tǒng)的簡(jiǎn)單抓取任務(wù),RADAR 設(shè)計(jì)了專門測(cè)試空間理解能力的任務(wù)集,RADAR要求模型展現(xiàn):

? 基本的具身操作能力

? 多目標(biāo)長(zhǎng)程任務(wù)能力

? 復(fù)雜場(chǎng)景下的決策能力

? 空間理解能力

這些任務(wù)揭示了當(dāng)前 VLA 模型在空間智能方面的顯著局限性[1]。


Figure 3: 空間推理任務(wù)示例:需要理解物體間的相對(duì)位置關(guān)系

3. 全自動(dòng)化評(píng)估流程(基于 3D 指標(biāo))

RADAR 的評(píng)估系統(tǒng)實(shí)現(xiàn)了完全自主化,具有以下優(yōu)勢(shì):

?精確空間視覺(jué):采用雙視覺(jué)RGBD攝像頭定位三維空間指標(biāo),捕捉真實(shí)的空間結(jié)構(gòu)

?零人工干預(yù):全流程語(yǔ)義分割、3D重建自動(dòng)化,消除人為偏差

?可大規(guī)模擴(kuò)展:輕量化的分割重建模型支持批量測(cè)試,成本低廉

?結(jié)果可復(fù)現(xiàn):多步驟可重試的標(biāo)準(zhǔn)化流程確保評(píng)測(cè)一致性


Figure 4: 自主化 3D 評(píng)估系統(tǒng)

03


極簡(jiǎn)易用:快速上手指南

為什么選擇 RADAR?

1.即插即用:標(biāo)準(zhǔn)化接口設(shè)計(jì),與主流 VLA 框架無(wú)縫對(duì)接

2.文檔完善:詳細(xì)的使用教程和示例代碼

3.開(kāi)箱即用:預(yù)配置的評(píng)測(cè)任務(wù)和環(huán)境

4.靈活擴(kuò)展:支持自定義任務(wù)和評(píng)估指標(biāo)

三步開(kāi)始使用


Table 2: RADAR 快速啟動(dòng)流程

代碼示例

簡(jiǎn)單使用SDK代碼評(píng)測(cè)

from src.client import RADARClient

session_id = client.get_worker()

client.begin_eval({"task_id": "single_red"}) #開(kāi)始評(píng)測(cè)

status = client.get_status()#獲取場(chǎng)景狀態(tài)

action = model(status)#運(yùn)行模型

client.send_action({"action_type": "test_action", "action_params": {}})#執(zhí)行動(dòng)作

result = client.end_evaluation()#結(jié)束評(píng)測(cè)


Figure 5: 遠(yuǎn)程部署,在線測(cè)試:RADAR 評(píng)測(cè)流程

04


震撼發(fā)現(xiàn):揭示模型真實(shí)能力

通過(guò)對(duì)多個(gè)主流 VLA 模型的系統(tǒng)性審計(jì),RADAR 發(fā)現(xiàn)了令人警醒的結(jié)果:

?脆弱性嚴(yán)重:在輕度物理擾動(dòng)下,性能急劇下降

?空間推理不足:模型缺乏真正的幾何理解能力

?泛化能力有限:仿真基準(zhǔn)的高分?jǐn)?shù)掩蓋了在真實(shí)環(huán)境中的失效

?關(guān)鍵數(shù)據(jù):傳感器噪聲導(dǎo)致 3D IoU 從 0.261 降至 0.068,下降幅度達(dá) 74%[1]。

這些發(fā)現(xiàn)挑戰(zhàn)了"傳統(tǒng)基準(zhǔn)高分 = 強(qiáng)具身智能"的假設(shè),凸顯了 RADAR 作為可靠評(píng)測(cè)標(biāo)準(zhǔn)的必要性。

05


RADAR 的獨(dú)特價(jià)值

對(duì)研究者

? 揭示模型在真實(shí)場(chǎng)景中的真實(shí)表現(xiàn)

? 識(shí)別具體的弱點(diǎn)和改進(jìn)方向

? 公平比較不同方法的泛化能力

? 推動(dòng)研究從"刷榜"轉(zhuǎn)向"真實(shí)魯棒性"

對(duì)領(lǐng)域發(fā)展

? 建立具身智能評(píng)測(cè)的新標(biāo)準(zhǔn)

? 彌合仿真與真實(shí)世界的鴻溝

? 促進(jìn)可復(fù)現(xiàn)、可擴(kuò)展的研究范式

? 加速具身智能技術(shù)的實(shí)用化進(jìn)程

加入 RADAR 社區(qū)

立即開(kāi)始

? 論文:arXiv:2602.10980

? 代碼:即將開(kāi)源(敬請(qǐng)關(guān)注)

? 文檔:完整使用指南和 API 文檔

? 支持:活躍的開(kāi)發(fā)者社區(qū)

適用場(chǎng)景

無(wú)論您是在研究:

? 視覺(jué)-語(yǔ)言-動(dòng)作模型(VLA)

? 具身智能代理

? 機(jī)器人操作與規(guī)劃

? 多模態(tài)學(xué)習(xí)系統(tǒng)

RADAR 都是您不可或缺的評(píng)測(cè)工具!

聯(lián)系我們

我們期待與您一起推動(dòng)具身智能評(píng)測(cè)標(biāo)準(zhǔn)的進(jìn)步。歡迎:

? 使用 RADAR 評(píng)測(cè)您的模型

? 貢獻(xiàn)新的任務(wù)和評(píng)估指標(biāo)

? 提供反饋和改進(jìn)建議

? 參與社區(qū)討論和協(xié)作

06


結(jié)語(yǔ)

RADAR 不僅是一個(gè)評(píng)測(cè)工具,更是推動(dòng)具身智能邁向真實(shí)世界可靠性的重要一步。通過(guò)系統(tǒng)化的動(dòng)態(tài)性建模、專門的空間推理任務(wù)和全自動(dòng)化評(píng)估流程,RADAR 為領(lǐng)域提供了前所未有的洞察力。

讓我們一起構(gòu)建更魯棒、更可靠、更具泛化能力的具身智能系統(tǒng)!

References

[1] Chen, Y., Zhan, Z., Lin, X., Song, Z., Liu, H., Lyu, Q., Zu, Y., Chen, X., Liu, Z., Pu, T., Chen, T., Wang, K., Lin, L., & Wang, G. (2026). RADAR: Benchmarking Vision-Language-Action Generalization via Real-World Dynamics, Spatial-Physical Intelligence, and Autonomous Evaluation. arXiv preprint arXiv:2602.10980. https://arxiv.org/abs/2602.10980

未經(jīng)「AI科技評(píng)論」授權(quán),嚴(yán)禁以任何方式在網(wǎng)頁(yè)、論壇、社區(qū)進(jìn)行轉(zhuǎn)載!

公眾號(hào)轉(zhuǎn)載請(qǐng)先在「AI科技評(píng)論」后臺(tái)留言取得授權(quán),轉(zhuǎn)載時(shí)需標(biāo)注來(lái)源并插入本公眾號(hào)名片。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
太夸張!臺(tái)積電5nm一季度利潤(rùn),比中芯國(guó)際年利潤(rùn)還多400億!

太夸張!臺(tái)積電5nm一季度利潤(rùn),比中芯國(guó)際年利潤(rùn)還多400億!

互聯(lián)網(wǎng).亂侃秀
2026-04-18 11:34:41
你見(jiàn)過(guò)哪些結(jié)婚作死行為?網(wǎng)友:這種親戚以后就別來(lái)往了

你見(jiàn)過(guò)哪些結(jié)婚作死行為?網(wǎng)友:這種親戚以后就別來(lái)往了

帶你感受人間冷暖
2026-04-01 00:15:03
王立群教授:用權(quán)力泡女人,女人在你面前服服帖帖,用金錢泡女人,女人是滿臉不服氣,甚至討價(jià)還價(jià)...

王立群教授:用權(quán)力泡女人,女人在你面前服服帖帖,用金錢泡女人,女人是滿臉不服氣,甚至討價(jià)還價(jià)...

深度知局
2026-04-08 07:41:14
59歲王志文已準(zhǔn)備好了后事,一切從簡(jiǎn),骨灰回歸自然,遺憾公開(kāi)

59歲王志文已準(zhǔn)備好了后事,一切從簡(jiǎn),骨灰回歸自然,遺憾公開(kāi)

孤芳自賞的小李
2026-04-17 19:16:25
瓦爾·基爾默"復(fù)活"出演:AI演員時(shí)代真的來(lái)了嗎

瓦爾·基爾默"復(fù)活"出演:AI演員時(shí)代真的來(lái)了嗎

報(bào)錯(cuò)免疫體
2026-04-17 21:31:57
吳彥祖女兒高調(diào)亮相,太漂亮了吧,恐怕是娛樂(lè)圈顏值最高的星二代了!

吳彥祖女兒高調(diào)亮相,太漂亮了吧,恐怕是娛樂(lè)圈顏值最高的星二代了!

手工制作阿殲
2026-04-17 09:52:59
徐帆回應(yīng)離婚5個(gè)月,馮小剛狀態(tài)曝光,他的“小心思”再藏不住了

徐帆回應(yīng)離婚5個(gè)月,馮小剛狀態(tài)曝光,他的“小心思”再藏不住了

青橘罐頭
2026-04-17 17:08:26
真拼!鄺兆鐳踢中超高光時(shí)刻:5秒讓對(duì)手摔2次,最后拉傷3次倒地

真拼!鄺兆鐳踢中超高光時(shí)刻:5秒讓對(duì)手摔2次,最后拉傷3次倒地

足球大腕
2026-04-18 11:12:31
美軍司令部:發(fā)動(dòng)打擊

美軍司令部:發(fā)動(dòng)打擊

陸棄
2026-04-17 08:45:03
65歲東北老兩口定居廈門半年后,哭著說(shuō):這哪是養(yǎng)老,分明是遭罪

65歲東北老兩口定居廈門半年后,哭著說(shuō):這哪是養(yǎng)老,分明是遭罪

今日搞笑分享
2026-04-18 00:02:50
藍(lán)綠新北市長(zhǎng)參選人上淡江大橋,侯友宜:李四川的奉獻(xiàn)大家有目共睹

藍(lán)綠新北市長(zhǎng)參選人上淡江大橋,侯友宜:李四川的奉獻(xiàn)大家有目共睹

海峽導(dǎo)報(bào)社
2026-04-17 22:28:05
再次反轉(zhuǎn)!美伊都否認(rèn)了

再次反轉(zhuǎn)!美伊都否認(rèn)了

陸棄
2026-04-16 09:41:04
中國(guó)駐俄領(lǐng)館:俄羅斯一起交通事故致中國(guó)公民1死10傷

中國(guó)駐俄領(lǐng)館:俄羅斯一起交通事故致中國(guó)公民1死10傷

界面新聞
2026-04-18 18:15:00
章澤天穿最新款出席晚宴,網(wǎng)友這才是她的賽道,不要和別人搶飯碗

章澤天穿最新款出席晚宴,網(wǎng)友這才是她的賽道,不要和別人搶飯碗

動(dòng)物奇奇怪怪
2026-04-18 15:45:11
阿里開(kāi)源"小鋼炮":30億參數(shù)干翻270億

阿里開(kāi)源"小鋼炮":30億參數(shù)干翻270億

我是一個(gè)粉刷匠2
2026-04-16 22:48:49
劉亦菲.竟也有這么洶涌的照片,太奔放了微信朋友圈

劉亦菲.竟也有這么洶涌的照片,太奔放了微信朋友圈

草莓解說(shuō)體育
2026-04-18 12:17:27
1953年陳賡向周總理?yè)芡司o急電話:總理,高崗現(xiàn)在有點(diǎn)不對(duì)勁

1953年陳賡向周總理?yè)芡司o急電話:總理,高崗現(xiàn)在有點(diǎn)不對(duì)勁

輝輝歷史記
2026-04-18 04:17:21
退休以后,提醒大家:盡量別讓任何人知道你的狀態(tài),尤其這5件事

退休以后,提醒大家:盡量別讓任何人知道你的狀態(tài),尤其這5件事

小談食刻美食
2026-03-28 09:42:18
突發(fā)!全球巨震!霍爾木茲海峽完全開(kāi)放

突發(fā)!全球巨震!霍爾木茲海峽完全開(kāi)放

新浪財(cái)經(jīng)
2026-04-17 21:18:35
瘋狂小楊哥最新照片曝光,滿臉憔悴,神采不再

瘋狂小楊哥最新照片曝光,滿臉憔悴,神采不再

微微熱評(píng)
2026-04-17 12:35:11
2026-04-19 00:08:49
AI科技評(píng)論 incentive-icons
AI科技評(píng)論
點(diǎn)評(píng)學(xué)術(shù),服務(wù)AI
7198文章數(shù) 20744關(guān)注度
往期回顧 全部

科技要聞

傳Meta下月擬裁8000 大舉清退人力為AI騰位

頭條要聞

伊朗革命衛(wèi)隊(duì)向油輪開(kāi)火 伊朗最高領(lǐng)袖發(fā)聲

頭條要聞

伊朗革命衛(wèi)隊(duì)向油輪開(kāi)火 伊朗最高領(lǐng)袖發(fā)聲

體育要聞

時(shí)隔25年重返英超!沒(méi)有人再嘲笑他了

娛樂(lè)要聞

劉德華回應(yīng)潘宏彬去世,拒談喪禮細(xì)節(jié)

財(cái)經(jīng)要聞

"影子萬(wàn)科"2.0:管理層如何吸血萬(wàn)物云?

汽車要聞

奇瑞威麟R08 PRO正式上市 售價(jià)14.48萬(wàn)元起

態(tài)度原創(chuàng)

房產(chǎn)
健康
本地
手機(jī)
公開(kāi)課

房產(chǎn)要聞

官宣簽約最強(qiáng)城更!海口樓市,突然殺入神秘房企!

干細(xì)胞抗衰4大誤區(qū),90%的人都中招

本地新聞

12噸巧克力有難,全網(wǎng)化身超級(jí)偵探添亂

手機(jī)要聞

榮耀600系列參數(shù)、外觀全曝光

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版