![]()
面向真實(shí)世界的視覺(jué)-語(yǔ)言-動(dòng)作泛化能力評(píng)測(cè)。
01
核心亮點(diǎn)
RADAR(Real-world Autonomous Dynamics And Reasoning)是專為具身智能領(lǐng)域設(shè)計(jì)的全新一代評(píng)測(cè)基準(zhǔn),系統(tǒng)性地解決了現(xiàn)有評(píng)測(cè)體系的三大核心缺陷,為 VLA 模型提供真實(shí)可靠的泛化能力評(píng)估[1]。
![]()
Figure 1: 視覺(jué)-語(yǔ)言-動(dòng)作模型架構(gòu)示意圖
▎為什么需要 RADAR?
? 當(dāng)前具身智能評(píng)測(cè)面臨嚴(yán)峻的現(xiàn)實(shí)鴻溝問(wèn)題:模型在傳統(tǒng)基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)異,但在真實(shí)物理環(huán)境中卻表現(xiàn)不佳[1]。現(xiàn)有評(píng)測(cè)體系存在三大系統(tǒng)性缺陷:
? 忽視真實(shí)世界動(dòng)態(tài)性:未考慮物體配置變化、機(jī)器人初始狀態(tài)、光照變化、傳感器噪聲等關(guān)鍵因素
? 缺乏空間-物理智能測(cè)試:簡(jiǎn)化為重復(fù)性操作任務(wù),無(wú)法探測(cè)幾何推理能力
? 評(píng)估方法不可擴(kuò)展:依賴簡(jiǎn)單 2D 指標(biāo)或人工監(jiān)督,成本高昂且存在偏差
02
RADAR 的三大核心創(chuàng)新
1. 系統(tǒng)化的物理動(dòng)態(tài)性建模
RADAR 引入四維物理擾動(dòng)軸,全面模擬真實(shí)世界的復(fù)雜性:
![]()
Table 1: RADAR 物理動(dòng)態(tài)性評(píng)測(cè)維度
關(guān)鍵發(fā)現(xiàn):在傳感器噪聲條件下,主流模型的 3D IoU 性能從 0.261 驟降至 0.068,揭示了嚴(yán)重的魯棒性不足[1]。
![]()
Figure 2: 不同的擾動(dòng)條件可視化
2. 分級(jí)任務(wù)設(shè)計(jì)與空間理解任務(wù)
為全面評(píng)估各模型的魯棒性與泛化能力,RADAR構(gòu)建了包含四種場(chǎng)景復(fù)雜度遞增的任務(wù)分組的測(cè)試集。此外,不同于傳統(tǒng)的簡(jiǎn)單抓取任務(wù),RADAR 設(shè)計(jì)了專門測(cè)試空間理解能力的任務(wù)集,RADAR要求模型展現(xiàn):
? 基本的具身操作能力
? 多目標(biāo)長(zhǎng)程任務(wù)能力
? 復(fù)雜場(chǎng)景下的決策能力
? 空間理解能力
這些任務(wù)揭示了當(dāng)前 VLA 模型在空間智能方面的顯著局限性[1]。
![]()
Figure 3: 空間推理任務(wù)示例:需要理解物體間的相對(duì)位置關(guān)系
3. 全自動(dòng)化評(píng)估流程(基于 3D 指標(biāo))
RADAR 的評(píng)估系統(tǒng)實(shí)現(xiàn)了完全自主化,具有以下優(yōu)勢(shì):
?精確空間視覺(jué):采用雙視覺(jué)RGBD攝像頭定位三維空間指標(biāo),捕捉真實(shí)的空間結(jié)構(gòu)
?零人工干預(yù):全流程語(yǔ)義分割、3D重建自動(dòng)化,消除人為偏差
?可大規(guī)模擴(kuò)展:輕量化的分割重建模型支持批量測(cè)試,成本低廉
?結(jié)果可復(fù)現(xiàn):多步驟可重試的標(biāo)準(zhǔn)化流程確保評(píng)測(cè)一致性
![]()
Figure 4: 自主化 3D 評(píng)估系統(tǒng)
03
極簡(jiǎn)易用:快速上手指南
▎為什么選擇 RADAR?
1.即插即用:標(biāo)準(zhǔn)化接口設(shè)計(jì),與主流 VLA 框架無(wú)縫對(duì)接
2.文檔完善:詳細(xì)的使用教程和示例代碼
3.開(kāi)箱即用:預(yù)配置的評(píng)測(cè)任務(wù)和環(huán)境
4.靈活擴(kuò)展:支持自定義任務(wù)和評(píng)估指標(biāo)
▎三步開(kāi)始使用
![]()
Table 2: RADAR 快速啟動(dòng)流程
代碼示例
簡(jiǎn)單使用SDK代碼評(píng)測(cè)
from src.client import RADARClient
session_id = client.get_worker()
client.begin_eval({"task_id": "single_red"}) #開(kāi)始評(píng)測(cè)
status = client.get_status()#獲取場(chǎng)景狀態(tài)
action = model(status)#運(yùn)行模型
client.send_action({"action_type": "test_action", "action_params": {}})#執(zhí)行動(dòng)作
result = client.end_evaluation()#結(jié)束評(píng)測(cè)
![]()
Figure 5: 遠(yuǎn)程部署,在線測(cè)試:RADAR 評(píng)測(cè)流程
04
震撼發(fā)現(xiàn):揭示模型真實(shí)能力
通過(guò)對(duì)多個(gè)主流 VLA 模型的系統(tǒng)性審計(jì),RADAR 發(fā)現(xiàn)了令人警醒的結(jié)果:
?脆弱性嚴(yán)重:在輕度物理擾動(dòng)下,性能急劇下降
?空間推理不足:模型缺乏真正的幾何理解能力
?泛化能力有限:仿真基準(zhǔn)的高分?jǐn)?shù)掩蓋了在真實(shí)環(huán)境中的失效
?關(guān)鍵數(shù)據(jù):傳感器噪聲導(dǎo)致 3D IoU 從 0.261 降至 0.068,下降幅度達(dá) 74%[1]。
這些發(fā)現(xiàn)挑戰(zhàn)了"傳統(tǒng)基準(zhǔn)高分 = 強(qiáng)具身智能"的假設(shè),凸顯了 RADAR 作為可靠評(píng)測(cè)標(biāo)準(zhǔn)的必要性。
05
RADAR 的獨(dú)特價(jià)值
▎對(duì)研究者
? 揭示模型在真實(shí)場(chǎng)景中的真實(shí)表現(xiàn)
? 識(shí)別具體的弱點(diǎn)和改進(jìn)方向
? 公平比較不同方法的泛化能力
? 推動(dòng)研究從"刷榜"轉(zhuǎn)向"真實(shí)魯棒性"
▎對(duì)領(lǐng)域發(fā)展
? 建立具身智能評(píng)測(cè)的新標(biāo)準(zhǔn)
? 彌合仿真與真實(shí)世界的鴻溝
? 促進(jìn)可復(fù)現(xiàn)、可擴(kuò)展的研究范式
? 加速具身智能技術(shù)的實(shí)用化進(jìn)程
▎加入 RADAR 社區(qū)
立即開(kāi)始
? 論文:arXiv:2602.10980
? 代碼:即將開(kāi)源(敬請(qǐng)關(guān)注)
? 文檔:完整使用指南和 API 文檔
? 支持:活躍的開(kāi)發(fā)者社區(qū)
▎適用場(chǎng)景
無(wú)論您是在研究:
? 視覺(jué)-語(yǔ)言-動(dòng)作模型(VLA)
? 具身智能代理
? 機(jī)器人操作與規(guī)劃
? 多模態(tài)學(xué)習(xí)系統(tǒng)
RADAR 都是您不可或缺的評(píng)測(cè)工具!
▎聯(lián)系我們
我們期待與您一起推動(dòng)具身智能評(píng)測(cè)標(biāo)準(zhǔn)的進(jìn)步。歡迎:
? 使用 RADAR 評(píng)測(cè)您的模型
? 貢獻(xiàn)新的任務(wù)和評(píng)估指標(biāo)
? 提供反饋和改進(jìn)建議
? 參與社區(qū)討論和協(xié)作
06
結(jié)語(yǔ)
RADAR 不僅是一個(gè)評(píng)測(cè)工具,更是推動(dòng)具身智能邁向真實(shí)世界可靠性的重要一步。通過(guò)系統(tǒng)化的動(dòng)態(tài)性建模、專門的空間推理任務(wù)和全自動(dòng)化評(píng)估流程,RADAR 為領(lǐng)域提供了前所未有的洞察力。
讓我們一起構(gòu)建更魯棒、更可靠、更具泛化能力的具身智能系統(tǒng)!
References
[1] Chen, Y., Zhan, Z., Lin, X., Song, Z., Liu, H., Lyu, Q., Zu, Y., Chen, X., Liu, Z., Pu, T., Chen, T., Wang, K., Lin, L., & Wang, G. (2026). RADAR: Benchmarking Vision-Language-Action Generalization via Real-World Dynamics, Spatial-Physical Intelligence, and Autonomous Evaluation. arXiv preprint arXiv:2602.10980. https://arxiv.org/abs/2602.10980
未經(jīng)「AI科技評(píng)論」授權(quán),嚴(yán)禁以任何方式在網(wǎng)頁(yè)、論壇、社區(qū)進(jìn)行轉(zhuǎn)載!
公眾號(hào)轉(zhuǎn)載請(qǐng)先在「AI科技評(píng)論」后臺(tái)留言取得授權(quán),轉(zhuǎn)載時(shí)需標(biāo)注來(lái)源并插入本公眾號(hào)名片。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.