无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

400萬條問答、四大推理模塊,這項(xiàng)成果被CVPR 2026收錄了

0
分享至

在具身智能領(lǐng)域,一個(gè)問題正變得越來越尖銳:當(dāng)一個(gè)機(jī)器人站在廚房里,它究竟應(yīng)該先“看懂”這個(gè)世界,還是先“想清”下一步動(dòng)作?

過去,大量研究將這兩件事割裂開來,要么專注讓模型描述場(chǎng)景,要么埋頭優(yōu)化動(dòng)作序列。但在真實(shí)世界中,感知與決策本就是一體的。當(dāng)機(jī)器人抓起一只杯子,它必須同時(shí)理解杯子的位置、杯中的液體、傾倒的角度和此刻是否該停止。任何一刻的猶豫或誤判,都意味著任務(wù)的失敗。

北京大學(xué)副教授穆亞東及北京大學(xué)、星源智團(tuán)隊(duì)給出了一套完整的答案。在即將召開的計(jì)算機(jī)視覺頂會(huì)CVPR 2026上,一篇題為《Extending Embodied Question Answering from Perception to Decision》的論文,首次將具身問答從靜態(tài)感知擴(kuò)展到動(dòng)態(tài)決策,提出了大規(guī)模數(shù)據(jù)集EQA-Decision與對(duì)應(yīng)的RoboDecision訓(xùn)練框架。

該工作構(gòu)建了覆蓋四大推理模塊、超過四百萬問答對(duì)的超大規(guī)模數(shù)據(jù)引擎,并設(shè)計(jì)出從監(jiān)督微調(diào)到思維鏈再到強(qiáng)化學(xué)習(xí)的三階段訓(xùn)練方法,讓模型真正學(xué)會(huì)“先想后做、看圖決策”,為具身智能的評(píng)測(cè)和能力建設(shè)立下了一道全新的基準(zhǔn)線。



論文鏈接:

CVPR26_EQA.pdf

01.

EQA-Decision:一個(gè)為決策而生的百萬級(jí)數(shù)據(jù)引擎

具身問答(Embodied Question Answering, EQA)自提出以來,一直被視為連接視覺感知、語言推理和物理交互的關(guān)鍵任務(wù)。然而,現(xiàn)有數(shù)據(jù)集和評(píng)測(cè)基準(zhǔn)長(zhǎng)期處于“各自為戰(zhàn)”的狀態(tài),幾乎沒有一個(gè)大規(guī)模框架能將空間理解、狀態(tài)追蹤、因果推理和即時(shí)行動(dòng)決策放在同一語境下統(tǒng)一考量。

這種割裂帶來的后果是,即便是目前最先進(jìn)的多模態(tài)大模型,在面對(duì)動(dòng)態(tài)交互場(chǎng)景時(shí)也常常表現(xiàn)得像個(gè)“紙上談兵”的旁觀者。它們可以準(zhǔn)確告訴你“桌子上的紅蘋果在碗的左邊”,卻很難在機(jī)器人抓取蘋果的過程中判斷“此刻是否已經(jīng)抓穩(wěn)”,更不用說“如果蘋果滑動(dòng)了,下一步該調(diào)整什么動(dòng)作”。

而為了填補(bǔ)上述空白,研究團(tuán)隊(duì)構(gòu)建了EQA-Decision數(shù)據(jù)集,其體量超過四百萬個(gè)多模態(tài)問答對(duì),數(shù)據(jù)來源橫跨模擬環(huán)境、圖像問答、第一人稱視頻和真實(shí)機(jī)器人軌跡四大類型。

這些數(shù)據(jù)被系統(tǒng)性地組織成四大推理模塊,即靜態(tài)場(chǎng)景構(gòu)建、空間理解、任務(wù)動(dòng)態(tài)推理和即時(shí)決策,并在其下細(xì)分為九項(xiàng)子任務(wù)。



其中,靜態(tài)場(chǎng)景構(gòu)建模塊關(guān)注物體存在性、狀態(tài)、計(jì)數(shù)和位置等基本場(chǎng)景理解任務(wù),為模型提供對(duì)環(huán)境的“第一眼認(rèn)知”。

空間理解模塊則從三個(gè)互補(bǔ)視角切入,包括深度與方向、定位與指代,以及行動(dòng)可能性,幫助模型建立起“哪里是什么,哪里可以做什么”的空間直覺。

這兩個(gè)模塊更貼近傳統(tǒng)意義上的感知能力,而真正讓該數(shù)據(jù)集區(qū)別于以往工作的,是任務(wù)動(dòng)態(tài)推理和即時(shí)決策兩大模塊。

任務(wù)動(dòng)態(tài)推理包含了子任務(wù)規(guī)劃、狀態(tài)追蹤與因果推理、以及進(jìn)度估計(jì)三個(gè)子類,這種引入時(shí)間進(jìn)程和因果鏈條的設(shè)計(jì),促使模型去理解動(dòng)作的先后邏輯和任務(wù)狀態(tài)的演變。

而最前沿的即時(shí)決策模塊,則將具身問答推向了真正的行動(dòng)層面。該模塊專注于建模機(jī)器人在動(dòng)態(tài)具身環(huán)境中的實(shí)時(shí)決策過程,模型需要在任務(wù)執(zhí)行中的某一瞬間,綜合空間布局、子任務(wù)完成度和未來動(dòng)作后果,完成一次從“看到”到“決定”的完整思維鏈路,給出此刻最合理的即時(shí)動(dòng)作。

比如,在“刷洗水瓶”的任務(wù)中,機(jī)器人傾斜瓶身倒水,水流仍在流出,此時(shí)模型應(yīng)當(dāng)回答“等待,直到水流停止”,而非急躁地進(jìn)入下一步。

正是任務(wù)動(dòng)態(tài)推理和即時(shí)決策這兩個(gè)新引入的模塊,使 EQA-Decision 真正將具身問答從“靜態(tài)體檢”升級(jí)為“動(dòng)態(tài)實(shí)戰(zhàn)”。

02.

RoboDecision:三階段訓(xùn)練打造“感知-決策”統(tǒng)一體

有了面向決策的數(shù)據(jù)集,還需要能真正消化這些數(shù)據(jù)的模型。團(tuán)隊(duì)以Qwen3-VL-8B-Instruct為基座,提出了RoboDecision訓(xùn)練框架,通過三階段遞進(jìn)式訓(xùn)練,逐步將通用多模態(tài)模型塑造成擅長(zhǎng)具身推理與決策的專家。



第一階段是SFT(監(jiān)督微調(diào)),在EQA-Decision四大模塊上均勻采樣數(shù)據(jù),對(duì)語言模型和跨模態(tài)融合層進(jìn)行訓(xùn)練,注入具身領(lǐng)域的先驗(yàn)知識(shí),從而提升基礎(chǔ)的空間、時(shí)間和決策推理能力。

第二階段是CoT-SFT(思維鏈監(jiān)督微調(diào)),團(tuán)隊(duì)從各模塊均勻采樣約10%的數(shù)據(jù),用Gemini生成包含推理依據(jù)和最終答案的結(jié)構(gòu)化思維鏈標(biāo)注,再進(jìn)一步微調(diào)模型。這一步教會(huì)模型“先想后答”,形成顯式的多步推理和因果理解能力,也讓后續(xù)強(qiáng)化學(xué)習(xí)階段的獎(jiǎng)勵(lì)信號(hào)更加穩(wěn)定。

第三階段則是GRPO(強(qiáng)化學(xué)習(xí)微調(diào)),這是RoboDecision框架真正將“感知”與“決策”焊死的環(huán)節(jié)。許多經(jīng)過監(jiān)督微調(diào)的模型會(huì)過度依賴文本先驗(yàn),導(dǎo)致即使視覺輸入發(fā)生變化,輸出依然相似,這在要求實(shí)時(shí)動(dòng)作調(diào)整的具身任務(wù)中是致命的。

為此,團(tuán)隊(duì)設(shè)計(jì)了一種混合獎(jiǎng)勵(lì)函數(shù),綜合考察推理質(zhì)量、答案正確性和視覺一致性三個(gè)維度。

其中,推理獎(jiǎng)勵(lì)用E5-large計(jì)算模型生成的推理鏈與參考思維鏈的相似度,鼓勵(lì)因果一致的空間和時(shí)間推理;答案獎(jiǎng)勵(lì)則對(duì)自由文本回答采用語義相似度,對(duì)結(jié)構(gòu)化輸出(如坐標(biāo)、深度)則采用基于規(guī)則的評(píng)分函數(shù);

最具創(chuàng)新性的是視覺一致性獎(jiǎng)勵(lì),它用OpenCLIP對(duì)齊生成的推理與視覺觀察,確保模型的思考內(nèi)容真正反映畫面中的視覺證據(jù),而非靠文本先驗(yàn)“瞎猜”。這迫使模型不再做一個(gè)“脫離畫面的空想家”,而是成為一個(gè)緊盯場(chǎng)景變化、根據(jù)視覺線索即時(shí)調(diào)整推理的“實(shí)干派”。

這種將視覺對(duì)齊明確納入優(yōu)化目標(biāo)的思路,在具身模型訓(xùn)練中尚屬前沿。它相當(dāng)于在模型的決策回路里植入了一個(gè)持續(xù)的感官校驗(yàn)機(jī)制,為構(gòu)建可靠的動(dòng)作生成系統(tǒng)提供了新的方法論。

03.

全面領(lǐng)先的評(píng)測(cè)結(jié)果:RoboDecision-8B超越GPT-5

為了檢驗(yàn)成果,團(tuán)隊(duì)建立了一套統(tǒng)一的EQA-Decision Benchmark,涵蓋靜態(tài)場(chǎng)景理解、空間-深度推理、視覺指代、時(shí)間推理、規(guī)劃推理和即時(shí)決策六大維度,總計(jì)2118個(gè)精心篩選的評(píng)測(cè)樣本,且與訓(xùn)練集嚴(yán)格隔離。



結(jié)果顯示,RoboDecision-8B在整體得分上達(dá)到68.06,以顯著優(yōu)勢(shì)超越了包括GPT-5(51.03)、Gemini-2.5-Pro(48.68)、Qwen3-VL-8B-Instruct(48.84)等在內(nèi)的所有通用基線和具身基線模型。

尤其值得關(guān)注的是兩個(gè)高難度維度的飛躍。在視覺指代定位任務(wù)上,RoboDecision得分 68.12,而Qwen3-VL-8B-Thinking僅23.14,差距懸殊的核心原因正是視覺一致性獎(jiǎng)勵(lì)強(qiáng)制模型把推理錨定在圖像像素上。

在即時(shí)決策任務(wù)上,RoboDecision得分 69.93,比最強(qiáng)基線GPT-5的62.25高出7.7個(gè)點(diǎn),充分證明了“感知-決策”一體化訓(xùn)練的有效性。

此外,在RoboVQA、ERQA等域外具身基準(zhǔn)測(cè)試上,RoboDecision-8B同樣展現(xiàn)出領(lǐng)先的泛化能力,證實(shí)了這套訓(xùn)練框架的有效性并非局限于自家數(shù)據(jù)集。

04.

結(jié)語與未來

具身智能的真正挑戰(zhàn),是在動(dòng)態(tài)世界中做出正確決策。此次星源智與北京大學(xué)團(tuán)隊(duì)聯(lián)合提出的EQA-Decision與RoboDecision,正是從感知智能邁向決策智能的關(guān)鍵一步,為后續(xù)的科研合作、產(chǎn)業(yè)交流和高端人才聚集搭建了一座極具吸引力的技術(shù)燈塔。

作為該工作的重要合作方,星源智為研究提供了寶貴的資源支持。CVPR 2026的錄用,不僅是學(xué)術(shù)層面的突破,更彰顯出公司在具身智能核心算法能力上的深厚積淀。

未來,隨著這類“從感知到?jīng)Q策”的數(shù)據(jù)集與模型被更廣泛地應(yīng)用于具身智能研究與機(jī)器人學(xué)習(xí)等領(lǐng)域,或許將看到,機(jī)器人不僅能夠理解世界,更學(xué)會(huì)如何做出正確的行動(dòng)。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
張雪稱用房卡誤刷開地鐵閘機(jī) 北京地鐵回復(fù):可能是因?yàn)榭ㄆ^薄

張雪稱用房卡誤刷開地鐵閘機(jī) 北京地鐵回復(fù):可能是因?yàn)榭ㄆ^薄

快科技
2026-06-10 17:49:18
特朗普騙了全世界?英媒爆料,美軍終于承認(rèn),在中方手里吃了大虧

特朗普騙了全世界?英媒爆料,美軍終于承認(rèn),在中方手里吃了大虧

老頭的傳奇色彩
2026-06-10 21:47:33
蘇州一對(duì)情侶,談了7年,女子提了18次分手,分手后在街頭痛哭!

蘇州一對(duì)情侶,談了7年,女子提了18次分手,分手后在街頭痛哭!

川渝視覺
2026-04-17 22:13:14
中國臺(tái)灣:GDP兩位數(shù)增長(zhǎng),股市排名全球第5

中國臺(tái)灣:GDP兩位數(shù)增長(zhǎng),股市排名全球第5

子業(yè)一說財(cái)經(jīng)
2026-06-04 09:24:36
貴州省委書記省長(zhǎng),出席電影首映禮

貴州省委書記省長(zhǎng),出席電影首映禮

天氣觀察站
2026-06-10 17:26:48
現(xiàn)貨黃金失守4140美元/盎司

現(xiàn)貨黃金失守4140美元/盎司

新京報(bào)
2026-06-10 20:18:28
成都“牽手門”事件女主現(xiàn)今狀況曝光,太慘了......

成都“牽手門”事件女主現(xiàn)今狀況曝光,太慘了......

許三歲
2026-03-17 07:34:05
越鬧越大!宋珍珍再曝猛料,除了陳濤以外,還被很多深圳老板愛過

越鬧越大!宋珍珍再曝猛料,除了陳濤以外,還被很多深圳老板愛過

童叔不飆車
2026-06-09 15:29:18
被罷免的董事長(zhǎng),差點(diǎn)把五糧液的價(jià)格體系干崩了

被罷免的董事長(zhǎng),差點(diǎn)把五糧液的價(jià)格體系干崩了

新10億商業(yè)參考
2026-06-10 18:25:24
斯皮爾伯格《揭露日》4.5分:最后一幕抹掉所有瑕疵

斯皮爾伯格《揭露日》4.5分:最后一幕抹掉所有瑕疵

灰度測(cè)試中
2026-06-10 01:28:28
林志玲被曝日本“拍片”?拍攝片段流出,網(wǎng)友:女神怎么淪落成這樣

林志玲被曝日本“拍片”?拍攝片段流出,網(wǎng)友:女神怎么淪落成這樣

八卦王者
2026-05-10 13:32:20
別喝“駝奶”了,全世界的駱駝也擠不出那么多的駝奶

別喝“駝奶”了,全世界的駱駝也擠不出那么多的駝奶

黃河新流域
2026-05-14 15:10:42
日本人動(dòng)手了!中國東巡臺(tái)島第3天,先后兩次遭日本飛機(jī)抵近偵察

日本人動(dòng)手了!中國東巡臺(tái)島第3天,先后兩次遭日本飛機(jī)抵近偵察

阿龍聊軍事
2026-06-10 09:02:10
新冠后遺癥的長(zhǎng)期侵襲,無數(shù)人在不知不覺中深陷困境

新冠后遺癥的長(zhǎng)期侵襲,無數(shù)人在不知不覺中深陷困境

律法刑道
2026-04-01 10:15:47
電梯門事件持續(xù)發(fā)酵!阿珍開始直播了,大量勝宏的股民刷禮物安慰

電梯門事件持續(xù)發(fā)酵!阿珍開始直播了,大量勝宏的股民刷禮物安慰

火山詩話
2026-06-10 05:53:04
鬧大了!鄰居充電線橫跨他人車位,車主倒車入庫壓斷被索賠500元

鬧大了!鄰居充電線橫跨他人車位,車主倒車入庫壓斷被索賠500元

火山詩話
2026-06-09 08:23:04
首個(gè)退群北約的國家來了:已走程序,退意已決!

首個(gè)退群北約的國家來了:已走程序,退意已決!

福建睿平
2026-04-27 11:46:08
東風(fēng)本田2026款英仕派上市!共三款車型,售價(jià)維持不變

東風(fēng)本田2026款英仕派上市!共三款車型,售價(jià)維持不變

汽車網(wǎng)評(píng)
2026-06-10 22:30:04
絕境逆轉(zhuǎn)定乾坤!LG杯中國隊(duì)5戰(zhàn)4盤全面領(lǐng)先,丁浩90%勝率鎖定勝局

絕境逆轉(zhuǎn)定乾坤!LG杯中國隊(duì)5戰(zhàn)4盤全面領(lǐng)先,丁浩90%勝率鎖定勝局

L76號(hào)
2026-06-10 12:54:17
金正恩:朝韓永遠(yuǎn)無法統(tǒng)一,給中國帶來一重要警示

金正恩:朝韓永遠(yuǎn)無法統(tǒng)一,給中國帶來一重要警示

潘軮旅行浪子
2026-02-26 23:03:09
2026-06-11 02:56:49
機(jī)器人大講堂 incentive-icons
機(jī)器人大講堂
立德機(jī)器人平臺(tái),是一個(gè)集媒體品牌、智庫咨詢、投資孵化、引智招商為一體的機(jī)器人垂直領(lǐng)域服務(wù)平臺(tái)
6687文章數(shù) 4590關(guān)注度
往期回顧 全部

科技要聞

史上最大IPO將至:1.8萬億美元的信仰豪賭

頭條要聞

杭州店主回應(yīng)2188元天價(jià)面:一天200個(gè)電話不分晝夜罵

頭條要聞

杭州店主回應(yīng)2188元天價(jià)面:一天200個(gè)電話不分晝夜罵

體育要聞

2026世界杯,我們看什么?

娛樂要聞

蒙淇淇發(fā)文開撕白鹿!輿論再次反轉(zhuǎn)

財(cái)經(jīng)要聞

SpaceX IPO或誕生4000名百萬富翁

汽車要聞

埃安i60 530寧德時(shí)代版上市限時(shí)煥新價(jià)10.36萬起

態(tài)度原創(chuàng)

健康
教育
房產(chǎn)
藝術(shù)
公開課

粽子為何難消化?過量吃會(huì)怎么樣?

教育要聞

有這個(gè)AI!你再也不會(huì)被外面的志愿填報(bào)機(jī)構(gòu)騙了

房產(chǎn)要聞

方案曝光,三亞又一地王級(jí)豪宅要出!

藝術(shù)要聞

驚嘆!最新一組超質(zhì)感的國際人像攝影作品

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版