无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

235B參數(shù)也沒用!港中文等發(fā)布7模態(tài)數(shù)據(jù)集,專測頂級VLM的感知盲區(qū)

0
分享至


新智元報道


【新智元導(dǎo)讀】當(dāng)下的多模態(tài)大模型,在Demo里能對著照片侃侃而談,可一旦離開RGB畫面,面對熱成像、深度、毫米波這些真實世界里隨處可見的信號,就集體「失明」。港中文AIoT 實驗室聯(lián)合UIUC、哥倫比亞大學(xué)與匹茲堡大學(xué),用一個包含64,267個七模態(tài)同步樣本的數(shù)據(jù)集CUHK-X,第一次系統(tǒng)地把這條「看得見卻讀不懂」的能力斷崖量化了出來。最扎心的結(jié)論是,把模型參數(shù)堆到235B,照樣救不回來。該工作已被ACM MobiSys 2026錄用。

過去兩年,VLM(視覺語言模型)的進步幾乎都寫在RGB圖像上。給它一張照片,它能描述、能問答、能推理,看上去無所不能。

但把它放進真實的居家、養(yǎng)老或醫(yī)療場景,故事立刻變了樣。夜里光線不足、被家具遮擋、出于隱私不能上攝像頭,這些恰恰是日常監(jiān)測最常見的工況,也恰恰是RGB最不擅長的地方。真正要扛事的,是熱成像、深度、毫米波雷達、IMU這些非RGB模態(tài)。

問題在于,模型在這些模態(tài)上的表現(xiàn),和它在RGB上的光鮮形成了刺眼的反差。根子也很清楚,訓(xùn)練和評測它們的數(shù)據(jù)長期是缺的?,F(xiàn)有的人類活動識別(HAR)數(shù)據(jù)集絕大多數(shù)只給到粗粒度的 ?數(shù)據(jù), 標(biāo)簽?,比如一條「跌倒」、一條「睡覺」,既沒有連貫的語義描述,也不覆蓋多模態(tài)。模型自然學(xué)不會「看懂」,更談不上「讀懂」。

三個能力臺階

要把這件事講清楚,得先把「看懂人」拆成三個遞進的臺階。

第一階是識別(HAR),回答「這是什么動作」,本質(zhì)是分類。

第二階是理解(HAU),要求模型用自然語言描述一段活動序列,并判斷當(dāng)時的情境狀態(tài),比如是放松、平靜還是匆忙。

第三階是推理(HARn),在看完前序動作后,推斷行為意圖并預(yù)測下一步最可能發(fā)生什么。

舉個例子。看到一個人「洗臉、刷牙、梳頭」,識別只需要逐個貼標(biāo)簽;理解要能把它串成「一段晨間洗漱」;而推理則要據(jù)此判斷「接下來他大概率要出門」。越往上走,越考驗?zāi)P蛯ι舷挛暮鸵蚬陌盐?,也越接近智慧醫(yī)療、居家養(yǎng)老真正需要的能力。例如在阿爾茨海默病照護中,對日常行為的連續(xù)理解與預(yù)判,正是及時干預(yù)的關(guān)鍵依據(jù)。


圖1 CUHK-X 在多房間真實家居環(huán)境中同步采集七種傳感模態(tài),并面向識別(HAR)、理解(HAU)與推理(HARn)三類任務(wù)統(tǒng)一建模。

CUHK-X

先有「真值」再采數(shù)據(jù)

針對這條斷崖,CUHK-X 給出的答案是一個面向HAR、HAU、HARn三類任務(wù)的大規(guī)模多模態(tài)數(shù)據(jù)集與基準(zhǔn)。它包含64,267個活動樣本,覆蓋7種同步模態(tài)、40種日常動作和30名參與者。


論文鏈接:https://arxiv.org/abs/2512.07136

項目主頁 https://openaiotlab.github.io/CUHK-X/

代碼鏈接 https://github.com/openaiotlab/CUHK-X

更關(guān)鍵的是它「反著來」的采集邏輯。一種偷懶的做法是把若干單模態(tài)數(shù)據(jù)集的粗標(biāo)簽拼到一起,再讓LLM自動編描述。但這樣極易制造時空矛盾,比如把「刷牙」和「吃飯」硬塞進同一個場景,可兩者本就發(fā)生在不同房間、不同時段,邏輯上根本說不通。

CUHK-X反其道而行,采用了「先有真值」(Ground-Truth-First)的策略。它先用LLM把同類或跨類動作邏輯串聯(lián)成連貫的生活場景描述(如把洗臉、刷牙、梳頭、擦手、穿衣組織成完整的晨間場景),再對描述做語言風(fēng)格擴展,并經(jīng)四位研究生級標(biāo)注員按物理可行性、場景一致性、時間因果與常識約束四個維度人工把關(guān),最后才讓參與者理解描述、自然表演,按描述去采真實數(shù)據(jù)。如此得到的 ?數(shù)據(jù), 描述? 配對,天然時空對齊、語義連貫。


圖2 CUHK-X的數(shù)據(jù)生產(chǎn)鏈路,從動作篩選、場景化描述生成到按描述采集多模態(tài)數(shù)據(jù),最終匯成三大基準(zhǔn)。

在兩個真實室內(nèi)環(huán)境(客廳、廚房、臥室、浴室四類場景)中,CUHK-X用一套精心設(shè)計的傳感器陣列同步記錄七種模態(tài)。環(huán)境側(cè)包括Goermicro Vzense NYX 650相機(同時輸出RGB、深度、紅外)、德州儀器IWR6843ISK毫米波雷達(60–64 GHz)和??礣B4117熱成像相機(120×160);可穿戴側(cè)是五個 WitMotion WT9011DCL-BT50 IMU,分別戴在雙手腕、雙腳踝和腰部;骨架數(shù)據(jù)則由MMPose從RGB與深度幀估計出17個3D關(guān)節(jié)點。30名參與者中男女比例為40%比60%,年齡20–23歲。據(jù)作者介紹,這是首個同時覆蓋RGB、深度、熱成像、紅外、骨架、IMU、毫米波雷達七種模態(tài)、并配有豐富文本描述的大規(guī)?;顒訑?shù)據(jù)集。


圖 3 環(huán)境側(cè)傳感器與可穿戴 IMU 的部署方案。


圖 4 同一組日?;顒釉谄叻N模態(tài)下的同步可視化,直觀體現(xiàn)各模態(tài)的信息密度差異。


圖 5 CUHK-X 數(shù)據(jù)規(guī)模與類別分布概覽。

三大基準(zhǔn)六項任務(wù)

數(shù)據(jù)之外,CUHK-X 真正的殺傷力在于它的評測設(shè)計,六項任務(wù)幾乎每一項都是沖著逼出模型短板去的。

HAR 基準(zhǔn)下設(shè) 1 項任務(wù),即 40類動作分類,檢驗各模態(tài)對識別模型的支撐力。HAU 基準(zhǔn)下設(shè) 4 項任務(wù),分別是描述比較(看模型生成的描述和真值語義有多接近)、上下文分析(判斷動作執(zhí)行時的情境狀態(tài))、動作序列重排(把打亂的動作還原成正確時序)和動作選擇(從 40 個候選里挑出視頻里真正發(fā)生的)。HARn 基準(zhǔn)下設(shè) 1 項任務(wù),即基于前序動作預(yù)測下一個最可能的動作,直擊意圖推理與因果推斷。

被拉上測試臺的,是 InternVL2.5-2B/8B、QwenVL2.5-3B/7B、VideoLLaVA-7B、VideoChatR1-7B 等一線 VLM;HAR 任務(wù)上還加入了 ResNet-50、PointNet、MotionBERT 等模態(tài)專用模型。為了看清「規(guī)模紅利」,研究還額外評測了 Qwen-35B、QwenVL3-235B 和 Doubao-seed-2.0 等更大體量的模型。

四個反直覺的發(fā)現(xiàn)

跑完全套評測,CUHK-X 給出了幾條相當(dāng)扎心的結(jié)論。

發(fā)現(xiàn)一,模態(tài)之間存在明顯的「鄙視鏈」,但弱模態(tài)并非沒用。HAR 七模態(tài)平均識別準(zhǔn)確率為 76.52%,視覺模態(tài)一騎絕塵:熱成像拿到 92.57% 準(zhǔn)確率、93.36% F1,RGB 與深度的 F1 分別為 91.28% 和 90.93%,骨架也有 79.08% 準(zhǔn)確率。而 IMU 與毫米波雷達的獨立準(zhǔn)確率只有 45.52% 和 46.63%。判別力天然偏弱,但正是這兩類模態(tài),在遮擋、弱光和隱私敏感場景里提供著視覺模態(tài)給不了的互補價值。

發(fā)現(xiàn)二,參數(shù)越大不一定越強。模型規(guī)模實驗顯示,單純堆參數(shù)并不能在所有任務(wù)和模態(tài)上普漲。最典型的是 QwenVL3-235B,在深度上下文分析任務(wù)上不升反降,從 0.422 直接掉到 0.286。即便是整體最強的 Doubao-seed-2.0,在同一任務(wù)上也只做到 0.552。換句話說,CUHK-X 拋出的難題,遠(yuǎn)沒有被現(xiàn)有大模型解決。

發(fā)現(xiàn)三,會「推理」的模型,明顯打得過會「描述」的模型。在 HARn 基準(zhǔn)上,三種視覺模態(tài)的平均推理準(zhǔn)確率達到 70.25%(最高 90.30%),其中 VideoChatR1-7B 這類推理模型顯著領(lǐng)先于描述模型。前者能借助上下文理解和邏輯推斷,把已觀察到的動作和最可能的下一步關(guān)聯(lián)起來;后者則常常被表面視覺線索帶偏。

發(fā)現(xiàn)四,沒有「全能選手」。在動作序列重排和動作選擇這類任務(wù)上,呈現(xiàn)出強烈的模型-模態(tài)交互效應(yīng),沒有任何單一模型能在所有模態(tài)上通吃。HAU 四項子任務(wù)的平均準(zhǔn)確率只有 40.76%(最高也才 50.52%),描述比較任務(wù)上 VideoLLaVA-7B 拿到最佳 BERTScore F1(86.40%),但換一個模態(tài)、換一項任務(wù),領(lǐng)先者又會易主。這種「測不出一個穩(wěn)定贏家」的狀態(tài),恰恰說明了基準(zhǔn)本身的區(qū)分度和挑戰(zhàn)性。

對具身智能意味著什么

把這些發(fā)現(xiàn)拼起來,CUHK-X 其實是給整個具身智能社區(qū)提了個醒。當(dāng)下 VLM 的強,很大程度上是「RGB 之強」;一旦進入真實物理世界那些繞不開的非 RGB 模態(tài)和復(fù)雜時序推理,能力短板就暴露無遺。而要補上這塊短板,光靠把模型做大顯然不夠,得從數(shù)據(jù)和評測的根上重建。

按作者的規(guī)劃,CUHK-X 接下來會沿兩條線擴展。一是引入?yún)⑴c者間的交互和更長時間跨度的多步驟活動,提升行為復(fù)雜度;二是補充音頻、觸覺、心率、腦電等信號模態(tài),并覆蓋更多室內(nèi)環(huán)境與更廣年齡、運動能力的人群,增強泛化性與生態(tài)效度。同時,它也會作為標(biāo)準(zhǔn)化教學(xué)資源,支撐傳感器融合、數(shù)據(jù)標(biāo)注與多模態(tài)推理等方向的研究與教學(xué)。

對于一個想要真正「讀懂人」的智能體來說,這塊拼圖,才剛剛開始拼。

論文信息

論文第一作者為香港中文大學(xué)博士生蔣思陽,香港中文大學(xué)博士后袁牧和香港中文大學(xué)博士生紀(jì)祥等共同參與。指導(dǎo)導(dǎo)師邢國良教授為 ACM、IEEE 會士,擔(dān)任 CUHK AIoT 實驗室主任,曾獲美國 NSF CAREER Award 與香港中文大學(xué)杰出研究獎;共同通訊作者為邢國良教授與陳鴻凱研究助理教授(香港中文大學(xué))。該工作由香港中文大學(xué)聯(lián)合伊利諾伊大學(xué)厄巴納-香檳分校、哥倫比亞大學(xué)與匹茲堡大學(xué)共同完成。

參考資料:

https://arxiv.org/abs/2512.07136

編輯:LRST



特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
您可能不知道的,世界或已經(jīng)停止發(fā)展了!中國已成為人類希望!

您可能不知道的,世界或已經(jīng)停止發(fā)展了!中國已成為人類希望!

混沌錄
2026-06-11 20:17:07
動作巨星患阿爾茨海默癥 女兒曝光首次察覺不對勁的瞬間

動作巨星患阿爾茨海默癥 女兒曝光首次察覺不對勁的瞬間

赴一場山海啊
2026-07-02 00:07:22
2026世界杯奪冠賠率出爐:前5名里,至少有2個是"水貨"

2026世界杯奪冠賠率出爐:前5名里,至少有2個是"水貨"

岳先生悟人間
2026-06-04 08:00:08
3天死1000人,法國政府終于妥協(xié),連夜從中國搶購3萬臺空調(diào)?

3天死1000人,法國政府終于妥協(xié),連夜從中國搶購3萬臺空調(diào)?

傲傲講歷史
2026-07-04 00:43:50
官方消息:92號汽油每升下調(diào)0.75元,零點之后即開始調(diào)整

官方消息:92號汽油每升下調(diào)0.75元,零點之后即開始調(diào)整

沙雕小琳琳
2026-07-03 17:28:47
51歲的周迅選擇不修邊幅不化妝,頂著一頭白發(fā)

51歲的周迅選擇不修邊幅不化妝,頂著一頭白發(fā)

小邵說劇
2026-04-28 12:14:40
55年授銜,毛主席看到了一個熟悉的人,走過去說:你當(dāng)上少將了?

55年授銜,毛主席看到了一個熟悉的人,走過去說:你當(dāng)上少將了?

瑩瑩的歷史說
2026-07-04 01:06:44
為了“掏空”老百姓的錢袋子,編造出來的四個謊言,誰信誰倒霉!

為了“掏空”老百姓的錢袋子,編造出來的四個謊言,誰信誰倒霉!

風(fēng)信子的花
2026-05-26 19:06:10
世界銀行:5年內(nèi)停貸中國!特朗普出面慶祝,中方回應(yīng)讓人意外!

世界銀行:5年內(nèi)停貸中國!特朗普出面慶祝,中方回應(yīng)讓人意外!

楠楠自語
2026-07-03 09:42:40
原來孩子的傷到父母身上就會加倍,網(wǎng)友:住icu,爸媽扇了一晚風(fēng)

原來孩子的傷到父母身上就會加倍,網(wǎng)友:住icu,爸媽扇了一晚風(fēng)

另子維愛讀史
2026-07-03 20:09:13
何小鵬:MONA L03小訂破紀(jì)錄了

何小鵬:MONA L03小訂破紀(jì)錄了

ZAKER新聞
2026-07-03 20:49:09
家里老人只要還能走動,三餐能自理,就不要過度“服務(wù)”,不然……

家里老人只要還能走動,三餐能自理,就不要過度“服務(wù)”,不然……

十點讀書
2026-06-29 20:56:42
印度一家五口帶著9萬盧比闖入上海,以為能買半條街,一頓火鍋后徹底懵了

印度一家五口帶著9萬盧比闖入上海,以為能買半條街,一頓火鍋后徹底懵了

黎兜兜
2026-07-03 00:12:36
復(fù)旦大學(xué)發(fā)現(xiàn):不吃花生和雞蛋的人,膽固醇馬上就降低了?可信嗎

復(fù)旦大學(xué)發(fā)現(xiàn):不吃花生和雞蛋的人,膽固醇馬上就降低了?可信嗎

汪醫(yī)生健康百科
2026-07-02 17:40:36
父母催婚,并不完全是因為“你該結(jié)婚了”,而是因為一旦你不結(jié)婚,他們就突然不知道你接下來會走向哪里了

父母催婚,并不完全是因為“你該結(jié)婚了”,而是因為一旦你不結(jié)婚,他們就突然不知道你接下來會走向哪里了

二胡的歲月如歌
2026-06-27 18:18:37
港股半導(dǎo)體板塊走低,兆易創(chuàng)新、華虹宏力跌超5%

港股半導(dǎo)體板塊走低,兆易創(chuàng)新、華虹宏力跌超5%

每日經(jīng)濟新聞
2026-07-03 14:56:06
中國電磁彈射還能這樣用!車載電彈系統(tǒng)已實戰(zhàn):西方徹底看懵了

中國電磁彈射還能這樣用!車載電彈系統(tǒng)已實戰(zhàn):西方徹底看懵了

他想要很多很多的夢
2026-07-02 18:07:37
河北小城再創(chuàng)世界紀(jì)錄!今麥郎拿吉尼斯認(rèn)證,年產(chǎn)120億份方便面

河北小城再創(chuàng)世界紀(jì)錄!今麥郎拿吉尼斯認(rèn)證,年產(chǎn)120億份方便面

李砍柴
2026-07-03 14:15:08
以色列:已做好獨立對伊作戰(zhàn)準(zhǔn)備特朗普說伊朗提出會談?wù)埱笠粮蓖忾L答“暫無此安排”#美伊戰(zhàn)爭#伊以戰(zhàn)爭

以色列:已做好獨立對伊作戰(zhàn)準(zhǔn)備特朗普說伊朗提出會談?wù)埱笠粮蓖忾L答“暫無此安排”#美伊戰(zhàn)爭#伊以戰(zhàn)爭

每日經(jīng)濟新聞
2026-06-30 23:47:18
謝霆鋒是純愛戰(zhàn)士!李沁被曝嫁入豪門?

謝霆鋒是純愛戰(zhàn)士!李沁被曝嫁入豪門?

八卦瘋叔
2026-07-02 11:20:37
2026-07-04 03:07:00
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺領(lǐng)航智能+時代
15599文章數(shù) 66945關(guān)注度
往期回顧 全部

科技要聞

萬億富豪馬斯克 舍不得特斯拉員工敞開用AI

頭條要聞

美媒詢問中方是否接受霍爾木茲海峽收費 外交部回應(yīng)

頭條要聞

美媒詢問中方是否接受霍爾木茲海峽收費 外交部回應(yīng)

體育要聞

C羅穿已故隊友若塔球衣謝場 眼中含淚

娛樂要聞

海來阿木孕期出軌指控掀起全網(wǎng)熱議

財經(jīng)要聞

千億茶市場無贏家:瀾滄巨虧 八馬停"蹄"

汽車要聞

方程豹鈦9內(nèi)飾曝光 用上了長聯(lián)屏設(shè)計/下半年上市

態(tài)度原創(chuàng)

游戲
家居
教育
房產(chǎn)
公開課

R星官方又發(fā)動態(tài)!玩家們被嚇到 有玩家為PS光盤開噴

家居要聞

傳奇筑 日常詩

教育要聞

教育部:嚴(yán)控暑期作業(yè)總量

房產(chǎn)要聞

總裁空缺17個月、現(xiàn)金缺口超1000億:金融局“局外人”入局萬科

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版