![]()
本文由來自南洋理工大學(xué)、愛丁堡大學(xué)、賓夕法尼亞大學(xué)、倫敦大學(xué)學(xué)院和麻省理工學(xué)院的研究者合作完成。作者團(tuán)隊(duì)在 RF / 毫米波感知、人體建模、機(jī)器人感知與控制等方向均有長(zhǎng)期積累。
- Junqiao Fan:NTU 在讀博士,指導(dǎo)老師為 NTU 教授 Lihua Xie。
- Chris Xiaoxuan Lu:UCL 副教授。
- Jianfei Yang:NTU 助理教授。
- Fangqiang Ding:MIT 博后研究員。
- Yunjiao Zhou, Yizhuo Yang, Jiarui Zhang:NTU 在讀博士。
- Xinyuan Cui:Upenn 在讀碩士(部分工作為 Xinyuan Cui 和 Fangqiang Ding 在愛丁堡大學(xué)時(shí)完成)。
想象幾個(gè)并不遙遠(yuǎn)的場(chǎng)景:
醫(yī)院的病房里,剛做完手術(shù)的患者正在練習(xí)下床、走動(dòng),智能系統(tǒng)通過攝像頭捕捉他的動(dòng)作,判斷步態(tài)是否穩(wěn)定、有沒有跌倒風(fēng)險(xiǎn);回到家,在臥室或浴室這樣私密的空間里,老人起身、轉(zhuǎn)身、洗漱,甚至意外滑倒的瞬間,也可能被視覺傳感器記錄,只為了讓 AI 能更早發(fā)現(xiàn)異常;另外,在養(yǎng)老院和托兒所場(chǎng)景里,老人或孩子的日常活動(dòng),同樣可能長(zhǎng)期處于 “被看見” 的狀態(tài)。
這些系統(tǒng)的出發(fā)點(diǎn)無疑是好的:為了更安全的照護(hù)、更及時(shí)的提醒、更可靠的響應(yīng)。但只要感知還依賴相機(jī),一個(gè)問題就始終繞不開:當(dāng) AI 越來越懂人,人是不是也在被越來越徹底地暴露?
人們擔(dān)心的,不只是模型準(zhǔn)不準(zhǔn),更怕那些包含外貌、身份、行為習(xí)慣甚至生活細(xì)節(jié)的視覺數(shù)據(jù),被存儲(chǔ)、泄露或?yàn)E用。哪怕什么都沒發(fā)生,光是 “始終有一個(gè)鏡頭在看著你” 這件事本身,就足以讓人不安。正是在這樣的背景下,來自海外高校的研究者提出了M4Human。這項(xiàng)工作試圖減少人體感知對(duì)相機(jī)單一模式的依賴,推動(dòng)毫米波人體感知從粗粒度的識(shí)別,走向更高保真的人體建模與系統(tǒng)化評(píng)測(cè)。
![]()
- 論文標(biāo)題:M4Human: A Large-Scale Multimodal mmWave Radar Benchmark for Human Mesh Reconstruction
- 作者: Junqiao Fan, Yunjiao Zhou, Yizhuo Yang, Xinyuan Cui, Jiarui Zhang, Lihua Xie, Jianfei Yang, Chris Xiaoxuan Lu, Fangqiang Ding
- 作者單位:南洋理工大學(xué),愛丁堡大學(xué),賓夕法尼亞大學(xué),倫敦大學(xué)學(xué)院,麻省理工學(xué)院
- 論文鏈接: https://arxiv.org/pdf/2512.12378
- 代碼與數(shù)據(jù)鏈接:https://github.com/FanJunqiao/M4Human
- 主頁(yè)鏈接:https://fanjunqiao.github.io/M4Human-site/
研究背景
為什么人體感知不能只依賴相機(jī)
在未來的 Physical AI 系統(tǒng)中,機(jī)器不僅要 “看見” 人,還要理解人的運(yùn)動(dòng)和行為,并據(jù)此做出合適的響應(yīng)。相比只預(yù)測(cè)少量人體關(guān)鍵點(diǎn),人體網(wǎng)格重建(Human Mesh Reconstruction, HMR)能夠恢復(fù)姿態(tài)、形狀和全局運(yùn)動(dòng),在人機(jī)交互、康復(fù)評(píng)估、健康監(jiān)測(cè)、VR/AR 以及具身智能等場(chǎng)景中更有應(yīng)用價(jià)值。
但當(dāng)前高質(zhì)量的 HMR 系統(tǒng)大多仍依賴相機(jī)。這條路雖然有效,卻有兩個(gè)現(xiàn)實(shí)限制:一是視覺數(shù)據(jù)會(huì)直接暴露人的外觀,在兒童照護(hù)、養(yǎng)老陪護(hù)、居家康復(fù)等場(chǎng)景中容易引發(fā)隱私擔(dān)憂;二是相機(jī)容易受光照和遮擋影響,弱光、逆光或復(fù)雜環(huán)境下的魯棒性并不總能保證。正因如此,毫米波雷達(dá)正成為人體感知中越來越重要的一種模態(tài) —— 它通過回波恢復(fù)空間信息,對(duì)光照不敏感,在部分遮擋條件下更穩(wěn)健,而且不會(huì)記錄人的外貌。
![]()
M4Human - 面向多任務(wù)的人體感知 benchmark:涵蓋 50 類動(dòng)作、20 位參與者、661K 幀數(shù)據(jù),并支持 tracking、mesh reconstruction、activity recognition、generation 等任務(wù)。
現(xiàn)有問題
RF 人體感知真正缺的是 benchmark
過去幾年,基于 RF / 毫米波的人體感知方法層出不窮,但這一方向的發(fā)展一直受限于數(shù)據(jù)基礎(chǔ)。更準(zhǔn)確地說,當(dāng)前真正缺的不是模型,而是足夠系統(tǒng)、足夠高質(zhì)量的 benchmark。現(xiàn)有許多 RF 數(shù)據(jù)集仍以粗粒度的人體姿態(tài)估計(jì)為主,標(biāo)注通常停留在 skeleton 層面;少數(shù)涉及 mesh reconstruction 的數(shù)據(jù)集,也存在規(guī)模小、動(dòng)作種類有限的問題,而且很多只開放經(jīng)過處理后的稀疏點(diǎn)云。
這帶來了幾個(gè)直接限制:
- 標(biāo)注粒度和精度不足,難以支撐更高保真的人體建模;
- 動(dòng)作分布單一,大多集中在簡(jiǎn)單的原地動(dòng)作,難以反映真實(shí)場(chǎng)景中的復(fù)雜動(dòng)態(tài);
- 原始雷達(dá)張量(raw radar tensor)缺失,后續(xù)研究只能在經(jīng)過閾值處理后的點(diǎn)云上建模,無法充分利用雷達(dá)原始信號(hào)中更完整、更細(xì)粒度的空間信息。
![]()
M4Human 與已有 RF/mmWave 人體感知數(shù)據(jù)集對(duì)比。M4Human 規(guī)模更大、動(dòng)作更多、標(biāo)注更細(xì)、同時(shí)開放 RT 與 RPC,并支持 mesh reconstruction 與全局軌跡。
數(shù)據(jù)集本身
M4Human 補(bǔ)上的是什么空白
M4Human 是一個(gè)面向高保真 RF / 毫米波人體建模的大規(guī)模多模態(tài) benchmark,包含 999 段序列、661K 同步幀、20 位參與者、50 類動(dòng)作,總時(shí)長(zhǎng)超過 15 小時(shí)。與此前許多數(shù)據(jù)集不同,M4Human 不僅提供 RGB 和 depth,還同時(shí)開放 raw radar tensor(RT) 與 radar point cloud(RPC),并配有基于高精度 marker-based MoCap 的 3D mesh 和全局軌跡標(biāo)注。
這項(xiàng)工作的關(guān)鍵不是 “數(shù)據(jù)更多”,而是“數(shù)據(jù)更適合高保真人體建模”。一方面,M4Human 的動(dòng)作設(shè)計(jì)更豐富 —— 不僅包含原地動(dòng)作,還涵蓋坐姿以及非原地的動(dòng)態(tài)動(dòng)作,整體分布更接近真實(shí)場(chǎng)景;另一方面,它提供了更完整的雷達(dá)數(shù)據(jù)表征,既開放后處理得到的點(diǎn)云,也保留原始 RT,讓研究者可以探索從 radar tensor 到人體 mesh 的端到端建模。
![]()
與 mmBody 等已有數(shù)據(jù)集相比,M4Human 不僅規(guī)模更大,還具有更高的人體有效點(diǎn)云占比,并額外開放原始雷達(dá)張量 RT。
數(shù)據(jù)怎么來的
采集系統(tǒng)與標(biāo)注鏈路為什么可信
一個(gè) benchmark 是否有說服力,很大程度上取決于數(shù)據(jù)采集與標(biāo)注流程是否扎實(shí)可靠。M4Human 在這方面搭建了一套完整的多模態(tài)采集平臺(tái):作者將 Intel RealSense RGB-D 相機(jī)、Vayyar 成像毫米波雷達(dá)和 Vicon MoCap 系統(tǒng)集成到一起,相機(jī)與雷達(dá)固定安裝,Vicon 系統(tǒng)則提供高精度三維運(yùn)動(dòng)捕捉。
基于這套系統(tǒng),M4Human 一方面可以同步采集 RGB、depth、RT、RPC 等多模態(tài)數(shù)據(jù),另一方面借助 MoCap 為人體 mesh 和全局軌跡提供高質(zhì)量標(biāo)注。論文中提到,作者使用了 37 個(gè) markers 進(jìn)行采集,并結(jié)合后續(xù)重建與人工檢查,盡可能保證 mesh 標(biāo)注的準(zhǔn)確性和時(shí)空一致性。相比許多只提供 skeleton 標(biāo)注的 RF 數(shù)據(jù)集,這樣的流程顯然更適合支撐 mesh 級(jí)的人體建模研究。
![]()
M4Human 的數(shù)據(jù)采集與標(biāo)注流程:包括傳感系統(tǒng)搭建、空間標(biāo)定、時(shí)間同步、mesh 標(biāo)注生成與人工校驗(yàn)。
![]()
視頻地址:https://mp.weixin.qq.com/s/mpdds4WyDaqg1iLH8FvUmg
![]()
視頻地址:https://mp.weixin.qq.com/s/mpdds4WyDaqg1iLH8FvUmg
![]()
視頻地址:https://mp.weixin.qq.com/s/mpdds4WyDaqg1iLH8FvUmg
M4Human 數(shù)據(jù)集中多模態(tài)傳感器數(shù)據(jù)與 MoCap mesh 標(biāo)注的同步演示,展示了不同動(dòng)作情境下雷達(dá)數(shù)據(jù)與人體標(biāo)注之間的對(duì)齊效果。
Benchmark 設(shè)計(jì)
它到底在評(píng)什么
M4Human 的價(jià)值不僅在于發(fā)布了一個(gè)新數(shù)據(jù)集,還在于建立了一套相對(duì)系統(tǒng)的評(píng)測(cè)框架。除了動(dòng)作協(xié)議劃分,論文進(jìn)一步定義了Random split、cross-subject和cross-action三種劃分方式,分別用于評(píng)估常規(guī)設(shè)置下的表現(xiàn),以及更具挑戰(zhàn)性的泛化能力。
這一設(shè)計(jì)很重要。很多方法在隨機(jī)劃分下能取得不錯(cuò)的結(jié)果,但一旦測(cè)試對(duì)象變成未見過的 subject,或者動(dòng)作分布發(fā)生變化,性能往往明顯下降。M4Human 將這些更難、也更接近真實(shí)應(yīng)用的問題納入統(tǒng)一的 benchmark,讓評(píng)測(cè)不再停留在 “模型能不能跑通”,而是進(jìn)一步關(guān)注模型在真實(shí)變化條件下是否還能保持泛化能力。
RT-Mesh:直接從原始雷達(dá)張量恢復(fù)人體 mesh
圍繞這個(gè) benchmark,作者提出了RT-Mesh,作為首個(gè)直接基于 raw radar tensor 進(jìn)行 HMR 的 baseline。它的意義不在于一次性給出最終答案,而在于驗(yàn)證了一件更基礎(chǔ)的事情:RT 并不只是輔助信息,它本身就可以成為高保真人體建模的核心輸入表征。
RT-Mesh 的整體思路是:先在 BEV 空間中進(jìn)行高效定位,再?gòu)木植咳S radar tensor 中回歸人體 mesh。這一設(shè)計(jì)為后續(xù)基于原始雷達(dá)信號(hào)的人體建模方法提供了一個(gè)清晰的起點(diǎn),也讓 M4Human 不止于 “提供數(shù)據(jù)”,同時(shí)給出了一個(gè)可復(fù)現(xiàn)、可比較的 baseline。
![]()
RT-Mesh 框架示意:先在 BEV 中進(jìn)行高效定位,再?gòu)木植?3D radar tensor 中回歸人體 mesh。
結(jié)果一:RT 不只是可用,而且在泛化場(chǎng)景下更穩(wěn)
從實(shí)驗(yàn)結(jié)果看,在 radar-only 設(shè)置下,RT 和 RPC 在隨機(jī)劃分上的表現(xiàn)較為接近;但在 cross-subject 和 cross-action 這類更具挑戰(zhàn)性的設(shè)置中,RT 往往更穩(wěn)定。以 ALL 協(xié)議為例,RT-Mesh 的 MVE 在 S1/S2/S3 上分別達(dá)到 90.9 / 135.1 / 143.1 mm,推理延遲僅為 2.74 ms,計(jì)算量約 2.6 GFLOPs。
這說明原始 radar tensor 中保留了更連續(xù)、更完整的空間信息;而稀疏的 RPC 在經(jīng)過閾值篩選和點(diǎn)云化后,會(huì)損失一部分對(duì)細(xì)粒度人體建模有用的信息。因此,在更復(fù)雜、也更強(qiáng)調(diào)泛化能力的測(cè)試條件下,RT 展現(xiàn)出更大的潛力。
![]()
Radar-only benchmark 結(jié)果。RT-Mesh 在整體性能、泛化穩(wěn)定性和推理效率之間取得了較好的平衡。
![]()
數(shù)據(jù)規(guī)模對(duì)性能的影響分析:隨著訓(xùn)練數(shù)據(jù)增加,cross-subject 與 cross-action 表現(xiàn)持續(xù)改善。證明了大規(guī)模數(shù)據(jù)集的優(yōu)勢(shì)。
結(jié)果二:mmWave 不是簡(jiǎn)單替代視覺,而是強(qiáng)互補(bǔ)模態(tài)
如果把雷達(dá)放到與視覺模態(tài)的對(duì)比中看,更準(zhǔn)確的結(jié)論不是 “雷達(dá)取代相機(jī)”,而是 “雷達(dá)與視覺具有明確的互補(bǔ)性”。在單模態(tài)設(shè)置下,高分辨率 radar-only 在不少場(chǎng)景中已超過 RGB,并接近 depth 的表現(xiàn);而在多模態(tài)融合設(shè)置下,Depth + RT 和 RPC + RT 都能帶來進(jìn)一步收益。
雷達(dá)的價(jià)值至少體現(xiàn)在兩方面:
- 它本身具有更好的隱私友好性和環(huán)境魯棒性;
- 它不是視覺系統(tǒng)的簡(jiǎn)單替代,而是 camera-based 系統(tǒng)的有效補(bǔ)充。
論文還指出,radar 在 root trajectory tracking 上尤其有優(yōu)勢(shì),這與它對(duì)移動(dòng)前景更敏感、對(duì)靜態(tài)背景相對(duì)不敏感的特性一致。
![]()
單模態(tài)與融合 benchmark:radar-only 已具備較強(qiáng)競(jìng)爭(zhēng)力,而與視覺模態(tài)融合后還能進(jìn)一步提升重建與跟蹤表現(xiàn)。
![]()
復(fù)雜非原地動(dòng)作中的可視化對(duì)比:RT 能更穩(wěn)定地支持 tracking 與 mesh reconstruction,而 RPC 在身體局部缺失時(shí)更容易失敗。
![]()
視頻地址:https://mp.weixin.qq.com/s/mpdds4WyDaqg1iLH8FvUmg
![]()
視頻地址:https://mp.weixin.qq.com/s/mpdds4WyDaqg1iLH8FvUmg
![]()
視頻地址:https://mp.weixin.qq.com/s/mpdds4WyDaqg1iLH8FvUmg
![]()
視頻地址:https://mp.weixin.qq.com/s/mpdds4WyDaqg1iLH8FvUmg
![]()
視頻地址:https://mp.weixin.qq.com/s/mpdds4WyDaqg1iLH8FvUmg
復(fù)雜動(dòng)作下的視頻可視化結(jié)果,基于 radar 的方法得到了穩(wěn)定精確的人體重建效果。
結(jié)語
從骨架到人體網(wǎng)格,RF 人體感知正在進(jìn)入下一階段
從更大的視角看,M4Human 推進(jìn)的不只是一個(gè)新數(shù)據(jù)集,更體現(xiàn)了RF 人體感知研究范式的進(jìn)一步演進(jìn)。過去,這一領(lǐng)域的許多工作主要停留在 skeleton 級(jí)別的人體姿態(tài)估計(jì);而 M4Human 把問題推進(jìn)到 mesh 級(jí)建模,讓隱私友好的人體感知開始具備更高保真的數(shù)據(jù)基礎(chǔ)與評(píng)測(cè)支撐。
對(duì)于智能家居、醫(yī)療康復(fù)、人機(jī)交互以及具身智能等場(chǎng)景而言,未來真正需要理解的,往往不只是幾個(gè)離散的關(guān)鍵點(diǎn),而是人體在真實(shí)運(yùn)動(dòng)過程中的完整形態(tài)與動(dòng)態(tài)變化。M4Human 為這一目標(biāo)提供了更系統(tǒng)的 benchmark,也讓 RF / 毫米波人體感知從一種可探索的感知模態(tài),發(fā)展為一個(gè)更值得持續(xù)投入和長(zhǎng)期建設(shè)的研究方向。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.