網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

擺脫相機(jī)依賴！M4Human推動(dòng)毫米波人體感知邁向新階段

2026-04-13 13:03:18　來源: 機(jī)器之心Pro

河北舉報(bào)

分享至

本文由來自南洋理工大學(xué)、愛丁堡大學(xué)、賓夕法尼亞大學(xué)、倫敦大學(xué)學(xué)院和麻省理工學(xué)院的研究者合作完成。作者團(tuán)隊(duì)在 RF / 毫米波感知、人體建模、機(jī)器人感知與控制等方向均有長(zhǎng)期積累。

Junqiao Fan：NTU 在讀博士，指導(dǎo)老師為 NTU 教授 Lihua Xie。
Chris Xiaoxuan Lu：UCL 副教授。
Jianfei Yang：NTU 助理教授。
Fangqiang Ding：MIT 博后研究員。
Yunjiao Zhou, Yizhuo Yang, Jiarui Zhang：NTU 在讀博士。
Xinyuan Cui：Upenn 在讀碩士（部分工作為 Xinyuan Cui 和 Fangqiang Ding 在愛丁堡大學(xué)時(shí)完成）。

想象幾個(gè)并不遙遠(yuǎn)的場(chǎng)景：

醫(yī)院的病房里，剛做完手術(shù)的患者正在練習(xí)下床、走動(dòng)，智能系統(tǒng)通過攝像頭捕捉他的動(dòng)作，判斷步態(tài)是否穩(wěn)定、有沒有跌倒風(fēng)險(xiǎn)；回到家，在臥室或浴室這樣私密的空間里，老人起身、轉(zhuǎn)身、洗漱，甚至意外滑倒的瞬間，也可能被視覺傳感器記錄，只為了讓 AI 能更早發(fā)現(xiàn)異常；另外，在養(yǎng)老院和托兒所場(chǎng)景里，老人或孩子的日常活動(dòng)，同樣可能長(zhǎng)期處于 “被看見” 的狀態(tài)。

這些系統(tǒng)的出發(fā)點(diǎn)無疑是好的：為了更安全的照護(hù)、更及時(shí)的提醒、更可靠的響應(yīng)。但只要感知還依賴相機(jī)，一個(gè)問題就始終繞不開：當(dāng) AI 越來越懂人，人是不是也在被越來越徹底地暴露？

人們擔(dān)心的，不只是模型準(zhǔn)不準(zhǔn)，更怕那些包含外貌、身份、行為習(xí)慣甚至生活細(xì)節(jié)的視覺數(shù)據(jù)，被存儲(chǔ)、泄露或?yàn)E用。哪怕什么都沒發(fā)生，光是 “始終有一個(gè)鏡頭在看著你” 這件事本身，就足以讓人不安。正是在這樣的背景下，來自海外高校的研究者提出了M4Human。這項(xiàng)工作試圖減少人體感知對(duì)相機(jī)單一模式的依賴，推動(dòng)毫米波人體感知從粗粒度的識(shí)別，走向更高保真的人體建模與系統(tǒng)化評(píng)測(cè)。

論文標(biāo)題：M4Human: A Large-Scale Multimodal mmWave Radar Benchmark for Human Mesh Reconstruction
作者: Junqiao Fan, Yunjiao Zhou, Yizhuo Yang, Xinyuan Cui, Jiarui Zhang, Lihua Xie, Jianfei Yang, Chris Xiaoxuan Lu, Fangqiang Ding
作者單位：南洋理工大學(xué)，愛丁堡大學(xué)，賓夕法尼亞大學(xué)，倫敦大學(xué)學(xué)院，麻省理工學(xué)院
論文鏈接： https://arxiv.org/pdf/2512.12378
代碼與數(shù)據(jù)鏈接：https://github.com/FanJunqiao/M4Human
主頁(yè)鏈接：https://fanjunqiao.github.io/M4Human-site/

研究背景

為什么人體感知不能只依賴相機(jī)

在未來的 Physical AI 系統(tǒng)中，機(jī)器不僅要 “看見” 人，還要理解人的運(yùn)動(dòng)和行為，并據(jù)此做出合適的響應(yīng)。相比只預(yù)測(cè)少量人體關(guān)鍵點(diǎn)，人體網(wǎng)格重建（Human Mesh Reconstruction, HMR）能夠恢復(fù)姿態(tài)、形狀和全局運(yùn)動(dòng)，在人機(jī)交互、康復(fù)評(píng)估、健康監(jiān)測(cè)、VR/AR 以及具身智能等場(chǎng)景中更有應(yīng)用價(jià)值。

但當(dāng)前高質(zhì)量的 HMR 系統(tǒng)大多仍依賴相機(jī)。這條路雖然有效，卻有兩個(gè)現(xiàn)實(shí)限制：一是視覺數(shù)據(jù)會(huì)直接暴露人的外觀，在兒童照護(hù)、養(yǎng)老陪護(hù)、居家康復(fù)等場(chǎng)景中容易引發(fā)隱私擔(dān)憂；二是相機(jī)容易受光照和遮擋影響，弱光、逆光或復(fù)雜環(huán)境下的魯棒性并不總能保證。正因如此，毫米波雷達(dá)正成為人體感知中越來越重要的一種模態(tài) —— 它通過回波恢復(fù)空間信息，對(duì)光照不敏感，在部分遮擋條件下更穩(wěn)健，而且不會(huì)記錄人的外貌。

M4Human - 面向多任務(wù)的人體感知 benchmark：涵蓋 50 類動(dòng)作、20 位參與者、661K 幀數(shù)據(jù)，并支持 tracking、mesh reconstruction、activity recognition、generation 等任務(wù)。

現(xiàn)有問題

RF 人體感知真正缺的是 benchmark

過去幾年，基于 RF / 毫米波的人體感知方法層出不窮，但這一方向的發(fā)展一直受限于數(shù)據(jù)基礎(chǔ)。更準(zhǔn)確地說，當(dāng)前真正缺的不是模型，而是足夠系統(tǒng)、足夠高質(zhì)量的 benchmark。現(xiàn)有許多 RF 數(shù)據(jù)集仍以粗粒度的人體姿態(tài)估計(jì)為主，標(biāo)注通常停留在 skeleton 層面；少數(shù)涉及 mesh reconstruction 的數(shù)據(jù)集，也存在規(guī)模小、動(dòng)作種類有限的問題，而且很多只開放經(jīng)過處理后的稀疏點(diǎn)云。

這帶來了幾個(gè)直接限制：

標(biāo)注粒度和精度不足，難以支撐更高保真的人體建模；
動(dòng)作分布單一，大多集中在簡(jiǎn)單的原地動(dòng)作，難以反映真實(shí)場(chǎng)景中的復(fù)雜動(dòng)態(tài)；
原始雷達(dá)張量（raw radar tensor）缺失，后續(xù)研究只能在經(jīng)過閾值處理后的點(diǎn)云上建模，無法充分利用雷達(dá)原始信號(hào)中更完整、更細(xì)粒度的空間信息。

M4Human 與已有 RF/mmWave 人體感知數(shù)據(jù)集對(duì)比。M4Human 規(guī)模更大、動(dòng)作更多、標(biāo)注更細(xì)、同時(shí)開放 RT 與 RPC，并支持 mesh reconstruction 與全局軌跡。

數(shù)據(jù)集本身

M4Human 補(bǔ)上的是什么空白

M4Human 是一個(gè)面向高保真 RF / 毫米波人體建模的大規(guī)模多模態(tài) benchmark，包含 999 段序列、661K 同步幀、20 位參與者、50 類動(dòng)作，總時(shí)長(zhǎng)超過 15 小時(shí)。與此前許多數(shù)據(jù)集不同，M4Human 不僅提供 RGB 和 depth，還同時(shí)開放 raw radar tensor（RT）與 radar point cloud（RPC），并配有基于高精度 marker-based MoCap 的 3D mesh 和全局軌跡標(biāo)注。

這項(xiàng)工作的關(guān)鍵不是 “數(shù)據(jù)更多”，而是“數(shù)據(jù)更適合高保真人體建模”。一方面，M4Human 的動(dòng)作設(shè)計(jì)更豐富 —— 不僅包含原地動(dòng)作，還涵蓋坐姿以及非原地的動(dòng)態(tài)動(dòng)作，整體分布更接近真實(shí)場(chǎng)景；另一方面，它提供了更完整的雷達(dá)數(shù)據(jù)表征，既開放后處理得到的點(diǎn)云，也保留原始 RT，讓研究者可以探索從 radar tensor 到人體 mesh 的端到端建模。

與 mmBody 等已有數(shù)據(jù)集相比，M4Human 不僅規(guī)模更大，還具有更高的人體有效點(diǎn)云占比，并額外開放原始雷達(dá)張量 RT。

數(shù)據(jù)怎么來的

采集系統(tǒng)與標(biāo)注鏈路為什么可信

一個(gè) benchmark 是否有說服力，很大程度上取決于數(shù)據(jù)采集與標(biāo)注流程是否扎實(shí)可靠。M4Human 在這方面搭建了一套完整的多模態(tài)采集平臺(tái)：作者將 Intel RealSense RGB-D 相機(jī)、Vayyar 成像毫米波雷達(dá)和 Vicon MoCap 系統(tǒng)集成到一起，相機(jī)與雷達(dá)固定安裝，Vicon 系統(tǒng)則提供高精度三維運(yùn)動(dòng)捕捉。

基于這套系統(tǒng)，M4Human 一方面可以同步采集 RGB、depth、RT、RPC 等多模態(tài)數(shù)據(jù)，另一方面借助 MoCap 為人體 mesh 和全局軌跡提供高質(zhì)量標(biāo)注。論文中提到，作者使用了 37 個(gè) markers 進(jìn)行采集，并結(jié)合后續(xù)重建與人工檢查，盡可能保證 mesh 標(biāo)注的準(zhǔn)確性和時(shí)空一致性。相比許多只提供 skeleton 標(biāo)注的 RF 數(shù)據(jù)集，這樣的流程顯然更適合支撐 mesh 級(jí)的人體建模研究。

M4Human 的數(shù)據(jù)采集與標(biāo)注流程：包括傳感系統(tǒng)搭建、空間標(biāo)定、時(shí)間同步、mesh 標(biāo)注生成與人工校驗(yàn)。

視頻地址：https://mp.weixin.qq.com/s/mpdds4WyDaqg1iLH8FvUmg

M4Human 數(shù)據(jù)集中多模態(tài)傳感器數(shù)據(jù)與 MoCap mesh 標(biāo)注的同步演示，展示了不同動(dòng)作情境下雷達(dá)數(shù)據(jù)與人體標(biāo)注之間的對(duì)齊效果。

Benchmark 設(shè)計(jì)

它到底在評(píng)什么

M4Human 的價(jià)值不僅在于發(fā)布了一個(gè)新數(shù)據(jù)集，還在于建立了一套相對(duì)系統(tǒng)的評(píng)測(cè)框架。除了動(dòng)作協(xié)議劃分，論文進(jìn)一步定義了Random split、cross-subject和cross-action三種劃分方式，分別用于評(píng)估常規(guī)設(shè)置下的表現(xiàn)，以及更具挑戰(zhàn)性的泛化能力。

這一設(shè)計(jì)很重要。很多方法在隨機(jī)劃分下能取得不錯(cuò)的結(jié)果，但一旦測(cè)試對(duì)象變成未見過的 subject，或者動(dòng)作分布發(fā)生變化，性能往往明顯下降。M4Human 將這些更難、也更接近真實(shí)應(yīng)用的問題納入統(tǒng)一的 benchmark，讓評(píng)測(cè)不再停留在 “模型能不能跑通”，而是進(jìn)一步關(guān)注模型在真實(shí)變化條件下是否還能保持泛化能力。

RT-Mesh：直接從原始雷達(dá)張量恢復(fù)人體 mesh

圍繞這個(gè) benchmark，作者提出了RT-Mesh，作為首個(gè)直接基于 raw radar tensor 進(jìn)行 HMR 的 baseline。它的意義不在于一次性給出最終答案，而在于驗(yàn)證了一件更基礎(chǔ)的事情：RT 并不只是輔助信息，它本身就可以成為高保真人體建模的核心輸入表征。

RT-Mesh 的整體思路是：先在 BEV 空間中進(jìn)行高效定位，再?gòu)木植咳S radar tensor 中回歸人體 mesh。這一設(shè)計(jì)為后續(xù)基于原始雷達(dá)信號(hào)的人體建模方法提供了一個(gè)清晰的起點(diǎn)，也讓 M4Human 不止于 “提供數(shù)據(jù)”，同時(shí)給出了一個(gè)可復(fù)現(xiàn)、可比較的 baseline。

RT-Mesh 框架示意：先在 BEV 中進(jìn)行高效定位，再?gòu)木植?3D radar tensor 中回歸人體 mesh。

結(jié)果一：RT 不只是可用，而且在泛化場(chǎng)景下更穩(wěn)

從實(shí)驗(yàn)結(jié)果看，在 radar-only 設(shè)置下，RT 和 RPC 在隨機(jī)劃分上的表現(xiàn)較為接近；但在 cross-subject 和 cross-action 這類更具挑戰(zhàn)性的設(shè)置中，RT 往往更穩(wěn)定。以 ALL 協(xié)議為例，RT-Mesh 的 MVE 在 S1/S2/S3 上分別達(dá)到 90.9 / 135.1 / 143.1 mm，推理延遲僅為 2.74 ms，計(jì)算量約 2.6 GFLOPs。

這說明原始 radar tensor 中保留了更連續(xù)、更完整的空間信息；而稀疏的 RPC 在經(jīng)過閾值篩選和點(diǎn)云化后，會(huì)損失一部分對(duì)細(xì)粒度人體建模有用的信息。因此，在更復(fù)雜、也更強(qiáng)調(diào)泛化能力的測(cè)試條件下，RT 展現(xiàn)出更大的潛力。

Radar-only benchmark 結(jié)果。RT-Mesh 在整體性能、泛化穩(wěn)定性和推理效率之間取得了較好的平衡。

數(shù)據(jù)規(guī)模對(duì)性能的影響分析：隨著訓(xùn)練數(shù)據(jù)增加，cross-subject 與 cross-action 表現(xiàn)持續(xù)改善。證明了大規(guī)模數(shù)據(jù)集的優(yōu)勢(shì)。

結(jié)果二：mmWave 不是簡(jiǎn)單替代視覺，而是強(qiáng)互補(bǔ)模態(tài)

如果把雷達(dá)放到與視覺模態(tài)的對(duì)比中看，更準(zhǔn)確的結(jié)論不是 “雷達(dá)取代相機(jī)”，而是 “雷達(dá)與視覺具有明確的互補(bǔ)性”。在單模態(tài)設(shè)置下，高分辨率 radar-only 在不少場(chǎng)景中已超過 RGB，并接近 depth 的表現(xiàn)；而在多模態(tài)融合設(shè)置下，Depth + RT 和 RPC + RT 都能帶來進(jìn)一步收益。

雷達(dá)的價(jià)值至少體現(xiàn)在兩方面：

它本身具有更好的隱私友好性和環(huán)境魯棒性；
它不是視覺系統(tǒng)的簡(jiǎn)單替代，而是 camera-based 系統(tǒng)的有效補(bǔ)充。

論文還指出，radar 在 root trajectory tracking 上尤其有優(yōu)勢(shì)，這與它對(duì)移動(dòng)前景更敏感、對(duì)靜態(tài)背景相對(duì)不敏感的特性一致。

單模態(tài)與融合 benchmark：radar-only 已具備較強(qiáng)競(jìng)爭(zhēng)力，而與視覺模態(tài)融合后還能進(jìn)一步提升重建與跟蹤表現(xiàn)。

復(fù)雜非原地動(dòng)作中的可視化對(duì)比：RT 能更穩(wěn)定地支持 tracking 與 mesh reconstruction，而 RPC 在身體局部缺失時(shí)更容易失敗。

視頻地址：https://mp.weixin.qq.com/s/mpdds4WyDaqg1iLH8FvUmg

復(fù)雜動(dòng)作下的視頻可視化結(jié)果，基于 radar 的方法得到了穩(wěn)定精確的人體重建效果。

結(jié)語

從骨架到人體網(wǎng)格，RF 人體感知正在進(jìn)入下一階段

從更大的視角看，M4Human 推進(jìn)的不只是一個(gè)新數(shù)據(jù)集，更體現(xiàn)了RF 人體感知研究范式的進(jìn)一步演進(jìn)。過去，這一領(lǐng)域的許多工作主要停留在 skeleton 級(jí)別的人體姿態(tài)估計(jì)；而 M4Human 把問題推進(jìn)到 mesh 級(jí)建模，讓隱私友好的人體感知開始具備更高保真的數(shù)據(jù)基礎(chǔ)與評(píng)測(cè)支撐。

對(duì)于智能家居、醫(yī)療康復(fù)、人機(jī)交互以及具身智能等場(chǎng)景而言，未來真正需要理解的，往往不只是幾個(gè)離散的關(guān)鍵點(diǎn)，而是人體在真實(shí)運(yùn)動(dòng)過程中的完整形態(tài)與動(dòng)態(tài)變化。M4Human 為這一目標(biāo)提供了更系統(tǒng)的 benchmark，也讓 RF / 毫米波人體感知從一種可探索的感知模態(tài)，發(fā)展為一個(gè)更值得持續(xù)投入和長(zhǎng)期建設(shè)的研究方向。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.