MIT團隊實現(xiàn)“穿墻透視”，用的是你手機里就有的傳感器

2026-05-22 19:19:32　來源: DeepTech深科技

北京舉報

分享至

2012 年，MIT 的 Ramesh Raskar 團隊在 Nature Communications 上首次演示了用超快飛行時間成像技術(shù)重建拐角后方物體的三維形狀。那套系統(tǒng)需要飛秒激光器和精密光學(xué)平臺，整套設(shè)備造價在 50 萬到 100 萬美元之間，占滿一整間實驗室。

十四年后，Raskar 實驗室的博士生 Siddharth Somasundaram 用一顆批量售價 3.6 美元的意法半導(dǎo)體傳感器，做到了類似的事情。

這項成果 5 月 20 日發(fā)表在 Nature 上。Somasundaram 團隊使用的是一種便攜式智能手機級激光雷達系統(tǒng)，核心是意法半導(dǎo)體的 VL53L8CX 芯片，一顆只有 6.4 毫米見方的飛行時間傳感器，內(nèi)置 940 納米垂直腔面發(fā)射激光器和單光子雪崩二極管（SPAD）探測器陣列，能以每秒 30 幀的速度捕獲深度數(shù)據(jù)。整套硬件成本不到 100 美元，不需要任何額外校準，卻能探測到拐角后方被遮擋的物體。

圖丨消費級非視距成像（來源：Nature）

這種聽起來近乎科幻的效果背后的原理其實并不神秘。核心就是激光雷達發(fā)射激光脈沖，光打到墻面后反射，一部分光繼續(xù)彈射到墻后隱藏的物體上，再反射回墻面，最終被傳感器接收。通過分析這些經(jīng)過多次反彈的極微弱光信號的飛行時間，就能推算出隱藏物體的位置和形狀。而墻面在這個過程中充當了一面“虛擬鏡子”。

這個方向在學(xué)術(shù)界已經(jīng)發(fā)展了十多年，被稱為非視距成像（Non-Line-of-Sight Imaging，NLOS）。2018 年 O＇Toole 等人在 Nature 上提出的光錐變換（Light-Cone Transform）方法讓重建算法效率提升了三個數(shù)量級，但硬件門檻始終沒有降下來。

實驗室級系統(tǒng)使用的單光子探測器靈敏度極高、時間分辨率達到皮秒級別，能從微弱的多次反射信號中提取足夠的信息完成重建。消費級傳感器做不到這一點：激光功率受限于人眼安全標準，曝光時間因為要處理動態(tài)場景而很短，空間分辨率也很低。單幀數(shù)據(jù)里的信噪比根本不夠用。

Somasundaram 的思路是放棄從單幀中提取信息，轉(zhuǎn)而融合大量幀的數(shù)據(jù)。他提出了一個叫“運動誘導(dǎo)孔徑采樣”（Motion-Induced Aperture Sampling，MAS）的模型，把物體形狀、物體運動和相機運動三個因素統(tǒng)一到同一個測量框架里。

其靈感來自兩個成熟技術(shù)：智能手機相機的連拍模式通過合并多張照片來提升畫質(zhì)，合成孔徑雷達通過綜合多個天線位置的信號來獲得等效于大型天線的分辨率。MAS 模型做的是類似的事情，利用相機的自然手持晃動來擴大虛擬孔徑，同時利用多幀之間的冗余信息來提高信噪比。

圖丨運動誘導(dǎo)孔徑采樣模型（來源：Nature）

“一旦我們開發(fā)出能夠跨多次測量合并信息的算法，隱藏的信號就開始清晰地浮現(xiàn)出來了。”Somasundaram 對媒體表示。

團隊在論文中演示了三項能力。第一項是三維重建：讓相機在墻面前自然移動，系統(tǒng)能重建出墻后靜止物體的三維形狀。

第二項是物體追蹤：已知物體的大致形狀后，系統(tǒng)能實時追蹤它在三維空間中的運動軌跡，甚至能同時追蹤多個物體。團隊還演示了一個手部追蹤的應(yīng)用，用戶戴上回射手套后，系統(tǒng)可以追蹤被遮擋的雙手位置。

第三項能力是用隱藏物體作為路標來定位相機自身的位置。當機器人面對一面白墻這樣缺乏紋理特征的環(huán)境時，傳統(tǒng)的視覺里程計會失效，但如果墻后面有已知物體，NLOS 信號反而能幫助機器人確定自己在哪里。

這三項能力都實現(xiàn)了實時在線處理。追蹤任務(wù)使用了粒子濾波算法，用 1,000 個粒子來表示物體位置的概率分布，每一幀根據(jù)運動先驗傳播粒子、根據(jù)實測數(shù)據(jù)評估權(quán)重、然后重采樣，整個過程在 30Hz 幀率下運行。

但現(xiàn)在的效果還遠遠達不到科幻電影里的透視畫面。Somasundaram 自己也提醒，系統(tǒng)恢復(fù)的是極弱信號中的稀疏幾何和運動信息，和手機上幾百萬像素的清晰圖像之間還有巨大差距。

系統(tǒng)目前依賴一些較強的假設(shè)：物體的形狀和運動在幀與幀之間保持相對一致，這樣才能把許多極弱的測量累積成較強的信號。如果人突然改變姿態(tài)，或者物體被部分遮擋導(dǎo)致形狀突變，或者相機發(fā)生劇烈抖動，這些假設(shè)就會失效。

論文也指出，面對復(fù)雜的真實世界反射特性，手工設(shè)計的評分函數(shù)很難穩(wěn)健地工作，未來可能需要機器學(xué)習(xí)來學(xué)習(xí)更好的匹配策略。

對漫反射物體的效果也明顯不如回射材料。論文中雖然證明了 MAS 模型在漫反射條件下仍然可用，但信號質(zhì)量因為光強的四次方衰減和非共焦路徑的干擾而顯著下降。

真正讓這篇論文上了 Nature 的，可能不是某一項具體能力有多強，而是它所指向的范式轉(zhuǎn)換。過去做 NLOS 成像研究，光是搭建實驗平臺就需要數(shù)萬美元和數(shù)小時的校準。Somasundaram 團隊證明，一顆量產(chǎn)的現(xiàn)成 SPAD 傳感器就能完成追蹤和定位任務(wù)，不需要任何物理校準或額外硬件。團隊已經(jīng)在 GitHub 上公開了全部代碼。

“我們認為最重要的意義在于技術(shù)的民主化，”Somasundaram 說。“當這樣的技術(shù)變得人人可及時，人們往往會發(fā)現(xiàn)遠超原始研究者想象的應(yīng)用。”

自動駕駛汽車在盲區(qū)路口提前感知行人和車輛，倉庫機器人在雜亂環(huán)境中避開拐角后的障礙物，AR 頭顯更準確地追蹤用戶的身體姿態(tài)，這些都是論文中列舉的潛在方向。但就像 Somasundaram 所說，真正的應(yīng)用可能來自他們沒有想到的地方。

參考資料：

1.https://www.nature.com/articles/s41586-026-10502-x

2.https://spectrum.ieee.org/smartphone-grade-lidar

運營/排版：何晨龍

注：封面/首圖由 AI 輔助生成

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.