網易首頁 > 網易號 > 正文 申請入駐

橫掃室內3D場景,港科大(廣州)打造單目開放詞匯占據預測新SOTA

0
分享至



在具身智能研究中,如何讓智能體精準理解周圍環境的精細幾何結構與開放語義信息,始終是具身感知的核心難題。近年來,語義占據預測(Semantic Occupancy Prediction) 將稠密幾何與語義信息統一到三維體素網格中,用于構建 3D 語義占據地圖,為機器人的空間推理、導航與交互操作提供了場景表達基礎。

然而,現有方法大多建立在封閉詞匯(Closed-vocabulary) 設定下,模型只能識別訓練階段預先定義好的有限類別。一旦進入真實環境,場景中的語義往往是開放且長尾的 —— 用戶可能會直接問:「鞋子在哪兒?」「紙巾在哪兒?」「遙控器在哪兒?」 對于傳統占據預測方法而言,超出預定義類別的目標幾乎無法被正確識別。面對「一個帶條紋的馬克杯」「一把破損的木椅」這類更細粒度、描述性更強的目標時,封閉詞匯模型往往無能為力。

近期,香港科技大學(廣州)陳昶昊教授團隊聯合香港中文大學(深圳) 研究者提出了 LegoOcc,首次面向具身場景實現了單目開放詞匯三維占據預測。該工作被 CVPR 2026 收錄為 Oral(大會口頭報告)。

LegoOcc 以語言嵌入高斯(Language-embedded Gaussians) 作為統一的三維表示,在僅使用幾何標簽(二值占據標簽) 訓練的情況下,便能支持任意文本描述的目標類別查詢,實現開放詞匯的三維語義占據預測。

在 Occ-ScanNet 數據集上,LegoOcc 取得了 21.05 mIoU 和 59.50 IoU 的開放詞匯預測結果,相比此前最強的開放詞匯模型,mIoU 提升超過 2 倍;同時其整體幾何占據預測精度也超越了多種封閉詞匯方法,展現出極強的性能與泛化能力。



  • 論文標題:Monocular Open Vocabulary Occupancy Prediction for Indoor Scenes
  • 論文地址:https://arxiv.org/abs/2602.22667

為什么具身場景的開放語義占據預測更困難?

傳統的占據預測模型像僅僅背過單詞書,只能認出學過的詞匯類別,而開放詞匯模型則掌握了語言能力,無論遇到什么新物體,都能根據文本描述進行推理。下圖展示了這一差異:

  • 封閉詞匯模型- 只能識別「椅子」「桌子」等訓練時見過的類別。
  • 開放詞匯模型(LegoOcc)- 可以響應任意自然語言查詢,如「鞋子」「紙」等未定義物體,并生成對應區域的熱力圖。



Figure 1 閉集 vs 開集 3D 占據預測

此外,室內具身環境與戶外車輛駕駛場景也有不同:

  1. 室內場景的幾何更稠密、結構更復雜,有大量的細小物體以及遮擋,對幾何建模的精細度要求高。
  2. 室內場景的物體類別繁多、細粒度要求更高且分布不均衡,很多類別在訓練數據中只出現寥寥幾次。

因此,直接將室外開放詞匯占據預測模型遷移到室內,會出現性能下降,已有的少數室內占據預測方法仍然依賴固定基類模型,無法支持開放詞匯類別推理。

LegoOCC 框架介紹



Figure 2 LegoOcc 整體算法框架

LegoOcc 將問題拆解為兩部分:幾何學習決定空間里哪里「被占據」,語義學習決定這些被占據區域「是什么」。為實現開放詞表場景表達,LegoOcc 采用語言嵌入高斯(LE-Gaussians) 作為統一的中間表示:每個高斯同時攜帶幾何參數(位置、協方差、不透明度)與一個語言對齊的語義嵌入。

(1)從單目圖像生成語言嵌入的 3D 高斯

給定輸入圖像,LegoOcc 首先通過前饋網絡預測一組三維高斯,這里的每個高斯不僅包含位置、尺度、協方差和不透明度等幾何參數,還攜帶一個與語言空間對齊的語義嵌入。LegoOcc 模型避免在幾何分支和語義分支中使用兩套獨立表示,而是讓同一組高斯同時服務于幾何建模和開放詞匯語義建模。由此,「空間哪里有東西」和「這個東西是什么」就被統一到了同一個場景表示框架中。

(2)泊松視角的高斯到占據轉換

在僅有二值占據監督的設定下,進一步研究如何將高斯表示穩定地聚合為體素占據結果,F有方法在這一環節易出現訓練不穩定,原因在于二維渲染時使用了基于不透明度的 α 混合,但三維占據聚合時卻可能忽略不透明度信息,導致二維渲染監督與三維占據監督之間存在優化沖突。

為此,LegoOcc 提出了基于泊松過程的高斯到占據轉換(Poisson-based Gaussian-to-Occupancy, G2O),將每個高斯在某個體素位置的有效貢獻視作泊松事件強度,并將「該位置是否被占據」解釋為「至少發生一次事件」的概率。相比伯努利并集式聚合,基于泊松過程的建模方式在弱監督條件下更穩定,也不容易退化到無效的不透明度分配,從而提升了模型幾何學習階段的穩定性與可優化性。



(3)漸進溫度衰減減少沿光線的特征混合

在語義學習部分,LegoOcc 采用高斯潑濺將三維高斯的語義特征微渲染到圖像平面,再與一個無需訓練的開放詞匯分割模型(文中采用 Trident)輸出的圖像特征進行余弦相似度對齊。由于 α 混合會讓每個像素特征成為沿光線多個高斯嵌入的加權混合,然而室內場景對象密集、投影重疊多,易導致監督信號鼓勵「混合后的特征」對齊語言,而不是每個高斯本身對齊語言。

因此提出了漸進溫度衰減(Progressive Temperature Decay ),用帶溫度的 sigmoid 函數控制不透明度,并在訓練中把溫度從較高逐步退火到低,使不透明度逐漸變尖銳,減少了沿光線的特征混合,同時又保留連續梯度(區別于硬 Top?k 的離散選擇),提升語言監督落到單個高斯上的精度,增強了模型在開放詞匯語義理解中的判別能力。



實驗結果

論文從定量實驗、消融實驗和可視化結果三個方面驗證了提出的 LegoOcc 模型有效性,LegoOcc 在開放語義占據預測、三維幾何占據預測和推理效率上都展現出了明顯優勢。

(1)開放詞匯設定下 mIoU 超過此前最佳方法 2 倍

論文展示了閉集評測和開放詞匯評測兩種設定下的定量實驗結果。在閉集評測中,LegoOcc 在 Occ-ScanNet 的 11 個固定類別上,預測與真實標簽更為一致,幾何準確、語義泛化能力強。在開放詞匯評測中,由視覺語言模型自動抽取名詞作為文本查詢(如「鞋子」「洗手池」),模型生成對應類別的三維語義占據結果,實現文本驅動的任意語義類別定位。

在 Occ-ScanNet 數據集上,LegoOcc 在開放詞匯設定下取得了 21.05 mIoU 和 59.50 IoU 的結果。相比此前表現最好的開放詞匯方法 LOcc,LegoOcc 的 mIoU 提升了 11.80 個點(超過 2 倍),整體 IoU 提升了 22.80 個點。LegoOcc 的 59.50 IoU 不僅領先開放詞匯方法,甚至還超過了表中所有封閉詞匯模型的最佳整體 IoU。



(2)Poisson 聚合的作用驗證

本工作對提出的泊松式高斯到占據轉換(Poisson-based G2O)進行了消融實驗。

在開放詞匯設定下,當使用 GaussianFormer2 風格聚合時,結果幾乎退化到 0.00 mIoU / 0.00 IoU;當使用 Bernoulli 聚合時,性能恢復到 17.25 mIoU / 46.65 IoU;當使用 Poisson 聚合時,性能進一步提升到 21.05 mIoU / 59.50 IoU。這表明引入 Poisson 聚合能夠讓模型在僅有幾何監督條件下穩定訓練、有效學習。



(3)漸進溫度衰減緩解特征混合問題

本文對溫度控制策略進行了消融實驗:若訓練和測試都固定高溫,雖然幾何 IoU 尚可,但 mIoU 明顯偏低,說明語義學習仍受特征混合影響;若訓練時用高溫、測試時突然切換到低溫,則會出現訓練測試不匹配(Train-test Mismatch);若從訓練一開始就使用低溫,則優化會困難,甚至直接退化;當采用漸進溫度衰減,模型能夠兼顧訓練穩定性與最終語義判別性,取得最佳結果。



(4)推理速度具備優勢,更適合機器人平臺部署

在單張 RTX 4090 上,LegoOcc 的推理速度達到了 22.47 FPS,明顯快于多種對比方法。相比于自動駕駛等場景,機器人平臺對推理速度和輕量化計算要求更高,因此 LegoOcc 更適用于具身機器人平臺。



(5)可視化結果

1. 閉集評測結果

在 Occ-ScanNet 的固定類別評測中,LegoOcc 的預測結果與真實標簽更為一致,幾何和語義預測能力強。(a) 輸入圖像,(b) 真實標簽,(c)LOcc(對比方法),(d)提出的 LegoOcc。



圖 3 Occ-ScanNet 閉集測試結果(Closed-vocabulary Results on Occ-ScanNet)

2. 開放詞匯測試結果

進一步使用視覺語言模型(Vision-language Model)自動從場景中提取名詞作為文本查詢,例如「鞋子」「洗手池」「顯示器」等,并讓模型生成對應類別的三維語義占據預測結果。LegoOcc 不局限于訓練時給定的固定類別,能夠根據自然語言描述進行三維空間中的目標識別,實現了文本驅動的開放詞匯三維查詢。



圖 4 開放詞匯測試結果(Open-vocabulary Results)

展望與意義

面向具身室內場景,本文提出 LegoOcc ,一種單目開放語義占據預測框架,采用語言嵌入的高斯統一表達幾何與語義場景信息。幾何側以泊松聚合穩定弱監督訓練,語義側用漸進溫度退火削弱特征混合,模型在無需體素語義標注的前提下,實現了文本驅動的三維語義占據預測。

未來的家用機器人能夠高效地將三維場景表達為體素網格,只需一句「幫我找一下茶幾上的遙控器」,即可在復雜空間中精準定位目標物體,而無需預先「學習」過遙控器這一類別。

作者介紹

周常青:香港科技大學(廣州)博士生,致力于高效且穩定的三維場景理解方法研究,當前重點關注端到端軌跡生成模型,以及面向導航任務的高效世界模型構建。

張涵:香港科技大學(廣州)紅鳥碩士生,專注探索高效可靠的三維場景理解方法,現階段重點探索三維視覺語義定位方法,以及適配導航任務的高效世界模型構建。

江澤宇:香港科技大學(廣州)博士生,主要研究方向為高效的空間物理智能體,專注于將通用空間智能注入現實開放環境的具身應用場景。

陳昶昊(通訊作者):香港科技大學(廣州)智能交通學域和人工智能學域助理教授,博士生導師,香港科技大學跨學科學院聯署助理教授,從事具身智能感知、導航與交互研究,組建港科大(廣州)PEAK-Lab 課題組并擔任獨立 PI。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
;鹨詠碜顕乐刂苯訉梗酪吝M入新海戰模式?特朗普:處于“迷你戰爭”狀態

停火以來最嚴重直接對抗,美伊進入新海戰模式?特朗普:處于“迷你戰爭”狀態

紅星新聞
2026-05-05 13:13:12
男人只要不沉迷于色欲,就不會對女人精蟲上腦,從而對女人祛魅

男人只要不沉迷于色欲,就不會對女人精蟲上腦,從而對女人祛魅

加油丁小文
2026-04-18 13:30:08
饅頭立大功!研究發現:糖尿病患者常吃饅頭,或能降低7類并發癥

饅頭立大功!研究發現:糖尿病患者常吃饅頭,或能降低7類并發癥

阿兵科普
2026-05-04 18:15:59
當伊朗亮出海底光纜底牌時,全世界才發現,中國藏了一手更絕的

當伊朗亮出海底光纜底牌時,全世界才發現,中國藏了一手更絕的

角落的隱藏美景
2026-05-05 00:15:33
活久見!衛生巾印彩花被吐槽,網友呼吁:禁止男性參與衛生巾設計

活久見!衛生巾印彩花被吐槽,網友呼吁:禁止男性參與衛生巾設計

火山詩話
2026-05-04 17:49:20
回不來了!美國一句話,賴清德被架在火上烤,還想“順”到美國?

回不來了!美國一句話,賴清德被架在火上烤,還想“順”到美國?

知法而形
2026-05-04 17:45:49
奪冠概率暴跌至14.76%  55歲瓜帥茫然呆立 采訪認輸:曼城搞砸了

奪冠概率暴跌至14.76% 55歲瓜帥茫然呆立 采訪認輸:曼城搞砸了

我愛英超
2026-05-05 07:22:32
突發噩耗!澳洲官宣暴擊決定!大批人賣房“逃走”,一夜回到解放前!還有人游輪周游世界

突發噩耗!澳洲官宣暴擊決定!大批人賣房“逃走”,一夜回到解放前!還有人游輪周游世界

澳洲紅領巾
2026-05-05 13:37:36
北京市“臭名昭著”的5所大學!畢業證形同虛設,學生高度注意

北京市“臭名昭著”的5所大學!畢業證形同虛設,學生高度注意

最新聲音
2026-05-05 13:07:59
正式退役,出局灑淚,21年生涯,扣除費用,李曉旭賺到多少薪水?

正式退役,出局灑淚,21年生涯,扣除費用,李曉旭賺到多少薪水?

煙潯渺渺
2026-05-05 14:27:10
五一杭州“囚車枷鎖”游街現場人山人海,網友熱評:吃太飽了!

五一杭州“囚車枷鎖”游街現場人山人海,網友熱評:吃太飽了!

南方健哥
2026-05-04 12:41:00
張萌每一套都那么誘人

張萌每一套都那么誘人

鄉野小珥
2026-04-30 15:18:35
加快男性衰老的原因:喝酒僅排第5,排在第1的,很多男性都沒發現

加快男性衰老的原因:喝酒僅排第5,排在第1的,很多男性都沒發現

芹姐說生活
2026-04-30 16:07:48
大伯老炫耀兒子是公務員,我就說自己年薪60w,是他的10倍!結果大伯說:你深圳掙60w正常!但要論生活質量,肯定還是我兒子高!

大伯老炫耀兒子是公務員,我就說自己年薪60w,是他的10倍!結果大伯說:你深圳掙60w正常!但要論生活質量,肯定還是我兒子高!

譚老師地理大課堂
2026-05-04 00:06:09
剛吃完釋永信的瓜,陜西道協會長又被實名扒皮,20年偽裝全是騙局

剛吃完釋永信的瓜,陜西道協會長又被實名扒皮,20年偽裝全是騙局

科學發掘
2026-05-05 11:39:01
曼聯名宿:簽33歲爭議中場,比砸錢新星更值

曼聯名宿:簽33歲爭議中場,比砸錢新星更值

賽場名場面
2026-05-05 16:35:30
當年的東北“地下市長”,霸占過20多位女明星,狠起來連自己都砍

當年的東北“地下市長”,霸占過20多位女明星,狠起來連自己都砍

為什么有冬天夏天
2024-05-08 23:38:12
難怪呢,斯威士蘭和臺島“建交”18天后就進了聯合國

難怪呢,斯威士蘭和臺島“建交”18天后就進了聯合國

阿龍聊軍事
2026-05-05 11:56:11
重磅:澤連斯基前往有俄羅斯駐軍的國家參加峰會!

重磅:澤連斯基前往有俄羅斯駐軍的國家參加峰會!

項鵬飛
2026-05-04 17:53:42
他若不死必是十大元帥之首?毛主席:他比我厲害十倍

他若不死必是十大元帥之首?毛主席:他比我厲害十倍

小豫講故事
2026-05-04 06:00:15
2026-05-05 17:31:00
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
12917文章數 142642關注度
往期回顧 全部

科技要聞

傳蘋果考慮讓英特爾、三星代工設備處理器

頭條要聞

伊朗警告阿聯酋:勿當以色列棋子 否則將得到難忘教訓

頭條要聞

伊朗警告阿聯酋:勿當以色列棋子 否則將得到難忘教訓

體育要聞

全世界都等著看他笑話,他帶國米拿下冠軍

娛樂要聞

英皇25周年演唱會 張敬軒被救護車拉走

財經要聞

五一假期,中國年輕人的“首爾病”犯了

汽車要聞

同比大漲190% 方程豹4月銷量29138臺

態度原創

家居
教育
房產
時尚
軍事航空

家居要聞

靈動實用 生活藝術場

教育要聞

語法第3課(上)-英文造句的被動結構

房產要聞

五一樓市徹底明牌!塔尖人群都在重倉凱旋新世界

夏天最經典的銀色,貴氣十足!

軍事要聞

特朗普威脅伊朗不要向美國船開火

無障礙瀏覽 進入關懷版