无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

上海交大王賀升教授:從畫地圖到預測未來,傳統 SLAM 正走出靜態世界 | ICRA 2026

0
分享至


動態、語義、可變性環境,SLAM 如何從建圖走向預測?

作者丨梁丙鑒

編輯丨馬曉寧

2026 年 6 月 1 日,國際機器人與自動化會議(ICRA)在奧地利維也納召開。次日上午的自動駕駛與導航報告環節,雷峰網GAIR 2021大會嘉賓、上海交通大學教授王賀升發表了題為《Learning to Navigate: From Scene Understanding to Decision Makin》的演講。

找到自己的位置,并理解周圍環境,一直是機器人能夠落地的先決條件。此前的導航系統大多建立在”環境靜止、結構穩定”的假設之上,但隨著具身智能從實驗室走向真實場景,現實世界的動態變化讓傳統 SLAM(同步定位與建圖)逐漸迫近天花板,無力應對自動駕駛中的車輛行人,或是手術機器人面前多變的人體組織。運動、遮擋甚至形變問題,是新一代 SLAM 需要解決的全新問題。

圍繞這一挑戰,王賀升教授系統介紹了從感知、建圖、定位到規劃的完整技術路線。在感知層面,研究團隊提出結合激光雷達與視覺傳感器進行多模態融合,并通過光流、場景流和四維重建技術理解動態環境的方案,在建圖層面,則提出通過動態 Gaussian SLAM 和可變形三維高斯地圖,實現對運動目標和可變形環境的持續建模。王賀升教授特別提到,“人體這種非常可變形的環境”是當前研究主要的對象,以期解決手術機器人場景中的定位與建圖難題。

此外,針對具身智能普遍缺乏長期記憶和環境理解能力的問題,團隊還嘗試引入 NeRF 記憶機制以及視覺語言模型推理能力,讓機器人不僅知道“自己在哪里”,還能利用歷史經驗和語義關系輔助導航決策。

據王賀升教授介紹,相關技術已在礦卡、倉儲機器人、自動泊車、移動通信平臺和割草機器人等場景中落地應用。可以看到,面對真實世界中的動態變化、復雜語義和環境形變等挑戰,機器人導航正從傳統 SLAM 走向融合世界模型、大模型推理與可變形環境感知的具身智能基礎設施。

以下是王賀升在 ICRA 2026 大會發表的演講精編稿,AI 科技評論基于原英文演講內容進行了不改原意的翻譯編輯:

《Learning to Navigate: From Scene Understanding to Decision Makin》

主講人:王賀升(Hesheng Wang),上海交通大學

01


學習導航:從場景理解到決策制定

大家早上好。很榮幸向大家介紹我們最近的一些研究工作。我的研究方向主要是機器人導航與操作,今天的報告將重點聚焦于導航部分。

正如大家所了解的那樣,近年來移動機器人平臺的種類越來越豐富,機器人導航技術已經廣泛應用于物流機器人、自動駕駛、家庭機器人,甚至手術機器人等場景。


今天我將介紹機器人導航中的一些核心技術。首先是里程計部分,機器人利用傳感器估計自身位姿,隨后考慮動態環境中的運動目標,同時考慮語義信息以及環境可變形的情況。在構建系統之后,我們會獲得全局地圖,然后基于全局地圖進行定位,最后完成路徑規劃。下面我將依次介紹這些內容。

首先介紹里程計部分。

我們同時考慮了激光雷達傳感器和視覺傳感器兩類數據。首先是將激光雷達點云投影到標準鳥瞰圖平面。由于我們已知激光雷達坐標系與相機坐標系之間的外參,因此可以將三維激光雷達點投影到圖像平面上。獲得這些三維投影點的中心點,并對圖像中的特征進行聚類,提取兩類不同特征之后,接著我們采用一種稱為 Local-to-Global 的特征融合網絡,對這兩類特征進行融合,最終得到全局特征表示。


在此基礎上,就可以通過位姿解碼器獲得初始位姿估計。之后進一步進行優化,我們采用類似于 RANSAC 的思路,通過迭代方式逐步精煉結果,最終獲得精確的位姿估計。

接下來考慮動態場景。我們的研究工作從二維擴展到三維,再進一步擴展到四維表示。

在二維場景中,我們首先研究光流估計,因為它是運動估計中的關鍵算法之一,隨后擴展到三維場景流估計,進一步研究四維重建,最終實現四維建圖與 SLAM。


對于二維光流估計,我們首先使用 Memory Bank 存儲歷史光流信息,然后利用連續性約束預測下一時刻的光流。結合當前圖像,通過基于 DRU 的網絡進行優化。在多尺度設置下,我們采用尺度為 4 和 2 的特征表示,并結合 Transformer 結構進一步優化光流估計結果。最終將更新后的結果重新寫入 Memory Bank。


我們在 nuScenes、Waymo 等數據集上進行了驗證。即使模型沒有在這些數據集上進行訓練,結果顯示依然具備了較強的零樣本泛化能力,并取得了較好的性能。

下一步是三維場景流估計,整體采用兩階段框架。第一階段利用兩幀點云直接進行粗略場景流估計,第二階段利用生成式擴散模型進行精細優化。


這里我們將幾何特征、流特征嵌入以及代價體作為條件信號,用于控制擴散模型輸出結果的多樣性,最終得到精煉后的場景流估計結果。

隨后我們將估計得到的場景流作為監督信號,進一步監控和優化流估計過程,并將結果輸入到四維混合表示(4D Hybrid Representation)中,利用 Neural Rendering 技術完成動態場景重建。


接下來進一步研究動態場景 SLAM。我們同時對前景和背景進行建圖。對于背景部分,采用傳統三維高斯表示方法,利用 Gaussian SLAM 完成背景建圖。

對于前景部分,我們考慮了兩類對象。第一類是非剛體目標,例如人類和動物。我們設計了可變形高斯網絡,在人體動力學約束下預測人體的位置、姿態和朝向,這里采用 FMPTL 框架約束人體運動規律。對于剛體目標,則利用檢測結果和光流信息估計連續運動狀態。

在完成前景和背景重建之后,我們進一步進行當前幀定位。

此外,由于背景部分采用了三維高斯表示,因此可以進行渲染,獲得二維觀測中心,同時投影三維高斯中心后獲得幾何中心,這兩類中心可以共同作為相機位姿估計約束。

由于連續幀之間存在運動關系,因此可以計算光流向量,同時我們將三維高斯中心投影到圖像平面后,也會形成對應向量。通過最小化這兩類向量之間的誤差,即重投影誤差(Reprojection Error),對相機位姿進行優化,從而獲得更精確的定位結果。

接下來,就是構建完整地圖。由于系統中存在大量局部地圖,因此需要進行統一優化。我們引入了兩類約束:一類是幾何約束,另一類是一致性約束。通過聯合優化,最終獲得完整的三維高斯地圖。

這里展示的是 Gaussian SLAM 的結果。


系統不僅恢復了相機軌跡,同時還恢復了人體運動軌跡。

不過一個問題是,高斯表示占用較多存儲空間,計算效率也較低。為了解決這一問題,我們進一步設計了緊湊型三維高斯 SLAM。


首先采用體素化方式組織高斯表示,然后設計滑動窗口機制,去除三維高斯表示中的冗余信息,同時引入 3D Gaussian ICP Loss,作為全局 Bundle Adjustment 的約束項,最后利用殘差向量優化(Residual Vector Optimization)進一步壓縮三維高斯存儲。

實驗結果表明,系統運行速度能夠提升約一倍,同時顯著提高整體效率,實現接近實時運行。

下一步我們考慮語義 SLAM。在導航任務中,語義信息同樣非常重要,因此我們將語義信息引入系統。

首先提取幾何特征、外觀特征以及語義特征,然后利用 Attention 機制進行特征融合,實現語義場景表示。在語義 SLAM 中,我們采用從粗到細(Coarse-to-Fine)的層次化框架。粗層級主要關注整體結構和語義信息,細層級進一步引入顏色信息、邊界信息等更細粒度特征,最后通過構建層次圖并進行圖優化,實現完整語義 SLAM 系統。


這里展示了 RGB-D 數據和語義信息融合后的結果。可以看到,不同語義類別之間具有非常清晰的邊界。

另一個具有挑戰性的問題是:如果背景本身也是可變形的,那么特征跟蹤和對應關系建立都會變得非常困難。為了解決這一問題,我們提出了可變形三維高斯地圖(Deformable 3D Gaussian Map)。


首先定義可變形體元(Deformable Primitives),我們采用不同顏色表示對象的不同屬性,例如剛體、半剛體或完全可變形物體。隨后定義時變形變場(Temporal Deformation Field),利用基函數和權重表示形變特征。

三維高斯被輸入到形變場后,可以根據形變信息改變其形狀和顏色。當輸入二維 RGB-D 圖像時,由于地圖是可變形的,其中部分區域變化非常劇烈,這些區域難以作為穩定定位依據。因此,我們基于所構建的地圖計算連續性地圖(Continuity Map),并利用其進行相機位姿優化,同時不斷更新地圖中的相關參數。

完成關鍵幀定位之后,后續流程與傳統 SLAM 類似,但額外考慮了形變概率因素,從而最終完成整體建圖。尤其在手術機器人場景中,這種系統能夠有效應對高度可變形環境。

在構建地圖之后,另一個關鍵問題是如何利用地圖進行定位。

建圖時,我們可以獲得包含豐富三維信息的高精度地圖;但實際部署時,可能只有一個廉價攝像頭,只能獲取二維圖像。因此問題變成了二維到三維的跨模態定位(Cross-modal Localization)。

我們首先提取圖像和點云特征,然后建立二維到三維對應關系。具體來說,先將三維點投影到圖像平面,再建立與鄰近圖像特征之間的關聯。由于這些區域已經與對應特征建立關聯,因此進一步結合鄰域點特征進行特征聚合,最終獲得穩定的二維—三維關聯關系。之后利用魯棒匹配機制去除噪聲,再通過位姿回歸(Pose Regression)獲得三維定位結果。

實驗表明,該方法能夠實現非常高的定位精度,同時具備實時性能,每幀推理時間僅為 14 毫秒。


最后介紹規劃部分。

在人類進行導航時,通常會利用記憶記住關鍵幀或關鍵地點。當遇到從未經歷過的場景時,也會利用已有經驗進行推理,判斷下一步應該如何行動。

對于記憶模塊,我們利用 NeRF 存儲關鍵幀信息,并建立檢索機制。系統會重點關注記憶中的相關內容。如果當前場景與過去見過的場景相似,那么系統會更多依賴歷史經驗進行決策,這樣能夠提高導航效率。如果某一區域已經探索過,并且目標位置曾經出現過,那么機器人就能夠更直接地向目標方向移動。

同時,我們也嘗試引入推理能力。例如利用大型視覺語言模型理解圖像內容,建立語義關系圖譜。對于每一幀觀測信息,都存儲到記憶模塊中。

整個系統采用雙層圖結構。系統學習對象之間的關聯規則和關系,并完成關系綁定。


這里展示了系統的工作過程。有時候兩個目標在視覺上看似無關,但借助大語言模型,系統能夠理解它們之間存在潛在聯系,因此會更加關注相關目標。這種推理能力同樣能夠幫助導航決策。

最后我介紹幾個商業化應用案例。

首先,我們為礦卡設計了導航系統,目前已經穩定運行超過一年,能夠在復雜礦區環境中自主導航。在倉儲場景中,我們開發了適用于動態變化環境的清潔機器人。由于貨物和設備持續變化,因此導航系統需要不斷適應環境變化。


在自動泊車場景中,高精度地圖信息同樣十分重要,以支持車輛自主導航。此外,我們還結合移動平臺和移動通信平臺開展相關應用,地圖信息和導航定位信息對于通信設備精準部署至關重要。

在割草機器人(Lawn Mower Robot)場景中,機器人通常需要在非常大的開放區域工作。此時定位誤差容易積累,同時需要進行地圖匹配,系統需要判斷邊界位置,并識別運動目標等需要重點關注的區域。


以上就是我們近期在 SLAM 領域的一些研究工作。

展望未來,我們將進一步關注世界模型與環境建模,希望能夠預測長時間序列中未來將發生的情況。同時,感知、規劃與決策之間是緊密耦合的。一個很小的感知誤差,最終可能導致非常大的決策誤差,因此需要聯合考慮這些問題。

此外,還需要解決長期任務中的復雜決策問題。決策過程應基于完整序列進行,而不僅僅是即時反應式決策。

更重要的是,所有系統最終都必須在真實世界中運行。真實世界是不可預測的,因此我們需要面對大量邊緣案例和各種復雜問題。

我的報告就到這里,謝謝大家。


02


Q&A 問答環節

提問:您的報告中關于可變形 SLAM 的部分非常有意思。請問你們是否嘗試過在室外農業環境中運行這套系統?例如樹葉會持續擺動變形,而傳統 SLAM 算法在這類環境中的定位效果通常較差。

王賀升:這是一個非常好的問題。目前我們還沒有嘗試過這樣的場景。我們當前主要面向手術機器人開展研究,因為在手術過程中,人體組織本身就是高度可變形的環境。

你提到的樹葉等農業場景其實也非常有趣,我認為與我們當前研究的問題具有一定相似性,因為它們同樣會持續發生形變。我們目前也有一些相關想法,希望能夠利用連續性地圖進行建圖。不過具體在真實農業場景中應用時會遇到什么問題,目前我還不確定,未來我們會嘗試驗證這一方向。

03


去哪看 ICRA 核心

【演講/論文】詳解?

為了讓國內的研發者、創業者與投資人能夠毫無時差地掌握本屆 ICRA 2026 的完整干貨,雷峰網已全面上線【ICRA 2026 深度專區】

專區不僅全面收錄了重磅論文的工程化解讀、專家前沿演講,更將持續更新前方記者的第一手會議動態。

與全球 8000 名頂尖大腦同步呼吸,搶先透視具身智能的下一個五年!

未經「AI科技評論」授權,嚴禁以任何方式在網頁、論壇、社區進行轉載!

公眾號轉載請先在「AI科技評論」后臺留言取得授權,轉載時需標注來源并插入本公眾號名片。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
特朗普惹了不該惹的人,意大利女總理真是狠角色,對華態度已曝光

特朗普惹了不該惹的人,意大利女總理真是狠角色,對華態度已曝光

阿纂看事
2026-06-22 17:03:30
“老登股”驚現漲停潮!大金融板塊午后爆發,新華保險強勢封板

“老登股”驚現漲停潮!大金融板塊午后爆發,新華保險強勢封板

21世紀經濟報道
2026-06-22 14:49:08
伊布:瑞典慘敗荷蘭但表現并不差,重要的是對陣日本拿到積分

伊布:瑞典慘敗荷蘭但表現并不差,重要的是對陣日本拿到積分

懂球帝
2026-06-22 09:29:16
一場2-2,西班牙漁翁得利!世界杯H組亂套,阿根廷淘汰賽對手曝光

一場2-2,西班牙漁翁得利!世界杯H組亂套,阿根廷淘汰賽對手曝光

銳評利物浦
2026-06-22 10:11:43
全球狂押500億賭世界杯!92%勝率踢出0比0,有人百萬身家秒歸零

全球狂押500億賭世界杯!92%勝率踢出0比0,有人百萬身家秒歸零

劉哥談體育
2026-06-22 05:31:34
卡塔爾發生巨大爆炸,已致54人受傷18人失蹤,傷亡人數還在增加

卡塔爾發生巨大爆炸,已致54人受傷18人失蹤,傷亡人數還在增加

軍武咖
2026-06-22 11:24:23
KD:加盟勇士的時候他們是下狗球隊 那才不是抱團

KD:加盟勇士的時候他們是下狗球隊 那才不是抱團

體壇周報
2026-06-22 08:27:10
姚明點評男籃10分勝澳洲 點名表揚1人像諾維茨基 20年噩夢終于醒了

姚明點評男籃10分勝澳洲 點名表揚1人像諾維茨基 20年噩夢終于醒了

夕落秋山
2026-06-22 10:44:43
CBA最新消息!許利民重返北京首鋼,李炎哲或離開新疆男籃

CBA最新消息!許利民重返北京首鋼,李炎哲或離開新疆男籃

體壇瞎白話
2026-06-22 08:16:55
東契奇離隊倒計時!老詹未承諾回歸,湖人被逼上絕境,不能再摳了

東契奇離隊倒計時!老詹未承諾回歸,湖人被逼上絕境,不能再摳了

你的籃球頻道
2026-06-22 09:41:37
國際足聯主席配私人飛機,10天看15場比賽被批不環保:他飛一小時的二氧化碳排放量接近普通人一年的

國際足聯主席配私人飛機,10天看15場比賽被批不環保:他飛一小時的二氧化碳排放量接近普通人一年的

紅星新聞
2026-06-22 09:54:30
盧旺達面積只有2.6萬平方公里,為何能實際控制剛果金大片土地?

盧旺達面積只有2.6萬平方公里,為何能實際控制剛果金大片土地?

掠影后有感
2026-06-22 10:45:30
事態升級!娜然被曝辱華,霍啟剛評論區淪陷,郭晶晶態度說明一切

事態升級!娜然被曝辱華,霍啟剛評論區淪陷,郭晶晶態度說明一切

翰飛觀事
2026-06-22 16:53:50
全球能源告急!中國瞞了世界 30 年,如今用兩桶油讓世界刮目相看

全球能源告急!中國瞞了世界 30 年,如今用兩桶油讓世界刮目相看

蜉蝣說
2026-06-22 11:42:34
姆巴佩:世界杯射手王?應該問梅西,我一直知道他會繼續進球

姆巴佩:世界杯射手王?應該問梅西,我一直知道他會繼續進球

懂球帝
2026-06-22 05:34:11
曼聯傳奇吉格斯缺席世界杯,新生活曝光:戀小14歲女友

曼聯傳奇吉格斯缺席世界杯,新生活曝光:戀小14歲女友

信息風云
2026-06-22 14:58:30
日本毫米級門線懸案:門將極限撲救 VAR認定沒有進球

日本毫米級門線懸案:門將極限撲救 VAR認定沒有進球

快科技
2026-06-22 00:26:11
L3智駕強制國標報批稿公示!特斯拉沉默,小鵬忙發聲,華為偷著樂

L3智駕強制國標報批稿公示!特斯拉沉默,小鵬忙發聲,華為偷著樂

華庭講美食
2026-06-22 01:49:28
央媒罕見連發三問!4400萬輛電車免費用路,公平的天平何時能平?

央媒罕見連發三問!4400萬輛電車免費用路,公平的天平何時能平?

呼呼歷史論
2026-06-21 01:13:13
多名院士呼吁快停止食用,吃一口等于14斤塑料袋,女子因腎衰走了

多名院士呼吁快停止食用,吃一口等于14斤塑料袋,女子因腎衰走了

路醫生健康科普
2026-06-20 17:05:07
2026-06-22 17:52:49
AI科技評論 incentive-icons
AI科技評論
點評學術,服務AI
7381文章數 20758關注度
往期回顧 全部

科技要聞

智譜盤中狂飆超40%,市值破萬億港元

頭條要聞

離異男爽快加價20萬買房 過戶后賣家傻眼:房子被抵押

頭條要聞

離異男爽快加價20萬買房 過戶后賣家傻眼:房子被抵押

體育要聞

法國球星祝中國隊下屆世界杯取得好成績

娛樂要聞

陪睡陪玩是皮毛,向佐揭內娛暗規則

財經要聞

多部門核查"嬰幼兒紙尿褲甲酰胺問題"

汽車要聞

電動MINIJCW緞光特別版藏鋒上市盡顯低調賽道本色

態度原創

游戲
藝術
家居
房產
公開課

索尼年度神作銷量達430萬份!成最成功獨占之一

藝術要聞

冷軍 人物油畫寫生8幅

家居要聞

綠意盎然 自然之境

房產要聞

一年時間,36個盤“消失”!海口樓市,罕見“大收縮”!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版