无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

機器真正理解世界需要一張「認知地圖」,中科院發布空間智能綜述

0
分享至



AI 已經能看懂圖像、生成場景,甚至在虛擬環境中規劃行動。

但當一個智能體真正進入空間之后,一個更關鍵的問題會出現:它看到的只是眼前一角,卻必須理解整個世界。

門在身后,杯子被遮擋,沙發只露出一部分,剛才經過的區域已經離開視野。當前畫面只能提供局部線索,無法支撐長期、穩定的空間理解與世界建模。

這意味著智能體不能只依賴瞬時觀測,而必須在內部形成一個穩定、可更新、可推理的空間表征,來支持后續的推理與生成。

近日,來自中國科學院自動化研究所的研究者聯合多所高校發布綜述論文《Spatial Intelligence from a Cognitive Map Perspective: A Survey》,以認知地圖(Cognitive Map)為核心視角,重新梳理了空間智能研究。論文將傳統生物導航中的認知地圖概念擴展為空間智能系統中的內部表征藍圖:它連接空間感知、空間推理與空間生成,使許多原本分散的研究方向能夠在一個統一的機制框架下被理解與討論。



  • 論文標題:Spatial Intelligence from a Cognitive Map Perspective: A Survey
  • 項目主頁:https://klingsor-tyx.github.io/spatial-cognitive-map/
  • 論文鏈接:https://github.com/Klingsor-tyx/Awesome-Spatial-Cognitive-Map/blob/main/survey.pdf
  • GitHub:https://github.com/Klingsor-tyx/Awesome-Spatial-Cognitive-Map



圖1:認知地圖視角下的空間智能統一框架

認知地圖:空間智能的表征藍圖

空間智能相關研究快速發展。空間感知從二維圖像識別走向三維場景理解;空間推理從局部關系與屬性判斷擴展到長時序導航、多視角推斷和心理模擬;空間生成也從單個對象生成發展到室內外場景生成與世界狀態模擬。

隨著任務越來越長程、視角越來越多、環境越來越動態,若系統只處理當前輸入,前一刻看到的結構、被遮擋區域、跨房間關系和對象狀態變化都會在時間中斷裂。

因此,從更底層看,這些看似不同的研究方向實際上正匯聚于一個共同需求:智能體需要一種統一的內部表征機制,負責把局部觀察變成可積累的空間記憶,把跨視角線索整合成全局布局,并在后續推理、生成和行動中被反復調用。于是,空間智能的核心問題就可以表述為:系統如何構建、維護、調用并實現這樣一張內部空間地圖?

認知地圖最早來自生物空間認知研究,用于描述生物體在環境中形成的內部表征。論文將這個概念擴展為現代空間智能系統中支撐感知、推理與生成的統一內部空間表征。具體來說,認知地圖由智能體從局部、碎片化的觀察中逐步構建,用于整合環境中的空間結構、對象關系與動態變化。基于這一內部表征,智能體可以開展推理與規劃,并進一步將其轉化為外部場景、模擬結果或交互行為,從而支撐感知、推理與生成之間的統一建模。

為了讓這一概念更加可操作,論文提出認知地圖應同時具有三種性質:抽象性、全局性和持久性。

  • 抽象性(Abstraction)指認知地圖需要把原始感知輸入轉化為結構化概念。它不能只是保存像素、點云或體素,而應進一步組織出對象、屬性、關系,甚至拓撲結構,完成從低層幾何輸入到高層空間語義的轉換。
  • 全局性(Globality)指認知地圖需要超越當前視野,將局部的、瞬時的、不同時間和視角下的觀察整合起來,形成跨視角一致的整體空間布局。
  • 持久性(Persistency)指認知地圖是一個可以持續維護和更新的內部狀態。它需要通過記憶機制記錄空間信息,并在新觀察到來時進行檢索、修正和更新。



圖 2:認知地圖的三種核心性質:抽象性、全局性與持久性。

這三種性質共同回答了 “認知地圖為什么能夠支撐空間智能” 這一問題。只有當一種表征同時具備抽象性、全局性和持久性時,它才能超越單純描述空間的層面,真正支撐空間智能的發展。

更重要的是,從這一視角來看,認知地圖的價值在于明確了空間智能系統的基本運作模式:該系統首先需將原始觀測數據抽象為結構化表征,隨后整合分布在不同時間維度和視角下的局部線索,形成全局連貫的空間布局,并持續維護這一表征以支持交互過程中的反復查詢、更新與驗證。

認知地圖視角下的空間智能統一框架

在這一框架下,空間感知、推理與生成可以看作圍繞認知地圖展開的三個連續過程:

  • 感知(Perception):認知地圖的內部構建
  • 推理(Reasoning):基于認知地圖的推理
  • 生成(Generation):認知地圖的外部實現

感知階段從原始傳感輸入中構建內部空間表征;推理階段讀取、操作并利用這一表征進行空間推斷和決策;生成階段則將內部表征外化為可見場景、三維環境或動態模擬結果。三者共同構成了空間信息在外部環境與內部系統中的循環路徑。



圖3:論文整體結構。空間智能被統一為認知地圖的構建、推理與實現。

通過這種組織方式,認知地圖從一個概念標簽轉化為分析空間智能的坐標系,讓原本并列的感知、推理和生成任務成為圍繞同一內部表征展開的不同階段:地圖被構建出來,被推理模塊調用,并最終被實現為外部空間形式或預測結果。

構建認知地圖:空間感知

論文首先討論空間感知階段,對應認知地圖的構建過程。

在認知地圖視角下,感知不僅需要從圖像中檢測物體或提取視覺特征,還要從局部、短暫、通常不完整的傳感器數據中,形成一個具有抽象性和全局性的內部空間表征。這一階段完成的是從物理世界傳感數據到內部空間模型的轉換,體現了從數據到認知的躍遷。

按照內部結構和信息組織方式,論文將認知地圖的表征范式分為三類:

  • 度量表征(Metric Representation)強調空間的幾何結構和物理屬性。它通常在語義信息的基礎上顯式建模坐標、距離、尺度、形狀和三維布局,還可以進一步分為基于顯式幾何的表征(Explicit Geometry-based)與基于參數化坐標的表征(Parametric Coordinate-based),前者的常見形式包括 2D 柵格圖、BEV、點云、體素等。幾何一致性強,適合需要精確空間定位和空間對齊的任務。
  • 關系表征(Relational Representation)更關注對象、區域和結構之間的拓撲關系。具體形式包括結構化圖表征(Structured Graph-based),以及可序列化為文本或符號的圖表征(Serialized Graph-based)。這類方法通常弱化了精確幾何信息,更適合表達支撐與相鄰關系、可達性等拓撲結構及依賴關系,也更容易與語言模型推理機制結合。
  • 混合表征(Hybrid Representation)則同時利用度量信息和關系信息,因為真實空間理解往往既需要幾何精度,也需要關系抽象。許多方法通過層級架構(Hierarchical Architecture-based)、特征融合(Feature Fusion-based)等操作,將底層幾何結構與高層關系組織結合起來,使認知地圖能夠同時支持空間定位、結構理解和多層次推理。





圖 4:認知地圖構建的三類表征方式:度量表征、關系表征和混合表征。

總體而言,認知地圖從單一表征形式向度量與關系混合表征的發展演變,反映了空間智能向更加統一的內部表征體系發展的廣泛趨勢。

讀取認知地圖:空間推理

當認知地圖構建完成后,其核心價值在于支持智能體進行復雜的空間推理,如路徑規劃、物體搜索、情境理解等。通過這一機制,空間信息得以被讀取、處理,并最終轉化為可執行的決策信號。空間推理可被視為由認知地圖介導的推理過程,其核心要素在于推理模塊如何訪問、解讀并利用其中編碼的空間信息。

論文將基于認知地圖的空間推理范式歸納為三類:

  • Map as Embedding將認知地圖編碼為潛空間特征,使其直接參與匹配、狀態傳播和決策。此時地圖往往被視為推理模塊的內部狀態,能夠支持跨感知、語言和行動的高效檢索、對齊與定位,但其推理過程往往不具備較高的可解釋性。其中,Structural State Propagation 將空間組織為可傳播的結構狀態,例如在網格、圖中傳播不確定性、cost 或 value,從而將認知地圖轉化為可執行的策略信號;Latent Feature Matching 則把認知地圖作為記憶空間,通過當前觀察、目標或指令與地圖中的區域、地標、對象或上下文特征進行匹配,以檢索最相關的空間信息。
  • Map as Prompt將認知地圖轉換為文本、視覺或多模態提示,輸入給 LLM 或 VLM。例如序列化為文本、結構化摘要(Textual Prompt),將認知地圖渲染為視覺提示(Visual Prompt),或共同構成多模態上下文(Multimodal Prompt)。這種范式能提供更高的靈活性,并與基礎模型更好地兼容,但往往伴隨著信息壓縮瓶頸。
  • Map as API則進一步把認知地圖設計為可查詢、可更新、可調用的外部接口。在這種范式中,推理模塊可以在運行過程中調用地圖,查詢對象位置、更新狀態變化、檢索歷史記憶,或利用地圖約束當前決策,具備較強的閉環交互能力,這對動態任務及長期規劃任務尤為重要。其代價在于系統復雜度較高,例如涉及狀態管理和工具使用。按照是否存儲歷史狀態信息,還可以進一步分成兩類:實時狀態快照(Real-time State Snapshot)關注當前環境狀態的即時維護與更新,持久化空間記憶(Persistent Spatial Memory)則強調跨時間積累和空間經驗復用,使系統能夠保存歷史觀察、事件記錄和長期交互結果。





圖 5:認知地圖支持推理的三種范式:Embedding、Prompt 與 API。

從這一脈絡看,空間推理能力不僅取決于模型本身,也取決于內部地圖以何種方式參與推理,依賴于推理模塊如何訪問、解釋和操作認知地圖。

外化認知地圖:空間生成

如果說感知是從外部世界到內部認知地圖,那么生成可以被看作反向過程:從抽象、全局統一、持久維護的內部空間表征出發,實現或模擬具體的外部空間形式。在此階段,生成不是憑空想象,而是將內部空間知識(如布局、關系、屬性)外化為可見或可交互的空間結果,完成從抽象到具象的表達,論文將這一部分分為兩類:

  • 靜態場景合成(Static Scene Synthesis)關注如何利用認知地圖中的布局、對象語義和拓撲關系等結構先驗,生成具體的三維場景。認知地圖可以作為檢索藍圖,引導系統從資產庫中選擇物體并約束布局(Map-based Retrieval);也可以作為生成模型的條件輸入,使模型端到端地生成符合空間關系和功能約束的場景(Map-to-Scene Generation)。
  • 動態世界模擬(Dynamic World Simulation)側重時空演變的模擬,強調認知地圖作為一個可持續更新的內部狀態存儲。生成模塊需要基于它維持空間連續性,模擬場景的動態演化,并保持時序上的一致性。





圖 6:空間生成的兩種范式:靜態場景合成與動態世界模擬。

現有研究呈現從靜態實現到動態模擬、從場景合成到世界建模的基本趨勢,這一趨勢表明認知地圖正從空間組織先驗演變為持久的生成性基礎結構,不僅支持結構化場景合成,還能支持未來狀態預測、連貫可交互世界的模擬。

應用:從理解世界到改變世界

在應用層面,論文根據智能體與系統之間的交互方式,將相關任務分為兩類:開環空間認知和閉環空間交互。

  • 開環空間認知:系統主要進行觀察、理解、回答或生成,而不需要實時改變外部環境。論文討論的代表任務包括空間問答、室內場景合成和開放世界生成。在這些任務中,認知地圖主要起到結構化橋梁作用:它把分散的視覺輸入、語言意圖和空間結構組織起來,使系統能夠超越單一視角和局部輸入進行空間理解。
  • 閉環空間交互:要求智能體在持續的感知 — 行動循環中使用和更新認知地圖。代表任務包括具身導航和具身操作,在這一類任務中,認知地圖不只是被動存儲空間信息,而是不斷被行動結果檢驗和修正。智能體需要根據新觀察更新地圖,根據地圖選擇行動,并在行動過程中持續處理遮擋、變化和不確定性。



圖 7:基于智能體—系統交互方式的兩類應用范式:開環空間認知與閉環空間交互。

從認知地圖看空間智能的下一步

從認知地圖視角來看,空間智能的未來問題就不只是把地圖做得更大,而是讓它更懂語義、更能跨尺度、更能長期更新,并真正進入行動閉環。基于認知地圖的核心特性與運作機制,論文總結了空間智能系統仍需突破的幾個關鍵方向。

  • 更深層的語義抽象。當前許多認知地圖仍主要停留在對象類別和基本空間關系層面。未來的地圖節點需要表達對象身份、物理屬性、狀態、功能和可供性;地圖邊也需要從簡單的位置關系,擴展到物理約束、交互邏輯和因果機制。
  • 擴展全局空間理解。現有模型在局部空間關系上已有進展,但對于大尺度環境結構、房間連接、對象共現和未觀測區域補全,仍缺少穩定的空間先驗。未來需要面向大規模三維場景和地圖的空間基礎模型,幫助智能體從稀疏局部證據中推斷全局空間骨架。
  • 動態環境中的長期持久性。真實空間是動態的:物體會移動,布局會變化,舊信息可能失效。未來的認知地圖需要發展為 4D 時空表征,通過主動遺忘和結構化鞏固,區分短期變化與長期背景,從而支持持續運行中的空間維護。
  • 認知地圖作為生成式模擬器。認知地圖應從空間信息倉庫擴展為面向未來推理的動態引擎。它可以支持未觀察區域補全、未來狀態預測和反事實推演,使智能體能夠在內部概念空間中進行模擬。
  • 彌合感知與行動之間的鴻溝。當前許多地圖模塊仍偏向被動記錄環境,而沒有充分參與行動決策。未來的空間智能系統需要讓認知地圖中的不確定性、預測誤差和盲區主動影響智能體行為,使建圖和行動形成更緊密的閉環。

結語

這篇綜述從認知地圖的視角重新梳理了空間智能的研究,并強調其背后共享的表征機制:空間信息如何被抽象、整合并持續維護,又如何進一步參與推理、決策和生成。由此,不同研究方向能夠圍繞同一個問題被重新比較:智能體如何構建和使用內部空間表征,將其轉化為外部空間形式或行為結果。

從這一視角看,空間智能應走向一種更統一的系統形態。當認知地圖的抽象性、全局性與持久性能夠貫穿空間感知、推理與生成全過程,才能邁向真正類人甚至超過人類水平的空間智能。

作者信息:本文第一作者田雨萱,為中國科學院自動化研究所博士生,研究方向為空間智能,在 CVPR 等國際學術期刊會議上發表多篇論文,通訊作者為鄭曉龍研究員。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
羅伊-基恩:如果英格蘭世界杯奪冠,我就直接移民澳大利亞

羅伊-基恩:如果英格蘭世界杯奪冠,我就直接移民澳大利亞

懂球帝
2026-06-09 16:30:09
43歲傅明成世界杯史上第一位中國籍VAR裁判

43歲傅明成世界杯史上第一位中國籍VAR裁判

極目新聞
2026-06-09 16:10:26
英格蘭隊內訌!阿森納王牌質疑隊友能力,歐洲杯黃金搭檔徹底鬧掰

英格蘭隊內訌!阿森納王牌質疑隊友能力,歐洲杯黃金搭檔徹底鬧掰

瀾歸序
2026-06-10 06:17:04
劉大錘再曝頂流開車玩手機,觸碰紅線恐遭嚴懲

劉大錘再曝頂流開車玩手機,觸碰紅線恐遭嚴懲

科學發掘
2026-06-09 14:41:48
被傳與印度塔塔牽手,奇瑞不得不發聲明,塔塔是個什么物種?

被傳與印度塔塔牽手,奇瑞不得不發聲明,塔塔是個什么物種?

反做空一線
2026-06-10 00:09:09
大學3年啃饅頭咸菜,爸爸來電:每月2萬不夠花?我看著榨菜愣住了

大學3年啃饅頭咸菜,爸爸來電:每月2萬不夠花?我看著榨菜愣住了

曉艾故事匯
2026-06-09 09:26:17
有性生活和沒性生活,身體會出賣你!第三個區別,很多人沒想到

有性生活和沒性生活,身體會出賣你!第三個區別,很多人沒想到

健康科普365
2026-05-30 16:30:29
太諷刺了!“我有點慢熱”,男生相親邀約到拉黑對方,僅用幾分鐘

太諷刺了!“我有點慢熱”,男生相親邀約到拉黑對方,僅用幾分鐘

火山詩話
2026-06-09 08:04:45
總決賽分水嶺?裁判漏判,聯盟調查!若追加二級惡犯,馬刺就完了

總決賽分水嶺?裁判漏判,聯盟調查!若追加二級惡犯,馬刺就完了

你的籃球頻道
2026-06-10 07:12:44
女性偷腥后當晚與丈夫同房是什么感覺?一位39歲的女人說出實情

女性偷腥后當晚與丈夫同房是什么感覺?一位39歲的女人說出實情

混音情感
2026-06-09 09:13:58
成本14億,三天票房只有3.66億,好萊塢年度最慘電影誕生了

成本14億,三天票房只有3.66億,好萊塢年度最慘電影誕生了

影視高原說
2026-06-09 15:32:38
“摸奶子”再惹爭議,OPPO的流量反噬開始了

“摸奶子”再惹爭議,OPPO的流量反噬開始了

品牌頭版
2026-05-13 10:18:15
“家長都是白發蒼蒼!”人大附中出考場視頻,有錢晚婚晚育具象化

“家長都是白發蒼蒼!”人大附中出考場視頻,有錢晚婚晚育具象化

熙熙說教
2026-06-08 19:01:11
小米正式回應SU7 Ultra起火事故!

小米正式回應SU7 Ultra起火事故!

新浪財經
2026-06-09 13:42:50
廣東女子每周啃一個豬蹄,連續吃了半年,去醫院檢查,結果如何

廣東女子每周啃一個豬蹄,連續吃了半年,去醫院檢查,結果如何

芹姐說生活
2026-06-09 19:08:06
吳千語施伯雄在上海新家拍大片,4層別墅公開,老錢風裝修真高級

吳千語施伯雄在上海新家拍大片,4層別墅公開,老錢風裝修真高級

八怪娛
2026-06-09 11:03:36
62歲布拉德·皮特與33歲女友觀看法網,網友:看不出近30歲年齡差

62歲布拉德·皮特與33歲女友觀看法網,網友:看不出近30歲年齡差

韓小娛
2026-06-08 18:01:55
亞美尼亞親俄派敗選,更多“小弟”不看俄臉色

亞美尼亞親俄派敗選,更多“小弟”不看俄臉色

名人茍或
2026-06-09 07:03:45
演都不演!鄭欽文再次一輪游,炸出一群牛鬼蛇神,李娜早把話說透

演都不演!鄭欽文再次一輪游,炸出一群牛鬼蛇神,李娜早把話說透

圓夢的小老頭
2026-06-09 19:54:22
鬧大了!鄰居充電線橫跨他人車位,車主倒車入庫壓斷被索賠500元

鬧大了!鄰居充電線橫跨他人車位,車主倒車入庫壓斷被索賠500元

火山詩話
2026-06-09 08:23:04
2026-06-10 07:51:00
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
13213文章數 142664關注度
往期回顧 全部

科技要聞

一文看懂蘋果WWDC26:庫克告別,Siri重生

頭條要聞

德國迷奸案主犯因名字公開請求輕判:以后在國內不好混

頭條要聞

德國迷奸案主犯因名字公開請求輕判:以后在國內不好混

體育要聞

誰會花400萬,去看一場尼克斯的比賽?

娛樂要聞

吳文忻因癌癥惡化離世,女兒哭泣不舍

財經要聞

從日韓分銷商到英國教育圈 誰在買宇樹?

汽車要聞

賽豆科技AIVA品牌發布 全系產品覆蓋20萬級市場/量產車年內亮相

態度原創

房產
親子
健康
數碼
藝術

房產要聞

海南樓市最新榜單出爐,TOP10房企賣房已超260億!

親子要聞

【萌寶歡樂多多】最新視頻來襲,快來看看吧!

粽子、湯圓……常見粘食大盤點!

數碼要聞

蘋果為三款AirPods推出測試版固件9A5292e

藝術要聞

MVRDV新作:法國“秘密花園”,70戶共享一座小山谷

無障礙瀏覽 進入關懷版