无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

引入幾何約束后,VLM跨越了「空間推理」的認知鴻溝

0
分享至



現有的視覺大模型普遍存在「語義-幾何鴻溝」(Semantic-to-Geometric Gap),不僅分不清東南西北,更難以處理精確的空間量化任務。例如問「你坐在沙發上時,餐桌在你的哪一側?」,VLM 常常答錯。

這種「語義?幾何鴻溝」源自于視覺大模型的語義空間無法承載高保真的幾何細節,導致其在空間推理時是在「憑空瞎猜」,這使得模型讀懂了畫面的語義,卻停留在「語言的世界」中,不具備現實世界賴以運行的幾何直覺,導致空間判斷漏洞百出。



  • 論文標題:Geometrically-Constrained Agent for Spatial Reasoning
  • 論文鏈接:https://arxiv.org/pdf/2511.22659
  • 作者團隊:Zeren Chen, Xiaoya Lu, Zhijie Zheng, Pengrui Li, Lehan He, Yijin Zhou, Jing Shao, Bohan Zhuang, Lu Sheng
  • 通訊單位:北京航空航天大學,上海人工智能實驗室
  • 項目主頁:https://gca-spatial-reasoning.github.io
  • 項目代碼:https://github.com/gca-spatial-reasoning/gca

針對這一痛點,北京航空航天大學上海人工智能實驗室的研究團隊創新提出了幾何約束智能體(Geometrically-Constrained Agent, GCA),開創了「先形式化約束,后確定性計算」的空間推理新范式。GCA 不依賴海量數據微調,而是通過構建形式化任務約束,強制 VLM 從「模糊直覺」轉向「精確求解」,通過視覺工具調用和編寫計算代碼進行參數化計算,為空間推理搭建了一座可驗證、確定性的幾何橋梁。

GCA 直接帶領 Qwen、Gemini 等基座模型實現「能力躍遷」。在公認高難度的 MMSI-Bench 測試中,GCA 將模型性能提升近 50%,擊敗現有 Training-based 及 Tool-integrated 方法,并在多個主流空間推理測試中確立了空間推理領域的新 SOTA。



核心挑戰:跨越「語義 - 幾何」的認知鴻溝

視覺語言模型(VLM)在圖像描述與通用語義理解上表現卓越,然而,當任務轉向需要高精度幾何計算的空間推理時 —— 例如判斷物體的精確朝向、測量距離或進行視角變換 —— 其表現卻顯著下滑。

研究團隊指出,這種能力斷層的根源在于「語義 - 幾何鴻溝」。具體表現為:

  • 視覺 & 幾何信息的有損壓縮:VLM 將豐富的像素信息壓縮為抽象的語義特征,這一過程如同將一幅詳細地圖簡化為幾個地標名稱,導致物體精確位置、朝向、尺度等高保真幾何細節大量丟失。
  • 幾何想象的缺失:以「坐在沙發上」這一場景為例,VLM 僅能調用模糊的空間常識(知道人與沙發通常同向),卻無法在腦海中精確構建出「從沙發視角看去」的三維場景。這種幾何想象力的匱乏,使其在面對復雜空間推理時力不從心。

? 核心方法:基于形式化約束的兩階段推理





1. 任務形式化 —— 從「模糊指令」到「精確規則」

VLM 首先扮演「語義分析師」的角色,利用其強大的語義理解能力,將模糊的自然語言指令轉化為明確的數學約束。這一步驟不涉及具體計算,而是確立規則:



  • 基于物體的參考系 (Object-based Frame):利用物體自身的坐標系。例如指令「當你在洗手時...」隱含了觀察者必須「面對洗手池」,因此參考系由洗手池的朝向決定。
  • 基于相機的參考系 (Camera-based Frame):即標準的視圖坐標系。例如「從圖 1 的視角來看...」,此時參考系直接綁定為相機的基于方向的參考系 (Direction-based Frame):由兩個物體的位置關系定義。例如「烤箱在水槽的北面」,此時「北」的方向由從水槽指向烤箱的向量嚴格定義。





2. 幾何計算 —— 在規則內進行「確定性求解」



  • 智能工具調度與綁定:VLM 像指揮官一樣,調度 3D 重建等感知工具獲取數據,并能智能地將「最左邊的椅子」等模糊描述,精準綁定到具體的幾何對象上,消除語義歧義。
  • 感知與計算的無縫銜接:感知工具負責將視覺世界參數化為高保真 3D 表示,計算工具則負責執行代碼、完成坐標轉換,二者在統一框架下協同,實現從「看到」到「算準」的閉環。
  • 檢索增強的可靠計算:采用類似 RAG 的策略,VLM 從一個已驗證的幾何公式庫中檢索正確模型來生成代碼,從根本上杜絕「幻覺」,確保每項計算都基于可靠的物理原理。

實驗結果:全新的空間推理 SOTA

在 MMSI-Bench、MindCube-tiny、OmniSpatial 等多個主流空間推理基準上,GCA 證明了其有效性,構建了一個全新的空間智能 SOTA。

綜合性能提升

GCA 取得了 65.1% 的平均準確率,顯著超越了現有基于訓練的方法與工具集成的方法。特別是在極具挑戰性的多圖空間推理基準 MMSI-Bench 中,面對復雜的視角變換與相對方位推斷,現有主流模型往往只能徘徊在 25%~30% 左右的「隨機猜測」水平線。

而基于 Qwen3-VL-Thinking 構建的 GCA,準確率從 32.6% 躍升至 47.6%。這一數據證明,GCA 成功讓 VLM 擺脫了「蒙答案」的困境,向具備可靠的空間推理能力邁出了關鍵一步。

強大的通用性

GCA 并非特定模型的「專屬補丁」,而是一種無需訓練(Training-free)的通用推理范式,可直接賦能各類基座模型。

實驗顯示,在搭載 GCA 架構后,受測模型在 MMSI-Bench 上的性能平均實現了約 37% 的相對提升。其中,基于 Gemini-2.5-Pro 構建的 GCA 表現尤為驚艷,其準確率從 36.9% 飛躍至 55.0%,有效地激發了頂級模型的空間推理潛力。





通過系統的消融實驗與歸因分析,研究進一步證實了 GCA 架構的前瞻性:



  • 可解釋的錯誤歸因:得益于 GCA 架構的模塊化設計,研究團隊能夠對推理鏈路進行精確的錯誤歸因。分析顯示,VLM 在「任務形式化」階段的準確率已高達~70%,當前主要錯誤來源于下游感知工具(如 3D 重建失敗或遮擋)。這表明,GCA 的推理邏輯是穩健的,其性能將隨著感知模型的進步而持續提升。



總結與意義

GCA 提出了一種「語言定義約束,幾何執行計算」的新范式。通過將模糊的空間查詢轉化為帶約束的數學問題,GCA 有效避免了 VLM 在有損語義空間中進行不可靠的空間想象。這不僅大幅提升了推理的準確性,也讓機器向擁有「幾何直覺」邁出了關鍵一步,回應了攀登「空間智能」高峰的核心挑戰。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
國際足聯主席一句玩笑話引意大利人不滿,意體育部長:我想打電話聽他解釋

國際足聯主席一句玩笑話引意大利人不滿,意體育部長:我想打電話聽他解釋

環球網資訊
2026-06-13 19:11:01
字節某員工:媳婦是醫生。她說:當病人學會了AI看病,欲哭無淚

字節某員工:媳婦是醫生。她說:當病人學會了AI看病,欲哭無淚

螞蟻大喇叭
2026-06-13 14:24:04
黑豹樂隊前主唱張克芃去世,年僅54歲,曾在《三國演義》飾演張飛之子,知情人:他身體一直不好,常年靠坐輪椅出行

黑豹樂隊前主唱張克芃去世,年僅54歲,曾在《三國演義》飾演張飛之子,知情人:他身體一直不好,常年靠坐輪椅出行

極目新聞
2026-06-13 19:19:30
著名油畫家、中國美術學院教授馬玉如在杭州逝世,享年95歲

著名油畫家、中國美術學院教授馬玉如在杭州逝世,享年95歲

都市快報橙柿互動
2026-06-13 21:40:32
震撼,波黑球迷開始在多倫多街頭集結,并高喊口號支持巴勒斯坦

震撼,波黑球迷開始在多倫多街頭集結,并高喊口號支持巴勒斯坦

懂球帝
2026-06-13 01:18:15
毫無底線!具俊曄公開與大S私密往事,20年前韓國同居小屋曝光

毫無底線!具俊曄公開與大S私密往事,20年前韓國同居小屋曝光

社會日日鮮
2026-06-13 05:28:59
海風:賴清德“第二個家”傳來噩耗

海風:賴清德“第二個家”傳來噩耗

環球網資訊
2026-06-13 17:02:08
草臺班子?世界杯開幕式離譜翻車:大力神杯氣球漏氣 當眾癟掉降落

草臺班子?世界杯開幕式離譜翻車:大力神杯氣球漏氣 當眾癟掉降落

風過鄉
2026-06-13 05:35:13
上海一特斯拉內30萬現金“憑空蒸發”?很多車主都在犯這致命錯誤

上海一特斯拉內30萬現金“憑空蒸發”?很多車主都在犯這致命錯誤

環球網資訊
2026-06-13 18:49:28
穆帥下逐客令!皇馬26歲中場慘遭清洗 售價超6000萬

穆帥下逐客令!皇馬26歲中場慘遭清洗 售價超6000萬

球事百科吖
2026-06-13 19:18:38
訂單太多?特斯拉中國:Model 3 全系...

訂單太多?特斯拉中國:Model 3 全系...

新浪財經
2026-06-12 22:30:54
同學聚會,發現一個扎心的現實:年過40的女同學中,1/3沒有工作,1/3做著低薪但沒前途工作,剩下的1/3基本都在體制內

同學聚會,發現一個扎心的現實:年過40的女同學中,1/3沒有工作,1/3做著低薪但沒前途工作,剩下的1/3基本都在體制內

品讀時刻
2026-06-13 09:03:28
制裁菲防長當天!日本意識到不妙:喊話俄羅斯,從中國北邊開始

制裁菲防長當天!日本意識到不妙:喊話俄羅斯,從中國北邊開始

共工之錨
2026-06-12 12:24:53
特朗普發AI視頻扮成“日本忍者”引日本不滿:已通過外交渠道向美方表達立場,“強烈希望同樣的事不要再次發生”

特朗普發AI視頻扮成“日本忍者”引日本不滿:已通過外交渠道向美方表達立場,“強烈希望同樣的事不要再次發生”

政知新媒體
2026-06-13 11:52:29
時隔近2年再戰250賽!諾丁漢站簽表出爐:鄭欽文首輪戰前世界第3

時隔近2年再戰250賽!諾丁漢站簽表出爐:鄭欽文首輪戰前世界第3

全景體育V
2026-06-13 21:41:23
最新戰報:亞洲冠軍3-0首勝、日本3-2世界第1、中國隊恐3連敗

最新戰報:亞洲冠軍3-0首勝、日本3-2世界第1、中國隊恐3連敗

小七說籃球
2026-06-13 09:59:04
烏克蘭襲擊導致燃料危機惡化,扎哈羅娃呼吁“友好國家”伸出援手

烏克蘭襲擊導致燃料危機惡化,扎哈羅娃呼吁“友好國家”伸出援手

山河路口
2026-06-13 21:03:30
他來了!NBA官方公布總決賽G5裁判:福斯特回歸擔任主裁判

他來了!NBA官方公布總決賽G5裁判:福斯特回歸擔任主裁判

懂球帝
2026-06-13 22:33:07
早上6點 世界杯首場強強對話:8萬人圍觀14億大戰 首發曝光

早上6點 世界杯首場強強對話:8萬人圍觀14億大戰 首發曝光

葉青足球世界
2026-06-13 20:30:10
中國人保集團原黨委委員、副總裁俞小平被查

中國人保集團原黨委委員、副總裁俞小平被查

澎湃新聞
2026-06-13 18:58:26
2026-06-13 23:39:00
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
13246文章數 142668關注度
往期回顧 全部

科技要聞

SpaceX上市首日破2萬億美元,馬斯克再封神

頭條要聞

寶媽考編排名第一卻被低分者遞補 維權后崗位直接取消

頭條要聞

寶媽考編排名第一卻被低分者遞補 維權后崗位直接取消

體育要聞

美國4比1巴拉圭:這統治力真是美國隊?!

娛樂要聞

鄧超曬孫儷親手織的帽子,笑瘋全網!

財經要聞

梁文鋒向左,楊植麟向右

汽車要聞

深藍S07華為乾崑激光版增程車型上市 限時15.49萬元起

態度原創

藝術
時尚
旅游
本地
房產

藝術要聞

嫵媚入骨,前衛封神!Alessio Albi 這組寫真,看完根本挪不開眼

夏天穿衣要杜絕土氣感!試試精致的小香風,優雅與俏皮并存

旅游要聞

夏天就該這樣過!大別山的夏天,從霍山大峽谷漂流的第一聲尖叫開始。

本地新聞

AK劉彰邂逅河北南大港濕地

房產要聞

海南最賺錢行業曝光!最快4年半,海口全款買三房!

無障礙瀏覽 進入關懷版