![]()
導讀:視覺 latent reasoning 希望讓多模態模型在內部生成連續 latent token,用這些中間表示補充多模態理解和推理任務中缺失的視覺證據。但問題在于,模型生成出來的 latent token 可能并不落在它原本熟悉的視覺輸入空間里;如果模型無法穩定讀取這些 token,它們就很難成為有效的中間視覺證據。
來自阿里 Qwen 大模型應用團隊、滑鐵盧大學、浙江大學和 Vector Institute 的研究者提出GAP(Granular Alignment Paradigm)。它的核心思路是既然問題出在「生成的 latent token 能不能被模型讀懂」,就需要從三個粒度同時做對齊:
特征對齊:讓 latent 回到模型熟悉的視覺表示空間,而不是直接復用輸出側 hidden state;
語義對齊:用文本描述檢查 latent 表達了什么視覺證據,讓連續向量不再完全黑箱;
分配對齊:只在基座模型真正困難的樣本上啟用 latent,避免簡單題引入額外噪聲。
在 Qwen2.5-VL 7B 上,GAP 圍繞這三層對齊展開驗證。在本文評測設置下,它同時改善了平均視覺感知與平均多模態推理表現。
![]()
- 論文標題:Fill the GAP: A Granular Alignment Paradigm for Visual Reasoning in Multimodal Large Language Models
- 論文鏈接:https://arxiv.org/pdf/2605.12374
- 方法名稱:GAP(Granular Alignment Paradigm)
- 作者:Yanting Miao、Yutao Sun、Dexin Wang、Mengyu Zhou、Pascal Poupart、Lei Lv、Li Xu、Qi Zhao、Li Wang、Hao Li、Xiaoxi Jiang、Guanjun Jiang
- 機構:Qwen Large Model Application Team, Alibaba;University of Waterloo;Zhejiang University;Vector Institute
![]()
GAP 將視覺 latent reasoning 拆成數據層、特征層和模型能力層三類對齊問題。
為什么多模態模型需要「中間視覺證據」?
多模態大模型已經能夠在大量圖文任務上給出流暢答案,但在更細粒度的視覺推理任務中,錯誤往往不是單純來自語言推理能力不足,而是來自視覺證據定位不充分。
視覺 latent reasoning 試圖讓模型在內部生成連續的視覺 latent token。這些 token 可以被理解為一種中間視覺表示,它們在自回歸生成過程中被重新輸入模型,幫助后續文本推理。
問題是,這條路看起來輕量,卻并不天然穩定。
現有視覺 latent 方法的關鍵假設:
輸出可以直接當輸入
許多視覺 latent 方法采用一種「輸出即輸入」的范式:模型先生成一個輸出側 hidden state,然后把這個 hidden state 直接作為下一步 latent token 的輸入 embedding。
這在概念上很自然。既然 hidden state 已經承載了模型當前步的推理狀態,為什么不能把它繼續喂回去,讓模型沿著這個連續空間繼續「想」?
論文指出,這個看似自然的做法在現代 pre-norm MLLM 中存在一個特征空間層面的風險:decoder 輸出側 hidden states 并不一定和輸入側文本與視覺 embedding 位于同一個分布或尺度區間。也就是說,一個向量適合作為輸出讀出,并不意味著它適合作為下一步輸入。
![]()
在 Monet-7B 中,decoder hidden states 的范數隨層數顯著增長,遠高于輸入 embedding 的尺度區間。
論文以 Monet-7B 為代表進行分析。Monet-7B 是基于 Qwen2.5-VL 7B 的視覺 latent 模型。作者觀察到,在 pre-norm Transformer 中,層歸一化作用于子層輸入,而殘差流本身并不會在每次殘差相加后被重新歸一化。因此,hidden states 的范數會沿 decoder 深度累積。
具體測量顯示:
- 輸出側文本 hidden states 的 L2 范數約為文本輸入 embedding 的 546.4 倍;
- 輸出側視覺 hidden states 的 L2 范數約為視覺輸入 embedding 的 8.7 倍;
- 這種范數增長在 Monet-7B 的 latent 微調后依然存在,說明它不是原始基座模型的偶然現象,而與底層 pre-norm decoder 的殘差流機制相關。
這意味著,如果直接把輸出側 hidden state 作為下一步視覺 latent 輸入,模型實際上是在讀取一種它訓練時并未作為輸入 embedding 見過的向量分布。論文將這一問題概括為特征空間錯配:latent 存在輸出空間與輸入空間之間的錯配。
只校正范數,也能帶來收益
為了驗證這種錯配不是純粹的理論擔憂,論文做了一個簡單但有說服力的干預實驗。
作者以 Monet-7B 作為「輸出即輸入」的 latent baseline,在推理時加入無需訓練的 EMA(Exponential Moving Average,移動指數平均)范數校準。這個操作不改變訓練數據、不更新模型參數,也不改變主干模型;它只把預測 latent 的范數重標定到輸入視覺 embedding 的范數范圍。
結果顯示,僅這個推理時范數校正,就讓 HRBench4K 從 70.75 提升到 71.63,讓 MathVista 從 61.30 提升到 63.30,平均提升從 66.03 到 67.46。
GAP 的重構路徑使生成 latent 回到更接近輸入視覺 embedding 的范數區間。
![]()
這個實驗的意義在于,它把問題收束到一個更具體的位置:視覺 latent 本身并不是無效的,關鍵在于它是否以輸入兼容的形式反饋給模型。范數校準只處理了尺度問題,而 GAP 進一步處理的是子空間與監督方式的問題。
GAP:三層對齊
GAP 的全稱是 Granular Alignment Paradigm。它不是把視覺 latent reasoning 簡化為「插入更多連續 token」,而是將 latent 訓練與反饋拆成三類對齊:數據層對齊、特征層對齊和模型能力層對齊。
數據層:讓連續 latent 有可檢查的視覺目標
連續 latent 的一個難點是不可見。模型生成一個向量,我們很難直接知道它到底應該表達什么視覺信息。GAP 的數據層對齊并不只是 “收集更多樣本”,而是把每個 latent 監督樣本組織成一種可檢查的 response 范式:讓連續 latent 目標和可讀的視覺意圖描述同時出現在同一條教師回復里。
![]()
GAP 的 response 范式。數據層對齊的重點,是讓 latent supervision 既有連續視覺目標,也有可讀的 parser 描述,而不是只暴露訓練數據來源配比。
具體來說,每個訓練樣本包含查詢圖像、問題、中間輔助圖像和結構化教師回復。訓練時,中間輔助圖像不會作為學生模型的輸入;它經過凍結 ViT 得到的 embedding 只作為 latent head 的監督目標。文本側則保留
等結構,其中
用自然語言記錄這段 latent 預期表達的輔助視覺內容。
也就是說,連續 latent 負責提供可學習的視覺目標,
負責提供可讀的語義解釋。推理時沒有輔助圖像,模型需要自回歸地產生這些 latent 位置,再把它們反饋給后續推理。
這樣做的好處是,連續 latent 不再是完全不可檢查的黑箱目標。訓練信號里既有連續視覺目標,也有可讀的 response 描述,便于分析 latent 監督到底在教模型生成什么視覺證據。
特征層:用低秩參數化約束視覺 latent 空間
既然不能直接把輸出側 hidden state 當作視覺輸入,怎樣才能讓模型生成的 visual latent 更像它原本熟悉的視覺輸入?
Naive Solution. 訓練一個完整 latent head,讓它從 decoder state 預測高維視覺 embedding。但視覺 latent 要表達高信息密度的中間視覺證據,而當前缺乏大規模、高質量 latent 監督數據。因此,在這種條件下,完整高維映射會帶來大量冗余自由度和高維噪聲。對于需要逐步反饋的自回歸推理來說,一旦某一步 latent 學到不穩定方向,后續生成就可能繼續放大這種誤差。
為了應對高維映射帶來的冗余,作者提出了一種新的 latent head 構建方式:PCA-aligned latent head。它讓 latent head 先預測 PCA 系數,而不是直接預測完整高維視覺 embedding。這種設計帶來兩點好處。
第一,PCA 約束參數空間。傳統完整 head 近似優化一個 D×D 的高維映射;論文發現了,vision embedding space 是具有低秩化的特點: 通過固定 PCA basis,把需要學習的部分壓到 D×d,其中 d?D。在保留 95% 信息量1的設置下,可學習 latent 系數維度從 3584 降至 629,約為原空間的 17.6%。PCA 基由訓練集中輔助圖像的 vision embedding 離線計算,并在訓練中固定不更新。因此,GAP 的做法不是讓模型自由學習一個完整視覺重構器,而是在已有視覺 embedding 的主成分坐標系里學習 latent 系數。
第二,PCA 重構的 latent 更接近模型熟悉的視覺輸入。 真實視覺 embedding 的主要變化方向已經由 PCA 提供,latent head 只需要學習如何預測這些主方向上的系數。它既節省了參數化自由度,也把生成 latent 限制在更緊湊、更接近真實視覺輸入分布的子空間中,從而降低輸出側 hidden state 與輸入側 vision embedding 之間的特征錯配。
從更長遠的角度看,PCA 有效也可能提示一個更大的問題:視覺 latent reasoning 也許需要類似 “latent 預訓練” 的階段。當前沒有專門的大規模 latent 預訓練時,直接訓練高秩 latent 空間很難。PCA 相當于暫時借用了模型已有視覺特征空間中的統計結構,把已有視覺編碼器學到的主成分作為結構先驗,用一種更輕量、更數據友好的方式完成對齊和壓縮。
模型能力層:只在基座模型真正困難的樣本上施加 latent 監督
特征層解決的是 latent 如何生成,模型能力層解決的是 latent 應該用在什么樣的樣本上。GAP 的判斷是:visual latent 不應該被當作默認步驟,而應該依照模型當前能力和題目難度,分配給基座模型確實困難的樣本。
這種難度感知分配的直覺是:當基座模型無法僅根據問題圖像正確解答時,它往往需要額外的中間視覺證據來輔助推理;而 visual latent 正是為這類樣本提供這種證據。如果基座模型已經可以穩定答對,強行加入 latent 監督可能會引入額外噪聲,甚至有破壞原有能力的風險。
論文對每個訓練問題使用 Qwen2.5-VL 7B 基座模型進行 8 次采樣,估計經驗正確率。在當前實驗中,只有基座模型 8 次都未答對的樣本,才保留 latent 監督;其他樣本轉為純文本訓練。
主結果:同時改善平均感知與平均推理
論文最關鍵的實驗問題是:對齊后的 visual latent,是否能避免多模態感知能力提升但推理能力下降的問題?
結果顯示,在本文評測設置下,GAP 同時改善了平均視覺感知和平均多模態推理表現。視覺感知側,論文使用 HRBench4K、MMStar 和 MME-RealWorld-Lite,并定義 Avg-P 為三者 Overall 指標的平均值。
![]()
論文 Table 2。GAP 在 Avg-P 上取得本文評測方法中的最佳結果。
從表中可以看到,Qwen2.5-VL 7B 基座模型的 Avg-P 為 57.66,Dense Caption SFT 為 59.40,Monet-7B 為 59.58,LVR 為 60.75。GAP 達到 61.32,在本文評測方法中最高。單項指標上,GAP 在 HRBench4K Overall 達到 73.25,在 MMStar 達到 63.40。
多模態推理側,論文使用 MathVista 和 WeMath,其中 WeMath 同時報告 strict 與 loose 兩種準確率,并定義 Avg-R 為 MathVista、WeMath-S 和 WeMath-L 的平均值。
![]()
論文 Table 3。GAP 在 Avg-R 上取得本文評測方法中的最佳結果。
在 Avg-R 上,Qwen2.5-VL 7B 為 52.62,Dense Caption SFT 為 47.24,Monet-7B 為 47.99,LVR 為 47.66。GAP 達到 53.97。這個結果尤其值得注意:一些既有 latent baselines 在感知任務上有所提升,但平均推理指標下降明顯;GAP 是唯一一種能同時改善 Avg-P 和 Avg-R 的 latent 推理方法。
組件分析:
低秩結構先驗與選擇性監督的作用
在數據監督質量與監督分配方面,論文比較了 Monet latent 模型、使用 Monet SFT 數據的 latent-head 訓練配置,以及使用 49K 精選 latent 監督設置的全 latent 版本和難度感知版本。結果顯示,精選 latent 監督在 HRBench4K 和 MathVista 平均上顯著優于 Monet 125K SFT 數據相關設置;難度感知版本又優于全 latent 版本。
這說明 GAP 的收益不只來自「有 latent head」,也來自更干凈、更匹配任務的 latent 監督,以及對 latent 監督使用位置的選擇。
在維度約減相關實驗中,論文比較了無 PCA 的完整 latent head,以及保留 85%、90%、95% 信息量的 PCA 版本。保留 95% 信息量對應 629 個主成分,在 HRBench4K、MMStar 和 MathVista 的 Avg-3 上達到 69.22,相比 Qwen2.5-VL 7B 的 65.69 提升 +3.53,也高于無 PCA 的 LH+DA。
從這個角度看,這組實驗的意義不僅是驗證「降維有沒有用」,而是在驗證一個更基本的假設:在 latent 數據規模有限、latent 預訓練尚未充分建立的階段,視覺 latent head 需要顯式的低秩結構先驗。PCA 提供的主成分坐標系讓模型優先學習視覺 embedding 中方差最大、最穩定的變化方向,而不是把優化預算浪費在完整高維空間的冗余自由度上。
論文對這一結果的解釋是:PCA 同時起到了子空間約束、容量控制和輸入空間參數化的作用。它并不證明 PCA 是唯一可行的低秩方法,但說明將生成 latent 約束到經驗視覺 embedding 坐標系中,是比不受約束的完整 head 更穩健的方向。也可以把它理解為一種過渡方案:在缺乏大規模 latent 預訓練的情況下,先借助模型已有視覺特征空間做對齊和壓縮。
生成的 latent 是否真的有視覺信息?
一個自然疑問是:GAP 的收益是否只是來自增加了 latent token 位置?如果模型只是通過test-time scaling 的方式來獲得收益,而這些連續 token 本身沒有有用內容,那么視覺 latent reasoning 的有效性則會大打折扣。為此,論文設計了推理干預實驗,實驗設置如下:
- 原始基座模型:Qwen2.5-VL 7B,不使用 latent,用來給出基礎能力參照;
- 純文本監督對照:Dense Caption SFT,使用同一批精選數據做純文本 SFT,用來判斷收益是否只是來自更細的文本描述;
- GAP 無 latent 生成(zero latent):使用 GAP 模型,但禁用 latent 生成,用來觀察 GAP 的訓練本身是否能帶來視覺理解增益;
- GAP 噪聲 latent(noise latent):使用 GAP 模型,但用高斯噪聲替換模型正常預測的 latent 內容;
- GAP 預測 latent(clean latent):使用 GAP 模型,并保留模型自生成的 latent 特征。
![]()
正常生成的 latent 高于禁用 latent 和噪聲 latent 設置,說明收益不只是來自額外 token 位置。
在 HRBench4K 與 MathVista 的 Avg-2 上,基座模型為 68.31,Dense Caption SFT 為 68.79。GAP 模型在禁用 latent 生成后仍達到 70.33,說明具備 latent 訓練目標的模型本身會學習到與視覺更加相關的推理模式。進一步使用正常生成的視覺 latent 后,Avg-2 達到 72.13;而用高斯噪聲替換 latent 內容時下降到 69.69,甚至比 Dense Caption SFT 更差,則說明了 GAP 的收益來自于生成的 visual latent, 而非單純的增加推理時的算力。
latent token budget:不是越多越好
論文還分析了 latent token budget。非零 token 預算被組織為方形 latent 網格,例如 4 個 token 對應 2×2,16 個 token 對應 4×4,36 個 token 對應 6×6。
![]()
latent token 容量有收益,但并非單調增加;36 個 token 在 Avg-3 上最好,16 個 token 也很接近。
結果顯示,在 HRBench4K、MMStar 和 MathVista 的 Avg-3 上,36 個 token 達到最高平均值 69.22,16 個 token 也接近,為 69.11。繼續增加到 64 或 144 個 token 后,平均表現并沒有繼續提升。
但這個結果不能簡單理解為「36 個 token 就是普適最優」。更合理的解釋是:latent token 預算需要和圖像分辨率、任務類型一起看。MathVista 和 MMStar 的輸入分辨率相對較低,需要建模的中間視覺證據也更壓縮,較小的 latent 網格往往已經足夠;如果繼續增加 latent token 數,自回歸生成鏈會變長,后續 latent 更依賴前面已經生成的內容,暴露偏差和噪聲反饋反而可能被放大。
相比之下,HRBench4K 面向高清圖像,更容易需要局部、細粒度的中間視覺證據。對這類任務來說,更多 latent token 可以提供更細的空間承載能力,幫助模型在內部形成更充分的視覺線索。因此,視覺 latent reasoning 的 token 預算并不是一個單調的容量參數,而是需要在圖像分辨率、任務粒度、推理成本和自生成 latent 的可靠性之間取得平衡。
結論:
要補上的不是一步推理
而是輸入與輸出之間的 GAP
這篇論文的核心貢獻,在于指出了一個當前 latent 推理的失敗模式:在 pre-norm MLLM 中,輸出側 hidden states 與輸入側 vision embedding 可能處于不同的范數區間和經驗子空間,直接采用「輸出即輸入」會讓 latent 分布錯配。
GAP 的回答是三層對齊:
- 數據層:用輔助圖像監督和 parser 文本讓 latent 目標更可檢查;
- 特征層:用 PCA 對齊的 latent head 將生成 latent 對齊并重構回 vision embedding 空間,使自生成的視覺證據更輸入兼容;
- 模型能力層:用難度感知分配將 latent 監督放在基座模型更需要的樣本上。
從結果看,GAP 在本文評測設置下同時提升了平均視覺感知與平均多模態推理表現;從干預實驗看,正常生成的視覺 latent 攜帶了任務相關信號;從 token 預算掃描看,latent 容量需要控制,而不是簡單做大。
因此,GAP 在視覺 latent reasoning 要補上的并不只是推理鏈中的一步,而是輸出空間與輸入空間之間的那個 gap。
注:這里的「信息量」指 PCA 中的累計解釋方差(Cumulative Explained Variance),即主成分所保留的數據方差信息比例。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.