Doc-V*：讀100頁文檔不如只翻對5頁，80頁場景「暴打」RAG 10個(gè)點(diǎn)

2026-04-29 18:16:19　來源: 機(jī)器之心Pro

河北舉報(bào)

分享至

本項(xiàng)目主要貢獻(xiàn)者包括鄭元雷（華中科技大學(xué) VLRLab）、付培（小米大模型 Plus），通訊作者為羅振波（小米大模型 Plus）、陳偉（華中科技大學(xué) VLRLab）

在多頁文檔理解任務(wù)中，一個(gè)被廣泛接受但很少被質(zhì)疑的假設(shè)是：要理解一篇長文檔，模型就應(yīng)該盡可能多地「看」。

但如果換個(gè)角度想：人類閱讀一份幾十頁的報(bào)告時(shí)，真的會(huì)逐頁從頭看到尾嗎？顯然不會(huì)。我們會(huì)先翻目錄、掃標(biāo)題，找到可能相關(guān)的部分，然后才精讀。真正值得追問的問題是：為什么現(xiàn)有的文檔理解模型，不能也這樣做？

這正是 Doc-V* 想要回答的問題。

Doc-V* 由小米大模型 Plus 團(tuán)隊(duì)和華中科技大學(xué) VLRLab 團(tuán)隊(duì)合作提出，一種從「靜態(tài)閱讀」到「主動(dòng)探索」的多頁文檔理解新范式，通過交互式視覺推理讓模型像人一樣有策略地閱讀長文檔。

從結(jié)果上看，這條思路確實(shí)帶來了實(shí)際收益：在統(tǒng)一使用 Qwen2.5-VL 7B 作為 backbone 的設(shè)定下，Doc-V* 相比 RAG 變體在多個(gè)多頁文檔問答基準(zhǔn)上取得了 49.7% 的提升，且不依賴更大的模型或更長的上下文窗口。

這說明，與其給模型塞更多頁面，不如讓模型學(xué)會(huì)「在合適的時(shí)機(jī)獲取合適的頁面」。

論文鏈接：https://arxiv.org/abs/2604.13731v1

重新審視「看全部頁面」：靜態(tài)輸入范式的根本矛盾

現(xiàn)有方法在處理長文檔時(shí)，面臨一個(gè)根深蒂固的矛盾。

一類方法嘗試將所有頁面一次性輸入模型，以保證信息完整，但隨著文檔長度增加，計(jì)算成本迅速上升，同時(shí)模型容易受到「中間信息遺忘」等問題影響。

另一類方法則依賴檢索策略，僅選擇部分頁面作為輸入，雖然在效率上有所改善，但其性能高度依賴檢索結(jié)果 —— 一旦關(guān)鍵頁面未被召回，后續(xù)推理便難以修正。

從根本上看，這兩類方法都采用了一種「靜態(tài)輸入」范式：在推理開始前就固定輸入內(nèi)容，而缺乏在推理過程中動(dòng)態(tài)調(diào)整信息獲取策略的能力。

這種方式與人類處理長文檔的習(xí)慣存在明顯差異，也限制了模型在復(fù)雜多跳推理場景中的表現(xiàn)。

Doc-V* 的方法設(shè)計(jì)：從「靜態(tài)閱讀」到「主動(dòng)探索」

Doc-V* 的核心思路可以用一句話概括：不要一次性把所有內(nèi)容塞給模型，而是讓模型自己決定看什么、什么時(shí)候看。

第一步是構(gòu)建 Global Thumbnail Overview。在輸入階段，Doc-V* 并不會(huì)直接處理所有高分辨率頁面，而是首先將每一頁壓縮為低分辨率縮略圖，并按照網(wǎng)格形式排列。這使模型能夠在較低成本下觀察文檔的整體結(jié)構(gòu)，例如章節(jié)分布、圖表位置以及高層語義區(qū)域。

這種設(shè)計(jì)的關(guān)鍵在于，它并不試圖提供精細(xì)內(nèi)容，而是提供一種結(jié)構(gòu)性導(dǎo)航信號(hào)，幫助模型在后續(xù)步驟中更有針對性地選擇頁面。

圖 1：Pipeline 示意，初始輸入為 Question+Document Thumbnail。模型先獲得文檔的全局縮略圖視角，再有針對性調(diào)用工具對文檔作深入的探索。

第二步是兩種交互式操作。在獲得初步結(jié)構(gòu)信息后，模型可以通過兩類操作與文檔進(jìn)行交互：

：全局語義檢索（粗粒度探索）

：精確頁面獲取（細(xì)粒度證據(jù)定位 ?）

基于結(jié)構(gòu)線索的直接定位：從 thumbnail 中看到某幾頁包含表格 / 圖表 / 標(biāo)題，直接跳轉(zhuǎn)這些頁面進(jìn)行精細(xì)分析；

② 鄰接信息補(bǔ)全：表格跨頁、圖文分離、上下文延續(xù)，自動(dòng)獲取「前一頁 / 后一頁」補(bǔ)全語義；

③ 顯式頁碼問題的精確響應(yīng)：如：「第 3 頁的表格中有多少個(gè)方法」？

這兩種操作在功能上形成互補(bǔ)：前者用于覆蓋潛在的相關(guān)區(qū)域，從全局范圍內(nèi)召回可能有用的頁面；后者則更偏向于精細(xì)化定位，例如圍繞某一已知頁面獲取其上下相鄰頁，或依據(jù)問題描述以及縮略圖中的結(jié)構(gòu)線索，直接定位到具體的證據(jù)頁面。

圖 2：Doc-V * 的數(shù)據(jù)構(gòu)造以及訓(xùn)練方式

第三步是 SFT+GRPO 兩階段訓(xùn)練策略。在訓(xùn)練階段，Doc-V* 采用了 SFT+GRPO 兩階段策略，使模型學(xué)會(huì)何時(shí)調(diào)用哪種操作、如何基于已有證據(jù)進(jìn)行判斷。

實(shí)驗(yàn)結(jié)果

實(shí)驗(yàn)結(jié)果首先驗(yàn)證了 Doc-V* 在標(biāo)準(zhǔn)多頁文檔問答任務(wù)上的有效性。

從主表結(jié)果可以看出，在統(tǒng)一 backbone（Qwen2.5-VL 7B）設(shè)置下，Doc-V* 相比基礎(chǔ)模型以及其 RAG 變體均取得了穩(wěn)定提升。RAG Top-5 相比原始模型在各數(shù)據(jù)集上已有一定增益，說明基于檢索的頁面篩選確實(shí)能夠在一定程度上緩解長文檔中的噪聲問題。

然而，這種提升仍然受限于「靜態(tài)檢索」范式 —— 模型只能基于一次性召回的頁面完成推理，一旦關(guān)鍵證據(jù)未被包含在 Top-K 中，后續(xù)過程缺乏糾錯(cuò)能力。

圖 3：Doc-V * 在各個(gè)文檔問答 Benchmark 上的結(jié)果對比。*

這說明，動(dòng)態(tài)的證據(jù)獲取機(jī)制確實(shí)能夠彌補(bǔ)靜態(tài)檢索的固有缺陷，讓模型在推理過程中持續(xù)修正自身判斷。

進(jìn)一步分析不同方法在「輸入頁面數(shù)量 — 性能」之間的關(guān)系，可以觀察到一個(gè)值得關(guān)注的現(xiàn)象：對于基于 RAG 的方法，隨著輸入頁面數(shù)量的增加，性能通常呈現(xiàn)出「先提升、后下降」的趨勢。

初始階段，增加頁面數(shù)量能夠提高召回率，使模型更有可能接觸到正確證據(jù)，因此性能有所提升；但當(dāng)輸入頁面繼續(xù)增加時(shí)，大量無關(guān)或弱相關(guān)信息被引入，反而會(huì)干擾模型的注意力分配，使有效信號(hào)被稀釋，最終導(dǎo)致性能下降。

圖 4：不同方法在「輸入頁面數(shù)量 — 性能」關(guān)系上的對比。RAG 方法存在明顯的性能拐點(diǎn)，隨著 K 的增加，性能先升后降，并趨于輸入所有頁面的性能，而 Doc-V * 則不受 K 的影響。

這一現(xiàn)象在多個(gè)數(shù)據(jù)集（如 SlideVQA、LongDocURL、MMLongBench-Doc）上均有體現(xiàn)，說明其并非特定任務(wù)或模型的個(gè)例，而是檢索式方法在長上下文場景中的普遍特征。

換言之，RAG 方法在「信息覆蓋」與「信息干擾」之間存在一個(gè)敏感的平衡點(diǎn)，其性能高度依賴于 Top-K 的選擇。

相比之下，Doc-V* 并未表現(xiàn)出類似的明顯退化趨勢。這主要是因?yàn)槠漭斎氩⒎且淮涡源_定，而是在推理過程中逐步擴(kuò)展：模型只在需要時(shí)引入新的頁面，并結(jié)合已有證據(jù)進(jìn)行判斷，從而避免了無關(guān)信息的過度積累。

圖 5：不同方法在 MMLongBench-Doc 數(shù)據(jù)集上的不同文檔長度的表現(xiàn)對比。

除此之外，本文還對不同方法在不同文檔長度上的表現(xiàn)進(jìn)行了分析。隨著文檔整體長度增加，無論是 RAG 還是 All Pages 方法，其性能均呈現(xiàn)出整體下降趨勢。

這進(jìn)一步說明，面對越來越長的文檔，「給更多內(nèi)容」并不能解決問題，真正需要的是一種更智能的信息獲取策略。

「信息獲取 ≠ 信息堆疊」，當(dāng)無關(guān)信息占據(jù)上下文時(shí)，模型反而更容易被「視覺上顯眼但無關(guān)」的頁面誤導(dǎo)，忽略真正關(guān)鍵的證據(jù)頁。

圖 6：不同方法具體推理過程。

真正需要的是「策略驅(qū)動(dòng)的信息獲取」，Doc-V* 在其中做了一件關(guān)鍵的事情 —— 不是盲目讀取內(nèi)容，而是「先判斷去哪里看」。

具體表現(xiàn)為一個(gè)非常接近人類的過程：先看縮略圖（判斷哪些頁面「看起來可能有用」）→ 直接跳轉(zhuǎn)到最可能包含答案的頁面 → 基于最小但最相關(guān)的信息完成答案。

這背后其實(shí)是一個(gè)核心的轉(zhuǎn)變：從「被動(dòng)接收信息」→「主動(dòng)決策信息獲取路徑」，從全局搜索 → 局部確認(rèn) → 逐步逼近答案，這正是人類閱讀長文檔時(shí)的真實(shí)行為。

從更大的視角看：文檔理解的下一步

整體來看，Doc-V* 提供了一種不同于傳統(tǒng)方法的視角：將多頁文檔理解問題從「靜態(tài)建模」轉(zhuǎn)化為「動(dòng)態(tài)證據(jù)獲取與整合」的過程。

通過引入縮略圖導(dǎo)航、交互式操作以及工作記憶機(jī)制，模型能夠在推理過程中不斷修正自身判斷，從而更有效地處理長文檔中的復(fù)雜信息關(guān)系。

這種方法并不依賴于更大的模型或更長的上下文，而是通過更合理的信息使用方式，提高推理效率與結(jié)果可靠性。

對文檔理解來說，真正重要的，也許從來不是「一次性看完所有內(nèi)容」，而是能不能像人一樣，在閱讀過程中不斷調(diào)整策略、主動(dòng)尋找證據(jù)、逐步逼近答案。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.