![]()
本文主要作者包括:TAMU 的 Zhuofeng Li、Yu Zhang,UCSD 的 Haoxiang Zhang,University of Waterloo 的 Dongfu Jiang、Cong Wei、Ping Nie、Wenhu Chen、Jimmy Lin, Stanford 的 Pan Lu、Yejin Choi、James Zou, UIUC 的 Ming Zhong、Jiawei Han、以及 UW、Verdent AI、Lambda 等機(jī)構(gòu)的合作者。
當(dāng)大模型從「回答問(wèn)題」走向「自己搜索、驗(yàn)證、綜合證據(jù)」,檢索接口正在變成 Agentic Search 的關(guān)鍵瓶頸。過(guò)去,一個(gè)搜索系統(tǒng)通常先把文檔切塊、建索引,再根據(jù) query 返回 top-k 結(jié)果;智能體只能在這批候選片段上繼續(xù)推理。這個(gè)流程高效、成熟;問(wèn)題是,復(fù)雜搜索任務(wù)并不總是依靠語(yǔ)義最相近的片段就能解決;答案可能藏在多個(gè)弱線(xiàn)索的交叉處。一旦這些證據(jù)在 top-k 階段被過(guò)濾掉,后面的推理模型再?gòu)?qiáng)也很難把它們憑空找回來(lái)。
來(lái)自 Texas A&M University、University of Waterloo、UC San Diego、Stanford University 等機(jī)構(gòu)的研究團(tuán)隊(duì)提出了一種新的搜索范式:Direct Corpus Interaction(DCI),直接語(yǔ)料交互。它不依賴(lài) embedding 模型,不構(gòu)建向量索引,也不調(diào)用傳統(tǒng) retriever,而是讓智能體直接使用 grep、文件讀取、shell 命令、輕量腳本等工具,在原始語(yǔ)料中多輪搜索、定位、驗(yàn)證和修正假設(shè)。
實(shí)驗(yàn)顯示,在深度研究、多跳問(wèn)答、信息檢索等任務(wù)上,DCI-Agent 不僅擺脫了傳統(tǒng)語(yǔ)義檢索器,還在多個(gè)指標(biāo)上超過(guò)了很多檢索智能體 baseline。尤其在深度研究的 BrowseComp-Plus 基準(zhǔn)數(shù)據(jù)集上,在使用 Claude Sonnet 4.6 時(shí),如果用 DCI 替代 Qwen3-Embedding-8B 檢索工具,準(zhǔn)確率從 69.0% 提升到 80.0%,成本從 1440 美元降到 1016 美元。
![]()
圖 1:BrowseComp-Plus 上的性能 - 成本圖。論文比較了 Qwen3-Embedding-8B 與 DCI-Agent 兩種 agentic search 接口。后者在準(zhǔn)確率和成本之間取得了更優(yōu)平衡。
![]()
- arXiv:https://arxiv.org/abs/2605.05242
- 代碼:https://github.com/DCI-Agent/DCI-Agent-Lite
- Demo:https://huggingface.co/spaces/DCI-Agent/demo
Agentic Search 的檢索接口,為什么需要重新思考?
Agentic Search 和傳統(tǒng)搜索最大的差別在于:它不是「一次 query 對(duì)應(yīng)一次 top-k 查找」。一個(gè)檢索智能體會(huì)不斷拆解問(wèn)題、提出中間假設(shè)、尋找實(shí)體線(xiàn)索、打開(kāi)文檔、檢查局部上下文,再根據(jù)觀察到的證據(jù)改寫(xiě)下一輪搜索。
因此,真正的瓶頸往往不在模型會(huì)不會(huì)總結(jié),而在模型能不能看到足夠關(guān)鍵、足夠細(xì)粒度的證據(jù)。檢索漏了關(guān)鍵證據(jù),后續(xù)推理很容易變成在不完整材料上的自洽推斷。
傳統(tǒng)檢索器大致可以分成幾類(lèi)。
稀疏檢索以倒排索引、BM25 為代表,快、穩(wěn)、可解釋?zhuān)瞄L(zhǎng)專(zhuān)有名詞、編號(hào)日期和精確字符串,但很難理解同義表達(dá)。
稠密檢索把 query 和文檔塊編碼成向量索引,再用相似度召回,能處理模糊問(wèn)題,卻會(huì)把復(fù)雜文檔壓成固定維度向量。
重排方法會(huì)在粗排之后再用 cross-encoder 或大模型精排,質(zhì)量更高,但范式仍然沒(méi)有變:語(yǔ)料先被索引系統(tǒng)壓縮,智能體只能看到選出來(lái)的一部分信息。到了 Agentic Search 時(shí)代,top-k 的問(wèn)題被進(jìn)一步放大。智能體雖然具備規(guī)劃、查詢(xún)改寫(xiě)、閱讀文檔和迭代推理的能力,但如果它每次只能透過(guò)檢索接口返回的小窗口觀察語(yǔ)料,就很難像研究者一樣反復(fù)檢索、交叉過(guò)濾和定位證據(jù)。
論文把這類(lèi)困難拆成三種典型場(chǎng)景:精確詞法約束,例如答案依賴(lài)某個(gè)日期、編號(hào)、縮寫(xiě);稀疏線(xiàn)索組合,例如地點(diǎn)、年份、組織、事件必須同時(shí)成立;局部上下文驗(yàn)證,例如找到相關(guān)文檔還不夠,還要定位到文檔內(nèi)部的某句話(huà)、某個(gè)表格或某個(gè)腳注。BrowseComp-Plus 這類(lèi)基準(zhǔn)數(shù)據(jù)集正是在考察這種能力:智能體需要發(fā)現(xiàn)中間實(shí)體、組合弱線(xiàn)索、執(zhí)行精確約束,并在觀察局部證據(jù)后修正搜索計(jì)劃。
DCI-Agent:讓智能體直接和語(yǔ)料交互
既然當(dāng)下的智能體已經(jīng)能規(guī)劃和使用工具,為什么一定要先用 embedding 把語(yǔ)料壓縮成向量,再讓模型只看 top-k?DCI 的思路很直接:
智能體不調(diào)用傳統(tǒng)的檢索接口,也不依賴(lài)向量索引,而是直接通過(guò)命令行工具訪(fǎng)問(wèn)原始語(yǔ)料。它可以用 grep 或 rg(ripgrep)做精確匹配和正則搜索,用 find 或 glob 發(fā)現(xiàn)文件,用文件讀取工具查看局部上下文,也可以寫(xiě)輕量腳本統(tǒng)計(jì)、過(guò)濾和組合線(xiàn)索。
DCI 的觀察結(jié)果不再是固定格式的文檔排序列表,而是工具輸出:匹配片段、文件路徑、計(jì)數(shù)、上下文、元數(shù)據(jù)等。
![]()
圖 2:兩種 agentic search 接口對(duì)比。左側(cè)是傳統(tǒng)方法:語(yǔ)料先被索引,智能體利用 BM25、ColBERT 等檢索工具,再基于返回的 top-k 結(jié)果推理。右側(cè)是 DCI:不經(jīng)過(guò)索引、embedding,智能體直接用 grep、glob、bash、輕量腳本等工具訪(fǎng)問(wèn)原始語(yǔ)料,從而獲得更細(xì)粒度的模式匹配和證據(jù)定位能力。
這其實(shí)更接近人類(lèi)研究者查資料的方式。我們不會(huì)永遠(yuǎn)只輸入一個(gè) query,然后僅僅閱讀搜索引擎顯示的前幾條結(jié)果片段;我們會(huì)打開(kāi)文件,Ctrl+F 找關(guān)鍵詞,沿著實(shí)體名繼續(xù)搜,用多個(gè)線(xiàn)索交叉過(guò)濾,看到局部上下文后再改寫(xiě)問(wèn)題。
DCI 把這種行為交給了智能體。例如,智能體可以執(zhí)行類(lèi)似這樣的多輪搜索:先用 find 找到可能相關(guān)的文檔目錄;再用 grep "Nobel" 找出所有包含特定實(shí)體的文件;接著用 grep "Nobel" file | grep "physics" 強(qiáng)制兩個(gè)弱線(xiàn)索同時(shí)出現(xiàn);然后讀取命中位置前后幾十行,檢查上下文是否真的支持假設(shè);最后根據(jù)新發(fā)現(xiàn)的人名、年份、機(jī)構(gòu)繼續(xù)下一輪搜索。這種模式不是一次性 “召回 top-k”,而是在語(yǔ)料中不斷探索、定位、驗(yàn)證、收斂。
DCI-Agent 的具體實(shí)現(xiàn)
論文實(shí)現(xiàn)了兩個(gè) DCI-Agent 版本,用來(lái)驗(yàn)證直接語(yǔ)料交互本身是否有效。
第一個(gè)是DCI-Agent-Lite。它是一個(gè)基于 Pi 的輕量級(jí)命令行 (CLI) 智能體,只使用 bash 和 read 等基礎(chǔ)工具,并配合簡(jiǎn)單的上下文管理。它不構(gòu)建離線(xiàn)索引,不使用任何稀疏、稠密、重排檢索工具。這個(gè)版本主要用于證明:即便沒(méi)有復(fù)雜工程,僅靠直接語(yǔ)料交互接口,也能帶來(lái)性能提升。
第二個(gè)是DCI-Agent-CC。它基于 Claude Code,具備更好的提示、工具編排和上下文處理能力,但仍然不使用任何傳統(tǒng)意義上的檢索工具。論文將它視為 DCI 的強(qiáng)實(shí)現(xiàn),用來(lái)測(cè)試這一范式在更強(qiáng)命令行智能體上的性能上限。
![]()
圖 3:長(zhǎng)程 DCI 的運(yùn)行時(shí)上下文管理。由于反復(fù) grep、讀取文件和展開(kāi)上下文會(huì)產(chǎn)生大量文本,DCI-Agent-Lite 引入了裁剪(truncation)、壓縮(compaction)、總結(jié)(summarization)三種機(jī)制,在保留搜索軌跡結(jié)構(gòu)的同時(shí)緩解上下文壓力。
上下文管理是 DCI 能跑長(zhǎng)程搜索的關(guān)鍵。論文沒(méi)有把所有文件直接塞進(jìn)上下文,而是讓智能體邊搜邊讀,并用三種機(jī)制控制信息量:
- 裁剪:針對(duì)單次工具調(diào)用,超過(guò)閾值的工具回顯會(huì)被截?cái)啵⒏缴舷到y(tǒng)提示,避免一次搜索結(jié)果淹沒(méi)后續(xù)推理。
- 壓縮:針對(duì)多輪歷史,保留早期輪次的思考過(guò)程和所用的命令行,但把對(duì)應(yīng)的命令行返回結(jié)果替換成占位符,只留下搜索軌跡的骨架。
- 總結(jié):當(dāng)上下文接近預(yù)算上限時(shí),觸發(fā)獨(dú)立的總結(jié)智能體,把歷史重寫(xiě)成結(jié)構(gòu)化的研究筆記,保留關(guān)鍵線(xiàn)索、工具調(diào)用、已收集證據(jù)和當(dāng)前任務(wù)焦點(diǎn)。
不用 embedding,效果反而更好
在深度研究的 BrowseComp-Plus 基準(zhǔn)數(shù)據(jù)集上,在使用 Claude Sonnet 4.6 時(shí),如果用 DCI 替代 Qwen3-Embedding-8B 檢索工具,準(zhǔn)確率從 69.0% 提升到 80.0%,同時(shí)成本降低 29.4%。
在多跳問(wèn)答的 NQ、TriviaQA、Bamboogle、HotpotQA、2WikiMultiHopQA、MuSiQue 基準(zhǔn)數(shù)據(jù)集上,DCI-Agent-CC 達(dá)到 83.0% 平均準(zhǔn)確率,相比最強(qiáng)的檢索智能體 baseline ASearcher-Local-14B,提升了 30.7%。
在信息檢索的 BRIGHT、BEIR 基準(zhǔn)數(shù)據(jù)集上,DCI-Agent-CC 達(dá)到 68.5 的平均 NDCG@10,比最強(qiáng)的傳統(tǒng)檢索 baseline ReasonRank-32B 高出了 21.5%。
![]()
![]()
圖 4:多跳問(wèn)答與信息檢索基準(zhǔn)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果。DCI-Agent 在各個(gè)任務(wù)中都表現(xiàn)出優(yōu)勢(shì),說(shuō)明它并不只是某個(gè)數(shù)據(jù)集上特有的技巧,而可能代表了一種新的檢索范式。
DCI 的提升來(lái)自哪里?
論文的機(jī)制分析給出了一個(gè)很有意思的答案。對(duì)模型在 BrowseComp-Plus 上生成的軌跡進(jìn)行分析可以發(fā)現(xiàn),DCI-Agent-Lite 的平均相關(guān)文檔覆蓋率反而低于使用 Qwen3-Embedding-8B 的檢索智能體,但它的定位準(zhǔn)確率顯著更高。也就是說(shuō),DCI 并不是靠「更廣泛地找回所有相關(guān)文檔」取勝,而是靠「一旦碰到有用文檔,就能更細(xì)粒度地在文檔內(nèi)部定位、驗(yàn)證和擴(kuò)展線(xiàn)索」。
傳統(tǒng)檢索方法給智能體的是文檔級(jí)或片段級(jí)的候選,而 DCI 給智能體的是更細(xì)的操作粒度:文件名、行號(hào)、匹配片段、局部上下文、管道組合、正則約束、計(jì)數(shù)統(tǒng)計(jì)。智能體不只是拿到一段相似文本,而是可以繼續(xù)在語(yǔ)料中做實(shí)驗(yàn)。論文將此稱(chēng)為檢索接口分辨率。這也是 DCI 最有啟發(fā)性的地方:檢索質(zhì)量不只是模型問(wèn)題,也不只是 embedding 問(wèn)題,而是接口設(shè)計(jì)問(wèn)題。當(dāng)模型能夠像研究者一樣提出假設(shè)、測(cè)試模式、閱讀上下文和改寫(xiě)查詢(xún)時(shí),過(guò)度壓縮的相似度索引可能會(huì)成為瓶頸。
![]()
圖 5:BrowseComp-Plus 上模型的軌跡分析。DCI-Agent-Lite 的平均相關(guān)文檔覆蓋率并不高于傳統(tǒng)檢索智能體,但它的定位準(zhǔn)確率顯著更高,說(shuō)明 DCI 的優(yōu)勢(shì)主要來(lái)自更細(xì)粒度的局部定位和證據(jù)驗(yàn)證。
語(yǔ)料變大后會(huì)怎樣?
論文保留了一個(gè)很重要的觀察:DCI 不是萬(wàn)能解!當(dāng)語(yǔ)料規(guī)模擴(kuò)大時(shí),直接語(yǔ)料交互會(huì)面臨搜索廣度、工具調(diào)用次數(shù)、延遲和成本的上升。這很好理解:DCI 擅長(zhǎng)高分辨率局部搜索,但在超大規(guī)模開(kāi)放語(yǔ)料里,找到第一個(gè)有用錨點(diǎn)本身就可能很貴。語(yǔ)料越大,智能體越需要在更多文件和更多候選線(xiàn)索中探索。
因此,DCI 的邊界也很清楚:它并不一定適合所有超大規(guī)模、開(kāi)放式、簡(jiǎn)單查詢(xún)密集的檢索場(chǎng)景;它更適合本地語(yǔ)料、異構(gòu)文件、快速變化的工作區(qū)、代碼倉(cāng)庫(kù)、科研資料、企業(yè)內(nèi)部文檔,以及需要多輪探索和嚴(yán)格證據(jù)驗(yàn)證的 Agentic Search。這也意味著,未來(lái)更現(xiàn)實(shí)的方向未必是 DCI 取代所有傳統(tǒng)檢索模型。更可能的形態(tài)是:粗粒度召回用傳統(tǒng)檢索模型,高分辨率驗(yàn)證用 DCI。也就是說(shuō),傳統(tǒng)檢索模塊可以先把智能體帶到可能相關(guān)的區(qū)域,而 DCI 負(fù)責(zé)在局部語(yǔ)料中完成精確定位、線(xiàn)索組合和證據(jù)驗(yàn)證。
![]()
圖 6:在 BrowseComp-Plus 上,隨著文檔規(guī)模從 100K 擴(kuò)展到 200K、400K,DCI-Agent 的搜索成本和延遲上升,準(zhǔn)確率下降,說(shuō)明直接語(yǔ)料交互需要和語(yǔ)料規(guī)模、任務(wù)復(fù)雜度一起權(quán)衡。
這篇論文真正改變了什么?
過(guò)去我們優(yōu)化檢索系統(tǒng),常常圍繞這些問(wèn)題打轉(zhuǎn):換哪個(gè) embedding 模型?chunk 多大?top-k 取多少?reranker 怎么選?query rewrite 怎么做?但 DCI-Agent 提醒我們,還要問(wèn)一個(gè)更底層的問(wèn)題:智能體到底應(yīng)該以什么粒度訪(fǎng)問(wèn)外部世界?如果檢索接口只能返回 top-k 片段,智能體看到的世界就是被壓縮過(guò)的世界。它無(wú)法知道被過(guò)濾掉的證據(jù)里有什么,也很難像人類(lèi)一樣對(duì)原始材料反復(fù)搜索、交叉驗(yàn)證、局部定位。而 DCI 把語(yǔ)料變成一個(gè)可操作環(huán)境。智能體不是在等待檢索器喂結(jié)果,而是在主動(dòng)操作語(yǔ)料。這使得搜索從一個(gè)相似度排序問(wèn)題,轉(zhuǎn)變?yōu)橐粋€(gè)多輪交互問(wèn)題。
這或許是下一代 Agentic Search 和深度科研系統(tǒng)的重要方向:不是讓檢索工具替智能體決定看什么,而是設(shè)計(jì)更高分辨率的語(yǔ)料接口,讓智能體自己學(xué)會(huì)如何找、怎么看、如何驗(yàn)證。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.