網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

不用向量數(shù)據(jù)庫(kù)，Agent也能會(huì)搜索：給它一個(gè)grep就夠了？

2026-06-11 17:06:46　來(lái)源: 機(jī)器之心Pro

天津舉報(bào)

分享至

本文主要作者包括：TAMU 的 Zhuofeng Li、Yu Zhang，UCSD 的 Haoxiang Zhang，University of Waterloo 的 Dongfu Jiang、Cong Wei、Ping Nie、Wenhu Chen、Jimmy Lin， Stanford 的 Pan Lu、Yejin Choi、James Zou， UIUC 的 Ming Zhong、Jiawei Han、以及 UW、Verdent AI、Lambda 等機(jī)構(gòu)的合作者。

當(dāng)大模型從「回答問(wèn)題」走向「自己搜索、驗(yàn)證、綜合證據(jù)」，檢索接口正在變成 Agentic Search 的關(guān)鍵瓶頸。過(guò)去，一個(gè)搜索系統(tǒng)通常先把文檔切塊、建索引，再根據(jù) query 返回 top-k 結(jié)果；智能體只能在這批候選片段上繼續(xù)推理。這個(gè)流程高效、成熟；問(wèn)題是，復(fù)雜搜索任務(wù)并不總是依靠語(yǔ)義最相近的片段就能解決；答案可能藏在多個(gè)弱線(xiàn)索的交叉處。一旦這些證據(jù)在 top-k 階段被過(guò)濾掉，后面的推理模型再?gòu)?qiáng)也很難把它們憑空找回來(lái)。

來(lái)自 Texas A&M University、University of Waterloo、UC San Diego、Stanford University 等機(jī)構(gòu)的研究團(tuán)隊(duì)提出了一種新的搜索范式：Direct Corpus Interaction(DCI)，直接語(yǔ)料交互。它不依賴(lài) embedding 模型，不構(gòu)建向量索引，也不調(diào)用傳統(tǒng) retriever，而是讓智能體直接使用 grep、文件讀取、shell 命令、輕量腳本等工具，在原始語(yǔ)料中多輪搜索、定位、驗(yàn)證和修正假設(shè)。

實(shí)驗(yàn)顯示，在深度研究、多跳問(wèn)答、信息檢索等任務(wù)上，DCI-Agent 不僅擺脫了傳統(tǒng)語(yǔ)義檢索器，還在多個(gè)指標(biāo)上超過(guò)了很多檢索智能體 baseline。尤其在深度研究的 BrowseComp-Plus 基準(zhǔn)數(shù)據(jù)集上，在使用 Claude Sonnet 4.6 時(shí)，如果用 DCI 替代 Qwen3-Embedding-8B 檢索工具，準(zhǔn)確率從 69.0% 提升到 80.0%，成本從 1440 美元降到 1016 美元。

圖 1：BrowseComp-Plus 上的性能 - 成本圖。論文比較了 Qwen3-Embedding-8B 與 DCI-Agent 兩種 agentic search 接口。后者在準(zhǔn)確率和成本之間取得了更優(yōu)平衡。

arXiv：https://arxiv.org/abs/2605.05242
代碼：https://github.com/DCI-Agent/DCI-Agent-Lite
Demo：https://huggingface.co/spaces/DCI-Agent/demo

Agentic Search 的檢索接口，為什么需要重新思考？

Agentic Search 和傳統(tǒng)搜索最大的差別在于：它不是「一次 query 對(duì)應(yīng)一次 top-k 查找」。一個(gè)檢索智能體會(huì)不斷拆解問(wèn)題、提出中間假設(shè)、尋找實(shí)體線(xiàn)索、打開(kāi)文檔、檢查局部上下文，再根據(jù)觀察到的證據(jù)改寫(xiě)下一輪搜索。

因此，真正的瓶頸往往不在模型會(huì)不會(huì)總結(jié)，而在模型能不能看到足夠關(guān)鍵、足夠細(xì)粒度的證據(jù)。檢索漏了關(guān)鍵證據(jù)，后續(xù)推理很容易變成在不完整材料上的自洽推斷。

傳統(tǒng)檢索器大致可以分成幾類(lèi)。

稀疏檢索以倒排索引、BM25 為代表，快、穩(wěn)、可解釋?zhuān)瞄L(zhǎng)專(zhuān)有名詞、編號(hào)日期和精確字符串，但很難理解同義表達(dá)。

稠密檢索把 query 和文檔塊編碼成向量索引，再用相似度召回，能處理模糊問(wèn)題，卻會(huì)把復(fù)雜文檔壓成固定維度向量。

重排方法會(huì)在粗排之后再用 cross-encoder 或大模型精排，質(zhì)量更高，但范式仍然沒(méi)有變：語(yǔ)料先被索引系統(tǒng)壓縮，智能體只能看到選出來(lái)的一部分信息。到了 Agentic Search 時(shí)代，top-k 的問(wèn)題被進(jìn)一步放大。智能體雖然具備規(guī)劃、查詢(xún)改寫(xiě)、閱讀文檔和迭代推理的能力，但如果它每次只能透過(guò)檢索接口返回的小窗口觀察語(yǔ)料，就很難像研究者一樣反復(fù)檢索、交叉過(guò)濾和定位證據(jù)。

論文把這類(lèi)困難拆成三種典型場(chǎng)景：精確詞法約束，例如答案依賴(lài)某個(gè)日期、編號(hào)、縮寫(xiě)；稀疏線(xiàn)索組合，例如地點(diǎn)、年份、組織、事件必須同時(shí)成立；局部上下文驗(yàn)證，例如找到相關(guān)文檔還不夠，還要定位到文檔內(nèi)部的某句話(huà)、某個(gè)表格或某個(gè)腳注。BrowseComp-Plus 這類(lèi)基準(zhǔn)數(shù)據(jù)集正是在考察這種能力：智能體需要發(fā)現(xiàn)中間實(shí)體、組合弱線(xiàn)索、執(zhí)行精確約束，并在觀察局部證據(jù)后修正搜索計(jì)劃。

DCI-Agent：讓智能體直接和語(yǔ)料交互

既然當(dāng)下的智能體已經(jīng)能規(guī)劃和使用工具，為什么一定要先用 embedding 把語(yǔ)料壓縮成向量，再讓模型只看 top-k？DCI 的思路很直接：

智能體不調(diào)用傳統(tǒng)的檢索接口，也不依賴(lài)向量索引，而是直接通過(guò)命令行工具訪(fǎng)問(wèn)原始語(yǔ)料。它可以用 grep 或 rg（ripgrep）做精確匹配和正則搜索，用 find 或 glob 發(fā)現(xiàn)文件，用文件讀取工具查看局部上下文，也可以寫(xiě)輕量腳本統(tǒng)計(jì)、過(guò)濾和組合線(xiàn)索。

DCI 的觀察結(jié)果不再是固定格式的文檔排序列表，而是工具輸出：匹配片段、文件路徑、計(jì)數(shù)、上下文、元數(shù)據(jù)等。

圖 2：兩種 agentic search 接口對(duì)比。左側(cè)是傳統(tǒng)方法：語(yǔ)料先被索引，智能體利用 BM25、ColBERT 等檢索工具，再基于返回的 top-k 結(jié)果推理。右側(cè)是 DCI：不經(jīng)過(guò)索引、embedding，智能體直接用 grep、glob、bash、輕量腳本等工具訪(fǎng)問(wèn)原始語(yǔ)料，從而獲得更細(xì)粒度的模式匹配和證據(jù)定位能力。

這其實(shí)更接近人類(lèi)研究者查資料的方式。我們不會(huì)永遠(yuǎn)只輸入一個(gè) query，然后僅僅閱讀搜索引擎顯示的前幾條結(jié)果片段；我們會(huì)打開(kāi)文件，Ctrl+F 找關(guān)鍵詞，沿著實(shí)體名繼續(xù)搜，用多個(gè)線(xiàn)索交叉過(guò)濾，看到局部上下文后再改寫(xiě)問(wèn)題。

DCI 把這種行為交給了智能體。例如，智能體可以執(zhí)行類(lèi)似這樣的多輪搜索：先用 find 找到可能相關(guān)的文檔目錄；再用 grep "Nobel" 找出所有包含特定實(shí)體的文件；接著用 grep "Nobel" file | grep "physics" 強(qiáng)制兩個(gè)弱線(xiàn)索同時(shí)出現(xiàn)；然后讀取命中位置前后幾十行，檢查上下文是否真的支持假設(shè)；最后根據(jù)新發(fā)現(xiàn)的人名、年份、機(jī)構(gòu)繼續(xù)下一輪搜索。這種模式不是一次性 “召回 top-k”，而是在語(yǔ)料中不斷探索、定位、驗(yàn)證、收斂。

DCI-Agent 的具體實(shí)現(xiàn)

論文實(shí)現(xiàn)了兩個(gè) DCI-Agent 版本，用來(lái)驗(yàn)證直接語(yǔ)料交互本身是否有效。

第一個(gè)是DCI-Agent-Lite。它是一個(gè)基于 Pi 的輕量級(jí)命令行 (CLI) 智能體，只使用 bash 和 read 等基礎(chǔ)工具，并配合簡(jiǎn)單的上下文管理。它不構(gòu)建離線(xiàn)索引，不使用任何稀疏、稠密、重排檢索工具。這個(gè)版本主要用于證明：即便沒(méi)有復(fù)雜工程，僅靠直接語(yǔ)料交互接口，也能帶來(lái)性能提升。

第二個(gè)是DCI-Agent-CC。它基于 Claude Code，具備更好的提示、工具編排和上下文處理能力，但仍然不使用任何傳統(tǒng)意義上的檢索工具。論文將它視為 DCI 的強(qiáng)實(shí)現(xiàn)，用來(lái)測(cè)試這一范式在更強(qiáng)命令行智能體上的性能上限。

圖 3：長(zhǎng)程 DCI 的運(yùn)行時(shí)上下文管理。由于反復(fù) grep、讀取文件和展開(kāi)上下文會(huì)產(chǎn)生大量文本，DCI-Agent-Lite 引入了裁剪（truncation）、壓縮（compaction）、總結(jié)（summarization）三種機(jī)制，在保留搜索軌跡結(jié)構(gòu)的同時(shí)緩解上下文壓力。

上下文管理是 DCI 能跑長(zhǎng)程搜索的關(guān)鍵。論文沒(méi)有把所有文件直接塞進(jìn)上下文，而是讓智能體邊搜邊讀，并用三種機(jī)制控制信息量：

裁剪：針對(duì)單次工具調(diào)用，超過(guò)閾值的工具回顯會(huì)被截?cái)啵⒏缴舷到y(tǒng)提示，避免一次搜索結(jié)果淹沒(méi)后續(xù)推理。
壓縮：針對(duì)多輪歷史，保留早期輪次的思考過(guò)程和所用的命令行，但把對(duì)應(yīng)的命令行返回結(jié)果替換成占位符，只留下搜索軌跡的骨架。
總結(jié)：當(dāng)上下文接近預(yù)算上限時(shí)，觸發(fā)獨(dú)立的總結(jié)智能體，把歷史重寫(xiě)成結(jié)構(gòu)化的研究筆記，保留關(guān)鍵線(xiàn)索、工具調(diào)用、已收集證據(jù)和當(dāng)前任務(wù)焦點(diǎn)。

不用 embedding，效果反而更好

在深度研究的 BrowseComp-Plus 基準(zhǔn)數(shù)據(jù)集上，在使用 Claude Sonnet 4.6 時(shí)，如果用 DCI 替代 Qwen3-Embedding-8B 檢索工具，準(zhǔn)確率從 69.0% 提升到 80.0%，同時(shí)成本降低 29.4%。

在多跳問(wèn)答的 NQ、TriviaQA、Bamboogle、HotpotQA、2WikiMultiHopQA、MuSiQue 基準(zhǔn)數(shù)據(jù)集上，DCI-Agent-CC 達(dá)到 83.0% 平均準(zhǔn)確率，相比最強(qiáng)的檢索智能體 baseline ASearcher-Local-14B，提升了 30.7%。

在信息檢索的 BRIGHT、BEIR 基準(zhǔn)數(shù)據(jù)集上，DCI-Agent-CC 達(dá)到 68.5 的平均 NDCG@10，比最強(qiáng)的傳統(tǒng)檢索 baseline ReasonRank-32B 高出了 21.5%。

圖 4：多跳問(wèn)答與信息檢索基準(zhǔn)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果。DCI-Agent 在各個(gè)任務(wù)中都表現(xiàn)出優(yōu)勢(shì)，說(shuō)明它并不只是某個(gè)數(shù)據(jù)集上特有的技巧，而可能代表了一種新的檢索范式。

DCI 的提升來(lái)自哪里？

論文的機(jī)制分析給出了一個(gè)很有意思的答案。對(duì)模型在 BrowseComp-Plus 上生成的軌跡進(jìn)行分析可以發(fā)現(xiàn)，DCI-Agent-Lite 的平均相關(guān)文檔覆蓋率反而低于使用 Qwen3-Embedding-8B 的檢索智能體，但它的定位準(zhǔn)確率顯著更高。也就是說(shuō)，DCI 并不是靠「更廣泛地找回所有相關(guān)文檔」取勝，而是靠「一旦碰到有用文檔，就能更細(xì)粒度地在文檔內(nèi)部定位、驗(yàn)證和擴(kuò)展線(xiàn)索」。

傳統(tǒng)檢索方法給智能體的是文檔級(jí)或片段級(jí)的候選，而 DCI 給智能體的是更細(xì)的操作粒度：文件名、行號(hào)、匹配片段、局部上下文、管道組合、正則約束、計(jì)數(shù)統(tǒng)計(jì)。智能體不只是拿到一段相似文本，而是可以繼續(xù)在語(yǔ)料中做實(shí)驗(yàn)。論文將此稱(chēng)為檢索接口分辨率。這也是 DCI 最有啟發(fā)性的地方：檢索質(zhì)量不只是模型問(wèn)題，也不只是 embedding 問(wèn)題，而是接口設(shè)計(jì)問(wèn)題。當(dāng)模型能夠像研究者一樣提出假設(shè)、測(cè)試模式、閱讀上下文和改寫(xiě)查詢(xún)時(shí)，過(guò)度壓縮的相似度索引可能會(huì)成為瓶頸。

圖 5：BrowseComp-Plus 上模型的軌跡分析。DCI-Agent-Lite 的平均相關(guān)文檔覆蓋率并不高于傳統(tǒng)檢索智能體，但它的定位準(zhǔn)確率顯著更高，說(shuō)明 DCI 的優(yōu)勢(shì)主要來(lái)自更細(xì)粒度的局部定位和證據(jù)驗(yàn)證。

語(yǔ)料變大后會(huì)怎樣？

論文保留了一個(gè)很重要的觀察：DCI 不是萬(wàn)能解！當(dāng)語(yǔ)料規(guī)模擴(kuò)大時(shí)，直接語(yǔ)料交互會(huì)面臨搜索廣度、工具調(diào)用次數(shù)、延遲和成本的上升。這很好理解：DCI 擅長(zhǎng)高分辨率局部搜索，但在超大規(guī)模開(kāi)放語(yǔ)料里，找到第一個(gè)有用錨點(diǎn)本身就可能很貴。語(yǔ)料越大，智能體越需要在更多文件和更多候選線(xiàn)索中探索。

因此，DCI 的邊界也很清楚：它并不一定適合所有超大規(guī)模、開(kāi)放式、簡(jiǎn)單查詢(xún)密集的檢索場(chǎng)景；它更適合本地語(yǔ)料、異構(gòu)文件、快速變化的工作區(qū)、代碼倉(cāng)庫(kù)、科研資料、企業(yè)內(nèi)部文檔，以及需要多輪探索和嚴(yán)格證據(jù)驗(yàn)證的 Agentic Search。這也意味著，未來(lái)更現(xiàn)實(shí)的方向未必是 DCI 取代所有傳統(tǒng)檢索模型。更可能的形態(tài)是：粗粒度召回用傳統(tǒng)檢索模型，高分辨率驗(yàn)證用 DCI。也就是說(shuō)，傳統(tǒng)檢索模塊可以先把智能體帶到可能相關(guān)的區(qū)域，而 DCI 負(fù)責(zé)在局部語(yǔ)料中完成精確定位、線(xiàn)索組合和證據(jù)驗(yàn)證。

圖 6：在 BrowseComp-Plus 上，隨著文檔規(guī)模從 100K 擴(kuò)展到 200K、400K，DCI-Agent 的搜索成本和延遲上升，準(zhǔn)確率下降，說(shuō)明直接語(yǔ)料交互需要和語(yǔ)料規(guī)模、任務(wù)復(fù)雜度一起權(quán)衡。

這篇論文真正改變了什么？

過(guò)去我們優(yōu)化檢索系統(tǒng)，常常圍繞這些問(wèn)題打轉(zhuǎn)：換哪個(gè) embedding 模型？chunk 多大？top-k 取多少？reranker 怎么選？query rewrite 怎么做？但 DCI-Agent 提醒我們，還要問(wèn)一個(gè)更底層的問(wèn)題：智能體到底應(yīng)該以什么粒度訪(fǎng)問(wèn)外部世界？如果檢索接口只能返回 top-k 片段，智能體看到的世界就是被壓縮過(guò)的世界。它無(wú)法知道被過(guò)濾掉的證據(jù)里有什么，也很難像人類(lèi)一樣對(duì)原始材料反復(fù)搜索、交叉驗(yàn)證、局部定位。而 DCI 把語(yǔ)料變成一個(gè)可操作環(huán)境。智能體不是在等待檢索器喂結(jié)果，而是在主動(dòng)操作語(yǔ)料。這使得搜索從一個(gè)相似度排序問(wèn)題，轉(zhuǎn)變?yōu)橐粋€(gè)多輪交互問(wèn)題。

這或許是下一代 Agentic Search 和深度科研系統(tǒng)的重要方向：不是讓檢索工具替智能體決定看什么，而是設(shè)計(jì)更高分辨率的語(yǔ)料接口，讓智能體自己學(xué)會(huì)如何找、怎么看、如何驗(yàn)證。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.