網易首頁 > 網易號 > 正文申請入駐

30B參數超越GPT-5！REDSearcher讓深度搜索Agent做到低成本可擴展

2026-03-09 13:28:51　來源: 機器之心Pro

河北舉報

分享至

「2018 到 2023 年間在 EMNLP 會議上發表的那篇論文中，第一作者本科就讀于達特茅斯學院、第四作者本科就讀于賓夕法尼亞大學的那篇科學論文，題目是什么？」

這并不是一道靠記憶就能解答的題。Agent 必須在多輪環境交互中，不斷假設、驗證并修正路徑，始終保持推理一致性，才能將零散證據整合成自洽鏈條。

2025 年被視為 AI Agent 元年，但真正的自主 Agent 核心在于「深度搜索」，在長程任務中像人類專家一樣維持目標、驗證信息并動態調整策略。然而，訓練這樣的 Agent 面臨三大瓶頸：

數據稀缺：高難度長程問答任務極度依賴人工標注，成本高昂。因此，我們需要一條能夠自動化合成高難度問題的鏈路。
能力鴻溝：預訓練模型雖知識儲備豐富，卻缺乏與真實環境進行長程交互的能力。這需要通過低成本的中訓練階段來彌補鴻溝。
環境缺失：在真實環境中訓練成本高且不可控。一個功能等價的模擬環境，可以在本地復現搜索過程，從而支持算法的快速迭代。

為突破瓶頸，REDSearcher 團隊設計了一套低成本、可擴展的訓練框架，最終使用 30B 規格模型在深度搜索任務上取得開源模型 SoTA，并且超越了 GPT-5 等一眾閉源模型。

論文標題：REDSearcher: A Scalable and Cost-Efficient Framework for Long-Horizon Search Agents
項目主頁：https://github.com/RedSearchAgent/REDSearcher
論文鏈接：https://arxiv.org/abs/2602.14234
Collections：https://huggingface.co/collections/Zchu/redsearcher

一、什么是「足夠難」的深度搜索題目？

什么是困難的搜索題目？推理跳數往往只是表象，應該追求的是問題的結構性困難。

1. 拓撲復雜度：用樹寬衡量「結構性困難」

復雜任務中，信息分叉交織形成回環。Agent 需同時記憶多路推論，時刻驗證一致性，并隨時準備整體回溯，這便是深度搜索的核心挑戰。為此，團隊引入圖論中的TreeWidth（樹寬）概念來刻畫這種「結構性困難」。以下通過三種結構問題進行對比：

線性/樹狀（樹寬=1）：典型鏈式推理，只需按部就班檢索便可解答。
菱形/回環（樹寬=2）：出現分叉與重匯合，要求 Agent 維持多路假設的一致性，并在矛盾時進行回溯。
強耦合子圖（樹寬≥3）：形成網狀約束，需要將零散證據拼合成一致的整體，迫使模型進行全局驗證和回溯。

2. 信息分散度：杜絕搜索「捷徑」

即使問題的拓撲結構很復雜，如果存在一個網頁恰好包含所有關鍵事實，模型一次檢索就能抄走答案。為此，團隊引入「信息分散度」，即覆蓋全部關鍵證據所需的最小來源數。信息分散度越大，表明問題相關的證據片段（注：原文為“爭取片段”，疑為筆誤，此處已作修正）在互聯網上的分布就更加零散，這迫使 Agent 與外部環境進行更多輪次的交互從而獲取更加充分的信息。

二、大規模「自動化」合成

「高難度」的深度搜索問題

基于雙約束復雜度標準，我們采用 graph-to-text 流程合成數據：先生成符合樹寬與分散度的推理圖，再將其翻譯為自然語言問題，并經過多層校驗確保「高難度、可解且答案唯一」。同時，我們設計了基于「結構化信息」與「網絡瀏覽」兩套圖構造流程，以覆蓋不同搜索環境。在合成問題中，我們采取：

拓撲結構增強：直接生成高樹寬圖的成功率較低。為此，我們引入大模型智能體對初始依賴圖進行「拓撲加密」，通過添加環狀與交錯約束，顯著提升結構復雜度，迭代地提高問題難度。
工具增強的問題合成：在問題構造階段，我們主動植入工具調用需求。通過將關鍵實體替換為隱含工具依賴的表達（如地名→地圖服務、文章→谷歌學術），使工具調用成為解題前置條件。

三、多模態擴展：從「文本圖」到「多模態圖」

在文本合成基礎上，REDSearcher 通過模態注入將純文本推理圖轉化為跨模態推理，使部分約束錨定在圖像中。

視覺屬性錨定：用圖像描述替換節點的文本屬性，迫使模型先識別圖像再關聯知識。
跨模態依賴：設置視覺不可替代約束，使圖像搜索成為推理必經之路，而非冗余信息。
視覺語義抽象：使用抽象指代替代直接命名，迫使模型識別圖像內容后再進行搜索。
模態靈活插入：視覺證據可插入推理鏈任意位置，既可早期設置瓶頸增加難度，也可后期引入驗證，實現難度精細控制。

通過這套輕量級擴展，REDSearcher 可高效遷移至多模態搜索領域，合成高質量的圖文深度搜索問題。

四、「成本可控」Mid-Training 強化智能體能力

預訓練模型缺乏多輪交互訓練，在長程搜索中易出現目標漂移、重復搜索等問題。為此，REDSearcher 采用可擴展的兩階段 Mid-Training 框架，依次強化模型的「原子能力」與「組合能力」，實現從語言建模到智能體的過渡。

原子能力建設

針對深度搜索重要的兩個基礎能力優化：

意圖錨定：從含噪的觀測中精準抓取關鍵證據，過濾噪聲，減少幻覺與推理漂移。
層次化規劃：將復雜目標拆解為可立即求解的具體目標與需逐步消解的不確定目標，確保規劃可落地。

組合能力建設

通過環境交互強化長程任務中的狀態維持與目標一致性，全程以成本為約束：

工具調用能力：通過合成工具協議與本地模擬環境交互，使模型在 ReACT 范式下掌握基礎與外界環境交互能力。
長程交互能力：在「功能一致」模擬環境中，讓 Agent 進行長程的環境交互，強化規劃能力與目標一致性。

五、后訓練持續進化：

不只是「搜得多」，更要「搜得準」

后訓練采取 SFT + Agentic RL 雙階段增強：

在真實環境中交互，通過多重過濾獲取長程高質量軌跡，教會模型深度搜索行為。
在真實搜索環境中進一步優化策略，關鍵設計包括：
低成本驗證：構建「功能等價」的本地模擬環境，保持 API 一致、證據完備且含噪聲，加速實驗迭代。
數據質量保障：針對合成問題中存在的答案錯誤、一題多解現象，采用 Agent-as-Verifier 對強化學習問題集進行校驗，避免數據污染影響訓練穩定性。

團隊觀察到了效率與性能同步提升的現象：隨著訓練進行，模型的平均交互輪次不斷下降，但準確率持續提升。這表明 REDSearcher 并非簡單的「暴力搜索」，而是學會了更精準的信息獲取策略，主動減少無效調用，形成「越訓越聰明」的良性循環。

六、實驗結果

在多項深度搜索權威基準上，REDSearcher 在開源模型中取得了優異的表現：

REDSearcher 在同規模開源模型中取得了 SoTA 水平，并且超過了 GPT-5-Thinking-high、Gemini-2.5-pro、Claude-4.5-sonnet 一眾閉源先進模型（*為帶有上下文管理的性能）。
REDSearcher-MM 在多模態搜索基準中相比同規格模型取得了 SoTA 水平，并且性能超過 Gemini-2.5-pro，在部分基準上取得了接近 Gemini-3-pro 的性能。

結語

REDSearcher 的核心在于系統性設計：從圖論角度定義深度搜索任務復雜度，以雙約束優化可擴展合成數據，以兩階段中間訓練降低能力遷移成本，以高質量軌跡合成結合強化學習實現持續迭代。它提供了一條可復現、低成本的深度搜索智能體訓練路徑，使 AI 系統從靜態知識查詢走向開放環境下的自主探索、驗證與信息整合。

作者簡介

初征，哈工大社會計算與信息檢索中心在讀博士生，由劉銘教授和秦兵教授共同指導，研究方向是智能體、大語言模型、復雜推理、深度搜索。

王梟，就職于小紅書 Hi Lab，負責Search Agent，主要關注長程推理、智能體、數據合成、強化學習。

Jack Hong，小紅書 Hi Lab 團隊算法實習生，主要研究方向是多模態大模型、Agent、計算機視覺等。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.