網易首頁 > 網易號 > 正文 申請入駐

AI記住失敗經驗:微軟提出Re-TRAC框架,4B性能SOTA,30B超越358B

0
分享至



想象一下,你讓 AI 助手結合搜索工具探索一個復雜問題。它第一次探索時走錯了方向,但第二次、第三次,它依然重復同樣的錯誤探索路徑。雖然你可能可以從最終得到的多次探索結果中挑選出一個勉強滿意的答案,但是這既低效,也需要人工干預。這就是當前大多數深度搜索智能體面臨的困境——它們無法「記住」之前的探索經驗,每次都是從頭開始,導致大量冗余搜索和資源浪費。

現有的深度搜索智能體大多基于 ReAct 框架構建,采用線性推理方式:「思考→調用工具→觀察→再思考」。這種設計在簡單任務上表現良好,但在需要多輪探索的深度搜索任務中,往往陷入局部最優、重復探索和低效搜索的困境。

來自東南大學、微軟亞洲研究院等機構的研究團隊提出了一種全新的解決方案——Re-TRAC(REcursive TRAjectory Compression),這個框架讓 AI 智能體能夠「記住」每次探索的經驗,在多個探索軌跡之間傳遞經驗,實現漸進式的智能搜索。



  • 論文標題:RE-TRAC: REcursive TRAjectory Compression for Deep Search Agents
  • 論文鏈接:
  • https://arxiv.org/abs/2602.02486
  • 項目鏈接:
  • https://github.com/microsoft/InfoAgent

讓探索變成「漸進式學習」過程

為什么 ReAct 會失敗?

ReAct 框架的核心問題在于其線性設計。每個探索軌跡都是獨立的,模型無法回顧先前嘗試的狀態。在長上下文場景下,早期制定的計劃逐漸被遺忘,關鍵線索被埋沒。

研究團隊通過深入分析發現,現有深度搜索模型即使經過大量強化學習訓練,其 Pass@K 性能仍遠高于 Pass@1。這意味著模型本身具備解決問題的推理能力潛能,問題在于受限于上下文長度限制,單次探索難以生成足夠多樣的探索路徑,無法覆蓋足夠寬廣的搜索空間。

Re-TRAC:遞歸式軌跡壓縮

Re-TRAC 的核心思想是將探索從一系列獨立嘗試轉變為漸進式學習過程。具體而言,在每個探索軌跡結束時生成一個結構化的狀態表示,針對深度搜索任務,記錄以下三個維度的信息:

  • 答案與分析結論:當前可能性最高的答案與其關鍵推理結果——為后續推理提供錨點。

  • 證據庫與來源驗證:已搜集到的證據及其來源,并標記哪些已被查閱、已被驗證——避免冗余的工具調用和重復檢查。

  • 不確定項與待探索方向:現階段需要繼續探索驗證的角度、曾被遺漏的候選探索分支與曾因失敗放棄的探索方向;幫助模型在下一輪中補全未探索的搜索空間。

這個結構化狀態將被添加到下一輪探索的輸入中,確保智能體在每輪新嘗試開始時,都能清楚地了解什么已被驗證、什么仍未解決,以及應該將探索重點放在哪里。



小模型也能「以小博大」

研究團隊在五個具有挑戰性的搜索導向基準上評估了 Re-TRAC:BrowseComp、BrowseComp-ZH、XBench、GAIA 和 HLE。



4B 模型性能 SOTA

RE-TRAC-4B 在所有小于 15B 參數的基線中表現最佳:

  • BrowseComp上達到 30.0% 的準確率;
  • BrowseComp-ZH上達到 36.1%;
  • GAIA上達到 70.4%;
  • XBench上達到 76.6%;
  • HLE上達到 22.2%。

更令人驚訝的是,這個僅 4B 參數的模型在多個基準上超越了更大規模的模型。

  • XBench基準上,RE-TRAC-4B 的 76.6% 準確率不僅遠超 InfoAgent-14B 的 40.4%(提升了近 90%),也超過了 NestBrowse-4B 的 74.0%。

  • GAIA基準上,RE-TRAC-4B 的 70.4% 準確率超過了 AgentCPM-Explore-4B 的 63.9% 和 NestBrowse-4B 的 68.9%。

30B 模型的進一步突破

RE-TRAC-30B 同樣表現出色,在除 HLE 外的所有基準上都擊敗了 MiniMAX-M2-229B。

  • BrowseComp上,其準確率達到 53%,甚至超過了 GLM-4.7-358B 的 52%。

  • GAIA上,RE-TRAC-30B 擊敗了所有閉源模型,在 BrowseComp 和 BrowseComp-ZH 上排名第二。

這些結果說明,通過軌跡壓縮與跨輪次信息傳遞,小模型在資源受限場景下也能獲得接近甚至超過更大模型的效果。

更少的消耗、更高的性能的通用拓展

Re-TRAC 不僅可以通過訓練提升小模型性能,還可以作為無需訓練的測試擴展直接應用于前沿模型。

研究團隊在 o4-mini、o3、GPT-5、DeepSeek-V3.2、GLM-4.7 和 MiniMax-M2.1 上實現了 Re-TRAC 框架,并與多數投票(Majority Voting)、加權投票(Weighted Voting)和最佳選擇(Best-of-N)等方法進行了對比。



結果顯示,Re-TRAC 在所有模型上都達到了最佳或具有競爭力的性能。在 BrowseComp300 子集上:

  • o4-mini通過 Re-TRAC 從 25.7% 提升到 46.8%;
  • o3從 54.9% 提升到 69.8%;
  • GPT-5-medium從 48.3% 提升到 66.6%;
  • DeepSeek-V3.2從 45.3% 提升到 60.8%;
  • GLM-4.7從 37.7% 提升到 60.7%。

在傳統框架中,由于軌跡相互獨立,資源使用量通常隨擴展近似線性增長。Re-TRAC 會繼承之前輪次的狀態,使搜索空間逐步收斂,從而減少冗余工具調用與重復探索,提升探索的效率。

技術細節:

如何訓練 Re-TRAC 模型

研究團隊開發了一種后訓練方法,構建了基于結構化狀態表示的監督微調(SFT)數據。訓練數據通過實體樹方法構建:從維基百科收集大量實體作為樹根,然后遞歸搜索相關實體作為子節點,直到樹達到預定義深度。

通過選擇從根到葉節點的路徑并將邊轉換為子問題,團隊合成了 33K 個問答對。然后,收集 GLM-4.7 在這些合成問題上的 Re-TRAC(4 輪)軌跡,經過過濾后得到 104k 個訓練樣本,用于訓練 RE-TRAC-4B 和 RE-TRAC-30B 模型。

實驗結果顯示,經過 SFT 訓練后,Qwen3-4B-Instruct 在 BrowseComp 上的準確率從 2.7% 大幅提升到 30.0%,在 BrowseComp-ZH 上從 6.9% 提升到 36.1%,在 GAIA 上從 24.4% 提升到 70.4%,在 XBench 上從 45.0% 提升到 76.6%。

這表明通過簡單的 SFT 訓練,配合 Re-TRAC 框架,可以產生強大的搜索智能體,實現與通過大規模強化學習訓練的模型相當甚至更好的性能。

總結:

優化 ReAct 的搜索框架,

讓小模型跑出大模型表現

Re-TRAC 可以看作是針對深度搜索任務優化過的 ReAct 框架:在原有「思考→調用工具→觀察→再思考」的范式上,引入了跨輪次的軌跡壓縮和結構化狀態表示,讓智能體在開放網絡檢索、復雜信息匯總等場景中不再「從零開始」,而是像人一樣復用既有證據、總結失敗教訓并規劃未來方向。

更重要的是,這種有針對性的框架設計讓小模型也能跑出大模型級別的效果,為資源受限場景(如邊緣設備、本地部署)提供了一條「用小模型做大事」的現實路徑。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
這個被低估的水果,憑什么叫代謝超級食物?

這個被低估的水果,憑什么叫代謝超級食物?

心事寄山海
2026-04-24 08:58:36
日本一媽媽連生兩個女兒均患怪病,倆姐妹以正常人5倍的速度衰老!19歲體重僅8.5公斤…

日本一媽媽連生兩個女兒均患怪病,倆姐妹以正常人5倍的速度衰老!19歲體重僅8.5公斤…

東京新青年
2026-04-24 18:25:37
主場崩盤!國安2-4完敗津門虎,賽后蒙哥馬利怒批球員無心應戰!

主場崩盤!國安2-4完敗津門虎,賽后蒙哥馬利怒批球員無心應戰!

田先生籃球
2026-04-25 22:47:44
浙江足協:我們不怕技不如人,但怕看到迷茫的眼神和松散的隊形

浙江足協:我們不怕技不如人,但怕看到迷茫的眼神和松散的隊形

懂球帝
2026-04-25 22:23:26
他曾擔任廣東省委書記,被調任湖北省委書記時,卻被年輕人代替

他曾擔任廣東省委書記,被調任湖北省委書記時,卻被年輕人代替

老范談史
2026-04-22 09:22:44
霍勒迪:雙方都想贏所以都上身體,阿夫迪亞牙被打掉還被吹犯規

霍勒迪:雙方都想贏所以都上身體,阿夫迪亞牙被打掉還被吹犯規

懂球帝
2026-04-25 17:59:18
吳六一平定宮變后才知道,康熙升他做九門提督,根本不是信他忠義

吳六一平定宮變后才知道,康熙升他做九門提督,根本不是信他忠義

芳芳歷史燴
2026-04-25 05:32:10
49歲翁帆高調露面!換造型驚艷全場,一句話讓英國定居傳聞破滅

49歲翁帆高調露面!換造型驚艷全場,一句話讓英國定居傳聞破滅

一盅情懷
2026-03-16 16:58:07
北礦之王系列:不擇手段(1/8)

北礦之王系列:不擇手段(1/8)

金昔說故事
2026-04-25 20:45:19
臺北買房無望,馬筱梅吐槽北京房子舊,樓上裝修太吵,人設崩塌了

臺北買房無望,馬筱梅吐槽北京房子舊,樓上裝修太吵,人設崩塌了

八斗小先生
2026-04-17 11:14:22
退休人員速查!1992年前干過這4類工作 每月多領一筆錢 別白吃虧

退休人員速查!1992年前干過這4類工作 每月多領一筆錢 別白吃虧

混沌錄
2026-04-22 19:51:07
大澤鄉起義成功后,陳勝為何要殺掉吳廣,司馬遷說出了其中的原因

大澤鄉起義成功后,陳勝為何要殺掉吳廣,司馬遷說出了其中的原因

芳芳歷史燴
2026-04-23 02:45:51
誰把東方甄選的主播們逼走了? 俞敏洪一天損失四員大將!主播明明等發公開信直指新管理層“不友好”

誰把東方甄選的主播們逼走了? 俞敏洪一天損失四員大將!主播明明等發公開信直指新管理層“不友好”

新浪財經
2026-04-25 18:08:34
那年幫鄰村寡婦耕田,晚飯時她說:你幫了我好幾年,今晚就留下吧

那年幫鄰村寡婦耕田,晚飯時她說:你幫了我好幾年,今晚就留下吧

星宇共鳴
2025-07-01 15:43:51
腸癌術后復查一切正常,三個月后肝上長滿腫瘤,陪爸度過最后50天

腸癌術后復查一切正常,三個月后肝上長滿腫瘤,陪爸度過最后50天

劉哥談體育
2026-04-25 17:06:37
兩性關系:55-65歲這十年,惜命最好的方式,不是鍛煉,而是這6點

兩性關系:55-65歲這十年,惜命最好的方式,不是鍛煉,而是這6點

周哥一影視
2026-04-17 06:45:59
真正有后勁的三大生肖!4月底靠自律攢下第1桶金,開啟人生新起點

真正有后勁的三大生肖!4月底靠自律攢下第1桶金,開啟人生新起點

毅談生肖
2026-04-25 11:31:37
外交部一錘定音!賴清德沒資格,鄭麗文就算贏了選舉也不認!

外交部一錘定音!賴清德沒資格,鄭麗文就算贏了選舉也不認!

果媽聊娛樂
2026-04-25 13:48:35
王平河系列:北海風起結局

王平河系列:北海風起結局

金昔說故事
2026-04-24 23:21:37
“替父出征”夏卡武與洪森“心亂如麻”:柬埔寨王位暗戰終局將至

“替父出征”夏卡武與洪森“心亂如麻”:柬埔寨王位暗戰終局將至

民間平淡生活
2026-04-25 03:02:36
2026-04-25 23:23:00
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
12852文章數 142636關注度
往期回顧 全部

科技要聞

DeepSeek V4發布!黃仁勛預言的"災難"降臨

頭條要聞

臺媒:毛里求斯表態戳破臺當局謊言

頭條要聞

臺媒:毛里求斯表態戳破臺當局謊言

體育要聞

那一刻開始,兩支球隊的命運悄然改變了

娛樂要聞

《我們的爸爸2》第一季完美爸爸翻車了

財經要聞

90%訂單消失,中東旺季沒了

汽車要聞

2026款樂道L90亮相北京車展 樂道L80正式官宣

態度原創

旅游
數碼
手機
藝術
家居

旅游要聞

珠海夢幻水城今日開園,五一“濕身”派對提前鎖定

數碼要聞

支持三臺4K屏!這款多接口擴展塢上線眾籌

手機要聞

小米神秘新機現身,玄戒芯片加持

藝術要聞

服了!蘇州20棟“墓碑樓”,出自英國設計師之手

家居要聞

自然肌理 溫潤美學

無障礙瀏覽 進入關懷版