无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

告別「單科專家」:首個Agent全面進化框架EEVEE發(fā)布

0
分享至



過去兩年,AI Agent 的能力邊界被不斷刷新:會寫代碼、會調(diào)用工具、會反思失敗,也開始能在任務執(zhí)行中積累經(jīng)驗。

但一個更現(xiàn)實的問題正在浮現(xiàn):

如果一個 Agent 真的被部署到真實世界,它還能繼續(xù)變強嗎?

不是在一個固定 benchmark 上反復刷分,也不是只針對某一種任務改 prompt,而是在真實使用中同時面對代碼、數(shù)學、知識問答、公式計算、復雜推理等不斷變化的任務輸入,還能不能持續(xù)適應、穩(wěn)定提升?

這正是 EEVEE 想解決的問題。

來自上海交通大學與普林斯頓大學的研究團隊發(fā)布了 EEVEE,一個面向 LLM Agent 的測試時提示學習框架。它試圖把 prompt learning 從 “單一任務優(yōu)化” 推向更接近真實部署的場景:讓智能體在多類型任務不斷涌入時,仍然能夠繼續(xù)學習,而不是顧此失彼。



  • 論文鏈接:https://arxiv.org/abs/2606.11182
  • 項目主頁:https://princeton-ai2-lab.github.io/EEVEE/
  • 開源代碼:https://github.com/Princeton-AI2-Lab/EEVEE

單一任務上的進步,還不夠

今天已經(jīng)有很多 prompt optimization 方法可以讓模型在一個任務上變得更好。

例如,在一個數(shù)學題集上學會更嚴謹?shù)慕忸}步驟;在一個代碼任務上學會輸出更規(guī)范的函數(shù)體;在一個問答任務上學會更符合評測格式的回答。

這很有價值,但它離真實 Agent 還差一步。

真實部署中的 Agent 不會只遇到一種任務。它可能上一秒在寫代碼,下一秒在做金融公式計算,再下一步又要回答科學問題。不同任務需要的行為完全不同:有的要求嚴格輸出格式,有的要求符號推理,有的要求知識判斷,有的要求可執(zhí)行代碼。

如果所有反饋都被塞進同一個 prompt,問題就會出現(xiàn):

一個任務上學到的經(jīng)驗,可能會傷害另一個任務。

比如,為了公式題學到 “只輸出數(shù)字”,可能會影響需要解釋推理過程的題;為了代碼題學到 “只輸出函數(shù)體”,也可能不適合知識問答。任務越多,單一 prompt 越容易變成一個互相沖突的雜糅體。

這就是 EEVEE 要面對的核心挑戰(zhàn):智能體不能只在單科變強,而要在多種任務中一起進化。

任務越多,差距越明顯

EEVEE 最有說服力的結果,不是單個任務上的分數(shù),而是任務不斷增加時的表現(xiàn)。

研究團隊把多個不同類型的任務依次加入同一個學習過程,觀察 prompt learning 方法能不能持續(xù)累積收益。

結果非常直接:

當任務越來越多時,一些強基線方法的收益開始停止疊加,甚至跌到負數(shù);而 EEVEE 仍然保持正向提升,最終在任務全部加入后達到約+42 的累計提升

換句話說,EEVEE 的優(yōu)勢不是 “單點提分”,而是任務變復雜之后還能繼續(xù)往上走。

這非常關鍵。因為真實世界里的 Agent,面對的永遠不是一個干凈、封閉、單一的任務環(huán)境,而是不斷變化的任務組合。



全方位提升:不同模型上都有效

在主實驗中,研究團隊使用了四類代表性任務:知識問答、公式計算、數(shù)學 / 符號推理、代碼生成。這些任務放在一起,構成了一個更接近真實 Agent 工作負載的混合環(huán)境。

在這個設置下,EEVEE 在不同 backbone 上都帶來了明顯提升:

  • 在 Qwen3-4B-Instruct 上,平均分從 41.37 提升到 51.75,相對提升約25%
  • 在 DeepSeek-V3.2 上,平均分從 39.75 提升到 64.07,相對提升約61%
  • 相比現(xiàn)有 SOTA prompt-learning 方法,最高相對提升達到48.2%

這說明 EEVEE 并不是只對某個模型、某個任務有效,而是在更廣泛的混合任務設置中,都能讓智能體獲得更穩(wěn)定的整體提升。



不只是 “多開幾個 prompt”:EEVEE 如何讓智能體分工進化?

EEVEE 的思路可以用一句話概括:

先分流,再用專門 prompt 推理。

它不再讓所有任務共享一個 prompt,而是維護多個 specialized prompts。每當輸入到來,EEVEE 會先判斷它更適合哪一類 prompt,再讓模型帶著對應 prompt 去回答。

但這不是簡單的人工分類。

EEVEE 不會事先規(guī)定 “數(shù)學題走數(shù)學 prompt,代碼題走代碼 prompt”。因為真實任務的差異往往不在表面任務名稱上,而在不同 prompt 的實際表現(xiàn)上。

同樣是數(shù)學題,有的需要公式計算,有的需要定理推理,有的需要嚴格輸出格式。真正有用的劃分,是在學習過程中逐漸形成的。

這也帶來了關鍵難點:router 和 prompt 不能分開學。

router 決定每個 prompt 會看到哪些樣本;prompt 的能力又決定了怎樣的路由是有意義的。

因此,EEVEE 采用 router–prompt co-evolution:先優(yōu)化 router,重新劃分任務;再優(yōu)化每個 prompt;隨后把更新后的 prompt 反饋給下一輪 router。這個過程不斷循環(huán),讓路由更清晰,prompt 更專門化。

最終,智能體不是靠一個越來越長、越來越混亂的 prompt 適應所有任務,而是把經(jīng)驗組織起來,讓不同任務模式進入更合適的學習路徑。



單一任務上依舊優(yōu)秀

一個自然的問題是:如果 EEVEE 是為多任務設計的,它會不會犧牲單任務能力?

實驗顯示并沒有。

當每個 benchmark 單獨進行 prompt learning 時,EEVEE 仍然保持很強的競爭力。例如:

  • Formula 任務達到
  • HumanEval 任務達到
  • TheoremQA 從 14.73 提升到

這說明 EEVEE 不是靠 “路由” 掩蓋 prompt learning 本身的不足。相反,它的 prompt 學習機制在單任務上同樣有效;當任務變多時,router 才進一步發(fā)揮組織經(jīng)驗、避免互相干擾的作用。



不靠堆砌上下文

很多讓 Agent 變強的方法,都有一個共同副作用:上下文越來越長。

系統(tǒng)不斷把經(jīng)驗、規(guī)則、案例、playbook 追加進 prompt,短期看可能有效,但任務一多,成本就會迅速上升,prompt 也會變得冗長混亂。

EEVEE 沒有走這條路。

雖然它增加了一個路由步驟,但整體 token 成本仍然保持在較低水平。實驗顯示,EEVEE 平均每個測試樣本使用4.32K tokens,接近高效 prompt-learning 基線 GEPA 的3.47K,遠低于 ACE 的21.30K

也就是說,EEVEE 的提升并不是靠無限擴展上下文堆出來的,而是來自更有效的任務組織和 prompt specialization。



Prompt learning 真正學到的是什么?

論文中的案例分析也揭示了一個很重要的現(xiàn)象:

Prompt learning 最擅長學習的,不是憑空補充知識,而是把反饋轉(zhuǎn)化成可復用的做事方式。

在代碼任務中,它能學會保持函數(shù)接口、輸出可執(zhí)行代碼、處理邊界條件;在公式任務中,它能學會正確套公式、保持單位尺度、輸出符合評測要求的答案格式。

但對于知識密集型問答,情況會更復雜。Prompt learning 可以讓模型推理更系統(tǒng),卻不一定能補上缺失的領域知識。如果模型本身缺少關鍵事實,單靠 prompt 不一定能解決。

這說明 EEVEE 并不是在宣稱 prompt learning 可以解決一切。它真正展示的是:當反饋能夠變成可復用的過程、格式和策略時,智能體可以在測試時持續(xù)吸收這些經(jīng)驗,并把它們組織到更合適的 prompt 中。

這比單純 “改一個 prompt” 更接近真實 Agent 的學習方式。



讓 Agent 從單科進步走向全方位進化

過去的 prompt optimization,更像是在訓練一個 Agent 做好某一門課。

它可以在一個固定任務上反復練習,逐漸摸清規(guī)律,拿到更高分數(shù)。

但真實世界要求的不是 “單科提分”,而是更接近 “全科成長”:任務不斷變化,反饋不斷變化,能力需求也不斷變化。一個真正有用的 self-improving Agent,必須能在部署后繼續(xù)適應這些變化,而不是只在單一 benchmark 上越來越熟練。

EEVEE 的意義就在于此。

它把 test-time prompt learning 從單一任務推向多類型任務共同到來的場景,讓智能體開始學習如何組織經(jīng)驗、區(qū)分任務模式、保留不同能力,并在復雜任務流中繼續(xù)提升整體表現(xiàn)。

這還不是最終形態(tài)。論文也指出,EEVEE 仍然依賴 ground-truth 或 rule-based feedback,還不是完全在線、完全自監(jiān)督的自我提升系統(tǒng)。

但它邁出了關鍵一步:當智能體真正面對真實世界中復雜、多樣、不斷變化的任務時,prompt learning 仍然可以成為一種有效的持續(xù)適應機制。

從單一任務到全方位進化,這正是 EEVEE 想打開的一扇門。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
拉斯維加斯無緣2026世界杯

拉斯維加斯無緣2026世界杯

體壇周報
2026-06-21 16:24:37
2026年養(yǎng)老金政策落地,實現(xiàn)22連漲,這3類人群養(yǎng)老金漲幅有變化

2026年養(yǎng)老金政策落地,實現(xiàn)22連漲,這3類人群養(yǎng)老金漲幅有變化

細說職場
2026-06-21 14:23:44
虧損超1.5億,胡歌盡力了,2026年端午檔第一票房慘案誕生了?

虧損超1.5億,胡歌盡力了,2026年端午檔第一票房慘案誕生了?

靠譜電影君
2026-06-19 21:52:51
央視曝光!多款水果跌落神壇,濫用甜味劑8000倍甜度、違規(guī)防腐劑

央視曝光!多款水果跌落神壇,濫用甜味劑8000倍甜度、違規(guī)防腐劑

哄動一時啊
2026-06-21 19:52:09
越吃陽氣越足,建議中老年:夏至后常吃5樣,增強體質(zhì)少生病

越吃陽氣越足,建議中老年:夏至后常吃5樣,增強體質(zhì)少生病

愛生活的陶哥
2026-06-22 07:20:59
年輕了啊!伊朗破門后比利時小球迷哭了,但VAR改判進球無效

年輕了啊!伊朗破門后比利時小球迷哭了,但VAR改判進球無效

硯底沉香
2026-06-22 03:41:06
"新疆棉"事件5年后,始作俑者悄悄改名,如今丑態(tài)百出大快人心

"新疆棉"事件5年后,始作俑者悄悄改名,如今丑態(tài)百出大快人心

聞識
2026-06-04 19:12:57
烏克蘭無人機襲擊刻赤半島致4死28傷

烏克蘭無人機襲擊刻赤半島致4死28傷

財聯(lián)社
2026-06-21 15:28:03
瀕臨破產(chǎn)時投2000萬,如今賺了4000倍

瀕臨破產(chǎn)時投2000萬,如今賺了4000倍

灰度測試中
2026-06-21 01:12:43
1930年,白崇禧與副官未婚妻生子,妻子馬佩璋趕至南寧當面質(zhì)問

1930年,白崇禧與副官未婚妻生子,妻子馬佩璋趕至南寧當面質(zhì)問

嘮叨說歷史
2026-06-18 15:46:16
穆帥即將再獲悍將!國米7000萬歐中衛(wèi)巴斯托尼,幾天后或加盟皇馬

穆帥即將再獲悍將!國米7000萬歐中衛(wèi)巴斯托尼,幾天后或加盟皇馬

福醬的小時光
2026-06-22 07:14:26
僅一夜之間,NBA爆發(fā)新動態(tài)!多份續(xù)約合同敲定,MVP卻淪為棄子

僅一夜之間,NBA爆發(fā)新動態(tài)!多份續(xù)約合同敲定,MVP卻淪為棄子

體育大朋說
2026-06-22 12:06:42
10年麻將館老板囗述:凡是愛打麻將的,沒有一個人日子是過得好的

10年麻將館老板囗述:凡是愛打麻將的,沒有一個人日子是過得好的

小噎論事
2026-04-24 17:15:21
“你隨意”:50歲妻子自述婚姻性需求屢次溝通無果,中年欲望覺醒引發(fā)焦慮

“你隨意”:50歲妻子自述婚姻性需求屢次溝通無果,中年欲望覺醒引發(fā)焦慮

有態(tài)度網(wǎng)友ytd2993
2026-06-22 00:07:10
隨著烏拉圭2-2爆冷,比利時0-0,西班牙4-0,世界杯最新積分出爐

隨著烏拉圭2-2爆冷,比利時0-0,西班牙4-0,世界杯最新積分出爐

球場沒跑道
2026-06-22 08:09:41
上風上水,浦東這里迎來大拆遷!!

上風上水,浦東這里迎來大拆遷!!

新浪財經(jīng)
2026-06-21 20:28:28
呂燕曬兒子畢業(yè)照,14 歲小鮑 44 碼皮鞋好帥,嘴巴迷人

呂燕曬兒子畢業(yè)照,14 歲小鮑 44 碼皮鞋好帥,嘴巴迷人

迪迪的娛樂故事
2026-06-20 17:22:39
89歲老戲骨合照“鼓包”搶鏡,本尊親自下場回應了

89歲老戲骨合照“鼓包”搶鏡,本尊親自下場回應了

影視情報室
2026-06-21 00:58:58
英格蘭世界杯夫婦特殊旗幟走紅

英格蘭世界杯夫婦特殊旗幟走紅

體壇周報
2026-06-22 13:40:37
術赤生前遭受45年屈辱,在其死去20年后,兒子拔都為他一一雪恥!

術赤生前遭受45年屈辱,在其死去20年后,兒子拔都為他一一雪恥!

云居歷史
2026-06-21 23:07:30
2026-06-22 14:52:49
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
13327文章數(shù) 142677關注度
往期回顧 全部

科技要聞

智譜盤中狂飆超40%,市值破萬億港元

頭條要聞

中紀委打兩"虎" 另有一人從副省級降為副處級再被查

頭條要聞

中紀委打兩"虎" 另有一人從副省級降為副處級再被查

體育要聞

法國球星祝中國隊下屆世界杯取得好成績

娛樂要聞

陪睡陪玩是皮毛,向佐揭內(nèi)娛暗規(guī)則

財經(jīng)要聞

為AI芯片續(xù)命 中國人造鉆石等來了大機會

汽車要聞

電動MINIJCW緞光特別版藏鋒上市盡顯低調(diào)賽道本色

態(tài)度原創(chuàng)

數(shù)碼
藝術
教育
公開課
軍事航空

數(shù)碼要聞

方正推出10.1英寸二合一Win11平板BSI16E0A,1499元

藝術要聞

冷軍 人物油畫寫生8幅

教育要聞

中考幾何壓軸題,將軍飲馬

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

東風-17發(fā)射狀態(tài)首次公開 多車齊射場面硬核

無障礙瀏覽 進入關懷版