无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

CASCADE:讓Agent在部署任務(wù)流中進(jìn)行在線經(jīng)驗(yàn)學(xué)習(xí)

0
分享至



本文作者來自倫敦大學(xué)學(xué)院、吉林大學(xué)和倫敦國王學(xué)院。本文第一作者為吉林大學(xué)博士生郭思源,倫敦大學(xué)學(xué)院汪軍教授為論文最后作者。指導(dǎo)教師還包括倫敦國王學(xué)院杜雅麗副教授、吉林大學(xué)陳賀昌研究員與常毅教授。

當(dāng) LLM Agent 進(jìn)入真實(shí)應(yīng)用后,它面對的不再是一次性的靜態(tài)測試集,而是持續(xù)到來的任務(wù)流。

每一次工具調(diào)用、代碼執(zhí)行、網(wǎng)頁搜索或任務(wù)完成,都會產(chǎn)生反饋:成功還是失???證據(jù)是否充分?工具是否選對?這些部署階段自然產(chǎn)生的信號,能否反過來幫助 Agent 變得更好?

研究團(tuán)隊(duì)的最新工作提出了部署時學(xué)習(xí)(Deployment-Time Learning,DTL),并進(jìn)一步提出 CASCADE。它的核心不是簡單積累經(jīng)驗(yàn),而是讓 Agent 在在線任務(wù)流中學(xué)會選擇經(jīng)驗(yàn):面對當(dāng)前任務(wù),應(yīng)該參考過去哪一次交互,才能做出更好的決策?



  • 論文標(biāo)題:CASCADE: Case-Based Continual Adaptation for Large Language Models During Deploymen
  • 論文鏈接:https://arxiv.org/abs/2605.06702
  • 代碼倉庫:https://github.com/guosyjlu/CASCADE
  • 基準(zhǔn)測試:https://huggingface.co/datasets/guosy/DTLBench

研究背景

目前 Agent 經(jīng)驗(yàn)學(xué)習(xí)的相關(guān)工作中,常見設(shè)定大致有兩類:

第一類延續(xù)傳統(tǒng)機(jī)器學(xué)習(xí)范式:系統(tǒng)先在訓(xùn)練集上學(xué)習(xí),例如微調(diào)模型、優(yōu)化提示詞、構(gòu)建記憶庫或技能庫,然后在測試集上評估。

第二類則關(guān)注運(yùn)行時學(xué)習(xí),即系統(tǒng)在同一個數(shù)據(jù)集上先學(xué)習(xí)多輪,然后觀測其性能提升。

這些設(shè)定都具有研究價值,但真實(shí)部署還包含一個重要維度:時間。在真實(shí)系統(tǒng)中,任務(wù)是按順序到來的。Agent 不能提前看到未來任務(wù),也不能隨意回到過去重做某個請求。每一步既是一次服務(wù),也是一次反饋收集;當(dāng)前選擇不僅影響當(dāng)前任務(wù)結(jié)果,也可能影響后續(xù)策略。



因此,CASCADE 將部署時學(xué)習(xí)定義為一個在線學(xué)習(xí)問題。在第 t 步,Agent 觀察到一個查詢,生成答案或行動軌跡,環(huán)境返回成功 / 失敗的二值反饋。Agent 的目標(biāo)不再只是優(yōu)化單個任務(wù),而是提高整個部署序列上的長期成功率;等價地說,是降低在線學(xué)習(xí)中的遺憾(Regret)。這一設(shè)定更接近工業(yè)系統(tǒng)中的持續(xù)服務(wù)過程,也為評估 Agent 的部署適應(yīng)能力提供了清晰形式化。

基于案例的部署時學(xué)習(xí):CASCADE

在部署時學(xué)習(xí)的設(shè)定下,基座模型保持固定,不對其參數(shù)進(jìn)行在線更新。學(xué)習(xí)發(fā)生在 Agent 的外圍組件中,尤其是記憶和檢索機(jī)制。CASCADE 以基于案例的推理(Case-Based Reasoning,CBR)為底層框架。當(dāng)新任務(wù)到來時,系統(tǒng)從歷史案例庫中檢索相關(guān)成功案例,將其作為上下文提供給 LLM,再根據(jù)環(huán)境反饋決定是否保留新的案例。這一流程包括四個步驟:

1. 檢索(Retrieve):從不斷增長的案例庫中檢索候選案例;

2. 復(fù)用(Reuse):將案例作為上下文,輔助 LLM 解決當(dāng)前查詢;

3. 修改(Revise):生成最終答案或行動軌跡;

4. 保存(Retain):如果環(huán)境反饋為成功,則將當(dāng)前交互保存為新的案例。

在這個 4R 循環(huán)中,CASCADE 的關(guān)鍵在于:它將 “檢索哪個案例” 建模為上下文賭博機(jī)(Contextual Bandit)問題,從而實(shí)現(xiàn)檢索過程中的探索 - 利用權(quán)衡。在每個時間步,當(dāng)前查詢是上下文,候選案例是可選擇的動作。Agent 選擇某個案例后,LLM 基于該案例生成結(jié)果,環(huán)境返回成功或失敗反饋。檢索器隨后利用該反饋更新策略,在后續(xù)任務(wù)中更好地權(quán)衡利用與探索。



換言之,CASCADE 學(xué)習(xí)的是一個在線檢索策略:它利用部署過程中觀察到的獎勵信號,判斷哪些案例在給定的任務(wù)中更有用。針對這一場景,本文提出了 Neural-LinLogUCB 算法。它使用 Transformer 建模查詢與案例之間的交互表示,并通過線性頭進(jìn)行不確定性估計(jì),從而適配二值反饋下的上下文賭博機(jī)學(xué)習(xí)。

從理論上看,CASCADE 將整體遺憾分解為兩部分:

1. 覆蓋差距:案例庫是否已經(jīng)包含足夠相關(guān)的歷史經(jīng)驗(yàn);

2. 檢索遺憾:在已有候選案例中,檢索策略是否選中了最有用的案例。

隨著部署過程持續(xù)進(jìn)行,成功案例逐漸被保存到案例庫中,由覆蓋不足帶來的損失會降低;同時,檢索器通過二值反饋更新,逐步減少選擇錯誤案例帶來的檢索遺憾。在合理假設(shè)下,CASCADE 可以得到無遺憾學(xué)習(xí)保證。



因此,CASCADE 不只是一個記憶模塊,而是一個面向部署任務(wù)流的原則化在線經(jīng)驗(yàn)學(xué)習(xí)框架。

部署時學(xué)習(xí)基準(zhǔn)測試:DTLBench

為了系統(tǒng)評估部署時學(xué)習(xí)能力,論文構(gòu)建了 DTLBench。該基準(zhǔn)包含 16 個任務(wù),覆蓋醫(yī)療、法律、金融、智能運(yùn)維、編程、具身決策、信息檢索等領(lǐng)域,并包含單輪任務(wù)和多輪任務(wù)。



單輪任務(wù)包括醫(yī)療診斷、藥物推薦、科室轉(zhuǎn)診、急診分診、法律罪名預(yù)測、刑罰預(yù)測、金融意圖路由、金融情感分析、根因分析、日志故障診斷、Text-to-SQL。

多輪任務(wù)包括經(jīng)典的 ALFWorld、ScienceWorld,以及兩個更接近真實(shí)應(yīng)用的場景:基于網(wǎng)頁的深度搜索和電子健康記錄上的復(fù)雜表格推理。

在 DTLBench 中,每個任務(wù)都被組織為在線查詢序列。Agent 必須按順序處理樣本,只能利用已經(jīng)發(fā)生的歷史交互和反饋。這一區(qū)別使得部署步上的成功率成為核心評估指標(biāo)。

主要實(shí)驗(yàn)結(jié)果

在 12 個單輪任務(wù)上,使用 Qwen3-32B 作為底座模型時,零樣本提示的平均成功率為 48.33%,非參數(shù)基線 NP-CBR 達(dá)到 63.76%,CASCADE 進(jìn)一步提升到 66.68%。這一結(jié)果表明,案例復(fù)用本身已經(jīng)能夠帶來明顯收益;在此基礎(chǔ)上,利用在線反饋學(xué)習(xí)檢索策略,可以進(jìn)一步提升部署序列上的長期表現(xiàn)。



與基于參數(shù)更新的基線 REINFORCE+LoRA 相比,CASCADE 在 12 個單輪任務(wù)中的 9 個任務(wù)上取得更好結(jié)果,并在其余任務(wù)上表現(xiàn)接近。同時,CASCADE 不需要更新底座 LLM 參數(shù),學(xué)習(xí)過程顯存低于 4GB,適合在更輕量的部署條件下運(yùn)行。



論文還驗(yàn)證了 CASCADE 對不同底座模型規(guī)模的適用性。在 Qwen3-4B、8B、14B、32B 上,CASCADE 在大多數(shù)設(shè)置中均能帶來穩(wěn)定提升。對于黑盒模型 gemini-2.0-flash,CASCADE 同樣適用,在可評估的 9 個任務(wù)上將平均成功率提升到 72.58%,高于零樣本提示的 56.58% 和 NP-CBR 的 70.68%。

這些結(jié)果說明,部署時學(xué)習(xí)并不必須依賴對 LLM 參數(shù)的訪問。對于基于 API 服務(wù)的黑盒模型,或者不適合頻繁微調(diào)的工業(yè)系統(tǒng),CASCADE 提供了一種通過 Agent 外圍組件進(jìn)行持續(xù)適應(yīng)的途徑。



在 ALFWorld 上,CASCADE 將成功率從 NP-CBR 的 62.01% 提升到 67.43%;在 ScienceWorld 上,從 59.36% 提升到 66.84%。將 CASCADE 插入 ReAct 框架后,也能進(jìn)一步提升 Agent 在多輪環(huán)境中的任務(wù)完成率。



在基于網(wǎng)頁的深度搜索中,Agent 需要多輪調(diào)用本地 RAG 工具或?qū)崟r網(wǎng)頁搜索工具完成多跳問答。引入部署時學(xué)習(xí)后,CASCADE 在本地 RAG 和實(shí)時網(wǎng)頁搜索設(shè)置下均帶來明顯提升。



在電子健康記錄表格推理任務(wù)中,Agent 需要通過 API 查詢數(shù)據(jù)庫并生成代碼。零樣本提示成功率為 20.75%,NP-CBR 為 44.02%,CASCADE 進(jìn)一步達(dá)到 55.76%,同時減少了平均調(diào)試輪數(shù)。

小結(jié)

CASCADE 試圖回答一個在 LLM Agent 部署中越來越重要的問題:當(dāng)任務(wù)持續(xù)到來、反饋不斷產(chǎn)生,而底座模型參數(shù)保持固定時,Agent 如何在真實(shí)交互過程中進(jìn)行學(xué)習(xí)?

本文的核心貢獻(xiàn)可以概括為三點(diǎn):

1. 提出部署時學(xué)習(xí),將 LLM Agent 的部署階段形式化為無參數(shù)更新的在線經(jīng)驗(yàn)學(xué)習(xí);

2. 提出 CASCADE,通過基于案例的推理與上下文賭博機(jī)學(xué)習(xí)實(shí)現(xiàn)原則化的部署時學(xué)習(xí)框架;

3. 構(gòu)建 DTLBench,在 16 個跨領(lǐng)域任務(wù)上評估 Agent 在在線任務(wù)序列中的長期表現(xiàn)。

從這個角度看,CASCADE 的重點(diǎn)不在于重新證明 “經(jīng)驗(yàn)有用”,而在于進(jìn)一步提出:部署過程本身可以被建模、評測和優(yōu)化。隨著 Agent 系統(tǒng)進(jìn)入更開放、更長程、更依賴工具的應(yīng)用場景,如何在真實(shí)任務(wù)流中利用反饋進(jìn)行穩(wěn)定學(xué)習(xí),可能會成為大模型部署后的一個重要研究方向。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
網(wǎng)友們這幾天都在吃著名毛巾集團(tuán)潔麗雅的瓜,諷刺其家族“丑聞”

網(wǎng)友們這幾天都在吃著名毛巾集團(tuán)潔麗雅的瓜,諷刺其家族“丑聞”

網(wǎng)絡(luò)易不易
2026-05-17 12:29:12
央視正式官宣!10多艘052DL裝上鷹擊20,美方坐立難安?

央視正式官宣!10多艘052DL裝上鷹擊20,美方坐立難安?

古史青云啊
2026-05-18 11:34:23
戰(zhàn)犯黃維被捕后向陳賡吐露:你手下有個旅長,在我這里可以當(dāng)軍長

戰(zhàn)犯黃維被捕后向陳賡吐露:你手下有個旅長,在我這里可以當(dāng)軍長

浩渺青史
2026-05-18 01:10:33
比紀(jì)凌塵丑但有錢!闞清子被富豪丑老公扶上奔馳大G,錢比臉更重要

比紀(jì)凌塵丑但有錢!闞清子被富豪丑老公扶上奔馳大G,錢比臉更重要

八卦王者
2026-05-18 13:56:18
善惡有報,移居英國僅2年,57歲吳秀波再迎噩耗,步入李易峰后塵

善惡有報,移居英國僅2年,57歲吳秀波再迎噩耗,步入李易峰后塵

有范又有料
2025-12-17 14:54:06
外表光鮮亮麗,實(shí)則是流氓頭子、家暴惡魔,這4位男星太令人作嘔

外表光鮮亮麗,實(shí)則是流氓頭子、家暴惡魔,這4位男星太令人作嘔

天馬幸福的人生
2026-04-24 01:39:41
看不到就裝傻充愣,原來殲20早就已經(jīng)在周邊到處飛

看不到就裝傻充愣,原來殲20早就已經(jīng)在周邊到處飛

三叔的裝備空間
2026-05-16 20:45:03
天塌了!溫州婁橋菜籃子水果批發(fā)市場無人問津,水果根本發(fā)不出去

天塌了!溫州婁橋菜籃子水果批發(fā)市場無人問津,水果根本發(fā)不出去

世界圈
2026-05-18 10:05:22
換裝賓客散場反轉(zhuǎn)!酒店放關(guān)鍵證據(jù),新娘另有目的,??拥綀鲑e客

換裝賓客散場反轉(zhuǎn)!酒店放關(guān)鍵證據(jù),新娘另有目的,??拥綀鲑e客

小鋭有話說
2026-05-18 08:47:40
說好兩千給10塊,七旬老漢夜宿少婦被殺,30刀血案與床上A罩之謎

說好兩千給10塊,七旬老漢夜宿少婦被殺,30刀血案與床上A罩之謎

易玄
2026-05-16 20:27:25
蔚小理零全數(shù)下跌,理想零跑跌超10%

蔚小理零全數(shù)下跌,理想零跑跌超10%

第一財(cái)經(jīng)資訊
2026-05-18 11:00:08
我在伊朗經(jīng)商,娶了3位當(dāng)?shù)仄拮?,得知老母親病危立馬回國

我在伊朗經(jīng)商,娶了3位當(dāng)?shù)仄拮?,得知老母親病危立馬回國

娛樂圈見解說
2026-05-17 20:58:56
太扎心!網(wǎng)友哭訴:鄰居熬8年首付變?nèi)睿约哼€貸8年還欠71萬

太扎心!網(wǎng)友哭訴:鄰居熬8年首付變?nèi)睿约哼€貸8年還欠71萬

譚談社會
2026-05-16 22:08:41
2-0!邁阿密獲新主場首勝,38歲梅西斬生涯第910球+連過4人送助攻

2-0!邁阿密獲新主場首勝,38歲梅西斬生涯第910球+連過4人送助攻

我愛英超
2026-05-18 08:13:58
在身著透視裝引發(fā)熱議后,薩巴倫卡直言自己“不排除抵制法網(wǎng)”

在身著透視裝引發(fā)熱議后,薩巴倫卡直言自己“不排除抵制法網(wǎng)”

小椰的奶奶
2026-05-18 10:25:29
毀三觀!體壇 4 大丑聞曝光:貪財(cái)好色、婚內(nèi)出軌,比娛樂圈還亂

毀三觀!體壇 4 大丑聞曝光:貪財(cái)好色、婚內(nèi)出軌,比娛樂圈還亂

橙星文娛
2026-04-27 16:46:45
25 輛大巴助陣顯奇效!騎士老板包車送球迷觀賽,騎士31分大勝活

25 輛大巴助陣顯奇效!騎士老板包車送球迷觀賽,騎士31分大勝活

阿訊說天下
2026-05-18 13:34:56
福建毒楊梅再升級!記者暗訪被死亡威脅,果農(nóng)守著一筐筐爛果

福建毒楊梅再升級!記者暗訪被死亡威脅,果農(nóng)守著一筐筐爛果

智慧生活筆記
2026-05-17 16:41:17
重啟打擊伊朗的行動將被賦名“大錘行動”

重啟打擊伊朗的行動將被賦名“大錘行動”

深度報
2026-05-17 22:02:32
川崎工程師坦白:整個日本摩托圈,看到張雪倆字,心就咯噔一下

川崎工程師坦白:整個日本摩托圈,看到張雪倆字,心就咯噔一下

嘴角上翹的弧度
2026-04-11 07:02:09
2026-05-18 14:27:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
13021文章數(shù) 142650關(guān)注度
往期回顧 全部

科技要聞

國產(chǎn)大模型集體更新后能力有多強(qiáng)?

頭條要聞

特朗普嚴(yán)厲警告"臺獨(dú)"后 賴清德首度發(fā)聲被指態(tài)度強(qiáng)硬

頭條要聞

特朗普嚴(yán)厲警告"臺獨(dú)"后 賴清德首度發(fā)聲被指態(tài)度強(qiáng)硬

體育要聞

哈登晉級東決:第5次分區(qū)決賽第5次贏搶七

娛樂要聞

小S曬全家福懷念大S,爺爺奶奶最疼姐姐

財(cái)經(jīng)要聞

前4月工業(yè)生產(chǎn)較快增長 失業(yè)率5.3%

汽車要聞

小米YU7 GT定檔5月21日19:00上市 跑車級轎跑SUV

態(tài)度原創(chuàng)

時尚
本地
房產(chǎn)
健康
親子

夏天褲子不用多買,提前準(zhǔn)備幾條休閑的闊腿褲,百搭舒適顯瘦

本地新聞

用蘇繡的方式,打開江西婺源

房產(chǎn)要聞

最新數(shù)據(jù)!海口二手房價,開始連漲!

專家揭秘干細(xì)胞回輸?shù)陌踩L(fēng)險

親子要聞

孩子身體不適 別都當(dāng)積食

無障礙瀏覽 進(jìn)入關(guān)懷版