網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

AI智能體的"體檢報(bào)告"：DigitalOcean如何讓機(jī)器助手變得更聰明

2026-04-14 21:10:01　來(lái)源: 至頂AI實(shí)驗(yàn)室

北京舉報(bào)

分享至

這項(xiàng)由DigitalOcean Holdings公司研究團(tuán)隊(duì)完成的研究發(fā)表于2026年4月1日的arXiv預(yù)印本平臺(tái)，論文編號(hào)為arXiv:2604.00356v1，感興趣的讀者可以通過(guò)這個(gè)編號(hào)查詢完整論文。

在人工智能快速發(fā)展的今天，智能體就像我們身邊越來(lái)越常見(jiàn)的數(shù)字助手，它們能夠與人對(duì)話、使用各種工具來(lái)完成復(fù)雜任務(wù)。然而，當(dāng)這些智能體被部署到真實(shí)世界中為用戶服務(wù)時(shí)，如何持續(xù)改進(jìn)它們的表現(xiàn)卻成了一個(gè)棘手問(wèn)題。這就像醫(yī)生需要定期為病人做體檢一樣，我們也需要為智能體制定一套"體檢方案"來(lái)發(fā)現(xiàn)問(wèn)題并加以改進(jìn)。

DigitalOcean的研究團(tuán)隊(duì)注意到了一個(gè)有趣的現(xiàn)象：智能體在工作時(shí)會(huì)產(chǎn)生大量的交互記錄，就像留下了詳細(xì)的"工作日志"，但要從海量的日志中找出有價(jià)值的信息來(lái)改進(jìn)系統(tǒng)卻極其困難。傳統(tǒng)的做法要么是人工逐一檢查這些記錄，要么是使用其他AI系統(tǒng)來(lái)評(píng)估，但前者耗時(shí)耗力，后者成本高昂。研究團(tuán)隊(duì)提出了一個(gè)巧妙的解決方案：開(kāi)發(fā)一套輕量級(jí)的"信號(hào)系統(tǒng)"來(lái)自動(dòng)篩選出最值得關(guān)注的交互記錄。

這套信號(hào)系統(tǒng)就像給智能體裝上了一個(gè)智能監(jiān)控裝置，能夠?qū)崟r(shí)識(shí)別各種行為模式，包括用戶與智能體之間的溝通問(wèn)題、智能體執(zhí)行任務(wù)時(shí)的困難，以及系統(tǒng)環(huán)境的限制等。最重要的是，這套系統(tǒng)完全不需要調(diào)用大型語(yǔ)言模型，運(yùn)行成本極低，卻能顯著提高找到有用信息的效率。研究團(tuán)隊(duì)在廣泛使用的τ-bench基準(zhǔn)測(cè)試中驗(yàn)證了這個(gè)方法，結(jié)果顯示信號(hào)驅(qū)動(dòng)的篩選方式找到有用信息的成功率達(dá)到82%，遠(yuǎn)超隨機(jī)選擇的54%和簡(jiǎn)單過(guò)濾方法的74%，效率提升了1.52倍。

一、智能體改進(jìn)難題：海量數(shù)據(jù)中找"金子"

在現(xiàn)代人工智能應(yīng)用中，智能體就像一個(gè)能干的數(shù)字員工，它們可以與用戶聊天、調(diào)用各種工具、執(zhí)行復(fù)雜的多步驟任務(wù)。這些智能體已經(jīng)被大規(guī)模部署在實(shí)際應(yīng)用中，每天處理著成千上萬(wàn)的用戶請(qǐng)求。然而，讓這些數(shù)字員工變得更聰明、更高效卻面臨著前所未有的挑戰(zhàn)。

智能體在工作過(guò)程中會(huì)產(chǎn)生詳細(xì)的行為數(shù)據(jù)，包括推理步驟、工具使用記錄、執(zhí)行結(jié)果和用戶反饋等。這些數(shù)據(jù)就像智能體的"工作檔案"，記錄了它們?nèi)绾嗡伎肌⑷绾涡袆?dòng)，以及用戶對(duì)其表現(xiàn)的反應(yīng)。同時(shí)，人工智能領(lǐng)域已經(jīng)發(fā)展出了成熟的偏好學(xué)習(xí)方法，如人類反饋強(qiáng)化學(xué)習(xí)（RLHF）和直接偏好優(yōu)化（DPO），這些方法能夠根據(jù)精心構(gòu)建的偏好數(shù)據(jù)來(lái)改進(jìn)AI系統(tǒng)的行為表現(xiàn)。

問(wèn)題在于，智能體產(chǎn)生的行為數(shù)據(jù)和偏好學(xué)習(xí)方法所需要的訓(xùn)練數(shù)據(jù)之間存在著巨大的鴻溝。生產(chǎn)系統(tǒng)能夠捕獲豐富的交互軌跡，但沒(méi)有機(jī)制將這些軌跡轉(zhuǎn)化為訓(xùn)練信號(hào)。偏好學(xué)習(xí)流程需要經(jīng)過(guò)精心策劃的比較數(shù)據(jù)，但缺乏從生產(chǎn)環(huán)境中系統(tǒng)性獲取這些數(shù)據(jù)的方法。結(jié)果就是，改進(jìn)已部署的智能體仍然主要依賴手工操作，開(kāi)發(fā)人員需要人工檢查軌跡，推測(cè)故障模式，然后在提示詞或工具定義上進(jìn)行迭代，整個(gè)過(guò)程缺乏結(jié)構(gòu)化的流水線連接。

這種困難持續(xù)存在有幾個(gè)關(guān)鍵原因。離線評(píng)估雖然對(duì)測(cè)試已知場(chǎng)景很有價(jià)值，但依賴于精心策劃的基準(zhǔn)測(cè)試，這些測(cè)試無(wú)法覆蓋現(xiàn)實(shí)世界使用中的長(zhǎng)尾情況。人工審查無(wú)法擴(kuò)展，智能體軌跡數(shù)量龐大且不確定性很高，沒(méi)有可靠的指標(biāo)來(lái)檢測(cè)智能體何時(shí)陷入無(wú)效循環(huán)或用戶何時(shí)感到沮喪。一個(gè)自然的替代方案是使用輔助的大語(yǔ)言模型來(lái)評(píng)估每個(gè)軌跡，因?yàn)?LLM作為評(píng)判者"的方法在結(jié)構(gòu)化任務(wù)上顯示出與人類偏好超過(guò)80%的一致性，但將這種評(píng)估應(yīng)用到每個(gè)軌跡在大規(guī)模應(yīng)用中成本過(guò)高。

之前關(guān)于對(duì)話質(zhì)量的工作提出了從對(duì)話特征中衍生的自動(dòng)質(zhì)量指標(biāo)，但這些方法做出的假設(shè)在智能體系統(tǒng)中并不成立。首先，它們將對(duì)話視為全貌，而智能體將話語(yǔ)層（用戶意圖、澄清、挫折）與執(zhí)行層（工具調(diào)用、API響應(yīng)、狀態(tài)變化）交織在一起。智能體可以保持流暢友好的對(duì)話，同時(shí)在執(zhí)行上發(fā)生災(zāi)難性失敗。其次，它們假設(shè)信號(hào)應(yīng)該產(chǎn)生質(zhì)量評(píng)分或規(guī)定修復(fù)方案，但質(zhì)量判斷是依賴上下文的。對(duì)專家用戶來(lái)說(shuō)簡(jiǎn)潔的回應(yīng)可能是理想的，但對(duì)新手來(lái)說(shuō)可能令人沮喪，將這種判斷嵌入系統(tǒng)中有編碼不能跨領(lǐng)域泛化的假設(shè)的風(fēng)險(xiǎn)。

二、信號(hào)框架：給智能體裝上"智能體檢儀"

研究團(tuán)隊(duì)提出了一個(gè)創(chuàng)新的解決方案，就像給智能體裝上了一個(gè)智能體檢儀，能夠自動(dòng)識(shí)別各種值得關(guān)注的行為模式。這個(gè)體檢儀的核心是一套輕量級(jí)的軌跡信號(hào)系統(tǒng)，由多個(gè)檢測(cè)器組成的分診功能。信號(hào)是對(duì)反復(fù)出現(xiàn)的行為模式的描述性標(biāo)記，涵蓋交互層面（錯(cuò)位、停滯、脫離、滿意）、執(zhí)行層面（失敗、循環(huán)）和環(huán)境層面（耗盡），這些信號(hào)可以在不調(diào)用模型的情況下計(jì)算，并作為結(jié)構(gòu)化元數(shù)據(jù)附加到軌跡上。

交互信號(hào)和執(zhí)行信號(hào)面向?qū)W習(xí)，適用于構(gòu)建偏好數(shù)據(jù)，而環(huán)境信號(hào)支持系統(tǒng)級(jí)診斷，而不作為訓(xùn)練監(jiān)督。關(guān)鍵的是，信號(hào)不是質(zhì)量評(píng)分，它們識(shí)別可能對(duì)下游分析有信息價(jià)值的軌跡，既浮現(xiàn)失敗案例也浮現(xiàn)范例案例，而不主張正確性或規(guī)定補(bǔ)救措施。

這種設(shè)計(jì)借鑒了信息檢索領(lǐng)域的悠久傳統(tǒng)，在該領(lǐng)域中，查詢重新表述、停留時(shí)間和會(huì)話放棄等隱式行為信號(hào)一直作為用戶滿意度的代理，而不需要明確的反饋。研究團(tuán)隊(duì)將這個(gè)想法適應(yīng)到智能體設(shè)置中，其中軌跡不僅包含自然語(yǔ)言，還包含工具調(diào)用、執(zhí)行結(jié)果和環(huán)境反饋。

整個(gè)信號(hào)分類法按照兩個(gè)正交軸組織軌跡信號(hào)：從中衍生信號(hào)的數(shù)據(jù)層和它們的下游效用。第一個(gè)軸區(qū)分從軌跡的話語(yǔ)層（用戶-助手自然語(yǔ)言）衍生的信號(hào)和從執(zhí)行層（例如工具調(diào)用、運(yùn)行時(shí)事件）衍生的信號(hào)。第二個(gè)軸區(qū)分對(duì)學(xué)習(xí)有用的信號(hào)（即用于構(gòu)建偏好數(shù)據(jù)和改進(jìn)智能體策略）和主要對(duì)診斷和系統(tǒng)可觀察性有用的信號(hào)。這產(chǎn)生了三個(gè)頂級(jí)信號(hào)組：交互信號(hào)（面向?qū)W習(xí)）、執(zhí)行信號(hào)（面向?qū)W習(xí)）和環(huán)境信號(hào)（面向診斷）。

三、交互信號(hào)：讀懂人機(jī)對(duì)話中的"弦外之音"

交互信號(hào)就像一個(gè)敏感的對(duì)話分析師，專門(mén)負(fù)責(zé)從用戶與智能體的自然語(yǔ)言交流中捕捉各種微妙的信號(hào)。這些信號(hào)反映了面向用戶的行為和合作動(dòng)態(tài)，但不對(duì)智能體的內(nèi)部狀態(tài)或語(yǔ)義正確性做出判斷。這些信號(hào)適用于偏好學(xué)習(xí)，因?yàn)樗鼈儽┞读酥苯訉?duì)用戶可見(jiàn)的成功和失敗模式。

研究團(tuán)隊(duì)將交互信號(hào)分為四種反復(fù)出現(xiàn)的話語(yǔ)級(jí)模式。錯(cuò)位信號(hào)捕捉用戶和智能體之間的語(yǔ)義或意圖不匹配，比如重新表述、糾正、澄清和重申約束。重要的是，這些信號(hào)不主張任何一方是"錯(cuò)誤的"，它們只表明共同理解尚未建立。停滯信號(hào)捕捉話語(yǔ)繼續(xù)但未能取得可見(jiàn)進(jìn)展的情況，包括近似重復(fù)的助手回應(yīng)、循環(huán)解釋、重復(fù)的腳手架和其他形式的語(yǔ)言退化。與執(zhí)行級(jí)循環(huán)不同，停滯是根據(jù)話語(yǔ)動(dòng)態(tài)而不是控制流來(lái)定義的。

脫離信號(hào)標(biāo)記從交互中撤回合作意圖，包括明確要求退出智能體流程（例如"與人類交談"）、強(qiáng)烈的負(fù)面立場(chǎng)，以及當(dāng)會(huì)話邊界可觀察時(shí)的放棄標(biāo)記。脫離不同于錯(cuò)位和停滯，因?yàn)樗斫K端或接近終端的狀態(tài)。滿意信號(hào)表明交互的成功收斂和完成，包括感謝表達(dá)、成功確認(rèn)（例如"有效"）和結(jié)束話語(yǔ)。研究團(tuán)隊(duì)使用這些信號(hào)來(lái)采樣范例軌跡，而不是分配質(zhì)量評(píng)分。

這些信號(hào)的檢測(cè)使用輕量級(jí)標(biāo)準(zhǔn)化和可解釋的、容錯(cuò)的用戶回合匹配。錯(cuò)位、脫離和滿意主要由短語(yǔ)級(jí)線索觸發(fā)，并在附近回合進(jìn)行額外的局部相似性檢查，以捕捉重新表述，即使在缺乏明確標(biāo)記時(shí)也是如此。停滯使用簡(jiǎn)單的話語(yǔ)啟發(fā)式檢測(cè)，總結(jié)重復(fù)和低效率（例如說(shuō)話者角色內(nèi)的近似重復(fù)措辭和相對(duì)于基線的長(zhǎng)時(shí)間交互）。整體設(shè)計(jì)強(qiáng)調(diào)對(duì)表面變化的魯棒性，同時(shí)保持觸發(fā)器對(duì)特定消息跨度的可追溯性，以便分診。

四、執(zhí)行信號(hào)：監(jiān)測(cè)智能體的"動(dòng)作表現(xiàn)"

執(zhí)行信號(hào)就像一個(gè)專業(yè)的動(dòng)作分析師，專門(mén)從智能體內(nèi)部控制循環(huán)發(fā)出的結(jié)構(gòu)化運(yùn)行時(shí)事件中提取信息。這些事件可能包括推理步驟、動(dòng)作選擇、工具或網(wǎng)絡(luò)調(diào)用、內(nèi)存操作或其他智能體動(dòng)作。與交互信號(hào)不同，執(zhí)行信號(hào)是模態(tài)無(wú)關(guān)的且通常是確定性的。研究團(tuán)隊(duì)將執(zhí)行信號(hào)作為單獨(dú)的類別，因?yàn)樗鼈兎从持悄荏w決策行為而不是外部系統(tǒng)條件。

執(zhí)行信號(hào)被分為兩種反復(fù)出現(xiàn)的行為模式。失敗信號(hào)捕捉不產(chǎn)生可用或任務(wù)推進(jìn)結(jié)果的動(dòng)作嘗試（例如空結(jié)果、無(wú)操作動(dòng)作、不適當(dāng)?shù)膭?dòng)作選擇），而不將責(zé)任歸咎于智能體或環(huán)境。這些信號(hào)與學(xué)習(xí)相關(guān)，因?yàn)樗鼈冇绊懼悄荏w的后續(xù)行為。循環(huán)信號(hào)捕捉智能體保持活躍但不取得進(jìn)展的重復(fù)執(zhí)行模式，包括重試、策略或動(dòng)作類型之間的振蕩以及漸進(jìn)參數(shù)漂移。這些模式被統(tǒng)一視為非進(jìn)展控制流的表現(xiàn)。

執(zhí)行失敗通過(guò)對(duì)結(jié)構(gòu)化觀察中的非推進(jìn)工具結(jié)果進(jìn)行分類來(lái)檢測(cè)，并將每個(gè)結(jié)果與其觸發(fā)調(diào)用關(guān)聯(lián)以保留相關(guān)上下文（例如工具身份和參數(shù)）。執(zhí)行循環(huán)通過(guò)調(diào)用流序列分析檢測(cè)，使用簡(jiǎn)單的模式規(guī)則識(shí)別具有相同輸入的重復(fù)調(diào)用、具有系統(tǒng)性變化輸入的重復(fù)調(diào)用以及重復(fù)的多工具循環(huán)。這種分離允許失敗捕捉局部故障，而循環(huán)捕捉持續(xù)的非進(jìn)展控制流。

五、環(huán)境信號(hào)：識(shí)別"外部干擾因素"

環(huán)境信號(hào)就像一個(gè)系統(tǒng)環(huán)境監(jiān)測(cè)器，專門(mén)捕捉來(lái)自周?chē)到y(tǒng)而不是智能體內(nèi)部策略或推理的失敗和約束。這些包括基礎(chǔ)設(shè)施、API和資源邊界條件。研究團(tuán)隊(duì)將這些信號(hào)隔離出來(lái)，因?yàn)殡m然它們對(duì)可觀察性和診斷至關(guān)重要，但不適合作為訓(xùn)練監(jiān)督。它們不反映智能體決策的質(zhì)量，如果用于學(xué)習(xí)可能會(huì)引入虛假關(guān)聯(lián)。需要注意的是，如果事件主要由系統(tǒng)約束或服務(wù)健康（配額、中斷、上下文上限）解釋，研究團(tuán)隊(duì)將其分類為環(huán)境信號(hào)，否則分類為執(zhí)行信號(hào)。

環(huán)境信號(hào)被歸入單一高級(jí)模式：耗盡信號(hào)捕捉邊界和基礎(chǔ)設(shè)施條件，如上下文溢出、速率限制、API失敗和格式錯(cuò)誤的外部響應(yīng)，這些獨(dú)立于智能體能力終止或降級(jí)行為。它們用于診斷而不是學(xué)習(xí)。

耗盡信號(hào)通過(guò)識(shí)別系統(tǒng)輸出中的外部失敗和資源限制指標(biāo)從工具觀察中檢測(cè)。檢測(cè)器產(chǎn)生軌跡局部化實(shí)例，支持診斷和系統(tǒng)級(jí)分診，它通過(guò)將事件歸因于外部服務(wù)條件和資源邊界來(lái)區(qū)分環(huán)境驅(qū)動(dòng)約束和執(zhí)行驅(qū)動(dòng)問(wèn)題，當(dāng)這些指標(biāo)占主導(dǎo)地位時(shí)。

六、實(shí)驗(yàn)驗(yàn)證：在"考場(chǎng)"上測(cè)試信號(hào)系統(tǒng)

研究團(tuán)隊(duì)將提出的信號(hào)框架作為一個(gè)數(shù)據(jù)選擇機(jī)制進(jìn)行評(píng)估，該機(jī)制可以位于偏好構(gòu)建和訓(xùn)練的上游。與其將信號(hào)評(píng)估為分類器或質(zhì)量評(píng)分器，他們?cè)儐?wèn)信號(hào)是否能夠作為實(shí)用的采樣基礎(chǔ)設(shè)施：識(shí)別哪些軌跡值得人工審查，而不需要語(yǔ)義理解或明確的獎(jiǎng)勵(lì)建模。具體來(lái)說(shuō)，他們旨在驗(yàn)證信號(hào)采樣在固定注釋預(yù)算下比基線策略表面更高比例的開(kāi)發(fā)者信息軌跡的聲明，揭示有意義的成功或失敗模式，否則這些模式會(huì)被稀釋或完全錯(cuò)過(guò)。

研究團(tuán)隊(duì)使用τ-bench作為測(cè)試平臺(tái)，這是一個(gè)模擬配備工具的智能體在兩個(gè)領(lǐng)域（航空和零售）中多輪對(duì)話的基準(zhǔn)。其軌跡包含話語(yǔ)級(jí)交互（用戶-智能體對(duì)話）和結(jié)構(gòu)化執(zhí)行事件（工具調(diào)用、API響應(yīng)、數(shù)據(jù)庫(kù)變更），運(yùn)用了提議框架中的所有信號(hào)類別。他們從τ-bench公開(kāi)可用的歷史軌跡構(gòu)建軌跡池，這些軌跡由多個(gè)智能體配置（變化模型骨干和提示策略）在所有基準(zhǔn)任務(wù)中生成。結(jié)果池自然包括成功和失敗。他們將總池大小表示為N，每種方法抽取固定大小的n=100軌跡樣本。需要注意的是，τ-bench使用LLM模擬用戶而不是真實(shí)用戶，某些交互信號(hào)，特別是脫離和滿意，因此相對(duì)于真實(shí)世界流量可能代表不足。

研究團(tuán)隊(duì)比較了三種采樣方法，每種抽取100個(gè)軌跡。隨機(jī)采樣從完整軌跡池中均勻采樣，作為無(wú)偏基線。啟發(fā)式采樣選擇包含至少10條用戶消息的軌跡，這是從業(yè)者可能應(yīng)用的最自然的第一道過(guò)濾器。這個(gè)閾值捕捉了更長(zhǎng)對(duì)話更復(fù)雜或更可能包含失敗的直覺(jué)。然而，對(duì)話長(zhǎng)度是難度的表面相關(guān)，而不是信息價(jià)值的直接指標(biāo)。信號(hào)采樣由組合交互和執(zhí)行信號(hào)選擇的軌跡。環(huán)境信號(hào)被排除，與其僅診斷角色一致。該方法使用完整的交互信號(hào)集（錯(cuò)位、停滯、脫離、滿意）和執(zhí)行信號(hào)（失敗、循環(huán)），聚合為綜合分診評(píng)分，優(yōu)先考慮顯示一個(gè)或多個(gè)信號(hào)激活的軌跡。

所有三種采樣策略抽取相同數(shù)量的軌跡（n=100），確保注釋產(chǎn)出的任何差異可歸因于采樣策略而不是注釋量。三名專家注釋者，每人都熟悉智能體系統(tǒng)和工具使用模式，獨(dú)立標(biāo)記所有300個(gè)軌跡。來(lái)自所有條件的軌跡被打亂到單一隊(duì)列中，注釋者對(duì)產(chǎn)生每個(gè)軌跡的采樣策略保持盲態(tài)。

七、令人矚目的實(shí)驗(yàn)結(jié)果

實(shí)驗(yàn)結(jié)果就像一場(chǎng)精彩的比賽，信號(hào)采樣方法表現(xiàn)出色。在評(píng)估注釋可靠性方面，個(gè)體注釋者的YES率范圍從0.57到0.74，產(chǎn)生0.34的流行指數(shù)和0.17的偏差指數(shù)。這兩個(gè)因素已知會(huì)降低κ族統(tǒng)計(jì)量，即使原始一致性是充分的，因此研究團(tuán)隊(duì)主要依賴Gwet的AC1，它糾正了這些效應(yīng)，作為主要一致性系數(shù)。對(duì)于二元開(kāi)發(fā)者信息問(wèn)題，三評(píng)分者Gwet的AC1為0.477，表明中等一致性。

因?yàn)檫@個(gè)問(wèn)題需要在分級(jí)、主觀屬性上進(jìn)行二元?jiǎng)澐郑制缂性谶吔畿壽E上，其中證據(jù)存在但模糊可操作，因此中等值反映閾值分歧而不是缺乏共同理解。這種解釋通過(guò)主要原因類別得到確認(rèn)：在所有三名注釋者同意軌跡有信息價(jià)值的軌跡條件下（N=130），F(xiàn)leiss的κ=0.662，Gwet的AC1=0.829，表明注釋者一旦同意軌跡值得檢查，就能可靠地識(shí)別相同的潛在問(wèn)題。

τ-bench中的每個(gè)軌跡都帶有二元獎(jiǎng)勵(lì)：只有當(dāng)最終數(shù)據(jù)庫(kù)狀態(tài)與真實(shí)結(jié)果完全匹配且智能體響應(yīng)包含所有必需信息時(shí)，軌跡才被認(rèn)為成功。按這個(gè)獎(jiǎng)勵(lì)分層暴露了三個(gè)采樣器之間的關(guān)鍵組成差異。啟發(fā)式采樣主要選擇失敗軌跡（70%獎(jiǎng)勵(lì)=0），而隨機(jī)采樣反映池的基本率（37%失敗）。信號(hào)采樣繪制更平衡的混合（52%失敗）。這種組成差異具有重要含義。

在失敗軌跡中，所有策略實(shí)現(xiàn)高信息率（75.7% – 96.2%），信號(hào)采樣達(dá)到96.2%。實(shí)際差距在成功軌跡中更明顯，三種策略在此分化最大：信號(hào)采樣在66.7%的成功軌跡中識(shí)別信息模式，相比啟發(fā)式采樣的50.0%和隨機(jī)采樣的僅41.3%。這些是微妙的行為問(wèn)題，例如政策違規(guī)和低效工具使用，不阻止任務(wù)完成但仍然對(duì)改進(jìn)很重要。

為了將每種策略找到信息軌跡的能力與其過(guò)度采樣失敗的傾向隔離開(kāi)來(lái)，研究團(tuán)隊(duì)進(jìn)行了反事實(shí)標(biāo)準(zhǔn)化，將每種策略的分層特定率重新加權(quán)到隨機(jī)采樣的獎(jiǎng)勵(lì)分布（63%成功，37%失敗）。在這種調(diào)整下，信號(hào)采樣實(shí)現(xiàn)77.6%的標(biāo)準(zhǔn)化率，相比啟發(fā)式采樣的62.7%和隨機(jī)采樣的54.0%。啟發(fā)式采樣相對(duì)隨機(jī)采樣的優(yōu)勢(shì)在其失敗重組成被移除后下降11.3個(gè)百分點(diǎn)，而信號(hào)采樣的優(yōu)勢(shì)更加穩(wěn)健（僅4.4點(diǎn)減少）。這證實(shí)信號(hào)采樣提供真正的每軌跡信息增益，而不僅僅是過(guò)度采樣失敗軌跡。

八、實(shí)用效益：讓智能體改進(jìn)更高效

前述結(jié)果直接轉(zhuǎn)化為實(shí)際節(jié)省。在100個(gè)注釋的固定預(yù)算下，信號(hào)采樣產(chǎn)出82個(gè)信息軌跡，相比啟發(fā)式采樣的74個(gè)和隨機(jī)采樣的54個(gè)。等價(jià)地，信號(hào)采樣下每個(gè)信息軌跡成本1.22個(gè)標(biāo)簽，相對(duì)啟發(fā)式采樣的1.35個(gè)和隨機(jī)采樣的1.85個(gè)，對(duì)應(yīng)相對(duì)無(wú)偏基線1.52倍效率增益。此外，正如獎(jiǎng)勵(lì)分層分析顯示的，這種增益不僅僅是過(guò)度采樣明顯失敗的人工制品：信號(hào)采樣在失敗和成功分層內(nèi)都保持更高的信息率，意味著效率優(yōu)勢(shì)即使在樣本組成保持恒定時(shí)也持續(xù)存在。

在開(kāi)發(fā)者信息軌跡中，注釋原因的分布在所有三種策略中是穩(wěn)定的：動(dòng)作/工具使用行為問(wèn)題占57-60%，對(duì)話問(wèn)題占38-43%，少量成功范例。這種一致性表明信號(hào)框架不偏向表面的問(wèn)題類型，而是簡(jiǎn)單地表面更多問(wèn)題。

研究團(tuán)隊(duì)還檢查了信號(hào)采樣的優(yōu)勢(shì)是否在τ-bench的不同領(lǐng)域中保持。在航空領(lǐng)域，所有策略實(shí)現(xiàn)高信息率（86% – 96%），為差異化留下有限空間。零售領(lǐng)域具有更復(fù)雜的多步驟任務(wù)和更低的基本信息率，揭示了最清晰的分離：信號(hào)采樣實(shí)現(xiàn)78%信息率，相比啟發(fā)式采樣的66%和隨機(jī)采樣的35%。信號(hào)采樣因此在軌跡最異質(zhì)且非信息軌跡最普遍的地方提供最大邊際價(jià)值。

九、局限性與未來(lái)展望

這項(xiàng)研究雖然取得了顯著成果，但也存在一些局限性需要坦誠(chéng)面對(duì)。實(shí)驗(yàn)是在τ-bench上進(jìn)行的，該基準(zhǔn)跨越兩個(gè)領(lǐng)域（航空和零售）并使用LLM模擬用戶。雖然這些領(lǐng)域運(yùn)用了分類法中的所有信號(hào)類別，但觀察到的優(yōu)勢(shì)是否能推廣到更廣泛的領(lǐng)域范圍和真實(shí)用戶群體仍然是一個(gè)開(kāi)放問(wèn)題。特別是，模擬用戶可能低估了真實(shí)脫離和滿意模式的變異性。

此外，信號(hào)分類法是有意粗粒度和行為性的。它捕捉反復(fù)出現(xiàn)的話語(yǔ)和執(zhí)行模式，但不評(píng)估語(yǔ)義正確性或領(lǐng)域特定政策違規(guī)。流暢且行為上不顯著但事實(shí)錯(cuò)誤的軌跡不會(huì)被當(dāng)前框架表面，表明信號(hào)最好與互補(bǔ)機(jī)制（如領(lǐng)域特定驗(yàn)證器或結(jié)果驗(yàn)證）一起使用。

最后，信號(hào)檢測(cè)器依賴確定性規(guī)則和詞匯啟發(fā)式。基于模型的檢測(cè)器可以提供改進(jìn)的召回率，特別是對(duì)于缺乏明確詞匯標(biāo)記的微妙錯(cuò)位或隱式挫折模式，盡管代價(jià)是使始終在線部署可行的輕量級(jí)計(jì)算。探索結(jié)合基于規(guī)則的信號(hào)與選擇性基于模型檢測(cè)的混合架構(gòu)是一個(gè)有前景的方向。

盡管存在這些局限性，這個(gè)框架為智能體系統(tǒng)的持續(xù)改進(jìn)提供了一個(gè)實(shí)用且高效的解決方案。由于所有信號(hào)都通過(guò)確定性規(guī)則而不是模型調(diào)用計(jì)算，該方法產(chǎn)生微不足道的開(kāi)銷(xiāo)，并且能夠輕松擴(kuò)展到大型交互跟蹤集合。這種實(shí)用性和效率的結(jié)合使信號(hào)基采樣成為更廣泛偏好數(shù)據(jù)構(gòu)建流水線中引人注目的第一階段：選擇的軌跡，包括失敗和成功范例，可以與反事實(shí)延續(xù)配對(duì)，為基于偏好的優(yōu)化產(chǎn)生監(jiān)督。

Q&A

Q1：什么是智能體軌跡信號(hào)系統(tǒng)？

A：智能體軌跡信號(hào)系統(tǒng)就像給AI助手裝上的智能體檢儀，能夠自動(dòng)識(shí)別AI在工作時(shí)的各種行為模式。它不需要調(diào)用大語(yǔ)言模型，運(yùn)行成本極低，卻能從海量的交互記錄中快速篩選出最值得關(guān)注的案例，幫助開(kāi)發(fā)者發(fā)現(xiàn)問(wèn)題并改進(jìn)AI系統(tǒng)。

Q2：這套信號(hào)系統(tǒng)如何提高AI改進(jìn)效率？

A：傳統(tǒng)方法篩選有用信息的成功率只有54%，而信號(hào)系統(tǒng)能達(dá)到82%，效率提升了1.52倍。這意味著在相同的人工審查成本下，開(kāi)發(fā)者能找到更多有價(jià)值的改進(jìn)線索，既包括需要修正的失敗案例，也包括值得學(xué)習(xí)的成功范例。

Q3：DigitalOcean的信號(hào)分類法包含哪些類型？

A：信號(hào)分類法包含三大類：交互信號(hào)（識(shí)別用戶與AI對(duì)話中的問(wèn)題，如溝通不暢、對(duì)話停滯等）、執(zhí)行信號(hào)（監(jiān)測(cè)AI執(zhí)行任務(wù)時(shí)的表現(xiàn)，如工具調(diào)用失敗、陷入循環(huán)等）、環(huán)境信號(hào)（識(shí)別外部系統(tǒng)限制，如API故障、資源耗盡等，主要用于系統(tǒng)診斷）。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.