亚洲中文字幕乱码亚洲-蜜桃成熟视频在线观看-免费中文字幕视频在线-中国五十路熟妇洗澡视频-亚洲av伊人啪啪c-国产精品成人一区二区-国产自拍视频一区在线观看-成人一区不卡二区三区四区-亚洲情精品中文字幕99在线

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

AI智能體的"體檢報(bào)告":DigitalOcean如何讓機(jī)器助手變得更聰明

0
分享至


這項(xiàng)由DigitalOcean Holdings公司研究團(tuán)隊(duì)完成的研究發(fā)表于2026年4月1日的arXiv預(yù)印本平臺(tái),論文編號(hào)為arXiv:2604.00356v1,感興趣的讀者可以通過(guò)這個(gè)編號(hào)查詢完整論文。

在人工智能快速發(fā)展的今天,智能體就像我們身邊越來(lái)越常見(jiàn)的數(shù)字助手,它們能夠與人對(duì)話、使用各種工具來(lái)完成復(fù)雜任務(wù)。然而,當(dāng)這些智能體被部署到真實(shí)世界中為用戶服務(wù)時(shí),如何持續(xù)改進(jìn)它們的表現(xiàn)卻成了一個(gè)棘手問(wèn)題。這就像醫(yī)生需要定期為病人做體檢一樣,我們也需要為智能體制定一套"體檢方案"來(lái)發(fā)現(xiàn)問(wèn)題并加以改進(jìn)。

DigitalOcean的研究團(tuán)隊(duì)注意到了一個(gè)有趣的現(xiàn)象:智能體在工作時(shí)會(huì)產(chǎn)生大量的交互記錄,就像留下了詳細(xì)的"工作日志",但要從海量的日志中找出有價(jià)值的信息來(lái)改進(jìn)系統(tǒng)卻極其困難。傳統(tǒng)的做法要么是人工逐一檢查這些記錄,要么是使用其他AI系統(tǒng)來(lái)評(píng)估,但前者耗時(shí)耗力,后者成本高昂。研究團(tuán)隊(duì)提出了一個(gè)巧妙的解決方案:開(kāi)發(fā)一套輕量級(jí)的"信號(hào)系統(tǒng)"來(lái)自動(dòng)篩選出最值得關(guān)注的交互記錄。

這套信號(hào)系統(tǒng)就像給智能體裝上了一個(gè)智能監(jiān)控裝置,能夠?qū)崟r(shí)識(shí)別各種行為模式,包括用戶與智能體之間的溝通問(wèn)題、智能體執(zhí)行任務(wù)時(shí)的困難,以及系統(tǒng)環(huán)境的限制等。最重要的是,這套系統(tǒng)完全不需要調(diào)用大型語(yǔ)言模型,運(yùn)行成本極低,卻能顯著提高找到有用信息的效率。研究團(tuán)隊(duì)在廣泛使用的τ-bench基準(zhǔn)測(cè)試中驗(yàn)證了這個(gè)方法,結(jié)果顯示信號(hào)驅(qū)動(dòng)的篩選方式找到有用信息的成功率達(dá)到82%,遠(yuǎn)超隨機(jī)選擇的54%和簡(jiǎn)單過(guò)濾方法的74%,效率提升了1.52倍。

一、智能體改進(jìn)難題:海量數(shù)據(jù)中找"金子"

在現(xiàn)代人工智能應(yīng)用中,智能體就像一個(gè)能干的數(shù)字員工,它們可以與用戶聊天、調(diào)用各種工具、執(zhí)行復(fù)雜的多步驟任務(wù)。這些智能體已經(jīng)被大規(guī)模部署在實(shí)際應(yīng)用中,每天處理著成千上萬(wàn)的用戶請(qǐng)求。然而,讓這些數(shù)字員工變得更聰明、更高效卻面臨著前所未有的挑戰(zhàn)。

智能體在工作過(guò)程中會(huì)產(chǎn)生詳細(xì)的行為數(shù)據(jù),包括推理步驟、工具使用記錄、執(zhí)行結(jié)果和用戶反饋等。這些數(shù)據(jù)就像智能體的"工作檔案",記錄了它們?nèi)绾嗡伎肌⑷绾涡袆?dòng),以及用戶對(duì)其表現(xiàn)的反應(yīng)。同時(shí),人工智能領(lǐng)域已經(jīng)發(fā)展出了成熟的偏好學(xué)習(xí)方法,如人類反饋強(qiáng)化學(xué)習(xí)(RLHF)和直接偏好優(yōu)化(DPO),這些方法能夠根據(jù)精心構(gòu)建的偏好數(shù)據(jù)來(lái)改進(jìn)AI系統(tǒng)的行為表現(xiàn)。

問(wèn)題在于,智能體產(chǎn)生的行為數(shù)據(jù)和偏好學(xué)習(xí)方法所需要的訓(xùn)練數(shù)據(jù)之間存在著巨大的鴻溝。生產(chǎn)系統(tǒng)能夠捕獲豐富的交互軌跡,但沒(méi)有機(jī)制將這些軌跡轉(zhuǎn)化為訓(xùn)練信號(hào)。偏好學(xué)習(xí)流程需要經(jīng)過(guò)精心策劃的比較數(shù)據(jù),但缺乏從生產(chǎn)環(huán)境中系統(tǒng)性獲取這些數(shù)據(jù)的方法。結(jié)果就是,改進(jìn)已部署的智能體仍然主要依賴手工操作,開(kāi)發(fā)人員需要人工檢查軌跡,推測(cè)故障模式,然后在提示詞或工具定義上進(jìn)行迭代,整個(gè)過(guò)程缺乏結(jié)構(gòu)化的流水線連接。

這種困難持續(xù)存在有幾個(gè)關(guān)鍵原因。離線評(píng)估雖然對(duì)測(cè)試已知場(chǎng)景很有價(jià)值,但依賴于精心策劃的基準(zhǔn)測(cè)試,這些測(cè)試無(wú)法覆蓋現(xiàn)實(shí)世界使用中的長(zhǎng)尾情況。人工審查無(wú)法擴(kuò)展,智能體軌跡數(shù)量龐大且不確定性很高,沒(méi)有可靠的指標(biāo)來(lái)檢測(cè)智能體何時(shí)陷入無(wú)效循環(huán)或用戶何時(shí)感到沮喪。一個(gè)自然的替代方案是使用輔助的大語(yǔ)言模型來(lái)評(píng)估每個(gè)軌跡,因?yàn)?LLM作為評(píng)判者"的方法在結(jié)構(gòu)化任務(wù)上顯示出與人類偏好超過(guò)80%的一致性,但將這種評(píng)估應(yīng)用到每個(gè)軌跡在大規(guī)模應(yīng)用中成本過(guò)高。

之前關(guān)于對(duì)話質(zhì)量的工作提出了從對(duì)話特征中衍生的自動(dòng)質(zhì)量指標(biāo),但這些方法做出的假設(shè)在智能體系統(tǒng)中并不成立。首先,它們將對(duì)話視為全貌,而智能體將話語(yǔ)層(用戶意圖、澄清、挫折)與執(zhí)行層(工具調(diào)用、API響應(yīng)、狀態(tài)變化)交織在一起。智能體可以保持流暢友好的對(duì)話,同時(shí)在執(zhí)行上發(fā)生災(zāi)難性失敗。其次,它們假設(shè)信號(hào)應(yīng)該產(chǎn)生質(zhì)量評(píng)分或規(guī)定修復(fù)方案,但質(zhì)量判斷是依賴上下文的。對(duì)專家用戶來(lái)說(shuō)簡(jiǎn)潔的回應(yīng)可能是理想的,但對(duì)新手來(lái)說(shuō)可能令人沮喪,將這種判斷嵌入系統(tǒng)中有編碼不能跨領(lǐng)域泛化的假設(shè)的風(fēng)險(xiǎn)。

二、信號(hào)框架:給智能體裝上"智能體檢儀"

研究團(tuán)隊(duì)提出了一個(gè)創(chuàng)新的解決方案,就像給智能體裝上了一個(gè)智能體檢儀,能夠自動(dòng)識(shí)別各種值得關(guān)注的行為模式。這個(gè)體檢儀的核心是一套輕量級(jí)的軌跡信號(hào)系統(tǒng),由多個(gè)檢測(cè)器組成的分診功能。信號(hào)是對(duì)反復(fù)出現(xiàn)的行為模式的描述性標(biāo)記,涵蓋交互層面(錯(cuò)位、停滯、脫離、滿意)、執(zhí)行層面(失敗、循環(huán))和環(huán)境層面(耗盡),這些信號(hào)可以在不調(diào)用模型的情況下計(jì)算,并作為結(jié)構(gòu)化元數(shù)據(jù)附加到軌跡上。

交互信號(hào)和執(zhí)行信號(hào)面向?qū)W習(xí),適用于構(gòu)建偏好數(shù)據(jù),而環(huán)境信號(hào)支持系統(tǒng)級(jí)診斷,而不作為訓(xùn)練監(jiān)督。關(guān)鍵的是,信號(hào)不是質(zhì)量評(píng)分,它們識(shí)別可能對(duì)下游分析有信息價(jià)值的軌跡,既浮現(xiàn)失敗案例也浮現(xiàn)范例案例,而不主張正確性或規(guī)定補(bǔ)救措施。

這種設(shè)計(jì)借鑒了信息檢索領(lǐng)域的悠久傳統(tǒng),在該領(lǐng)域中,查詢重新表述、停留時(shí)間和會(huì)話放棄等隱式行為信號(hào)一直作為用戶滿意度的代理,而不需要明確的反饋。研究團(tuán)隊(duì)將這個(gè)想法適應(yīng)到智能體設(shè)置中,其中軌跡不僅包含自然語(yǔ)言,還包含工具調(diào)用、執(zhí)行結(jié)果和環(huán)境反饋。

整個(gè)信號(hào)分類法按照兩個(gè)正交軸組織軌跡信號(hào):從中衍生信號(hào)的數(shù)據(jù)層和它們的下游效用。第一個(gè)軸區(qū)分從軌跡的話語(yǔ)層(用戶-助手自然語(yǔ)言)衍生的信號(hào)和從執(zhí)行層(例如工具調(diào)用、運(yùn)行時(shí)事件)衍生的信號(hào)。第二個(gè)軸區(qū)分對(duì)學(xué)習(xí)有用的信號(hào)(即用于構(gòu)建偏好數(shù)據(jù)和改進(jìn)智能體策略)和主要對(duì)診斷和系統(tǒng)可觀察性有用的信號(hào)。這產(chǎn)生了三個(gè)頂級(jí)信號(hào)組:交互信號(hào)(面向?qū)W習(xí))、執(zhí)行信號(hào)(面向?qū)W習(xí))和環(huán)境信號(hào)(面向診斷)。

三、交互信號(hào):讀懂人機(jī)對(duì)話中的"弦外之音"

交互信號(hào)就像一個(gè)敏感的對(duì)話分析師,專門(mén)負(fù)責(zé)從用戶與智能體的自然語(yǔ)言交流中捕捉各種微妙的信號(hào)。這些信號(hào)反映了面向用戶的行為和合作動(dòng)態(tài),但不對(duì)智能體的內(nèi)部狀態(tài)或語(yǔ)義正確性做出判斷。這些信號(hào)適用于偏好學(xué)習(xí),因?yàn)樗鼈儽┞读酥苯訉?duì)用戶可見(jiàn)的成功和失敗模式。

研究團(tuán)隊(duì)將交互信號(hào)分為四種反復(fù)出現(xiàn)的話語(yǔ)級(jí)模式。錯(cuò)位信號(hào)捕捉用戶和智能體之間的語(yǔ)義或意圖不匹配,比如重新表述、糾正、澄清和重申約束。重要的是,這些信號(hào)不主張任何一方是"錯(cuò)誤的",它們只表明共同理解尚未建立。停滯信號(hào)捕捉話語(yǔ)繼續(xù)但未能取得可見(jiàn)進(jìn)展的情況,包括近似重復(fù)的助手回應(yīng)、循環(huán)解釋、重復(fù)的腳手架和其他形式的語(yǔ)言退化。與執(zhí)行級(jí)循環(huán)不同,停滯是根據(jù)話語(yǔ)動(dòng)態(tài)而不是控制流來(lái)定義的。

脫離信號(hào)標(biāo)記從交互中撤回合作意圖,包括明確要求退出智能體流程(例如"與人類交談")、強(qiáng)烈的負(fù)面立場(chǎng),以及當(dāng)會(huì)話邊界可觀察時(shí)的放棄標(biāo)記。脫離不同于錯(cuò)位和停滯,因?yàn)樗斫K端或接近終端的狀態(tài)。滿意信號(hào)表明交互的成功收斂和完成,包括感謝表達(dá)、成功確認(rèn)(例如"有效")和結(jié)束話語(yǔ)。研究團(tuán)隊(duì)使用這些信號(hào)來(lái)采樣范例軌跡,而不是分配質(zhì)量評(píng)分。

這些信號(hào)的檢測(cè)使用輕量級(jí)標(biāo)準(zhǔn)化和可解釋的、容錯(cuò)的用戶回合匹配。錯(cuò)位、脫離和滿意主要由短語(yǔ)級(jí)線索觸發(fā),并在附近回合進(jìn)行額外的局部相似性檢查,以捕捉重新表述,即使在缺乏明確標(biāo)記時(shí)也是如此。停滯使用簡(jiǎn)單的話語(yǔ)啟發(fā)式檢測(cè),總結(jié)重復(fù)和低效率(例如說(shuō)話者角色內(nèi)的近似重復(fù)措辭和相對(duì)于基線的長(zhǎng)時(shí)間交互)。整體設(shè)計(jì)強(qiáng)調(diào)對(duì)表面變化的魯棒性,同時(shí)保持觸發(fā)器對(duì)特定消息跨度的可追溯性,以便分診。

四、執(zhí)行信號(hào):監(jiān)測(cè)智能體的"動(dòng)作表現(xiàn)"

執(zhí)行信號(hào)就像一個(gè)專業(yè)的動(dòng)作分析師,專門(mén)從智能體內(nèi)部控制循環(huán)發(fā)出的結(jié)構(gòu)化運(yùn)行時(shí)事件中提取信息。這些事件可能包括推理步驟、動(dòng)作選擇、工具或網(wǎng)絡(luò)調(diào)用、內(nèi)存操作或其他智能體動(dòng)作。與交互信號(hào)不同,執(zhí)行信號(hào)是模態(tài)無(wú)關(guān)的且通常是確定性的。研究團(tuán)隊(duì)將執(zhí)行信號(hào)作為單獨(dú)的類別,因?yàn)樗鼈兎从持悄荏w決策行為而不是外部系統(tǒng)條件。

執(zhí)行信號(hào)被分為兩種反復(fù)出現(xiàn)的行為模式。失敗信號(hào)捕捉不產(chǎn)生可用或任務(wù)推進(jìn)結(jié)果的動(dòng)作嘗試(例如空結(jié)果、無(wú)操作動(dòng)作、不適當(dāng)?shù)膭?dòng)作選擇),而不將責(zé)任歸咎于智能體或環(huán)境。這些信號(hào)與學(xué)習(xí)相關(guān),因?yàn)樗鼈冇绊懼悄荏w的后續(xù)行為。循環(huán)信號(hào)捕捉智能體保持活躍但不取得進(jìn)展的重復(fù)執(zhí)行模式,包括重試、策略或動(dòng)作類型之間的振蕩以及漸進(jìn)參數(shù)漂移。這些模式被統(tǒng)一視為非進(jìn)展控制流的表現(xiàn)。

執(zhí)行失敗通過(guò)對(duì)結(jié)構(gòu)化觀察中的非推進(jìn)工具結(jié)果進(jìn)行分類來(lái)檢測(cè),并將每個(gè)結(jié)果與其觸發(fā)調(diào)用關(guān)聯(lián)以保留相關(guān)上下文(例如工具身份和參數(shù))。執(zhí)行循環(huán)通過(guò)調(diào)用流序列分析檢測(cè),使用簡(jiǎn)單的模式規(guī)則識(shí)別具有相同輸入的重復(fù)調(diào)用、具有系統(tǒng)性變化輸入的重復(fù)調(diào)用以及重復(fù)的多工具循環(huán)。這種分離允許失敗捕捉局部故障,而循環(huán)捕捉持續(xù)的非進(jìn)展控制流。

五、環(huán)境信號(hào):識(shí)別"外部干擾因素"

環(huán)境信號(hào)就像一個(gè)系統(tǒng)環(huán)境監(jiān)測(cè)器,專門(mén)捕捉來(lái)自周?chē)到y(tǒng)而不是智能體內(nèi)部策略或推理的失敗和約束。這些包括基礎(chǔ)設(shè)施、API和資源邊界條件。研究團(tuán)隊(duì)將這些信號(hào)隔離出來(lái),因?yàn)殡m然它們對(duì)可觀察性和診斷至關(guān)重要,但不適合作為訓(xùn)練監(jiān)督。它們不反映智能體決策的質(zhì)量,如果用于學(xué)習(xí)可能會(huì)引入虛假關(guān)聯(lián)。需要注意的是,如果事件主要由系統(tǒng)約束或服務(wù)健康(配額、中斷、上下文上限)解釋,研究團(tuán)隊(duì)將其分類為環(huán)境信號(hào),否則分類為執(zhí)行信號(hào)。

環(huán)境信號(hào)被歸入單一高級(jí)模式:耗盡信號(hào)捕捉邊界和基礎(chǔ)設(shè)施條件,如上下文溢出、速率限制、API失敗和格式錯(cuò)誤的外部響應(yīng),這些獨(dú)立于智能體能力終止或降級(jí)行為。它們用于診斷而不是學(xué)習(xí)。

耗盡信號(hào)通過(guò)識(shí)別系統(tǒng)輸出中的外部失敗和資源限制指標(biāo)從工具觀察中檢測(cè)。檢測(cè)器產(chǎn)生軌跡局部化實(shí)例,支持診斷和系統(tǒng)級(jí)分診,它通過(guò)將事件歸因于外部服務(wù)條件和資源邊界來(lái)區(qū)分環(huán)境驅(qū)動(dòng)約束和執(zhí)行驅(qū)動(dòng)問(wèn)題,當(dāng)這些指標(biāo)占主導(dǎo)地位時(shí)。

六、實(shí)驗(yàn)驗(yàn)證:在"考場(chǎng)"上測(cè)試信號(hào)系統(tǒng)

研究團(tuán)隊(duì)將提出的信號(hào)框架作為一個(gè)數(shù)據(jù)選擇機(jī)制進(jìn)行評(píng)估,該機(jī)制可以位于偏好構(gòu)建和訓(xùn)練的上游。與其將信號(hào)評(píng)估為分類器或質(zhì)量評(píng)分器,他們?cè)儐?wèn)信號(hào)是否能夠作為實(shí)用的采樣基礎(chǔ)設(shè)施:識(shí)別哪些軌跡值得人工審查,而不需要語(yǔ)義理解或明確的獎(jiǎng)勵(lì)建模。具體來(lái)說(shuō),他們旨在驗(yàn)證信號(hào)采樣在固定注釋預(yù)算下比基線策略表面更高比例的開(kāi)發(fā)者信息軌跡的聲明,揭示有意義的成功或失敗模式,否則這些模式會(huì)被稀釋或完全錯(cuò)過(guò)。

研究團(tuán)隊(duì)使用τ-bench作為測(cè)試平臺(tái),這是一個(gè)模擬配備工具的智能體在兩個(gè)領(lǐng)域(航空和零售)中多輪對(duì)話的基準(zhǔn)。其軌跡包含話語(yǔ)級(jí)交互(用戶-智能體對(duì)話)和結(jié)構(gòu)化執(zhí)行事件(工具調(diào)用、API響應(yīng)、數(shù)據(jù)庫(kù)變更),運(yùn)用了提議框架中的所有信號(hào)類別。他們從τ-bench公開(kāi)可用的歷史軌跡構(gòu)建軌跡池,這些軌跡由多個(gè)智能體配置(變化模型骨干和提示策略)在所有基準(zhǔn)任務(wù)中生成。結(jié)果池自然包括成功和失敗。他們將總池大小表示為N,每種方法抽取固定大小的n=100軌跡樣本。需要注意的是,τ-bench使用LLM模擬用戶而不是真實(shí)用戶,某些交互信號(hào),特別是脫離和滿意,因此相對(duì)于真實(shí)世界流量可能代表不足。

研究團(tuán)隊(duì)比較了三種采樣方法,每種抽取100個(gè)軌跡。隨機(jī)采樣從完整軌跡池中均勻采樣,作為無(wú)偏基線。啟發(fā)式采樣選擇包含至少10條用戶消息的軌跡,這是從業(yè)者可能應(yīng)用的最自然的第一道過(guò)濾器。這個(gè)閾值捕捉了更長(zhǎng)對(duì)話更復(fù)雜或更可能包含失敗的直覺(jué)。然而,對(duì)話長(zhǎng)度是難度的表面相關(guān),而不是信息價(jià)值的直接指標(biāo)。信號(hào)采樣由組合交互和執(zhí)行信號(hào)選擇的軌跡。環(huán)境信號(hào)被排除,與其僅診斷角色一致。該方法使用完整的交互信號(hào)集(錯(cuò)位、停滯、脫離、滿意)和執(zhí)行信號(hào)(失敗、循環(huán)),聚合為綜合分診評(píng)分,優(yōu)先考慮顯示一個(gè)或多個(gè)信號(hào)激活的軌跡。

所有三種采樣策略抽取相同數(shù)量的軌跡(n=100),確保注釋產(chǎn)出的任何差異可歸因于采樣策略而不是注釋量。三名專家注釋者,每人都熟悉智能體系統(tǒng)和工具使用模式,獨(dú)立標(biāo)記所有300個(gè)軌跡。來(lái)自所有條件的軌跡被打亂到單一隊(duì)列中,注釋者對(duì)產(chǎn)生每個(gè)軌跡的采樣策略保持盲態(tài)。

七、令人矚目的實(shí)驗(yàn)結(jié)果

實(shí)驗(yàn)結(jié)果就像一場(chǎng)精彩的比賽,信號(hào)采樣方法表現(xiàn)出色。在評(píng)估注釋可靠性方面,個(gè)體注釋者的YES率范圍從0.57到0.74,產(chǎn)生0.34的流行指數(shù)和0.17的偏差指數(shù)。這兩個(gè)因素已知會(huì)降低κ族統(tǒng)計(jì)量,即使原始一致性是充分的,因此研究團(tuán)隊(duì)主要依賴Gwet的AC1,它糾正了這些效應(yīng),作為主要一致性系數(shù)。對(duì)于二元開(kāi)發(fā)者信息問(wèn)題,三評(píng)分者Gwet的AC1為0.477,表明中等一致性。

因?yàn)檫@個(gè)問(wèn)題需要在分級(jí)、主觀屬性上進(jìn)行二元?jiǎng)澐郑制缂性谶吔畿壽E上,其中證據(jù)存在但模糊可操作,因此中等值反映閾值分歧而不是缺乏共同理解。這種解釋通過(guò)主要原因類別得到確認(rèn):在所有三名注釋者同意軌跡有信息價(jià)值的軌跡條件下(N=130),F(xiàn)leiss的κ=0.662,Gwet的AC1=0.829,表明注釋者一旦同意軌跡值得檢查,就能可靠地識(shí)別相同的潛在問(wèn)題。

τ-bench中的每個(gè)軌跡都帶有二元獎(jiǎng)勵(lì):只有當(dāng)最終數(shù)據(jù)庫(kù)狀態(tài)與真實(shí)結(jié)果完全匹配且智能體響應(yīng)包含所有必需信息時(shí),軌跡才被認(rèn)為成功。按這個(gè)獎(jiǎng)勵(lì)分層暴露了三個(gè)采樣器之間的關(guān)鍵組成差異。啟發(fā)式采樣主要選擇失敗軌跡(70%獎(jiǎng)勵(lì)=0),而隨機(jī)采樣反映池的基本率(37%失敗)。信號(hào)采樣繪制更平衡的混合(52%失敗)。這種組成差異具有重要含義。

在失敗軌跡中,所有策略實(shí)現(xiàn)高信息率(75.7% – 96.2%),信號(hào)采樣達(dá)到96.2%。實(shí)際差距在成功軌跡中更明顯,三種策略在此分化最大:信號(hào)采樣在66.7%的成功軌跡中識(shí)別信息模式,相比啟發(fā)式采樣的50.0%和隨機(jī)采樣的僅41.3%。這些是微妙的行為問(wèn)題,例如政策違規(guī)和低效工具使用,不阻止任務(wù)完成但仍然對(duì)改進(jìn)很重要。

為了將每種策略找到信息軌跡的能力與其過(guò)度采樣失敗的傾向隔離開(kāi)來(lái),研究團(tuán)隊(duì)進(jìn)行了反事實(shí)標(biāo)準(zhǔn)化,將每種策略的分層特定率重新加權(quán)到隨機(jī)采樣的獎(jiǎng)勵(lì)分布(63%成功,37%失敗)。在這種調(diào)整下,信號(hào)采樣實(shí)現(xiàn)77.6%的標(biāo)準(zhǔn)化率,相比啟發(fā)式采樣的62.7%和隨機(jī)采樣的54.0%。啟發(fā)式采樣相對(duì)隨機(jī)采樣的優(yōu)勢(shì)在其失敗重組成被移除后下降11.3個(gè)百分點(diǎn),而信號(hào)采樣的優(yōu)勢(shì)更加穩(wěn)健(僅4.4點(diǎn)減少)。這證實(shí)信號(hào)采樣提供真正的每軌跡信息增益,而不僅僅是過(guò)度采樣失敗軌跡。

八、實(shí)用效益:讓智能體改進(jìn)更高效

前述結(jié)果直接轉(zhuǎn)化為實(shí)際節(jié)省。在100個(gè)注釋的固定預(yù)算下,信號(hào)采樣產(chǎn)出82個(gè)信息軌跡,相比啟發(fā)式采樣的74個(gè)和隨機(jī)采樣的54個(gè)。等價(jià)地,信號(hào)采樣下每個(gè)信息軌跡成本1.22個(gè)標(biāo)簽,相對(duì)啟發(fā)式采樣的1.35個(gè)和隨機(jī)采樣的1.85個(gè),對(duì)應(yīng)相對(duì)無(wú)偏基線1.52倍效率增益。此外,正如獎(jiǎng)勵(lì)分層分析顯示的,這種增益不僅僅是過(guò)度采樣明顯失敗的人工制品:信號(hào)采樣在失敗和成功分層內(nèi)都保持更高的信息率,意味著效率優(yōu)勢(shì)即使在樣本組成保持恒定時(shí)也持續(xù)存在。

在開(kāi)發(fā)者信息軌跡中,注釋原因的分布在所有三種策略中是穩(wěn)定的:動(dòng)作/工具使用行為問(wèn)題占57-60%,對(duì)話問(wèn)題占38-43%,少量成功范例。這種一致性表明信號(hào)框架不偏向表面的問(wèn)題類型,而是簡(jiǎn)單地表面更多問(wèn)題。

研究團(tuán)隊(duì)還檢查了信號(hào)采樣的優(yōu)勢(shì)是否在τ-bench的不同領(lǐng)域中保持。在航空領(lǐng)域,所有策略實(shí)現(xiàn)高信息率(86% – 96%),為差異化留下有限空間。零售領(lǐng)域具有更復(fù)雜的多步驟任務(wù)和更低的基本信息率,揭示了最清晰的分離:信號(hào)采樣實(shí)現(xiàn)78%信息率,相比啟發(fā)式采樣的66%和隨機(jī)采樣的35%。信號(hào)采樣因此在軌跡最異質(zhì)且非信息軌跡最普遍的地方提供最大邊際價(jià)值。

九、局限性與未來(lái)展望

這項(xiàng)研究雖然取得了顯著成果,但也存在一些局限性需要坦誠(chéng)面對(duì)。實(shí)驗(yàn)是在τ-bench上進(jìn)行的,該基準(zhǔn)跨越兩個(gè)領(lǐng)域(航空和零售)并使用LLM模擬用戶。雖然這些領(lǐng)域運(yùn)用了分類法中的所有信號(hào)類別,但觀察到的優(yōu)勢(shì)是否能推廣到更廣泛的領(lǐng)域范圍和真實(shí)用戶群體仍然是一個(gè)開(kāi)放問(wèn)題。特別是,模擬用戶可能低估了真實(shí)脫離和滿意模式的變異性。

此外,信號(hào)分類法是有意粗粒度和行為性的。它捕捉反復(fù)出現(xiàn)的話語(yǔ)和執(zhí)行模式,但不評(píng)估語(yǔ)義正確性或領(lǐng)域特定政策違規(guī)。流暢且行為上不顯著但事實(shí)錯(cuò)誤的軌跡不會(huì)被當(dāng)前框架表面,表明信號(hào)最好與互補(bǔ)機(jī)制(如領(lǐng)域特定驗(yàn)證器或結(jié)果驗(yàn)證)一起使用。

最后,信號(hào)檢測(cè)器依賴確定性規(guī)則和詞匯啟發(fā)式。基于模型的檢測(cè)器可以提供改進(jìn)的召回率,特別是對(duì)于缺乏明確詞匯標(biāo)記的微妙錯(cuò)位或隱式挫折模式,盡管代價(jià)是使始終在線部署可行的輕量級(jí)計(jì)算。探索結(jié)合基于規(guī)則的信號(hào)與選擇性基于模型檢測(cè)的混合架構(gòu)是一個(gè)有前景的方向。

盡管存在這些局限性,這個(gè)框架為智能體系統(tǒng)的持續(xù)改進(jìn)提供了一個(gè)實(shí)用且高效的解決方案。由于所有信號(hào)都通過(guò)確定性規(guī)則而不是模型調(diào)用計(jì)算,該方法產(chǎn)生微不足道的開(kāi)銷(xiāo),并且能夠輕松擴(kuò)展到大型交互跟蹤集合。這種實(shí)用性和效率的結(jié)合使信號(hào)基采樣成為更廣泛偏好數(shù)據(jù)構(gòu)建流水線中引人注目的第一階段:選擇的軌跡,包括失敗和成功范例,可以與反事實(shí)延續(xù)配對(duì),為基于偏好的優(yōu)化產(chǎn)生監(jiān)督。

Q&A

Q1:什么是智能體軌跡信號(hào)系統(tǒng)?

A:智能體軌跡信號(hào)系統(tǒng)就像給AI助手裝上的智能體檢儀,能夠自動(dòng)識(shí)別AI在工作時(shí)的各種行為模式。它不需要調(diào)用大語(yǔ)言模型,運(yùn)行成本極低,卻能從海量的交互記錄中快速篩選出最值得關(guān)注的案例,幫助開(kāi)發(fā)者發(fā)現(xiàn)問(wèn)題并改進(jìn)AI系統(tǒng)。

Q2:這套信號(hào)系統(tǒng)如何提高AI改進(jìn)效率?

A:傳統(tǒng)方法篩選有用信息的成功率只有54%,而信號(hào)系統(tǒng)能達(dá)到82%,效率提升了1.52倍。這意味著在相同的人工審查成本下,開(kāi)發(fā)者能找到更多有價(jià)值的改進(jìn)線索,既包括需要修正的失敗案例,也包括值得學(xué)習(xí)的成功范例。

Q3:DigitalOcean的信號(hào)分類法包含哪些類型?

A:信號(hào)分類法包含三大類:交互信號(hào)(識(shí)別用戶與AI對(duì)話中的問(wèn)題,如溝通不暢、對(duì)話停滯等)、執(zhí)行信號(hào)(監(jiān)測(cè)AI執(zhí)行任務(wù)時(shí)的表現(xiàn),如工具調(diào)用失敗、陷入循環(huán)等)、環(huán)境信號(hào)(識(shí)別外部系統(tǒng)限制,如API故障、資源耗盡等,主要用于系統(tǒng)診斷)。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
賀嬌龍賬號(hào)時(shí)隔100天更新,官方開(kāi)通新賬號(hào)進(jìn)行遷移,“90后”清華畢業(yè)生成為“推薦官”

賀嬌龍賬號(hào)時(shí)隔100天更新,官方開(kāi)通新賬號(hào)進(jìn)行遷移,“90后”清華畢業(yè)生成為“推薦官”

極目新聞
2026-04-19 18:11:43
大巴在俄側(cè)翻致2名中國(guó)公民遇難,目擊者:當(dāng)時(shí)下大暴雪視線差,路面也結(jié)冰,后將十多人安頓在自己大巴車(chē)上

大巴在俄側(cè)翻致2名中國(guó)公民遇難,目擊者:當(dāng)時(shí)下大暴雪視線差,路面也結(jié)冰,后將十多人安頓在自己大巴車(chē)上

極目新聞
2026-04-19 15:45:14
歐冠資格穩(wěn)了?利物浦領(lǐng)先第6名切爾西的分差已拉大到7分

歐冠資格穩(wěn)了?利物浦領(lǐng)先第6名切爾西的分差已拉大到7分

懂球帝
2026-04-19 23:18:10
媒體稱一美軍運(yùn)輸機(jī)降落巴基斯坦

媒體稱一美軍運(yùn)輸機(jī)降落巴基斯坦

界面新聞
2026-04-19 15:59:48
印度能源斷氣瀕臨崩潰,話音剛落,中方切斷技術(shù)出口,莫迪傻眼了

印度能源斷氣瀕臨崩潰,話音剛落,中方切斷技術(shù)出口,莫迪傻眼了

老謝談史
2026-04-19 22:36:52
陳喬恩不忍了!公開(kāi)回應(yīng)老公艾倫將私生子帶回家,她才不是軟柿子

陳喬恩不忍了!公開(kāi)回應(yīng)老公艾倫將私生子帶回家,她才不是軟柿子

八卦王者
2026-04-18 16:41:43
不退役了?勇士4冠功臣預(yù)計(jì)回歸,年薪創(chuàng)紀(jì)錄,阻礙開(kāi)拓者引援!

不退役了?勇士4冠功臣預(yù)計(jì)回歸,年薪創(chuàng)紀(jì)錄,阻礙開(kāi)拓者引援!

你的籃球頻道
2026-04-19 17:14:51
英國(guó)小妹歧視中國(guó)人后續(xù):身份曝光社死,學(xué)校回應(yīng)下場(chǎng)大快人心

英國(guó)小妹歧視中國(guó)人后續(xù):身份曝光社死,學(xué)校回應(yīng)下場(chǎng)大快人心

王誙自駕
2026-04-19 15:07:40
多次遭特朗普大罵“紙老虎”“毫無(wú)用處”,北約“罕見(jiàn)”大動(dòng)作:30國(guó)駐北約大使集體訪日!日本已囤積44.4噸核材料,足夠造5500枚核彈頭

多次遭特朗普大罵“紙老虎”“毫無(wú)用處”,北約“罕見(jiàn)”大動(dòng)作:30國(guó)駐北約大使集體訪日!日本已囤積44.4噸核材料,足夠造5500枚核彈頭

揚(yáng)子晚報(bào)
2026-04-19 07:55:51
你見(jiàn)過(guò)創(chuàng)業(yè)最慘的人是啥樣?網(wǎng)友:我被前任刷了30萬(wàn)信用卡

你見(jiàn)過(guò)創(chuàng)業(yè)最慘的人是啥樣?網(wǎng)友:我被前任刷了30萬(wàn)信用卡

帶你感受人間冷暖
2026-04-07 00:15:06
衛(wèi)立煌求我黨護(hù)85歲老母令朱德犯難,毛主席:速將他列入戰(zhàn)犯名單

衛(wèi)立煌求我黨護(hù)85歲老母令朱德犯難,毛主席:速將他列入戰(zhàn)犯名單

興趣知識(shí)
2026-04-19 16:03:26
6天后!賴清德將登機(jī)離島,國(guó)臺(tái)辦預(yù)言了結(jié)局,賴岳謙說(shuō)得沒(méi)錯(cuò)

6天后!賴清德將登機(jī)離島,國(guó)臺(tái)辦預(yù)言了結(jié)局,賴岳謙說(shuō)得沒(méi)錯(cuò)

黑翼天使
2026-04-19 23:29:21
首次,日本賣(mài)出11艘最新版“最上”級(jí)護(hù)衛(wèi)艦,比老版本強(qiáng)哪?

首次,日本賣(mài)出11艘最新版“最上”級(jí)護(hù)衛(wèi)艦,比老版本強(qiáng)哪?

藍(lán)星雜談
2026-04-19 19:51:56
不建議有司機(jī)大老板買(mǎi)小米!雷軍回應(yīng)小米YU7二排比邁巴赫多一度:沒(méi)有詆毀 但確實(shí)多

不建議有司機(jī)大老板買(mǎi)小米!雷軍回應(yīng)小米YU7二排比邁巴赫多一度:沒(méi)有詆毀 但確實(shí)多

快科技
2026-04-18 10:12:12
疑似方程豹轎車(chē)實(shí)車(chē)曝光!配云輦+激光雷達(dá),超5米轎跑等你來(lái)命名

疑似方程豹轎車(chē)實(shí)車(chē)曝光!配云輦+激光雷達(dá),超5米轎跑等你來(lái)命名

車(chē)矩陣更懂車(chē)
2026-04-19 23:31:03
英國(guó)全世界丟臉,偷偷向以色列提供軍事裝備,被比利時(shí)全部扣押

英國(guó)全世界丟臉,偷偷向以色列提供軍事裝備,被比利時(shí)全部扣押

傲傲講歷史
2026-04-19 22:11:28
這跟不穿有啥區(qū)別?Rose真空上陣、穿鏤空透視,卻被中國(guó)女星搶鏡

這跟不穿有啥區(qū)別?Rose真空上陣、穿鏤空透視,卻被中國(guó)女星搶鏡

天天熱點(diǎn)見(jiàn)聞
2026-04-18 08:09:59
10億違建豪宅一夜推平,背后“大人物”被扒,官媒:一點(diǎn)都不冤!

10億違建豪宅一夜推平,背后“大人物”被扒,官媒:一點(diǎn)都不冤!

網(wǎng)絡(luò)易不易
2026-04-19 06:05:07
拉住跳樓女友5分鐘至力竭,仍被判10%責(zé)賠8萬(wàn):司法自由裁量+無(wú)限責(zé)任令人不寒而栗

拉住跳樓女友5分鐘至力竭,仍被判10%責(zé)賠8萬(wàn):司法自由裁量+無(wú)限責(zé)任令人不寒而栗

少爺寫(xiě)春秋
2026-04-18 22:47:55
硬碰硬了,日本戰(zhàn)艦橫穿臺(tái)海第2天,東部戰(zhàn)區(qū)立馬開(kāi)始行動(dòng)了!

硬碰硬了,日本戰(zhàn)艦橫穿臺(tái)海第2天,東部戰(zhàn)區(qū)立馬開(kāi)始行動(dòng)了!

阿龍聊軍事
2026-04-19 08:49:55
2026-04-20 00:11:00
至頂AI實(shí)驗(yàn)室 incentive-icons
至頂AI實(shí)驗(yàn)室
一個(gè)專注于探索生成式AI前沿技術(shù)及其應(yīng)用的實(shí)驗(yàn)室。
3365文章數(shù) 170關(guān)注度
往期回顧 全部

科技要聞

50分26秒破人類紀(jì)錄!300臺(tái)機(jī)器人狂飆半馬

頭條要聞

半年下沉22厘米 女子家中坐擁價(jià)值上億別墅卻沒(méi)法住人

頭條要聞

半年下沉22厘米 女子家中坐擁價(jià)值上億別墅卻沒(méi)法住人

體育要聞

湖人1比0火箭:老詹比烏度卡像教練

娛樂(lè)要聞

何潤(rùn)東漲粉百萬(wàn)!內(nèi)娛隔空掀桌第一人

財(cái)經(jīng)要聞

華誼兄弟,8年虧光85億

汽車(chē)要聞

29分鐘大定破萬(wàn) 極氪8X為什么這么多人買(mǎi)?

態(tài)度原創(chuàng)

本地
健康
游戲
公開(kāi)課
軍事航空

本地新聞

12噸巧克力有難,全網(wǎng)化身超級(jí)偵探添亂

干細(xì)胞抗衰4大誤區(qū),90%的人都中招

如何將ZH-1火力最大化?《戰(zhàn)艦世界》15.3版本造船廠加點(diǎn)攻略

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

軍事要聞

伊朗逼退美掃雷艇:美方求給15分鐘撤退

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版