无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

上下文失控、自檢失效?搞定長時,Agent,就靠這幾招

0
分享至

在開發者的日常工作中,AIAgent(智能體)的執行穩定性是一個核心難題。一年前,如果要求AI獨立完成一個音樂創作軟件的開發,系統可能在運行20分鐘后便因執行任務壓力過大或指令混亂而停止。隨著模型能力的演進,AI已經能夠處理長達數小時甚至數天的復雜任務。實現這一跨越,不僅僅依賴于模型本身的進化,更取決于開發者對工程腳手架(Harness)的迭代與取舍。



在ClaudeCode發布之初,Agent主要面臨三大局限性,導致它們難以實現長時間的連續工作:

輸出判斷缺失:模型往往難以客觀評估自身的產出,容易迎合用戶的預期而非事實。即便功能僅實現了一小部分,AI也可能判定任務已完成,導致后續步驟建立在錯誤的基礎之上。

經過過去一年多的版本迭代,Anthropic通過多項技術優化解決了上述痛點:

架構升級:從Claude3.7到4.6,模型在編程能力與任務規劃上實現了顯著提升,任務執行時長由起初的1小時躍升至12小時以上。



檢查點機制:引入檢查點持續跟蹤代碼演變,支持在出現偏差時回退到之前的狀態,確保大流程的可控性。



為了防止模型“自欺欺人”,工程師設計了一套生成器與評估器的對抗循環機制,以模擬真實開發環境中的質檢流程:

角色拆解:系統將工作拆分為“生成器(Generator)”與“評估器(Evaluator)”兩個角色。評估器不僅僅是查看代碼,它會利用自動化工具(如Playwright)在真實瀏覽器環境中運行應用,模擬用戶交互并根據評分標準進行客觀打分。



契約化交付:在生成代碼前,生成器與評估器會協商并制定明確的“完成契約(Contract)”。評估器將依據這些具體的契約而非模糊的規格說明進行評分。一旦某項功能未能通過測試,評估器會給出具體的修改意見,促使生成器進行針對性調整。

抗錯能力:若模型在多輪迭代后仍無法滿足評分標準,對抗式機制允許Agent推翻當前方案并從頭嘗試,這種容錯與重試能力是傳統單一循環所不具備的。



隨著模型智能水平的提高,工程架構也應隨之精簡。部分過去被視為必要的復雜組件,在最新模型版本下反而增加了維護成本:



深入分析運行軌跡:調試的核心手段在于讀寫日志。通過分析Agent的運行軌跡(Traces),開發者能夠直接定位AI在判斷邏輯上與人類預期的不一致處,并針對性地調整提示詞(Prompt)與系統指令,而非盲目地堆砌實驗次數。



在構建長時運行Agent時,Anthropic的應用團隊提出了幾項核心建議,旨在提升系統可靠性:

對抗式評估是關鍵:避免依賴模型自評,配置一個獨立的、具備對抗性的評估器,能有效識別出代碼的邊界情況與邏輯漏洞。



明確評分標準:主觀質量可以量化。通過制定明確的設計、工藝與功能性評分維度,能夠逼迫模型向高質量產出收斂。

重視自動化測試:在開發全棧應用時,應將Puppeteer等自動化測試工具集成至評估循環中。模型只有在真正“操作”并運行應用后,才能抓到那些CI系統容易漏掉的邏輯Bug。

目前,這一套工程架構已能夠支持復雜應用的構建,例如音樂創作輔助工具或游戲制作器等。雖然這一過程依然伴隨著較高的算力消耗與成本,但對于復雜任務的自動化與高可靠性產出,這種工程化的約束是不可或缺的。

未來,隨著前沿模型的繼續演進,這些復雜的工程腳手架或許會進一步精簡。但其背后所體現的“契約化拆解”、“對抗式評估”與“運行軌跡分析”的工程思維,將持續作為開發者馴服AI、確保其在復雜任務中保持穩定輸出的核心邏輯。

聲明:個人原創,僅供參考

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
世界杯晴天霹靂!全部取消!

世界杯晴天霹靂!全部取消!

福建睿平
2026-06-10 16:13:20
WTT薩格勒布大冷:方博3-1世乒賽亞軍!國乒8人翻車!女單遭到重創!

WTT薩格勒布大冷:方博3-1世乒賽亞軍!國乒8人翻車!女單遭到重創!

好乒乓
2026-06-10 23:59:53
為什么越便宜的自助餐,越難吃回本?

為什么越便宜的自助餐,越難吃回本?

犀利強哥
2026-06-10 23:40:06
朱珠亮相法網決賽,手里那部手機比她還搶鏡?vivo折疊屏要官宣了?

朱珠亮相法網決賽,手里那部手機比她還搶鏡?vivo折疊屏要官宣了?

今古深日報
2026-06-09 09:48:05
首個援助菲律賓的國家出現,萬萬沒想到,既不是日本,也不是美國

首個援助菲律賓的國家出現,萬萬沒想到,既不是日本,也不是美國

影孖看世界
2026-06-10 23:44:56
蘋果實錘,iPhone Ultra 來了

蘋果實錘,iPhone Ultra 來了

果粉俱樂部
2026-06-10 13:15:03
54歲天后自曝進入“快樂時代”:分手兩年,我找回了那個小女孩

54歲天后自曝進入“快樂時代”:分手兩年,我找回了那個小女孩

娛圈觀察員
2026-06-10 00:10:43
游泳者稱長江重慶江津段現鱷魚 部門回應:來源成謎,巡查暫未發現,提醒野泳者注意風險

游泳者稱長江重慶江津段現鱷魚 部門回應:來源成謎,巡查暫未發現,提醒野泳者注意風險

紅星新聞
2026-06-10 13:54:24
羅彩霞遭同學頂替上大學,為維權硬剛8個單位,22年后迎來新生活

羅彩霞遭同學頂替上大學,為維權硬剛8個單位,22年后迎來新生活

從零到一研究所
2026-06-09 12:40:22
中俄為啥奉行不結盟?俄專家:中國拒絕與俄結盟,原因有三個!

中俄為啥奉行不結盟?俄專家:中國拒絕與俄結盟,原因有三個!

混沌錄
2026-06-10 22:29:05
你見過多少賭博做局內幕?網友:全是精心套路,根本贏不了

你見過多少賭博做局內幕?網友:全是精心套路,根本贏不了

另子維愛讀史
2026-05-13 07:43:50
藤原浩秒刪!全新「閃電倒鉤」Air Jordan 1 Low 首次曝光

藤原浩秒刪!全新「閃電倒鉤」Air Jordan 1 Low 首次曝光

FLIGHTCLUB中文站
2026-06-10 11:52:01
黎玉曾任山東省委書記,獻巨額黃金擁重兵,建國后境遇驟降

黎玉曾任山東省委書記,獻巨額黃金擁重兵,建國后境遇驟降

磊子講史
2026-06-02 14:24:51
經濟一差,到處都是詐騙

經濟一差,到處都是詐騙

職場資深秘書
2026-06-10 08:44:11
大廈將傾?美軍“福特”級航母發生槍擊,赫格塞思法令成導火索

大廈將傾?美軍“福特”級航母發生槍擊,赫格塞思法令成導火索

午夜搭車a
2026-06-10 11:59:34
黃百鳴罪名成立,被判入獄5個月

黃百鳴罪名成立,被判入獄5個月

時間財經
2026-06-09 16:22:02
統一后臺灣將迎全方位幸福巨變

統一后臺灣將迎全方位幸福巨變

烽火瞭望者
2026-06-10 06:23:28
卡戴珊首秀F1為男友站臺,卻把車迷得罪了?網友:高調但啥也不懂,不愧是她...

卡戴珊首秀F1為男友站臺,卻把車迷得罪了?網友:高調但啥也不懂,不愧是她...

英國那些事兒
2026-06-09 23:31:50
真交流還是假把式?沈伯洋稱最想拜會北京,國臺辦:不值一評

真交流還是假把式?沈伯洋稱最想拜會北京,國臺辦:不值一評

離離言幾許
2026-06-11 00:15:01
世界杯門票賣不動了!最離譜的是,連東道主美國隊的票也賣不動

世界杯門票賣不動了!最離譜的是,連東道主美國隊的票也賣不動

知法而形
2026-06-10 18:12:34
2026-06-11 01:07:00
何蕥室內設計
何蕥室內設計
分享室內設計經驗,避坑知識分享。
2378文章數 82關注度
往期回顧 全部

科技要聞

史上最大IPO將至:1.8萬億美元的信仰豪賭

頭條要聞

杭州店主回應2188元天價面:一天200個電話不分晝夜罵

頭條要聞

杭州店主回應2188元天價面:一天200個電話不分晝夜罵

體育要聞

2026世界杯,我們看什么?

娛樂要聞

蒙淇淇發文開撕白鹿!輿論再次反轉

財經要聞

SpaceX IPO或誕生4000名百萬富翁

汽車要聞

埃安i60 530寧德時代版上市限時煥新價10.36萬起

態度原創

教育
健康
房產
時尚
手機

教育要聞

屬于高考的“超級杠桿”時代,過去了

粽子為何難消化?過量吃會怎么樣?

房產要聞

方案曝光,三亞又一地王級豪宅要出!

夏天別總穿黑色長褲,不如看看這些牛仔裙,減齡百搭又耐看

手機要聞

蘋果自研基帶+折疊屏雙箭齊發,卻迎來一好一壞消息!

無障礙瀏覽 進入關懷版