无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

全網(wǎng)最詳細(xì)Agent Harness綜述:OpenAI、Anthropic都在押注的,到底是什么?

0
分享至


過去,LLM Agent的研究更多關(guān)注模型能力本身,例如推理、規(guī)劃、工具使用、記憶和多 Agent 協(xié)作;如今,隨著模型能力提升,任務(wù)執(zhí)行的可靠性越來越依賴 harness 工程

近日,來自卡內(nèi)基梅隆大學(xué)、耶魯大學(xué)、杜蘭大學(xué)、阿拉巴馬大學(xué)伯明翰分校、亞馬遜的研究團(tuán)隊(duì)及其合作者,發(fā)表了一篇 Harness 工程綜述,對 Harness 工程進(jìn)行了系統(tǒng)梳理。研究團(tuán)隊(duì)提到,在不改模型權(quán)重的情況下,僅調(diào)整 harness 層本身,也可能顯著改變 Agent 在 coding 和 terminal benchmark 上的表現(xiàn)。


論文鏈接:https://picrew.github.io/LLM-Harness/main.pdf

項(xiàng)目主頁:https://picrew.github.io/LLM-Harness/

圍繞這一判斷,研究團(tuán)隊(duì)將 2022 到 2026 年的工程重心變化概括為三個(gè)階段:從提示工程,到上下文工程,再到harness 工程并提出了 ETCLOVG 七層分類體系。與已有框架相比,這一體系將“可觀測性”和“治理”作為獨(dú)立的架構(gòu)層看待。

此外,他們對 170 多個(gè)公開條目進(jìn)行了系統(tǒng)映射,總結(jié)了目前 Agent 基礎(chǔ)設(shè)施生態(tài)中的分布特征、覆蓋空白和新出現(xiàn)的設(shè)計(jì)方向。同時(shí),他們也總結(jié)了 OpenAI、Anthropic 和 LangChain 在生產(chǎn)部署中的工程經(jīng)驗(yàn),以幫助讀者更具體地理解 Harness 工程。


圖|2022 年至 2026 年代表性 Agent-harness 系統(tǒng)時(shí)間線。

如何理解 Harness 工程?

研究團(tuán)隊(duì)對 Harness 工程作了更明確的范圍界定:它并非泛指與大語言模型相關(guān)的所有外圍系統(tǒng),而是指模型外層的工程化運(yùn)行框架。它通過執(zhí)行環(huán)境、工具接口、上下文控制、任務(wù)編排、可觀測性、評估反饋和治理機(jī)制,將模型調(diào)用組織成可執(zhí)行、可控制、可追蹤的任務(wù)流程。

圍繞這一定義,研究團(tuán)隊(duì)將 2022 到 2026 年的 harness 演進(jìn)概括為三個(gè)階段:

  • 2022-2024年:提示工程(prompt engineering)階段,重點(diǎn)是優(yōu)化單次模型調(diào)用的輸入。
  • 2025 年:上下文工程(context engineering)階段,重點(diǎn)不再只是如何寫提示詞,而是每一步該向模型提供什么上下文,因此重心也轉(zhuǎn)向了上下文管理。
  • 2026 年:harness 工程階段,隨著 Agent 開始處理長鏈條、多步任務(wù),可靠性越來越取決于模型外層的基礎(chǔ)設(shè)施,即狀態(tài)管理、工具協(xié)調(diào)、反饋?zhàn)⑷搿⒓s束施加和進(jìn)展驗(yàn)證。


圖|提示工程、上下文工程與 harness 工程的簡要對比。

在此基礎(chǔ)上,研究團(tuán)隊(duì)提出了ETCLOVG 七層分類,包括執(zhí)行環(huán)境與沙箱(Execution Environment & Sandbox)、工具接口與協(xié)議(Tool Interface & Protocol)、上下文管理(Context Management)、生命周期與編排(Lifecycle and Orchestration)、可觀測性(Observability)、驗(yàn)證(Verification)和治理(Governance)。其中,前四層構(gòu)成了 harness 的結(jié)構(gòu)核心,后三層則對應(yīng)圍繞這一核心的控制平面。

具體來看,ETCLOVG 七層分別對應(yīng):

  • 執(zhí)行環(huán)境:決定 Agent 代碼在哪里運(yùn)行、受到什么約束。
  • 工具接口與協(xié)議:定義外部能力如何被描述、發(fā)現(xiàn)和調(diào)用。
  • 上下文管理:決定模型在短期、會(huì)話級和持久化層面能看到什么。
  • 生命周期與編排:負(fù)責(zé)組織這些狀態(tài)的讀寫控制流,覆蓋從單 Agent 循環(huán)、多 Agent 協(xié)作到從 issue 到 pull request 的工作流。
  • 可觀測性:負(fù)責(zé)捕獲軌跡、成本、失敗和可靠性信號。
  • 驗(yàn)證:負(fù)責(zé)把任務(wù)和軌跡轉(zhuǎn)化為評估、失敗歸因和回歸反饋。
  • 治理:這一層主要通過權(quán)限、身份、策略、安全加固、審計(jì)和人工監(jiān)督來約束系統(tǒng)行為。


圖|基于 LLM 的 Agent 系統(tǒng)中 harness engineering 分類體系示意圖

Harness 工程的開源生態(tài)

這篇綜述的實(shí)證部分對公開可見的 harness 生態(tài)進(jìn)行系統(tǒng)映射。研究團(tuán)隊(duì)核驗(yàn)的技術(shù)目錄共包含 171 個(gè)公開條目,其中 146 個(gè)來自 GitHub,142 個(gè) GitHub 項(xiàng)目被納入分層統(tǒng)計(jì)。

按主層歸類看,生命周期與編排類項(xiàng)目最多,其次是驗(yàn)證、執(zhí)行環(huán)境與沙箱。相比之下,可觀測性與治理相關(guān)項(xiàng)目較少;上下文與記憶相關(guān)能力往往內(nèi)嵌在大型框架中,很少作為獨(dú)立的 harness 組件發(fā)布。基于這份映射,研究團(tuán)隊(duì)指出,較完整的 harness 系統(tǒng)正呈現(xiàn)跨層集成趨勢,即在同一套系統(tǒng)中同時(shí)結(jié)合沙箱、工具協(xié)議、編排、追蹤、評估和權(quán)限控制。


圖|技術(shù)生態(tài)精選目錄

Harness 工程的落地經(jīng)驗(yàn)

除了對開源生態(tài)的系統(tǒng)映射,研究團(tuán)隊(duì)還梳理了OpenAI、Anthropic 和 LangChain在生產(chǎn)部署中的一些共通經(jīng)驗(yàn)。具體如下:

  • OpenAI 將 harness engineering 明確表述為圍繞Codex agents設(shè)計(jì)環(huán)境、約束、文檔和反饋回路的工程工作;
  • Anthropic 強(qiáng)調(diào),Agent 應(yīng)采用簡單、可檢查的架構(gòu);工具接口應(yīng)為 Agent 而設(shè)計(jì),而不是直接沿用給人用的 API;上下文應(yīng)隨著任務(wù)推進(jìn)逐步提供,而不是一開始就全部交給模型;對于長時(shí)間運(yùn)行的工作,還需要可恢復(fù)的執(zhí)行基礎(chǔ)設(shè)施和清晰的交接產(chǎn)物。
  • LangChain 的實(shí)踐則更強(qiáng)調(diào)深度 Agent 的評測方法:需要根據(jù)具體任務(wù)編寫測試邏輯,結(jié)合單步、完整回合和多輪評測,并為每次評測提供可重置、可復(fù)現(xiàn)的環(huán)境。

研究團(tuán)隊(duì)進(jìn)一步結(jié)合 LangChain 與 Anthropic 的實(shí)踐指出,評測與可觀測性不應(yīng)彼此割裂,而應(yīng)被視為同一反饋回路的一部分。

不足和未來方向

盡管該綜述對公開可見的 harness 生態(tài)進(jìn)行了較為全面的梳理,研究團(tuán)隊(duì)也指出了目前研究的不足與未來方向。具體如下:

研究團(tuán)隊(duì)指出,這篇綜述所依據(jù)的是公開可見的樣本,不是對全部生產(chǎn)系統(tǒng)的完整盤點(diǎn)。閉源系統(tǒng)因缺少公開信息,在樣本中明顯不足;相比之下,代碼 Agent 相關(guān)基礎(chǔ)設(shè)施更容易留下倉庫、benchmark、sandbox 和工作流等公開痕跡,因此也更容易被納入這份映射,這也意味著非代碼類 Agent 生態(tài)在當(dāng)前樣本中呈現(xiàn)得還不夠充分。研究團(tuán)隊(duì)同時(shí)強(qiáng)調(diào),分類依據(jù)是公開證據(jù)是否充分,而不是系統(tǒng)內(nèi)部是否真實(shí)具備相應(yīng)能力。

此外,研究團(tuán)隊(duì)也提出了幾個(gè)后續(xù)值得關(guān)注的方向:如何提升執(zhí)行環(huán)境的安全性、可擴(kuò)展性和可遷移性;如何讓長時(shí)間運(yùn)行的 Agent 在多輪執(zhí)行中保持可靠狀態(tài);系統(tǒng)發(fā)生故障后,如何基于執(zhí)行軌跡更準(zhǔn)確地定位原因;以及如何在 Agent、工具和人之間建立更標(biāo)準(zhǔn)化的交接機(jī)制

目前,ETCLOVG 主要還是一套用于描述和整理現(xiàn)象的框架。研究團(tuán)隊(duì)指出,隨著模型能力持續(xù)變化,哪些 harness 機(jī)制仍然必要,哪些需要重新評估、簡化,甚至移除,也是后續(xù)必須面對的問題。未來,更重要的是讓 ETCLOVG 框架不只停留在描述和整理現(xiàn)象,進(jìn)一步發(fā)展成能夠指導(dǎo) harness 設(shè)計(jì)決策的框架。

更多技術(shù)細(xì)節(jié),詳見原論文。

作者:夏千斯

如需轉(zhuǎn)載或投稿,請直接在本文章評論區(qū)內(nèi)留言

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
中足聯(lián)官宣重磅罰單!52歲于根偉禁賽5場罰5萬 辱罵+率隊(duì)圍堵裁判

中足聯(lián)官宣重磅罰單!52歲于根偉禁賽5場罰5萬 辱罵+率隊(duì)圍堵裁判

我愛英超
2026-07-02 22:05:30
早上7點(diǎn) 世界杯14億大戰(zhàn)!C羅深陷20年魔咒 必有1巨星出局

早上7點(diǎn) 世界杯14億大戰(zhàn)!C羅深陷20年魔咒 必有1巨星出局

葉青足球世界
2026-07-02 17:12:02
一路走好!1天時(shí)間4位名人被曝去世,最大78歲,最小才30歲

一路走好!1天時(shí)間4位名人被曝去世,最大78歲,最小才30歲

借你一生
2026-07-02 10:26:03
成田機(jī)場的一張廣告牌,讓日本攝影師恍惚:“瞬間以為回到了中國”

成田機(jī)場的一張廣告牌,讓日本攝影師恍惚:“瞬間以為回到了中國”

東京在線
2026-07-02 16:57:07
里子面子都丟了!管不住下半身的任素汐,一場演唱會(huì)撕下她的體面

里子面子都丟了!管不住下半身的任素汐,一場演唱會(huì)撕下她的體面

往史過眼云煙
2026-07-02 09:55:26
首都保衛(wèi)戰(zhàn)打響后,普京發(fā)表全國講話,俄羅斯對美西方發(fā)出通牒

首都保衛(wèi)戰(zhàn)打響后,普京發(fā)表全國講話,俄羅斯對美西方發(fā)出通牒

策前論
2026-07-02 17:21:49
“一個(gè)月600塊你要餓死他?”大學(xué)男生吃飯被偷拍,看的人心疼!

“一個(gè)月600塊你要餓死他?”大學(xué)男生吃飯被偷拍,看的人心疼!

林林先生
2026-07-01 12:30:03
從699分到愛心接力:少年向上 社會(huì)向善丨中聽

從699分到愛心接力:少年向上 社會(huì)向善丨中聽

大象新聞
2026-07-01 16:30:12
六代機(jī),就這么明晃晃的官宣了!

六代機(jī),就這么明晃晃的官宣了!

新動(dòng)察
2026-07-02 08:25:58
韓紅一句“走個(gè)面兒”引全網(wǎng)聲討,這屆觀眾不伺候了

韓紅一句“走個(gè)面兒”引全網(wǎng)聲討,這屆觀眾不伺候了

可達(dá)鴨面面觀
2026-07-02 19:44:03
曝38歲德國主帥下課 足協(xié)開會(huì)3小時(shí)要求他辭職 愿付700萬歐補(bǔ)償金

曝38歲德國主帥下課 足協(xié)開會(huì)3小時(shí)要求他辭職 愿付700萬歐補(bǔ)償金

我愛英超
2026-07-02 21:40:07
80%變0!里奇·保羅曝光詹姆斯離湖心路

80%變0!里奇·保羅曝光詹姆斯離湖心路

籃壇第一線
2026-07-02 00:47:17
地鐵吐血女孩半月內(nèi)多次收到病危通知單,當(dāng)事人:自己的生命已經(jīng)進(jìn)入倒計(jì)時(shí),但還是希望能夠有人關(guān)注到自己手里仍在運(yùn)行的公益項(xiàng)目

地鐵吐血女孩半月內(nèi)多次收到病危通知單,當(dāng)事人:自己的生命已經(jīng)進(jìn)入倒計(jì)時(shí),但還是希望能夠有人關(guān)注到自己手里仍在運(yùn)行的公益項(xiàng)目

瀟湘晨報(bào)
2026-07-02 16:32:20
賈玲直言自己又活過來了,大方承認(rèn)體重反彈了,坦言不再逼自己極端自律,活得太通透了

賈玲直言自己又活過來了,大方承認(rèn)體重反彈了,坦言不再逼自己極端自律,活得太通透了

背包旅行
2026-07-02 11:45:23
西安賽格墜樓熱搜刷屏:我看到謀生的嚴(yán)總,走上絕路時(shí)的無助

西安賽格墜樓熱搜刷屏:我看到謀生的嚴(yán)總,走上絕路時(shí)的無助

李晚書
2026-07-02 18:44:26
故意剝奪伊朗隊(duì)勝利!伊朗裔美國專家起訴國際足聯(lián),索賠10億美元

故意剝奪伊朗隊(duì)勝利!伊朗裔美國專家起訴國際足聯(lián),索賠10億美元

全景體育V
2026-07-02 21:38:20
成都一女子不洗手抱孫子,兒媳怒斥不衛(wèi)生,兒子一拳打面中,母親揚(yáng)言要兒子坐牢,兒子卻說:她活該!6年后現(xiàn)狀曝光...

成都一女子不洗手抱孫子,兒媳怒斥不衛(wèi)生,兒子一拳打面中,母親揚(yáng)言要兒子坐牢,兒子卻說:她活該!6年后現(xiàn)狀曝光...

背包旅行
2026-07-02 14:33:11
中國臺(tái)灣演員陳昊森承認(rèn)與湖北女演員蘭西雅相戀,目前已交往超過半年,兩人曾合作電影

中國臺(tái)灣演員陳昊森承認(rèn)與湖北女演員蘭西雅相戀,目前已交往超過半年,兩人曾合作電影

極目新聞
2026-07-02 22:47:55
加息,突變!美國重磅數(shù)據(jù)出爐!美股、黃金、比特幣全線拉升

加息,突變!美國重磅數(shù)據(jù)出爐!美股、黃金、比特幣全線拉升

證券時(shí)報(bào)
2026-07-02 21:53:03
扎哈羅娃:馮德萊恩是個(gè)“出色的騙子”

扎哈羅娃:馮德萊恩是個(gè)“出色的騙子”

參考消息
2026-07-02 14:14:08
2026-07-03 02:28:49
人工智能學(xué)家 incentive-icons
人工智能學(xué)家
人工智能領(lǐng)域權(quán)威媒體
4864文章數(shù) 37483關(guān)注度
往期回顧 全部

科技要聞

馬斯克不承認(rèn),但SpaceX就該造AI手機(jī)

頭條要聞

商戶在西安賽格商場墜亡 好友:他曾變賣門店發(fā)工資

頭條要聞

商戶在西安賽格商場墜亡 好友:他曾變賣門店發(fā)工資

體育要聞

韓國人,為什么恨透了洪明甫?

娛樂要聞

眾星祝福祖國,曾沛慈原形畢露?

財(cái)經(jīng)要聞

千億茶市場無贏家:瀾滄巨虧 八馬停"蹄"

汽車要聞

有純電有增程 還有二代VLA支持 小鵬MONA L03預(yù)售價(jià)14.38萬起

態(tài)度原創(chuàng)

教育
游戲
房產(chǎn)
本地
時(shí)尚

教育要聞

初二期末只在校內(nèi)第120名、第125名,四年后在全省站到了狀元榜眼

國產(chǎn)外設(shè)廠"宣布"放棄實(shí)體手柄!數(shù)字化徹底解決漂移

房產(chǎn)要聞

稀缺預(yù)警!海岸線200米+限墅令下,海南「絕版硬通貨」來了!

本地新聞

這場穿越酉陽的光影之旅,張張都是壁紙!

這個(gè)夏天,你一定吃過她們的瓜

無障礙瀏覽 進(jìn)入關(guān)懷版