全網(wǎng)最詳細(xì)Agent Harness綜述：OpenAI、Anthropic都在押注的，到底是什么？

2026-06-01 17:57:25　來源: 人工智能學(xué)家

北京舉報(bào)

分享至

過去，LLM Agent的研究更多關(guān)注模型能力本身，例如推理、規(guī)劃、工具使用、記憶和多 Agent 協(xié)作；如今，隨著模型能力提升，任務(wù)執(zhí)行的可靠性越來越依賴 harness 工程。

近日，來自卡內(nèi)基梅隆大學(xué)、耶魯大學(xué)、杜蘭大學(xué)、阿拉巴馬大學(xué)伯明翰分校、亞馬遜的研究團(tuán)隊(duì)及其合作者，發(fā)表了一篇 Harness 工程綜述，對 Harness 工程進(jìn)行了系統(tǒng)梳理。研究團(tuán)隊(duì)提到，在不改模型權(quán)重的情況下，僅調(diào)整 harness 層本身，也可能顯著改變 Agent 在 coding 和 terminal benchmark 上的表現(xiàn)。

論文鏈接：https://picrew.github.io/LLM-Harness/main.pdf

項(xiàng)目主頁：https://picrew.github.io/LLM-Harness/

圍繞這一判斷，研究團(tuán)隊(duì)將 2022 到 2026 年的工程重心變化概括為三個(gè)階段：從提示工程，到上下文工程，再到harness 工程，并提出了 ETCLOVG 七層分類體系。與已有框架相比，這一體系將“可觀測性”和“治理”作為獨(dú)立的架構(gòu)層看待。

此外，他們對 170 多個(gè)公開條目進(jìn)行了系統(tǒng)映射，總結(jié)了目前 Agent 基礎(chǔ)設(shè)施生態(tài)中的分布特征、覆蓋空白和新出現(xiàn)的設(shè)計(jì)方向。同時(shí)，他們也總結(jié)了 OpenAI、Anthropic 和 LangChain 在生產(chǎn)部署中的工程經(jīng)驗(yàn)，以幫助讀者更具體地理解 Harness 工程。

圖｜2022 年至 2026 年代表性 Agent-harness 系統(tǒng)時(shí)間線。

如何理解 Harness 工程？

研究團(tuán)隊(duì)對 Harness 工程作了更明確的范圍界定：它并非泛指與大語言模型相關(guān)的所有外圍系統(tǒng)，而是指模型外層的工程化運(yùn)行框架。它通過執(zhí)行環(huán)境、工具接口、上下文控制、任務(wù)編排、可觀測性、評估反饋和治理機(jī)制，將模型調(diào)用組織成可執(zhí)行、可控制、可追蹤的任務(wù)流程。

圍繞這一定義，研究團(tuán)隊(duì)將 2022 到 2026 年的 harness 演進(jìn)概括為三個(gè)階段：

2022-2024年：提示工程（prompt engineering）階段，重點(diǎn)是優(yōu)化單次模型調(diào)用的輸入。
2025 年：上下文工程（context engineering）階段，重點(diǎn)不再只是如何寫提示詞，而是每一步該向模型提供什么上下文，因此重心也轉(zhuǎn)向了上下文管理。
2026 年：harness 工程階段，隨著 Agent 開始處理長鏈條、多步任務(wù)，可靠性越來越取決于模型外層的基礎(chǔ)設(shè)施，即狀態(tài)管理、工具協(xié)調(diào)、反饋?zhàn)⑷搿⒓s束施加和進(jìn)展驗(yàn)證。

圖｜提示工程、上下文工程與 harness 工程的簡要對比。

在此基礎(chǔ)上，研究團(tuán)隊(duì)提出了ETCLOVG 七層分類，包括執(zhí)行環(huán)境與沙箱（Execution Environment & Sandbox）、工具接口與協(xié)議（Tool Interface & Protocol）、上下文管理（Context Management）、生命周期與編排（Lifecycle and Orchestration）、可觀測性（Observability）、驗(yàn)證（Verification）和治理（Governance）。其中，前四層構(gòu)成了 harness 的結(jié)構(gòu)核心，后三層則對應(yīng)圍繞這一核心的控制平面。

具體來看，ETCLOVG 七層分別對應(yīng)：

執(zhí)行環(huán)境：決定 Agent 代碼在哪里運(yùn)行、受到什么約束。
工具接口與協(xié)議：定義外部能力如何被描述、發(fā)現(xiàn)和調(diào)用。
上下文管理：決定模型在短期、會(huì)話級和持久化層面能看到什么。
生命周期與編排：負(fù)責(zé)組織這些狀態(tài)的讀寫控制流，覆蓋從單 Agent 循環(huán)、多 Agent 協(xié)作到從 issue 到 pull request 的工作流。
可觀測性：負(fù)責(zé)捕獲軌跡、成本、失敗和可靠性信號。
驗(yàn)證：負(fù)責(zé)把任務(wù)和軌跡轉(zhuǎn)化為評估、失敗歸因和回歸反饋。
治理：這一層主要通過權(quán)限、身份、策略、安全加固、審計(jì)和人工監(jiān)督來約束系統(tǒng)行為。

圖｜基于 LLM 的 Agent 系統(tǒng)中 harness engineering 分類體系示意圖

Harness 工程的開源生態(tài)

這篇綜述的實(shí)證部分對公開可見的 harness 生態(tài)進(jìn)行系統(tǒng)映射。研究團(tuán)隊(duì)核驗(yàn)的技術(shù)目錄共包含 171 個(gè)公開條目，其中 146 個(gè)來自 GitHub，142 個(gè) GitHub 項(xiàng)目被納入分層統(tǒng)計(jì)。

按主層歸類看，生命周期與編排類項(xiàng)目最多，其次是驗(yàn)證、執(zhí)行環(huán)境與沙箱。相比之下，可觀測性與治理相關(guān)項(xiàng)目較少；上下文與記憶相關(guān)能力往往內(nèi)嵌在大型框架中，很少作為獨(dú)立的 harness 組件發(fā)布。基于這份映射，研究團(tuán)隊(duì)指出，較完整的 harness 系統(tǒng)正呈現(xiàn)跨層集成趨勢，即在同一套系統(tǒng)中同時(shí)結(jié)合沙箱、工具協(xié)議、編排、追蹤、評估和權(quán)限控制。

圖｜技術(shù)生態(tài)精選目錄

Harness 工程的落地經(jīng)驗(yàn)

除了對開源生態(tài)的系統(tǒng)映射，研究團(tuán)隊(duì)還梳理了OpenAI、Anthropic 和 LangChain在生產(chǎn)部署中的一些共通經(jīng)驗(yàn)。具體如下：

OpenAI 將 harness engineering 明確表述為圍繞Codex agents設(shè)計(jì)環(huán)境、約束、文檔和反饋回路的工程工作；
Anthropic 強(qiáng)調(diào)，Agent 應(yīng)采用簡單、可檢查的架構(gòu)；工具接口應(yīng)為 Agent 而設(shè)計(jì)，而不是直接沿用給人用的 API；上下文應(yīng)隨著任務(wù)推進(jìn)逐步提供，而不是一開始就全部交給模型；對于長時(shí)間運(yùn)行的工作，還需要可恢復(fù)的執(zhí)行基礎(chǔ)設(shè)施和清晰的交接產(chǎn)物。
LangChain 的實(shí)踐則更強(qiáng)調(diào)深度 Agent 的評測方法：需要根據(jù)具體任務(wù)編寫測試邏輯，結(jié)合單步、完整回合和多輪評測，并為每次評測提供可重置、可復(fù)現(xiàn)的環(huán)境。

研究團(tuán)隊(duì)進(jìn)一步結(jié)合 LangChain 與 Anthropic 的實(shí)踐指出，評測與可觀測性不應(yīng)彼此割裂，而應(yīng)被視為同一反饋回路的一部分。

不足和未來方向

盡管該綜述對公開可見的 harness 生態(tài)進(jìn)行了較為全面的梳理，研究團(tuán)隊(duì)也指出了目前研究的不足與未來方向。具體如下：

研究團(tuán)隊(duì)指出，這篇綜述所依據(jù)的是公開可見的樣本，不是對全部生產(chǎn)系統(tǒng)的完整盤點(diǎn)。閉源系統(tǒng)因缺少公開信息，在樣本中明顯不足；相比之下，代碼 Agent 相關(guān)基礎(chǔ)設(shè)施更容易留下倉庫、benchmark、sandbox 和工作流等公開痕跡，因此也更容易被納入這份映射，這也意味著非代碼類 Agent 生態(tài)在當(dāng)前樣本中呈現(xiàn)得還不夠充分。研究團(tuán)隊(duì)同時(shí)強(qiáng)調(diào)，分類依據(jù)是公開證據(jù)是否充分，而不是系統(tǒng)內(nèi)部是否真實(shí)具備相應(yīng)能力。

此外，研究團(tuán)隊(duì)也提出了幾個(gè)后續(xù)值得關(guān)注的方向：如何提升執(zhí)行環(huán)境的安全性、可擴(kuò)展性和可遷移性；如何讓長時(shí)間運(yùn)行的 Agent 在多輪執(zhí)行中保持可靠狀態(tài)；系統(tǒng)發(fā)生故障后，如何基于執(zhí)行軌跡更準(zhǔn)確地定位原因；以及如何在 Agent、工具和人之間建立更標(biāo)準(zhǔn)化的交接機(jī)制。

目前，ETCLOVG 主要還是一套用于描述和整理現(xiàn)象的框架。研究團(tuán)隊(duì)指出，隨著模型能力持續(xù)變化，哪些 harness 機(jī)制仍然必要，哪些需要重新評估、簡化，甚至移除，也是后續(xù)必須面對的問題。未來，更重要的是讓 ETCLOVG 框架不只停留在描述和整理現(xiàn)象，進(jìn)一步發(fā)展成能夠指導(dǎo) harness 設(shè)計(jì)決策的框架。

更多技術(shù)細(xì)節(jié)，詳見原論文。

作者：夏千斯

如需轉(zhuǎn)載或投稿，請直接在本文章評論區(qū)內(nèi)留言

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.