![]()
過去,LLM Agent的研究更多關(guān)注模型能力本身,例如推理、規(guī)劃、工具使用、記憶和多 Agent 協(xié)作;如今,隨著模型能力提升,任務(wù)執(zhí)行的可靠性越來越依賴 harness 工程。
近日,來自卡內(nèi)基梅隆大學(xué)、耶魯大學(xué)、杜蘭大學(xué)、阿拉巴馬大學(xué)伯明翰分校、亞馬遜的研究團(tuán)隊(duì)及其合作者,發(fā)表了一篇 Harness 工程綜述,對 Harness 工程進(jìn)行了系統(tǒng)梳理。研究團(tuán)隊(duì)提到,在不改模型權(quán)重的情況下,僅調(diào)整 harness 層本身,也可能顯著改變 Agent 在 coding 和 terminal benchmark 上的表現(xiàn)。
![]()
論文鏈接:https://picrew.github.io/LLM-Harness/main.pdf
項(xiàng)目主頁:https://picrew.github.io/LLM-Harness/
圍繞這一判斷,研究團(tuán)隊(duì)將 2022 到 2026 年的工程重心變化概括為三個(gè)階段:從提示工程,到上下文工程,再到harness 工程,并提出了 ETCLOVG 七層分類體系。與已有框架相比,這一體系將“可觀測性”和“治理”作為獨(dú)立的架構(gòu)層看待。
此外,他們對 170 多個(gè)公開條目進(jìn)行了系統(tǒng)映射,總結(jié)了目前 Agent 基礎(chǔ)設(shè)施生態(tài)中的分布特征、覆蓋空白和新出現(xiàn)的設(shè)計(jì)方向。同時(shí),他們也總結(jié)了 OpenAI、Anthropic 和 LangChain 在生產(chǎn)部署中的工程經(jīng)驗(yàn),以幫助讀者更具體地理解 Harness 工程。
![]()
圖|2022 年至 2026 年代表性 Agent-harness 系統(tǒng)時(shí)間線。
如何理解 Harness 工程?
研究團(tuán)隊(duì)對 Harness 工程作了更明確的范圍界定:它并非泛指與大語言模型相關(guān)的所有外圍系統(tǒng),而是指模型外層的工程化運(yùn)行框架。它通過執(zhí)行環(huán)境、工具接口、上下文控制、任務(wù)編排、可觀測性、評估反饋和治理機(jī)制,將模型調(diào)用組織成可執(zhí)行、可控制、可追蹤的任務(wù)流程。
圍繞這一定義,研究團(tuán)隊(duì)將 2022 到 2026 年的 harness 演進(jìn)概括為三個(gè)階段:
- 2022-2024年:提示工程(prompt engineering)階段,重點(diǎn)是優(yōu)化單次模型調(diào)用的輸入。
- 2025 年:上下文工程(context engineering)階段,重點(diǎn)不再只是如何寫提示詞,而是每一步該向模型提供什么上下文,因此重心也轉(zhuǎn)向了上下文管理。
- 2026 年:harness 工程階段,隨著 Agent 開始處理長鏈條、多步任務(wù),可靠性越來越取決于模型外層的基礎(chǔ)設(shè)施,即狀態(tài)管理、工具協(xié)調(diào)、反饋?zhàn)⑷搿⒓s束施加和進(jìn)展驗(yàn)證。
![]()
圖|提示工程、上下文工程與 harness 工程的簡要對比。
在此基礎(chǔ)上,研究團(tuán)隊(duì)提出了ETCLOVG 七層分類,包括執(zhí)行環(huán)境與沙箱(Execution Environment & Sandbox)、工具接口與協(xié)議(Tool Interface & Protocol)、上下文管理(Context Management)、生命周期與編排(Lifecycle and Orchestration)、可觀測性(Observability)、驗(yàn)證(Verification)和治理(Governance)。其中,前四層構(gòu)成了 harness 的結(jié)構(gòu)核心,后三層則對應(yīng)圍繞這一核心的控制平面。
具體來看,ETCLOVG 七層分別對應(yīng):
- 執(zhí)行環(huán)境:決定 Agent 代碼在哪里運(yùn)行、受到什么約束。
- 工具接口與協(xié)議:定義外部能力如何被描述、發(fā)現(xiàn)和調(diào)用。
- 上下文管理:決定模型在短期、會(huì)話級和持久化層面能看到什么。
- 生命周期與編排:負(fù)責(zé)組織這些狀態(tài)的讀寫控制流,覆蓋從單 Agent 循環(huán)、多 Agent 協(xié)作到從 issue 到 pull request 的工作流。
- 可觀測性:負(fù)責(zé)捕獲軌跡、成本、失敗和可靠性信號。
- 驗(yàn)證:負(fù)責(zé)把任務(wù)和軌跡轉(zhuǎn)化為評估、失敗歸因和回歸反饋。
- 治理:這一層主要通過權(quán)限、身份、策略、安全加固、審計(jì)和人工監(jiān)督來約束系統(tǒng)行為。
![]()
圖|基于 LLM 的 Agent 系統(tǒng)中 harness engineering 分類體系示意圖
Harness 工程的開源生態(tài)
這篇綜述的實(shí)證部分對公開可見的 harness 生態(tài)進(jìn)行系統(tǒng)映射。研究團(tuán)隊(duì)核驗(yàn)的技術(shù)目錄共包含 171 個(gè)公開條目,其中 146 個(gè)來自 GitHub,142 個(gè) GitHub 項(xiàng)目被納入分層統(tǒng)計(jì)。
按主層歸類看,生命周期與編排類項(xiàng)目最多,其次是驗(yàn)證、執(zhí)行環(huán)境與沙箱。相比之下,可觀測性與治理相關(guān)項(xiàng)目較少;上下文與記憶相關(guān)能力往往內(nèi)嵌在大型框架中,很少作為獨(dú)立的 harness 組件發(fā)布。基于這份映射,研究團(tuán)隊(duì)指出,較完整的 harness 系統(tǒng)正呈現(xiàn)跨層集成趨勢,即在同一套系統(tǒng)中同時(shí)結(jié)合沙箱、工具協(xié)議、編排、追蹤、評估和權(quán)限控制。
![]()
圖|技術(shù)生態(tài)精選目錄
Harness 工程的落地經(jīng)驗(yàn)
除了對開源生態(tài)的系統(tǒng)映射,研究團(tuán)隊(duì)還梳理了OpenAI、Anthropic 和 LangChain在生產(chǎn)部署中的一些共通經(jīng)驗(yàn)。具體如下:
- OpenAI 將 harness engineering 明確表述為圍繞Codex agents設(shè)計(jì)環(huán)境、約束、文檔和反饋回路的工程工作;
- Anthropic 強(qiáng)調(diào),Agent 應(yīng)采用簡單、可檢查的架構(gòu);工具接口應(yīng)為 Agent 而設(shè)計(jì),而不是直接沿用給人用的 API;上下文應(yīng)隨著任務(wù)推進(jìn)逐步提供,而不是一開始就全部交給模型;對于長時(shí)間運(yùn)行的工作,還需要可恢復(fù)的執(zhí)行基礎(chǔ)設(shè)施和清晰的交接產(chǎn)物。
- LangChain 的實(shí)踐則更強(qiáng)調(diào)深度 Agent 的評測方法:需要根據(jù)具體任務(wù)編寫測試邏輯,結(jié)合單步、完整回合和多輪評測,并為每次評測提供可重置、可復(fù)現(xiàn)的環(huán)境。
研究團(tuán)隊(duì)進(jìn)一步結(jié)合 LangChain 與 Anthropic 的實(shí)踐指出,評測與可觀測性不應(yīng)彼此割裂,而應(yīng)被視為同一反饋回路的一部分。
不足和未來方向
盡管該綜述對公開可見的 harness 生態(tài)進(jìn)行了較為全面的梳理,研究團(tuán)隊(duì)也指出了目前研究的不足與未來方向。具體如下:
研究團(tuán)隊(duì)指出,這篇綜述所依據(jù)的是公開可見的樣本,不是對全部生產(chǎn)系統(tǒng)的完整盤點(diǎn)。閉源系統(tǒng)因缺少公開信息,在樣本中明顯不足;相比之下,代碼 Agent 相關(guān)基礎(chǔ)設(shè)施更容易留下倉庫、benchmark、sandbox 和工作流等公開痕跡,因此也更容易被納入這份映射,這也意味著非代碼類 Agent 生態(tài)在當(dāng)前樣本中呈現(xiàn)得還不夠充分。研究團(tuán)隊(duì)同時(shí)強(qiáng)調(diào),分類依據(jù)是公開證據(jù)是否充分,而不是系統(tǒng)內(nèi)部是否真實(shí)具備相應(yīng)能力。
此外,研究團(tuán)隊(duì)也提出了幾個(gè)后續(xù)值得關(guān)注的方向:如何提升執(zhí)行環(huán)境的安全性、可擴(kuò)展性和可遷移性;如何讓長時(shí)間運(yùn)行的 Agent 在多輪執(zhí)行中保持可靠狀態(tài);系統(tǒng)發(fā)生故障后,如何基于執(zhí)行軌跡更準(zhǔn)確地定位原因;以及如何在 Agent、工具和人之間建立更標(biāo)準(zhǔn)化的交接機(jī)制。
目前,ETCLOVG 主要還是一套用于描述和整理現(xiàn)象的框架。研究團(tuán)隊(duì)指出,隨著模型能力持續(xù)變化,哪些 harness 機(jī)制仍然必要,哪些需要重新評估、簡化,甚至移除,也是后續(xù)必須面對的問題。未來,更重要的是讓 ETCLOVG 框架不只停留在描述和整理現(xiàn)象,進(jìn)一步發(fā)展成能夠指導(dǎo) harness 設(shè)計(jì)決策的框架。
更多技術(shù)細(xì)節(jié),詳見原論文。
作者:夏千斯
如需轉(zhuǎn)載或投稿,請直接在本文章評論區(qū)內(nèi)留言
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.