无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

openJiuwen 社區又上新: JiuwenSwarm給Harness 裝上「后訓練」

0
分享至


Agent 的調優正在遇到一個結構性問題:模型本身已經有相對成熟的訓練與后訓練范式,但模型外部的 Harness,仍主要依賴人工調試。

而 Harness 的調優,包含著大量瑣碎、重復、耗時的臟活累活。開發者只能沿著執行軌跡往回看,再手動調試。這類工作單次看只是調試成本,累積起來就會變成 Agent 落地的工程瓶頸。

最近,我們關注到華為支持的openJiuwen 社區開源了"Auto Harness"—— 一個由評測驅動的、覆蓋 Harness 全棧組件的端到端自動優化框架 。

Harness 的自動化優化,正在成為 Agent 研究和工程領域的一個重要方向。不過,當前學術界和業界的工作主要停留在 benchmark 和研究驗證階段,還沒有形成大規模工程化應用。

JiuwenSwarm 對 Auto Harness 的更新,也成為 Harness 自動化優化領域首次工程化落地。它也補上了 Agent “后訓練”的另一塊拼圖:模型后訓練優化的是模型本身,Auto Harness 則試圖讓模型外部的執行系統,也能在任務反饋中持續進化。

先對齊概念,為什么要 Auto Harness

先快速對齊一下概念。

如果把 LLM 比作大腦,Harness 就是大腦外面那一整套讓它能干活的東西——它怎么知道現在該調哪個工具、怎么記住上一輪發生了什么、什么時候該停下來想一想、什么時候該讓另一個 Agent 接手。

所有這些"能干活"的邏輯,都不在模型權重里,而在 Harness 里。

公式就是那個大家耳熟能詳的:

Agent = Model + Harness

聽起來挺順,問題是這兩邊的進化速度完全不對等。

模型這邊,從 RLHF 到 DPO 到 GRPO,后訓練已經卷出了完整的方法論。模型表現不行?可以訓。

Harness 這邊呢?至今還在靠人手工調。

做過的人應該都有體感——

一個 prompt 改一個詞,Agent 行為大變樣。

一個工具描述里少寫一句"請優先使用",模型就會自己瞎搞。

一個 rail 鉤子加錯位置,整個 loop 就轉不下去了。

更要命的是,這套手感幾乎沒法復用。換一個場景、換一個垂域、換一個客戶,前一套調好的 Harness 基本得推倒重來。

這就是 Auto Harness 要解決的事。

Auto Harness 到底在優化什么?

openJiuwen 把 Harness 拆成了兩層:底層是所有 Agent 共用的通用底座(Meta),上層是各種可插拔的領域擴展包(Expert)。

Auto Harness 則讓 Agent自己去優化這兩層——你給它一個目標,它就自己生成評測題、自己跑、自己看哪里不行、自己改、再自己驗證。

整個循環里,都不需要人去調研、評測、驗證...

光這么說可能沒什么感覺, 直接看 demo。

Auto Harness 跑起來什么樣

回到開頭那個畫面——我們先把過程詳細拆一下,再看另一個不一樣的 case。

基座層優化(Meta Harness):Agent 自己抄了 Claude Code 的作業

/auto-harness run --pipeline optimize_meta_harness 調研當前和 Claude Code 在上下文壓縮特性上的差異和不足,吸收提升自己能力

程序員敲完指令之后:

第一步:調研

啟動Meta Harness 優化的 Pipeline,先自己去搜 Claude Code 公開的實現細節,翻文檔、讀源碼、扒 commit history,學習 Claude Code 是如何做上下文壓縮的。


第二步:制定優化計劃

對比當前系統與 Claude Code 在上下文壓縮方面的關鍵差異,然后制定具體的優化任務:

如增加上下文壓縮的可控性,允許用戶通過 hook 攔截或監控壓縮過程,提升系統擴展性。


第三步:動手改

但不是直接動主干,而是開了一個獨立的 git worktree,在里面新加 上下文壓縮 Rail、修改觸發邏輯、補單元測試。改完之后跑 CI,跑掛了自己回頭修,修到 CI 通過為止。


第四步:提 PR

它沒自己合主干,而是給倉庫提了一個 PR,講清楚這次改了什么、為什么這么改、驗證結果是什么。


整個過程拆下來,等價于"自動競品分析師 + 自動 PR 工程師":

24 小時盯著業界,看到好東西自己抄回來,抄完還自己測、自己寫 PR 說明、自己交。

Meta Harness 優化完整流程如下:

更狠的是,這套機制還可以定時跑。

掛一個任務上去:每 48 小時自動盯一次某個對標產品的更新、自動評測、自動改、自動提 PR——人睡覺的時候,它在幫你吸收業界最佳實踐

專屬擴展包 (Expert Harness):給 Agent 配上領域專家

如果說前一個 demo 是"自己改基座代碼",這一個則是"自己學新能力"。

比如想讓當前 Agent 的辦公能力更強

/auto-harness run --pipeline optimize_expert_harness 提升一下你自己的辦公能力: 擅長做圖文并茂、邏輯清晰的 PPT; 熟練進行 word 操作; 熟練處理財務相關的 excel 表格; 所有生成的文件要做敏感信息檢查,這是硬性約束,在寫入文件前強制檢查

接收指令后,JiuwenSwarm 啟動Expert Harness Pipeline


Agent 跑了一遍自評,診斷結果挺誠實:PPT 排版混亂、Excel 公式錯誤率高、Word 磕磕絆絆,敏感信息檢查缺失。

然后開始設計優化計劃,創建 PPT 生成、Excel、Word 處理、敏感信息檢查等多條優化點,然后開始并行處理


加工具、加技能、加 Rail、跑測試,全跑通之后生成 Harness Package,直接在 Web 端熱加載激活,Agent 不用重啟,下一秒就能用。


完整流程如下:

味道和前一個 case 完全不一樣——

前者是動基座、改代碼、提 PR。

這一個則是“給 Agent 裝上領域專家能力”——需要什么能力告訴它,它自己學、自己測、熱生效。

而且這些"專家"可以疊加掛載到同一個 Agent:同時掛辦公專家、內容生產專家、合規專家都行。來什么任務,調哪幾個。

一個 Auto Harness,兩種優化路線。基座層慢工出細活,擴展層按需啟動——這是它兩層架構最直接的產品化體現。

這套設計最聰明的地方

case 看完,可以回頭看看 openJiuwen Auto Harness 這套設計真正聰明的地方了。先看路徑——Auto Harness 的兩種優化路徑,對應兩個 pipeline:一個改基座,一個生成擴展包。

但不管走哪條 pipeline,核心都是同一個機制:評測驅動的閉環優化。

跑評測 → 看哪里不行 → 想怎么改(規劃)→ 實施修改 → 再跑評測

Meta Harness 優化在此基礎上增加了定時任務(流程前)、業界調研(流程前)、提交 PR(流程后)。

最值得提的一點是,Meta Harness 和 Expert Harness 的雙層優化架構——既克制又實用。

基座層每次改動后需要提交 PR 評審、合不合入需要人來決定;

擴展層則是跑完即生成優化包,熱加載、即插即用,該靈活的地方足夠靈活

這種邊界感是同類工作里普遍處理得不太好的——很多論文 /Demo 一上來就追求"全自動"的故事,但真要往生產環境里放,沒有這條邊界,沒人敢用。

Swarm 能不能后訓練?

單 Agent 的 Auto Harness 搞定了,隨之而來的是 Swarm 群體優化。

openJiuwen 社區已經設計好了下一步:Swarm Post-Training。

單個 Agent 再聰明也有上限。一個寫代碼的 Agent 再強,對于大型工程也很吃力;一個做調研的 Agent 再厲害,也難以全面覆蓋復雜的盡調。

真正的答案在多 Agent 協同里——

Swarm 里的每個 Agent 的 Harness 隨群體協同自動優化。


Agent 的整個后訓練范式,從"模型變強 + 單兵變強 + 團隊變強",會被串成完整一條線。

  • Model Post-training:讓模型自己變強;

  • Auto Harness:讓單個 Agent 的 Harness 自己變強;

  • Swarm Post-Training:讓一群 Agent 的協作自己變強。

這三件事如果都能各自跑起來、還能互相打通,那 Agent 這件事的"工程化天花板"就被整體頂上去了。

回到這次更新本身,Auto Harness 的意義不只是新增了一個功能,而是把 Agent 落地中的一個關鍵問題推到了臺前:當模型能力逐漸接近,真正拉開差距的,往往是模型外部那套 Harness。

同一個模型,放在不同的上下文管理、工具編排、權限控制、錯誤恢復和任務驗證體系里,最終表現可能完全不同。過去,調 Harness 更像一門手藝,依賴工程師經驗,也依賴大量試錯。Auto Harness 試圖把這件事變成一套可評測、可迭代、可回滾的工程流程。

這也是 openJiuwen 持續推進的方向。此前,社區已經提出 Coordination Engineering,關注多智能體如何分工、協作和沉淀經驗;這一次 Auto Harness 則進一步補上了單個 Agent 如何自我優化的問題。

從單個 Agent 的 Harness 自動進化,到多個 Agent 的協同優化,JiuwenSwarm 想要構建的,不只是更強的 Agent,而是一套可持續進化的 Agent 工程體系,引領 Agentic AI 時代的 AgentOS 標桿。

openJiuwen 再下一步的 Swarm Post-Training ,我們也拭目以待。

上手試用

參考 JiuwenSwarm 快速開始:https://openjiuwen.com/jiuwenswarm#quick-start

安裝啟動 JiuwenSwarm 后:

# 啟動后輸入 /auto-harness 觸發

相關子命令


特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
世界杯首輪焦點戰!日本VS荷蘭,利物浦中場退出,森保一恐難取勝

世界杯首輪焦點戰!日本VS荷蘭,利物浦中場退出,森保一恐難取勝

麥子的籃球故事
2026-06-12 17:49:18
少林寺新任住持釋印樂,上任才10個月,少林寺被曝一下少800多萬

少林寺新任住持釋印樂,上任才10個月,少林寺被曝一下少800多萬

嘆為觀止易
2026-06-10 11:49:16
剛剛,馬斯克成人類史上首位萬億富翁,但全網最羨慕的是 SpaceX 焊工

剛剛,馬斯克成人類史上首位萬億富翁,但全網最羨慕的是 SpaceX 焊工

AppSo
2026-06-13 09:42:15
震驚!武漢某大學食堂貼出提示稱“燒鵝飯為廣東俗稱,實為烤鴨”

震驚!武漢某大學食堂貼出提示稱“燒鵝飯為廣東俗稱,實為烤鴨”

火山詩話
2026-06-13 08:00:03
穆杰塔巴沒料到,美國連夜取消軍事打擊,中方說了句分量很重的話

穆杰塔巴沒料到,美國連夜取消軍事打擊,中方說了句分量很重的話

李健政觀察
2026-06-12 18:05:13
生育政策大調整?早年超生罰款舊賬,2026官方明確答復

生育政策大調整?早年超生罰款舊賬,2026官方明確答復

哄動一時啊
2026-06-12 16:39:51
現在的年輕人不敢開房了

現在的年輕人不敢開房了

微微熱評
2026-06-13 00:53:53
美加墨世界杯第二場比賽就現空座,票價爭議浮出水面

美加墨世界杯第二場比賽就現空座,票價爭議浮出水面

澎湃新聞
2026-06-12 17:40:29
巴洛貢雙響+普利西奇助攻,美國4-1擊敗南美勁旅,迎世界杯開門紅

巴洛貢雙響+普利西奇助攻,美國4-1擊敗南美勁旅,迎世界杯開門紅

側身凌空斬
2026-06-13 11:03:20
草臺班子?世界杯開幕式離譜翻車:大力神杯氣球漏氣 當眾癟掉降落

草臺班子?世界杯開幕式離譜翻車:大力神杯氣球漏氣 當眾癟掉降落

風過鄉
2026-06-13 05:35:13
調整!NBA總決賽g5敲定,徹底為巴西讓路,央視最新直播計劃

調整!NBA總決賽g5敲定,徹底為巴西讓路,央視最新直播計劃

等等talk
2026-06-13 08:33:13
主犯獲刑12年半罰沒1600萬!含砷“脫酸劑”讓耙耙柑提前一月上市,果肉檢出重金屬

主犯獲刑12年半罰沒1600萬!含砷“脫酸劑”讓耙耙柑提前一月上市,果肉檢出重金屬

紅星新聞
2026-06-05 09:04:20
山西原平斥資近億元建景觀小鎮,為何“用不起來”

山西原平斥資近億元建景觀小鎮,為何“用不起來”

上觀新聞
2026-06-12 09:56:57
普京再次回應戰爭起源:不是俄開戰,是基輔先向頓巴斯開火

普京再次回應戰爭起源:不是俄開戰,是基輔先向頓巴斯開火

桂系007
2026-06-12 23:57:08
“男子發現學位證無效舉報自己”,山東醫藥大學:展某某違反校規校紀,學校決定不授予學士學位,時任教務處負責人私自違規將學位證書借出

“男子發現學位證無效舉報自己”,山東醫藥大學:展某某違反校規校紀,學校決定不授予學士學位,時任教務處負責人私自違規將學位證書借出

都市快報橙柿互動
2026-06-12 21:35:33
世界杯狂歡夜:加拿大創歷史,獲隊史首分,歐洲球隊遭遇2場不勝

世界杯狂歡夜:加拿大創歷史,獲隊史首分,歐洲球隊遭遇2場不勝

侃球熊弟
2026-06-13 04:03:29
私生活混亂,從央視主持到勞改犯,如今靠直播打賞討生活

私生活混亂,從央視主持到勞改犯,如今靠直播打賞討生活

素衣讀史
2026-06-11 21:56:30
國家出手!揚州“毒牙刷”曝光,成本價6分,原材料才是致癌物

國家出手!揚州“毒牙刷”曝光,成本價6分,原材料才是致癌物

姩姩有娛
2026-06-12 15:03:40
男子在KTV和女友吵架時用啤酒瓶刺死自己,家屬向KTV及女友索賠近20萬;法院:女方賠償3萬,KTV不擔責

男子在KTV和女友吵架時用啤酒瓶刺死自己,家屬向KTV及女友索賠近20萬;法院:女方賠償3萬,KTV不擔責

都市快報橙柿互動
2026-06-13 00:22:40
1夜7大轉會!皇馬成功截胡B席,槍手兩筆清洗,拉什福德被退貨!

1夜7大轉會!皇馬成功截胡B席,槍手兩筆清洗,拉什福德被退貨!

田先生籃球
2026-06-13 06:53:45
2026-06-13 12:16:49
InfoQ incentive-icons
InfoQ
有內容的技術社區媒體
12525文章數 51943關注度
往期回顧 全部

科技要聞

SpaceX上市首日破2萬億美元,馬斯克再封神

頭條要聞

美國4比1大勝 美國主導比賽巴拉圭疲于奔命讓人意外

頭條要聞

美國4比1大勝 美國主導比賽巴拉圭疲于奔命讓人意外

體育要聞

東道主三戰不??!美墨開門紅加拿大零的突破

娛樂要聞

12年情懷碎一地!跑男接連翻車

財經要聞

梁文鋒向左,楊植麟向右

汽車要聞

標配激光雷達/雙動力可選 昊鉑S600限時售17.99萬起

態度原創

旅游
手機
教育
本地
游戲

旅游要聞

夏天就該這樣過!大別山的夏天,從霍山大峽谷漂流的第一聲尖叫開始。

手機要聞

蘋果升級iOS 27版信息應用,上線繪圖工具

教育要聞

有變:2026山東高考招生有5大變化!

本地新聞

AK劉彰邂逅河北南大港濕地

《卡莉亞的煉金工房》新角色情報 煉金新列最新作

無障礙瀏覽 進入關懷版