![]()
Agent Harness這段時間一直很火。
從MiniMax持續更新的M2系列模型開始,海外開發者的注意力,越來越多集中過來。
一直有關注到,從M2.1到M2.5再到M2.7,模型對Agent的適配能力一直在優化,工具調用的準確度再提高、指令遵循能力逐漸到位、長期運行的可靠性也日漸磨了出來。
直到M2.7和Agent Harness的深度結合,自我進化似乎有了真正的落地性。
模型開始能深度參與Agent迭代的完整閉環,具備了構建復雜Agent Harness的能力。
所謂Harness,可以理解為模型與真實計算機環境之間的操作臺,包括Skills能力、記憶系統、工具檢索、子代理協作這些核心組件。
![]()
以往這些能力,需要開發者手動搭建、反復調試,但在MiniMax上卻是簡單了很多,成本也很低。
LangChain獨立評估的結論顯示,在文件操作、工具調用、指令遵循等核心Agent任務上,M2.7已經達到甚至超越閉源前沿模型的水平,而成本只需它們的零頭。
讓Agent不僅會操作,更能學會如何操作得更好。
Agent Harness正是那只手,它把模型的知識轉化成了動作——從文檔編輯、代碼編寫到網頁操作、數據分析,這些能力才是評價模型交付能力的標準。
![]()
在40個超2000 token的復雜Skills場景,仍能保持97%的遵循率,這種穩定性是Agent長期運行所必須具備的底線能力。
接下來帶大家看看我做的幾個案例
官網在這里:agent.minimaxi.com/max-hermes
01我用Max Hermes搭了一個團隊
多Agent協作的方案在圈子里討論了好幾年,考驗的不只是單個Agent的智商,還有溝通、任務分配、錯誤協調這些超復雜的工程化能力。
我嘗試用Max Hermes,搭建了一套Agent研究團隊。
![]()
結合跨會話持久化記憶、自然語言定時任務配置、多個子代理并行運行的機制,MaxHermes更接近一個真正能長期運營、不斷成長的AI助手。
MaxHermes實際的響應也很迅速,很快就幫我把Agent的分工和角色定位呈現了出來。
![]()
結合多個Agent能力,最終直接給我交付了一個即開即用的分角色研究型網站。
![]()
輸入話題、主題、選項等等,可以多Agent分頭行動、分別為我工作。
比起之前只是一個PPT式的網站,現在背后的多Agent能力完成度高了非常多。
![]()
怪不得,隨著M2.5和M2.7持續迭代,Hermes Agent都是第一時間上線了新版本支持,目前MiniMax模型已經是整個Hermes生態中使用量最高的模型之一。
我還嘗試了一下,給50個Agent,做一個統一的監測面板,能實時看到各Agent的工作狀態,量化看到各Agent的執行指標。
![]()
我還嘗試了一下,搭建三個不同角色的子代理協作網絡:
數據分析師子代理負責加載和處理數據集,研究員子代理負責進行深度分析和邏輯推理,報告撰寫員子代理負責將結論整合成結構完整的文檔。
![]()
整個過程非常省心,多Agent配置機制已經相當成熟,多個專門化Agent在同一臺機器上并行運行,每個Agent都有獨立的記憶系統、工具集和Gateway,彼此之間不會產生沖突。
準備的數據是一份近500MB的市場調研原始問卷,包含來自全國32個城市的2.3萬份有效樣本,光是字段就有接近三百個,涉及用戶行為習慣、產品偏好、價格敏感度等多類信息。
![]()
如果完全由人工走完這份報告的完整流程,差不多需要一個三到五人的研究團隊至少一周的工作量。
啟動研究任務后,M2.7首先自行進行了一次全局任務拆解,將整個流程切分成數據清洗、深度分析、交叉關聯、可視化、報告撰寫五個主要階段,并將每個階段動態分配到對應的子代理。
![]()
數據分析師子代理最先開始工作,加載數據包并排除異常數據,同時識別出幾個明顯的錄入錯誤進行自動修復。每完成一個節點,M2.7都會把中間結果和Log信息同步給研究員子代理。
緊接著研究員子代理接手執行交叉分析和群體畫像歸納,在與數據分析師反復溝通確認邏輯后,將分析結果轉換為結構清晰的洞察。
最后報告撰寫員子代理自動匯集所有輸出內容,按照預設大綱生成多版本文檔。
全部工具調用超過150次,沒有出現過因邏輯錯亂導致的任務中斷。
![]()
更讓我開心的是,學習閉環機制在整個過程中一直默默運轉,完成報告后它自動將整個流程沉淀為一個新Skill并保存起來。
我再使用這套研究團隊去處理其他類似的數據分析項目時,整個操作會越來越順滑,因為Hermes記住了上一次的經驗,學會了我的工作習慣和偏好。
![]()
在專業辦公場景的表現,同樣值得一提。
我們最常用的辦公三件套:Excel、PPT、Word,M2.7對實現了更多、更復雜的編輯。不像之前的很多AI產品,經常會出現格式不支持、無法編輯等問題。
我嘗試讓Agent團隊根據之前生成的調研報告,自動制作一份包含數據圖表的季度匯報PPT。
M2.7的數據分析師子代理負責提取關鍵數據,研究員子代理進行結論梳理,報告撰寫員子代理則將內容按演講邏輯編排到PPT中。
最終產出的文件可以直接用于內部匯報,圖表風格和內容結構都符合預期,中間不需要我進行額外的人工插足。
![]()
不過在個別格式的調整上,會有細微問題,有的數字大小和版式還不能嚴絲合縫。
記得兩年前行業里還在激烈爭論Agent是不是偽需求,有人說大模型自身的能力都不夠成熟,哪來的余力去做Agent。
今天已經比較明朗了:Agent不只不是偽需求,反而是模型能力向上突破之后最應該自然延伸的方向。
M2.7用這次完整的AI研究團隊搭建,讓我看到了多Agent協作的真實可能。
更重要的是,Hermes Agent的學習閉環讓這種協作,從一次性任務,進化成可持續積累的生產力。
02代碼自循環,讓AI修復自身Harness
如果說讓AI完成一個研究項目已經初步讓人滿意,那讓模型自己優化自己運行所依賴的Harness代碼,聽起來就有點未來科幻的感覺了。
而這剛好是M2.7很有比較優勢的進階能力。
![]()
MiniMax內部有一個真實的工程實踐,他們將一個模型的軟件開發框架優化任務交給M2.7自主把控。
M2.7在沒有任何人工干預的前提下,全程自行執行分析失敗軌跡、規劃代碼改動、修改Harness代碼結構、運行評測集對比、決定保留或回退的完整迭代循環流程,這個循環持續了超過100輪。
![]()
迭代告一段落后對比評測效果,M2.7讓該框架的內部評測性能直接提升了30%。在部分研發場景中,M2.7可承擔約三到五成的工程化工作量。
為了親身體驗M2.7在Harness自我優化方面的真實能力,我設計了一個競賽數據集的實戰測試。
選了kaggle競賽數據庫,要求運行在Hermes Agent上的M2.7以一個獨立的核查角色介入,探索數據并且自主訓練模型。
![]()
啟動指令給出后,M2.7的第一個動作是加載目標代碼庫并進行完整的靜態分析。
對特征工程,它識別出Title, FamilySize, IsAlone等新特征,并且指出不同模塊之間的循環依賴可能會在特定情況下觸發不可預期的異常。
![]()
給我印象最深的是,它還更新了迭代進度,每一輪迭代都有打分,以及改進內容的展示。
![]()
整個優化任務執行期間,M2.7一共完成了4輪自我迭代。
每輪都會基于上一輪的執行反饋調整下一個動作,動作決策完全包含代碼編輯、編譯測試、結果評估和回滾策略的閉環。
如果放在實驗室場景里,研究者可以把實驗方向給到Agent,Agent就會承擔起文獻調研、數據流水線對接、實驗啟動、日志監控和指標分析的完整鏈路,研究員只需要在關鍵節點做出決策和方向性討論即可介入。
行業觀點認為模型可能吃掉Agent,垂類Agent功能或被基座大模型逐步兼容。
從M2.7的表現來看這個過程正在進行,但表現形式不是模型單方面吞掉一切,是模型在Agent Harness層面不斷擴展能力邊界,讓過去需要多個專用Agent配合完成的工作,漸漸被一個足夠強大的模型和它的Harness所覆蓋。
![]()
而Hermes Agent這種開源框架的存在,其實為這種融合過程提供了絕佳的試驗場,讓各種有差異化的工作流都能在同一個生態里找到自己的位置。
未來那些重復性較高的代碼調試和Harness維護工作可以逐步移交給AI完成,讓開發者集中精力在更高級別的架構設計和創新探索上。
03Hermes在云端,MaxHermes的流暢體驗
圍繞M2.7和Hermes Agent的整個生態中,MaxHermes在云端的表現是我尤其喜歡的。
盡管M2.7有著出色的表現,但Hermes Agent的本地部署仍然不是所有用戶都能輕松擁抱的流程。
配置長期運行的Agent需要準備服務器、配置運行環境、設置API密鑰、處理各種兼容性問題。
MaxHermes的存在恰好封堵了這個缺口。
![]()
就像之前MaxClaw給我的感覺一樣,不用管服務器是什么配置,不用糾結環境變量該寫什么,更不用處理Docker容器里各種奇怪的報錯。
云端運行的Hermes依然保留了完整的Skills學習閉環、持久化記憶、子代理協作等核心功能,同時沒有了本地機器需要一直開著、網絡隨時保持連接的煩惱。
實際體驗下來,MaxHermes在任務執行的流暢度上,與自建的本地實例幾乎沒有可感知的差異。
![]()
應對數據分析、文檔撰寫、信息調研這些典型場景,響應速度和動作執行的準確率都非常穩定。
更重要的是,MaxHermes同樣原生支持Agent Teams多角色協作機制,依然可以在Web端搭建一套研究團隊,Agent團隊依然能在云端自行學習和進化。
對于每天都要面對各種AI工具的從業者來說,MaxHermes節省的時間也許只是幾條命令。
但對于大量核心工作不是研究AI而是用AI來提高生產力的普通用戶來說,這種低門檻的體驗方式可能是他們真正上手Agent的第一步。
一個小問題,就是等待時長上,MaxHermes有時候會有波動,比起普通Agent響應時間略長。
我只覺得,一代人有一代人的工具門檻。
預計未來會有越來越多的Agent應用以這種輕量級云端形式出現在大眾視野中,而MaxHermes在這個方向上邁出了很扎實的一步。
使用入口在這里: agent.minimaxi.com/max-hermes
04自進化Agent是下一個風口嗎
2026年的行業焦點,早就從誰的模型更強,轉向了誰能結合Agent真正交付結果。
模型能力的上限,很可能不再只由預訓練決定,而更多地取決于Harness的完整度和持續進化的動力。
![]()
大模型不斷拉升認知的天花板,智能體則持續壓實執行的地基。
M2.7的開源,給所有這些討論提供了可實操的落腳點。
有人爭論模型與Agent之間誰會更占上風,更值得關注的其實是二者邊界不斷在互相滲透。
M2.7的自我進化模式,給出了一個不錯的解法:模型正在從靜態的訓練產物,演變成一個持續運行的進化主體,不再能被單一角色定義。
![]()
在專業領域,軟件工程層面的端到端交付、復雜系統深層理解、機器學習全流程自我優化,正在以看得見的方式改寫開發者的日常工作體驗。
專業辦公場景下的復雜文檔多輪修改、高保真內容編輯、數據可視化自動化輸出,生產力提升的感覺非常真實。
開源大模型之間的競爭還在繼續,Kimi、GLM、Qwen等玩家也在推進各自的迭代。
但M2.7走出了一條很不一樣的路,當別人還在努力改模型參數量時,M2.7已經把焦點轉向了讓模型學會自己改造自己。
接下來的故事,更精彩了……
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.