![]()
前段時間一直在研究Claude Code的Agent Team,直到他們把我給封了……
說來氣人,用CC這么久了,時而還是出一些賬號層面的bug,讓人代碼寫到一半,一口老血噎在那里,真難受啊。
最近網上關于Agent Teams的聲音不少,很多人覺得多Agent就是寫幾個角色扮演的Prompt,然后讓模型來回對話。
但是背后的技術含量,說實話不低,在之前,不管是國內還是國外,CC的替代品,不好找。
更新了最近版本的MiniMax家的Agent,Jarvis一樣的超級助手,叫Mavis。
用起來,別的不說,最近大部分的工作時間,不知不覺就花在上面了,好像一度忘了CC的存在。
而且很好玩,像在玩一個工作任務版的我的世界,在Mavis里,Leader、Worker、Verifier,三撥Agent在里面開會、分工、來回對賬、互相驗收。
像在玩一個大型的CEO指令游戲。
Agent產品,終于更接近一套完整的運行系統了。
![]()
01誰當選手誰當裁判,這事在架構上就不成立
很多人其實沒意識到,單Agent的根本瓶頸不是模型不夠強,是它一個人又當選手又裁判這件事,本身就是個悖論。
給一個Agent一個長任務,比如讓它寫一份市場調研報告。
它要自己拆解自己要查什么資料,自己寫出來自己看對不對,寫錯了自己檢查自己改。
這不光是個能力問題,是個權力分離的問題。就像你不能同時是命題人又是考生,結果自己考了個滿分,拿出去誰都不認。
MiniMax這次提出來的Teams架構,核心就是引入分權制衡。
一個團隊里,Leader負責拆任務,Worker負責干活,Verifier負責驗收。
這三類角色的目標函數是互逆的:Worker只管把東西做出來,Verifier只管挑毛病,兩邊的目標天然對抗。
![]()
這種對抗關系挺有意思。
它不是那種硬編碼的規則校驗,是讓兩個Agent站在不同的立場上博弈。
Verifier挑出來的毛病,Worker必須吸收后重新做,雙方來回幾次,直到Verifier認為合格為止。
這套機制跑起來之后,最后交付的東西可靠性比單Agent高了太多。
具體來說,這套Team Engine采用的是代碼狀態機驅動,不是依賴Prompt編排。
在Mavis內部,Leader收到用戶指令后,會自動拆解成可并行執行的子任務清單,Team Engine按照依賴關系調度Worker執行,Worker每完成一個交付物,Verifier立刻介入驗收。
驗收不通過怎么辦?Worker自動被駁回重做,不通過就繼續迭代,直到通過為止。
整個過程有狀態記錄,每一步是誰做的、誰驗收的、驗收結論是什么,全部可追溯。
這跟那些所謂的Prompt層多Agent不一樣。
Prompt層的話,你只看到了幾個角色在對話,但沒有系統在背后管任務進度、管誰卡住了怎么辦、管誰做完了誰接棒、管失敗了怎么處理。
寫幾個角色扮演的Prompt確實也能讓模型模擬對話,但那不是真正的多Agent協作,那只是讓一個模型換不同語氣說話。
Mavis把這件事做成了一個完整的運行時系統,有專門的角色分工,有狀態機驅動,有三權分立的質量門禁。
簡單來說,這套Harness 的優點就是,把 Agent 的運行綁定到確定性可觀測的外部系統,而不是依賴模型自己判斷什么時候該重試、停止或者交接。
![]()
其實看看行業動向就知道了。
OpenAI去年還拿Swarm當玩具讓大家玩,今年3月就把它升級成Agents SDK,加進去的東西恰好就是Guardrails、Tracing、Sandboxing這些基礎設施能力。
AWS在re:Invent上宣布了Amazon Bedrock的多Agent編排功能,反復強調Supervisor Agent怎么協調子Agent、怎么共享上下文、怎么做任務路由。
還有Google,也在Cloud Next 2026把Vertex AI整個包裝成Gemini Enterprise Agent Platform,核心賣點也不是模型多強,額外強調了Agent Designer、Agent Engine Sessions這些基礎設施工具。
大廠的信號很明確:做多Agent系統的重心已經從prompt和context,轉向怎么建好這套基礎設施。
誰跑得快誰就占先手,誰跑得慢后面就得補大量的工程債。
說白了,真正的多Agent系統是一個Runtime,不是一套Prompt編排。
02Worker和Verifier天天互相PUA,效率反而上來了
前面提到Verifier和Worker的對抗機制。這個東西聽起來有點反直覺。本來工就是工、驗就是驗,同一個模型做這兩件事怎么會站在對立面?
原因就在于Mavis把Worker和Verifier的上下文完全隔離了。Worker只知道自己要干的事情和自己以前的執行記錄,Verifier只知道驗收標準、質檢規則和歷史驗收數據。兩邊看不到對方的完整上下文,只能通過結構化的摘要信息來回通信。這種上下文隔離的設計,就是為了讓兩端的目標真正產生張力。
最直觀的例子來自網上一個比較火的測試。
有人讓Mavis做一個復雜的HTML專題頁,只有一句目標描述,沒有任何分步驟指令。
收到的交付物是一個星塵背景加粒子動效的交互頁面,完整自述了Agent Team的工作流程,還貼心地附了下載鏈接。而側邊欄里,Verifier足足跑了一整套驗收流程:從事實準確性到代碼可運行性,從頁面可讀性到體驗一致性,逐項打分、逐條提修改意見。
你看,一個Worker負責內容創作、設計、前端開發,一個Verifier專職挑刺,Leader在中間協調。做完一個版本,Verifier駁回,Worker重做,再驗收再駁回,幾個來回之后交出一個雙方都沒得說的最終版。
這不就是最理想的軟件工程交付流程嗎?
![]()
有人把這種配合調侃為互相對著PUA。話糙理不糙,這種對抗機制確實把一個模型自我審視的弱項,轉化成了兩個模型互相制衡的強項。
Worker不會因為面子問題堅持自己的錯方案,Verifier不會因為偷懶降低驗收標準,雙方在系統約束下完成了高質量博弈。
這正好反了所謂AI自檢的那套敘事。很多人都幻想過讓AI自己檢查自己的錯誤。但問題在于,同一個模型看自己寫的東西,邏輯上就是局限的。
讓同一個大腦既做方案又復盤,自己看的永遠是自己習慣的角度,盲區永遠是盲區。但是讓兩個目標互逆的模型獨立運作,一個只管往前沖,一個只管挑刺,這就有本質區別了。
這種協作模式在整個行業里也處于領先位置。跟我測試過的Manus和CrewAI對比,Mavis的對抗式質檢機制是目前最到位的。Manus本身架構和質檢細節未完全公開,但測試下來調度透明度偏低,對抗色彩不夠強。
CrewAI依賴Guardrails規則和Pydantic輸出校驗來做質量保障,用預定義的規則和類型校驗來保證輸出格式正確,但這種方式的問題是只能攔截已知類型的錯誤,遇到沒見過的場景就偏了。
而Mavis用Verifier這個獨立Agent做動態驗收,不依賴預定義規則,能適應更多樣的任務類型,只不過引入額外Agent意味著要多跑一次推理,算力成本要稍微高一點。
再說成本。很多人擔心多Agent協作會不會把Token消耗拖爆。
MiniMax在技術文章中坦承過,多Agent協作確實會引入新的交接成本、共享成本和聚合成本。但你仔細算:對于過去那種30分鐘打一堆繼續的長任務,單Agent要來回切上下文,每一次暫停都是在消耗算力。
多Agent模式雖然開頭花得多,但換來的是一個確定性的結果,沒結果的成本才是最高的,你已經花了錢但沒有拿到可用的東西。
用控制論的視角理解這個閉環更清爽:Worker是正向執行,目標是盡可能完成任務;Verifier是負向反饋,目標是盡可能找出差距。兩者不是一個流水線的上下游關系,而是一個閉環的穩態逼近過程。
通過這個閉環,系統可以自己收斂到滿足驗收標準的交付物,不需要用戶在半路打斷做判斷。
沒有結構、沒有驗證、沒有停止條件的多Agent,只是把單一模型的不確定性并行擴散了。而在Mavis的Engine約束下,不確定性是在收斂的。
03更自動化的體驗感受
說完架構,說點實在的。Mavis拿在手里用起來怎么樣。
開箱體驗很順。官網下載安裝包,直接點開就行。
![]()
搜索MiniMax Agent官網,下載桌面端應用,安裝登錄之后,在界面里選擇Mavis模式啟用多Agent協作工作流。
![]()
對話框里能看到,自動開啟了Team Plan模式。接下來用自然語言下達指令就行,不用寫什么復雜的提示詞。
Mavis會自動生成任務計劃,確認計劃后Team Engine就開始調度。你可以在側邊欄看到各個Agent之間的執行全過程和思考記錄,Leader分拆了什么任務、Worker在做什么、Verifier驗收了什么,每一步都顯示得很清楚。
跟市面上那些需要寫代碼配置的框架比起來,這個體驗拉高了不少。
另一個讓我比較舒服的變化是訂閱體系。
之前TokenPlan和Agent Plan是分開兩條線在走,API調用走TokenPlan,Agent對話走Agent Plan,兩邊額度不通。
這次合并之后一份訂閱能同時用在CLI、API、Agent三個端口。M2.7、音樂模型、視頻模型、語音模型、圖像模型全都能用,Credits額度在Agent和API之間共享。如果之前同時訂了兩個套餐的用戶,官方還額外送一個月會員。
![]()
最后還有一個隱形的工程化亮點是IM異步執行的支撐能力。
一般長任務在AI身上跑的時候,用戶往往只能干等著,要么眼睜睜看它轉圈沒有反饋。而Mavis的設計很巧妙,即時響應和后臺執行是分離的。
用戶扔一個長任務,Mavis先在IM界面秒回確認收到,然后后臺啟動整個Agent Team的執行流程。
每一個關鍵節點:Leader拆解完成、Worker階段性產出、Verifier驗收通過。
Mavis都會主動回來匯報進度,就像真人助理在執行過程中定期給你匯報一樣。
這種同步異步混合的工程化方案,把真實協作場景里最讓人頭疼的問題一次性解決了。
04讓AI像真人一樣組隊干活
思考了這么多關于多Agent系統的東西之后,我越來越覺得,行業對Agent的想象可能局限了。
很多人希望AI是一個超級助手,什么都能干、什么都干得最好。
用單Agent的思路能持續投入算力訓練更大的模型,但這種策略的天花板其實已經能看到了。
從行業發展趨勢來看,多智能體系統已經不僅僅是方向選擇了,它正在成為解決長程復雜任務的必需品。
企業內部一個簡單的業務目標往往包含跨系統跨數據源的調用鏈,需要智能體具備跨領域協作能力。
產業調研表明超過50%的企業將在2026年之前部署AI智能體來自動化復雜多環節的工作流,而AI Agent的核心瓶頸已經不再是模型規模,而是架構層面的任務規劃、跨智能體協作和過程追溯能力。
Mavis這次更新,技術上,很扎實。
它用Leader Worker Verifier的角色分工,把過去長任務里那些讓用戶頭疼的操作變成了后臺自動消化的事情。
IM場景里發一條消息不用再擔心卡住,Coding場景里執行多步驟任務不用再一直點繼續,行業調研和辦公文檔場景里質量管控不再依賴人工逐段審閱。做出來的東西可以直接拿去用,交付靠譜。
丟一個任務讓Agent Team自己折騰,然后安心去午睡。
醒來發現工作已經做完了。這種感覺,說實話,挺爽。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.