網易首頁 > 網易號 > 正文申請入駐

Agent會協作還會決策？我對Mavis的技術實現很好奇

2026-05-17 15:51:57　來源: AI異類

北京舉報

分享至

前段時間一直在研究Claude Code的Agent Team，直到他們把我給封了……

說來氣人，用CC這么久了，時而還是出一些賬號層面的bug，讓人代碼寫到一半，一口老血噎在那里，真難受啊。

最近網上關于Agent Teams的聲音不少，很多人覺得多Agent就是寫幾個角色扮演的Prompt，然后讓模型來回對話。

但是背后的技術含量，說實話不低，在之前，不管是國內還是國外，CC的替代品，不好找。

更新了最近版本的MiniMax家的Agent，Jarvis一樣的超級助手，叫Mavis。

用起來，別的不說，最近大部分的工作時間，不知不覺就花在上面了，好像一度忘了CC的存在。

而且很好玩，像在玩一個工作任務版的我的世界，在Mavis里，Leader、Worker、Verifier，三撥Agent在里面開會、分工、來回對賬、互相驗收。

像在玩一個大型的CEO指令游戲。

Agent產品，終于更接近一套完整的運行系統了。

01誰當選手誰當裁判，這事在架構上就不成立

很多人其實沒意識到，單Agent的根本瓶頸不是模型不夠強，是它一個人又當選手又裁判這件事，本身就是個悖論。

給一個Agent一個長任務，比如讓它寫一份市場調研報告。

它要自己拆解自己要查什么資料，自己寫出來自己看對不對，寫錯了自己檢查自己改。

這不光是個能力問題，是個權力分離的問題。就像你不能同時是命題人又是考生，結果自己考了個滿分，拿出去誰都不認。

MiniMax這次提出來的Teams架構，核心就是引入分權制衡。

一個團隊里，Leader負責拆任務，Worker負責干活，Verifier負責驗收。

這三類角色的目標函數是互逆的：Worker只管把東西做出來，Verifier只管挑毛病，兩邊的目標天然對抗。

這種對抗關系挺有意思。

它不是那種硬編碼的規則校驗，是讓兩個Agent站在不同的立場上博弈。

Verifier挑出來的毛病，Worker必須吸收后重新做，雙方來回幾次，直到Verifier認為合格為止。

這套機制跑起來之后，最后交付的東西可靠性比單Agent高了太多。

具體來說，這套Team Engine采用的是代碼狀態機驅動，不是依賴Prompt編排。

在Mavis內部，Leader收到用戶指令后，會自動拆解成可并行執行的子任務清單，Team Engine按照依賴關系調度Worker執行，Worker每完成一個交付物，Verifier立刻介入驗收。

驗收不通過怎么辦？Worker自動被駁回重做，不通過就繼續迭代，直到通過為止。

整個過程有狀態記錄，每一步是誰做的、誰驗收的、驗收結論是什么，全部可追溯。

這跟那些所謂的Prompt層多Agent不一樣。

Prompt層的話，你只看到了幾個角色在對話，但沒有系統在背后管任務進度、管誰卡住了怎么辦、管誰做完了誰接棒、管失敗了怎么處理。

寫幾個角色扮演的Prompt確實也能讓模型模擬對話，但那不是真正的多Agent協作，那只是讓一個模型換不同語氣說話。

Mavis把這件事做成了一個完整的運行時系統，有專門的角色分工，有狀態機驅動，有三權分立的質量門禁。

簡單來說，這套Harness 的優點就是，把 Agent 的運行綁定到確定性可觀測的外部系統，而不是依賴模型自己判斷什么時候該重試、停止或者交接。

其實看看行業動向就知道了。

OpenAI去年還拿Swarm當玩具讓大家玩，今年3月就把它升級成Agents SDK，加進去的東西恰好就是Guardrails、Tracing、Sandboxing這些基礎設施能力。

AWS在re:Invent上宣布了Amazon Bedrock的多Agent編排功能，反復強調Supervisor Agent怎么協調子Agent、怎么共享上下文、怎么做任務路由。

還有Google，也在Cloud Next 2026把Vertex AI整個包裝成Gemini Enterprise Agent Platform，核心賣點也不是模型多強，額外強調了Agent Designer、Agent Engine Sessions這些基礎設施工具。

大廠的信號很明確：做多Agent系統的重心已經從prompt和context，轉向怎么建好這套基礎設施。

誰跑得快誰就占先手，誰跑得慢后面就得補大量的工程債。

說白了，真正的多Agent系統是一個Runtime，不是一套Prompt編排。

02Worker和Verifier天天互相PUA，效率反而上來了

前面提到Verifier和Worker的對抗機制。這個東西聽起來有點反直覺。本來工就是工、驗就是驗，同一個模型做這兩件事怎么會站在對立面?

原因就在于Mavis把Worker和Verifier的上下文完全隔離了。Worker只知道自己要干的事情和自己以前的執行記錄，Verifier只知道驗收標準、質檢規則和歷史驗收數據。兩邊看不到對方的完整上下文，只能通過結構化的摘要信息來回通信。這種上下文隔離的設計，就是為了讓兩端的目標真正產生張力。

最直觀的例子來自網上一個比較火的測試。

有人讓Mavis做一個復雜的HTML專題頁，只有一句目標描述，沒有任何分步驟指令。

收到的交付物是一個星塵背景加粒子動效的交互頁面，完整自述了Agent Team的工作流程，還貼心地附了下載鏈接。而側邊欄里，Verifier足足跑了一整套驗收流程：從事實準確性到代碼可運行性，從頁面可讀性到體驗一致性，逐項打分、逐條提修改意見。

你看，一個Worker負責內容創作、設計、前端開發，一個Verifier專職挑刺，Leader在中間協調。做完一個版本，Verifier駁回，Worker重做，再驗收再駁回，幾個來回之后交出一個雙方都沒得說的最終版。

這不就是最理想的軟件工程交付流程嗎?

有人把這種配合調侃為互相對著PUA。話糙理不糙，這種對抗機制確實把一個模型自我審視的弱項，轉化成了兩個模型互相制衡的強項。

Worker不會因為面子問題堅持自己的錯方案，Verifier不會因為偷懶降低驗收標準，雙方在系統約束下完成了高質量博弈。

這正好反了所謂AI自檢的那套敘事。很多人都幻想過讓AI自己檢查自己的錯誤。但問題在于，同一個模型看自己寫的東西，邏輯上就是局限的。

讓同一個大腦既做方案又復盤，自己看的永遠是自己習慣的角度，盲區永遠是盲區。但是讓兩個目標互逆的模型獨立運作，一個只管往前沖，一個只管挑刺，這就有本質區別了。

這種協作模式在整個行業里也處于領先位置。跟我測試過的Manus和CrewAI對比，Mavis的對抗式質檢機制是目前最到位的。Manus本身架構和質檢細節未完全公開，但測試下來調度透明度偏低，對抗色彩不夠強。

CrewAI依賴Guardrails規則和Pydantic輸出校驗來做質量保障，用預定義的規則和類型校驗來保證輸出格式正確，但這種方式的問題是只能攔截已知類型的錯誤，遇到沒見過的場景就偏了。

而Mavis用Verifier這個獨立Agent做動態驗收，不依賴預定義規則，能適應更多樣的任務類型，只不過引入額外Agent意味著要多跑一次推理，算力成本要稍微高一點。

再說成本。很多人擔心多Agent協作會不會把Token消耗拖爆。

MiniMax在技術文章中坦承過，多Agent協作確實會引入新的交接成本、共享成本和聚合成本。但你仔細算:對于過去那種30分鐘打一堆繼續的長任務，單Agent要來回切上下文，每一次暫停都是在消耗算力。

多Agent模式雖然開頭花得多，但換來的是一個確定性的結果，沒結果的成本才是最高的，你已經花了錢但沒有拿到可用的東西。

用控制論的視角理解這個閉環更清爽:Worker是正向執行，目標是盡可能完成任務;Verifier是負向反饋，目標是盡可能找出差距。兩者不是一個流水線的上下游關系，而是一個閉環的穩態逼近過程。

通過這個閉環，系統可以自己收斂到滿足驗收標準的交付物，不需要用戶在半路打斷做判斷。

沒有結構、沒有驗證、沒有停止條件的多Agent，只是把單一模型的不確定性并行擴散了。而在Mavis的Engine約束下，不確定性是在收斂的。

03更自動化的體驗感受

說完架構，說點實在的。Mavis拿在手里用起來怎么樣。

開箱體驗很順。官網下載安裝包，直接點開就行。

搜索MiniMax Agent官網，下載桌面端應用，安裝登錄之后，在界面里選擇Mavis模式啟用多Agent協作工作流。

對話框里能看到，自動開啟了Team Plan模式。接下來用自然語言下達指令就行，不用寫什么復雜的提示詞。

Mavis會自動生成任務計劃，確認計劃后Team Engine就開始調度。你可以在側邊欄看到各個Agent之間的執行全過程和思考記錄，Leader分拆了什么任務、Worker在做什么、Verifier驗收了什么，每一步都顯示得很清楚。

跟市面上那些需要寫代碼配置的框架比起來，這個體驗拉高了不少。

另一個讓我比較舒服的變化是訂閱體系。

之前TokenPlan和Agent Plan是分開兩條線在走，API調用走TokenPlan，Agent對話走Agent Plan，兩邊額度不通。

這次合并之后一份訂閱能同時用在CLI、API、Agent三個端口。M2.7、音樂模型、視頻模型、語音模型、圖像模型全都能用，Credits額度在Agent和API之間共享。如果之前同時訂了兩個套餐的用戶，官方還額外送一個月會員。

最后還有一個隱形的工程化亮點是IM異步執行的支撐能力。

一般長任務在AI身上跑的時候，用戶往往只能干等著，要么眼睜睜看它轉圈沒有反饋。而Mavis的設計很巧妙，即時響應和后臺執行是分離的。

用戶扔一個長任務，Mavis先在IM界面秒回確認收到，然后后臺啟動整個Agent Team的執行流程。

每一個關鍵節點：Leader拆解完成、Worker階段性產出、Verifier驗收通過。

Mavis都會主動回來匯報進度，就像真人助理在執行過程中定期給你匯報一樣。

這種同步異步混合的工程化方案，把真實協作場景里最讓人頭疼的問題一次性解決了。

04讓AI像真人一樣組隊干活

思考了這么多關于多Agent系統的東西之后，我越來越覺得，行業對Agent的想象可能局限了。

很多人希望AI是一個超級助手，什么都能干、什么都干得最好。

用單Agent的思路能持續投入算力訓練更大的模型，但這種策略的天花板其實已經能看到了。

從行業發展趨勢來看，多智能體系統已經不僅僅是方向選擇了，它正在成為解決長程復雜任務的必需品。

企業內部一個簡單的業務目標往往包含跨系統跨數據源的調用鏈，需要智能體具備跨領域協作能力。

產業調研表明超過50%的企業將在2026年之前部署AI智能體來自動化復雜多環節的工作流，而AI Agent的核心瓶頸已經不再是模型規模，而是架構層面的任務規劃、跨智能體協作和過程追溯能力。

Mavis這次更新，技術上，很扎實。

它用Leader Worker Verifier的角色分工，把過去長任務里那些讓用戶頭疼的操作變成了后臺自動消化的事情。

IM場景里發一條消息不用再擔心卡住，Coding場景里執行多步驟任務不用再一直點繼續，行業調研和辦公文檔場景里質量管控不再依賴人工逐段審閱。做出來的東西可以直接拿去用，交付靠譜。

丟一個任務讓Agent Team自己折騰，然后安心去午睡。

醒來發現工作已經做完了。這種感覺，說實話，挺爽。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.