![]()
多智能體協作對于解決復雜問題雖然具有巨大優勢,但是其架構本質上易出現錯誤傳播,因為由不正確的工作流生成或單智能體幻覺輸出引起的錯誤會沿著協作鏈蔓延,影響最終結果。
從 CAMEL、AutoGen、MetaGPT 等依賴人工配置的多智能體框架,到 ADAS、AFlow、AgentSquare、AgentSwift 等自動化工作流生成系統,多智能體技術正在從 “人工設計” 邁向 “自主優化”。然而,現有方法大多基于啟發式策略搜索,其性能上限往往受到搜索策略與規則設計的限制。如何讓智能體能夠自主發現更優協作模式,仍然是推動多智能體系統邁向更高智能水平的關鍵挑戰。
為此,openJiuwen 研究人員提出了 MANGO(Multi-Agent Network Gradient Optimization)框架。其方法設計歸屬于華為 JiuwenSwarm 的研究范疇。在 AgentOS 統一執行與調度底座支撐下,該框架一體化建模多智能體系統結構、任務分解與路徑選擇,實現端到端協作優化,并在整體工作流層面對協作路徑與執行策略進行聯合優化,從而提升系統穩定性與效率。
核心特征包括:端到端的強化學習優化保證全局目標達成,文本梯度更新使局部節點能靈活適應動態任務,以及節點跳躍機制在保持準確性的同時顯著降低計算開銷。這種集成設計體現了在復雜任務中多智能體協作的工程化思想,為提升協作效率和系統穩定性提供了可行方案。
![]()
- 論文標題:Reinforced Collaboration in Multi-Agent Flow Networks
- 作者信息:Zheng Wang, Yuang Liu, Yangkai Ding
- 作者單位:華為泊松實驗室、維納研究所(NWRC)
- 論文鏈接:https://arxiv.org/abs/2605.12943
- 倉庫鏈接:https://github.com/openJiuwen-ai/agent-store/tree/main/community/mango
核心思路
整體框架采用數據驅動策略,利用歷史經驗通過過程監督強化學習動態學習工作流結構。同時,局部梯度信號被融入文本梯度進行反向傳播,從而實現框架的持續迭代優化。
MANGO 的構建主要包括三個步驟:1)構建流網絡,2)基于強化學習選擇最優路徑,3)利用文本梯度優化節點內的提示詞。此外,框架引入節點跳躍機制,在保證性能的前提下顯著降低計算開銷。
![]()
圖 1:MANGO 整體框架。該框架通過策略梯度聯合優化路徑選擇,并通過文本梯度聯合優化提示,跳過某些節點以降低計算成本。
1. 流網絡構建
工作流中的每個行動被迭代地插入到流網絡中。該過程確保相鄰操作不會放置在同一個節點中,以保持工作流轉換的完整性。后續每個行動的插入都基于其與現有節點集的相似度,相似度定義為該行動與節點內任意節點之間的向量相似度。
如果相似度低于閾值,則在網絡中創建一個新節點;反之,將其插入到相似度最高的現有節點中。每個節點都分配一個不同的大模型,代表一個具有特定大模型的智能體,以形成一個多智能體系統。
2. 基于強化學習的邊優化
系統給定一個基于歷史工作流構建的流程網絡后,目標則是從源點到匯點選擇相應的智能體來解決復雜任務分解出的子任務。MANGO 利用強化學習來優化流網絡中的邊選擇。當前節點對于其鄰邊的選擇可以被看作馬爾可夫決策過程:
1) 狀態(State):當前節點的問題內容與角色描述和鄰節點的內容與角色描述交替計算得出的向量相似度。
2) 行動(Action):選擇當前節點的不同鄰邊。
3) 獎勵(Reward):綜合考慮過程層面的正確性和最終任務表現,兩者基于一個系數分配比例。
4) 策略(Policy):使用 REINFORCE 算法優化策略網絡,以最大化預期累積獎勵。
3. 基于文本梯度的節點優化
另一方面,對于每一個節點,其包括的任務內容與角色描述都會同時基于最終任務結果(全局信號)和中間執行反饋(局部信號),利用文本梯度來更新提示詞,確保當工作流路徑較長時,梯度信號不會在較早的節點消失。
強化學習邊優化與文本梯度節點優化的相互依賴性:更新節點的提示詞會修改狀態的內容(包括角色描述和計劃步驟),這將會直接影響路徑選擇策略;反之,采樣路徑決定了流網絡中哪些節點的提示詞會被實際更新。這就在參數更新和路徑選擇之間形成了一個相互依賴的優化循環。
4. 節點跳躍
優化工作流路徑的計算成本很高,這主要是因為需要重復調用大模型來更新每個節點的提示詞。經驗表明,一旦某個節點的提示信息得到充分優化,進一步更新帶來的收益就微乎其微了。
為了解決這個問題,研究團隊引入了一種跳躍機制,該機制在優化過程中選擇性地跳過某些節點,從而降低計算開銷。如果跳過一個或多個節點,框架則會使用訓練工作流中的步驟來填充它們對應的輸出。這樣做的目的是重用真實中間步驟來監督被跳過的節點,從而在不進行額外動態生成的情況下提高訓練效率和穩定性。該跳躍機制通過一個 Skip-k 參數控制,每次可跳躍最多 k 步(無跳躍時為 Skip-1)。
![]()
視頻鏈接:https://mp.weixin.qq.com/s/Eleh8ZlAVYpgV_4MCq_2vQ
為了展示 MANGO 在實際業務中的應用潛力,研究團隊還提供了一個金融業務場景的演示 Demo,通過多智能體協作處理復雜流程,具體演示了框架在實際中如何優化工作流路徑和節點提示詞,從而提升整體效率和準確性。
實驗數據
為了評估 MANGO 框架在不同領域的表現,研究團隊選擇了 7 個數據集,包括代碼編寫任務(HumanEval、MBPP)、數學解題(MATH500、GSM8K)、文章閱讀理解(DROP)以及多領域問題回答(MMLU、GPQA-Diamond)。由于框架在構圖與訓練過程中需要借助以往成功的工作流,團隊基于訓練集的問題生成了相關工作流,以支持正確解答,并將這些工作流與對應問題一并保存在數據集中。
實驗中,論文主要以 GPT-4o-mini 作為基礎大模型,評估指標包括 HumanEval 和 MBPP 的 pass@1、MATH、GSM8K、MMLU 和 GPQA 的 Accuracy,以及 DROP 的 F1-score。
實驗結果
![]()
表 1:以 GPT-4o-mini 為基礎大模型的有效性結果。最佳結果以綠色背景的粗字體顯示,最佳基線結果以下劃線標出。
1)與基線方法的有效性比較
總體而言,MANGO 在所有領域均表現最佳,超越了最佳基線模型,例如,在 MATH500 任務上的準確率比 MaAS 提升了 12.8%,在 DROP 任務上的 F1-score 比 AFlow 提升了 5.1%。這些提升源于 MANGO 從過往工作流中學習,并聯合優化工作流生成和單智能體執行,即使在 Skip-2 設置下也保持領先優勢。
![]()
表 2:MANGO 與基線方法在數據集 MATH500 上的效率比較
2)效率和訓練 / 推理成本
基于基礎大模型 GPT-4o-mini 和數據集 MATH500,MANGO 結合節點跳躍技術實現了最佳成本效益,在保持最高準確率的同時,降低了 token 使用量、API 成本和運行時間。在流網絡遍歷過程中啟用三節點跳躍(Skip-3),MANGO 的 API 成本最低(每百萬個 prompt token 0.15 美元,每百萬個 completion token 0.6 美元)。與 MaAS 相比,訓練時間縮短了 41.5%,推理時間縮短了 47.4%,并保持了最高的準確率。結果表明,所提出的算法可以極大程度降低成本。
總結
MANGO,是一個數據驅動的框架,它構建一個流程網絡,集成強化學習、文本梯度和跳躍機制以實現高效優化。該框架針對多智能體協作中的誤差傳播,工作流生成和單智能體執行中的誤差作出了相應改進,為多智能體系統設計提供了新的思路。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.