![]()
本文由Nuoya Xiong、Yuhang Zhou、Hanqing Zeng、Zhaorun Chen、Furong Huang、Shuchao Bi、Lizhu Zhang、Zhuokai Zhao等研究者合作完成。論文第一作者Nuoya Xiong為CMU計算機學院二年級博士生,研究方向為大語言模型的后訓練與強化學習,本工作完成于其在Meta實習期間。該項目由Meta AI的Zhuokai Zhao和Lizhu Zhang共同領導,合作者還包括來自Meta TBD團隊的Shuchao Bi以及University of Maryland的Furong Huang教授。
近年來,大語言模型能力的提升,已不再僅僅依賴于更大的模型規(guī)模或更多的訓練數(shù)據(jù)。越來越多的研究開始探索另一條路徑:通過多個專家模型的協(xié)作來完成生成任務。
這一思路背后的直覺并不復雜:現(xiàn)實中往往不存在一個在所有任務上都同樣出色的模型,而是會涌現(xiàn)出大量各有所長的“專家模型”。例如,專門針對數(shù)學數(shù)據(jù)訓練的模型更擅長復雜推理,代碼模型在程序生成和語法結構上表現(xiàn)更穩(wěn)定,而指令微調(diào)模型則更擅長對話理解與交互表達。與其追求一個“無所不能”的統(tǒng)一大模型,不如將多個領域專家進行組合,讓它們在各自擅長的子問題上發(fā)揮作用。這種方式不僅能夠更充分地利用已有模型的能力,也避免了單一模型在所有維度上都需要做到極致所帶來的訓練成本與優(yōu)化難度。
針對這一方向,論文提出了FusionRoute,一種基于token-level路由的多LLM協(xié)作范式。不同于以往在整段生成中選擇單一模型,F(xiàn)usionRoute訓練一個路由模型, 在每一步生成時,使用該路由模型動態(tài)判斷當前這個token更適合由哪個專家模型來生成。這種更細粒度的路由方式,使模型能夠在同一段生成過程中靈活切換不同專家,在推理、代碼生成和自然語言表達等不同子任務之間進行動態(tài)分工,從而更充分地發(fā)揮各個模型的優(yōu)勢。
在此基礎上,F(xiàn)usionRoute進一步利用路由器本身的理解能力,引入了一種補充生成(complementary generation)機制。除了進行expert選擇之外,路由器還會為當前token提供額外的生成信號,并與expert的輸出共同作用,形成最終結果。由此,路由器不再只是一個“選擇器”,而成為生成過程中的參與者,進一步提升了整體表達能力。
相比sequence-level的協(xié)作方式,F(xiàn)usionRoute具有更高的靈活性和更細粒度的控制能力。同時,不同于傳統(tǒng)MoE,F(xiàn)usionRoute的專家可以是結構各異、已經(jīng)訓練完成的獨立模型,從而在實際部署中更加靈活、也更具工程可行性。
![]()
- 論文標題:
- Token-Level LLM Collaboration via FusionRoute
- arXiv地址:
- https://arxiv.org/pdf/2601.05106
- 代碼地址:
- https://github.com/xiongny/FusionRoute
![]()
以往的sequence-level collaboration在整段生成完成后再進行模型融合,討論或選擇。多個模型需要生成完整回答,再通過reranking或辯論得到最終結果。這種方式雖然簡單,但存在明顯問題:一方面計算開銷較大(需要多次完整生成),另一方面協(xié)作粒度較粗,因此往往比較低效。
相比之下,以往的token-level collaboration將協(xié)作粒度細化到每一步生成,通過在多個模型之間進行token級別的選擇來決定下一個token。這種方法能夠實現(xiàn)更靈活的專家切換,但其核心仍然是“從多個候選中進行選擇”。因此,一旦選擇結果不穩(wěn)定或某一步選擇出現(xiàn)偏差,誤差會在后續(xù)生成中不斷累積,導致整體生成過程不夠穩(wěn)定。文章也通過理論推導,證明了在僅有single policy coverage的合理假設下,純粹基于專家選擇的token-level路由存在本質上的"不可識別性"——即便存在一條最優(yōu)路徑,僅憑沿最優(yōu)軌跡觀測到的Q值也無法可靠地識別出哪個專家應被選中,揭示了以往token-level協(xié)作的主要瓶頸。
FusionRoute的關鍵思路是引入了一個可訓練的router模塊,提供兩個功能:
1、對于decoding過程中的每個token,輸出一個路由權重。系統(tǒng)之后會選擇權重最高的專家進行這個token的生成。
2、輸出router logits,利用router的理解能力對expert的token logits進行補充生成。最終的logits合并專家logits和router logits。這種設計使得最終生成不再僅依賴于單一專家的輸出,而是融合了expert能力與全局理解,從而在保持細粒度協(xié)作的同時,顯著提升了生成的穩(wěn)定性與魯棒性。
路由模型訓練
在訓練上,F(xiàn)usionRoute無需對專家進行額外微調(diào),而是固定已有的專家,僅訓練一個輕量級的router模塊。訓練分為兩個階段:
1、首先,在監(jiān)督微調(diào)(SFT)階段,訓練router使其能夠在給定上下文下學習如何組合不同專家的輸出。具體而言,router自身會生成補充的logits,并通過next-token cross-entropy loss進行優(yōu)化;同時,router輸出的路由權重與多個expert提供的token分布加權得到最終的聚合logits,并通過專家選擇損失對路由線性層進行端到端優(yōu)化。值得注意的是,論文在路由損失中只保留了"信息性token"——即不同專家預測結果存在分歧的位置,避免標點、虛詞等所有專家都能正確預測的token主導梯度,從而讓路由真正學到的是專家之間的能力差異。經(jīng)過這一階段,router已能夠學習基本的專家選擇與語言能力。
2、第二個階段是訓練router logits的補充生成能力(CDPO)。具體來說,F(xiàn)usionRoute將router logits和專家logits合并起來,然后在偏好數(shù)據(jù)集上計算token的概率,并基于DPO進行優(yōu)化。這里的一個關鍵設計是,專家提供的log-ratio項被作為不傳梯度的"偏置項"處理——當專家本身已經(jīng)能給出強策略時,該偏置項較大,router自身的梯度自然變小;當專家薄弱時,log-ratio gap縮小,router會獲得更大的修正信號。這種機制讓router在專家失效的位置才發(fā)力,自動實現(xiàn)"按需補充"。另一大挑戰(zhàn)在于,單獨訓練router logits的補充生成能力會使得router的參數(shù)與輸出路由權重的線性層不匹配。由此,F(xiàn)usionRoute設計了一種混合訓練策略,將監(jiān)督微調(diào)(SFT)與基于偏好的優(yōu)化(CDPO)結合在同一訓練流程中。
實驗1:在多個領域上顯著提升了綜合能力
![]()
論文使用了MergeBench里的數(shù)學專家模型,代碼生成專家模型和指令跟隨專家模型,涵蓋Llama-3和Gemma-2兩個模型種類。文章在五個基準上評估FusionRoute:數(shù)學推理任務GSM8K、MATH-500,代碼生成任務HumanEval、MBPP以及指令跟隨任務IfEval。基線包含不同的專家Sequence Selection(令所有模型均生成回答,并使用外部reward模型選擇最優(yōu)回答),以往的token-level協(xié)作范式Collab,兩個Model Merging的方法(DARE, TaskArithmetic),以及在數(shù)據(jù)集上直接微調(diào)的模型(“Fine-tuned” in Table 1)。實驗結果如Table 1所示,F(xiàn)usionRoute取得了穩(wěn)定的性能提升。更值得關注的是,F(xiàn)usionRoute在專家本身擅長的領域并沒有犧牲性能——在GSM8K、HumanEval等任務上,它的表現(xiàn)與對應專家持平甚至略勝,說明這種細粒度協(xié)作真正做到了"取長補短"。
實驗2:在通用數(shù)據(jù)集上顯著提升整體生成質量
![]()
除了數(shù)學推理和代碼生成等domain-specific任務之外,論文還進一步評估了FusionRoute在通用場景下的整體生成質量。為此,論文在PerfectBlend測試集上隨機采樣500條prompt,讓各方法生成不超過300個token的回答,并使用GPT-4o進行pairwise比較,以Fine-tuned Model的回答作為參照計算win rate。實驗結果表明,F(xiàn)usionRoute在通用數(shù)據(jù)集上依然能夠優(yōu)于微調(diào)模型以及其他協(xié)作方法,說明其能夠融合不同expert的能力,能夠在混合場景下生成更加高質量且更自然的回答。
另一個有趣的現(xiàn)象是在不同模型規(guī)模之間的對比上。在更大的8B Llama-3家族上,F(xiàn)usionRoute相對基線的優(yōu)勢顯著擴大,而其他token-level協(xié)作方法(如Collab)和sequence-level選擇方法反而出現(xiàn)明顯退化;而在2B的Gemma-2家族上,純專家選擇類的方法表現(xiàn)尚可。這說明隨著模型容量上升,"純粹從專家中挑一個"的范式變得越來越脆弱——專家越強,候選之間的細微差別越難僅憑外部reward區(qū)分出來;而router提供的補充生成機制能夠更充分地利用額外的表達能力,把模型容量真正轉化為協(xié)作質量。換句話說,F(xiàn)usionRoute的設計哲學在更強的底座上反而更具優(yōu)勢。
意義
FusionRoute的核心貢獻可以從幾個層面來看。
在方法層面,F(xiàn)usionRoute首次將"專家選擇"與"補充生成"統(tǒng)一在同一個輕量級router模塊中。以往的多LLM協(xié)作要么是sequence-level的粗粒度融合,要么是token-level但純粹基于選擇的方案——前者效率低、粒度粗,后者依賴專家在每一個token上的正確性,魯棒性不夠。FusionRoute讓router同時承擔"指揮"和"補位"兩個角色,既保留了token-level的細粒度優(yōu)勢,又通過補充logits修正專家在不擅長場景下的輸出,從根本上提升了協(xié)作系統(tǒng)的穩(wěn)定性。
在理論層面,論文給出了一個對該方向具有指導意義的結果——在僅有single policy coverage的合理假設下,純粹依賴專家選擇的token-level協(xié)作存在本質上的不可識別性,無法保證恢復出近似最優(yōu)策略。這一不可能性結果解釋了過去token-level方法在實踐中表現(xiàn)不穩(wěn)定的根源,也從理論上論證了router作為補充生成器的必要性——在加入補充logits之后,最終策略的可表達策略類被顯著擴張,從而能夠在更弱的假設下恢復近似最優(yōu)。
在工程層面,F(xiàn)usionRoute既不要求各專家模型結構同構,也無需對專家進行任何額外的梯度更新,僅需訓練一個輕量級router,就可以將一組現(xiàn)成的、結構異質的領域模型組裝成一個綜合能力更強的系統(tǒng)。這種"即插即用"的設計在實際部署中具有重要意義——當一個新的領域專家出現(xiàn)時,可以快速納入?yún)f(xié)作框架,而無需推倒重訓整個系統(tǒng)。
最重要的是,這些性能提升并不依賴于對expert模型的額外微調(diào),而是通過更高效的推理協(xié)作機制實現(xiàn)的。這表明FusionRoute能夠在保持較低額外成本的前提下,充分挖掘多模型之間的互補能力,從而實現(xiàn)更強的綜合表現(xiàn)。沿著這一方向,多個專門化小模型的協(xié)作正在成為通用大模型之外一條具有現(xiàn)實價值的技術路徑。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.