无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

FusionRoute:從專家路由到自我修正,一種新的多LLM協(xié)作范式

0
分享至



本文由Nuoya Xiong、Yuhang Zhou、Hanqing Zeng、Zhaorun Chen、Furong Huang、Shuchao Bi、Lizhu Zhang、Zhuokai Zhao等研究者合作完成。論文第一作者Nuoya Xiong為CMU計算機學院二年級博士生,研究方向為大語言模型的后訓練與強化學習,本工作完成于其在Meta實習期間。該項目由Meta AI的Zhuokai Zhao和Lizhu Zhang共同領導,合作者還包括來自Meta TBD團隊的Shuchao Bi以及University of Maryland的Furong Huang教授。

近年來,大語言模型能力的提升,已不再僅僅依賴于更大的模型規(guī)模或更多的訓練數(shù)據(jù)。越來越多的研究開始探索另一條路徑:通過多個專家模型的協(xié)作來完成生成任務

這一思路背后的直覺并不復雜:現(xiàn)實中往往不存在一個在所有任務上都同樣出色的模型,而是會涌現(xiàn)出大量各有所長的“專家模型”。例如,專門針對數(shù)學數(shù)據(jù)訓練的模型更擅長復雜推理,代碼模型在程序生成和語法結構上表現(xiàn)更穩(wěn)定,而指令微調(diào)模型則更擅長對話理解與交互表達。與其追求一個“無所不能”的統(tǒng)一大模型,不如將多個領域專家進行組合,讓它們在各自擅長的子問題上發(fā)揮作用。這種方式不僅能夠更充分地利用已有模型的能力,也避免了單一模型在所有維度上都需要做到極致所帶來的訓練成本與優(yōu)化難度。

針對這一方向,論文提出了FusionRoute,一種基于token-level路由的多LLM協(xié)作范式。不同于以往在整段生成中選擇單一模型,F(xiàn)usionRoute訓練一個路由模型, 在每一步生成時,使用該路由模型動態(tài)判斷當前這個token更適合由哪個專家模型來生成。這種更細粒度的路由方式,使模型能夠在同一段生成過程中靈活切換不同專家,在推理、代碼生成和自然語言表達等不同子任務之間進行動態(tài)分工,從而更充分地發(fā)揮各個模型的優(yōu)勢。

在此基礎上,F(xiàn)usionRoute進一步利用路由器本身的理解能力,引入了一種補充生成(complementary generation)機制。除了進行expert選擇之外,路由器還會為當前token提供額外的生成信號,并與expert的輸出共同作用,形成最終結果。由此,路由器不再只是一個“選擇器”,而成為生成過程中的參與者,進一步提升了整體表達能力。

相比sequence-level的協(xié)作方式,F(xiàn)usionRoute具有更高的靈活性和更細粒度的控制能力。同時,不同于傳統(tǒng)MoE,F(xiàn)usionRoute的專家可以是結構各異、已經(jīng)訓練完成的獨立模型,從而在實際部署中更加靈活、也更具工程可行性。



  • 論文標題:
  • Token-Level LLM Collaboration via FusionRoute
  • arXiv地址:
  • https://arxiv.org/pdf/2601.05106
  • 代碼地址:
  • https://github.com/xiongny/FusionRoute



以往的sequence-level collaboration在整段生成完成后再進行模型融合,討論或選擇。多個模型需要生成完整回答,再通過reranking或辯論得到最終結果。這種方式雖然簡單,但存在明顯問題:一方面計算開銷較大(需要多次完整生成),另一方面協(xié)作粒度較粗,因此往往比較低效。

相比之下,以往的token-level collaboration將協(xié)作粒度細化到每一步生成,通過在多個模型之間進行token級別的選擇來決定下一個token。這種方法能夠實現(xiàn)更靈活的專家切換,但其核心仍然是“從多個候選中進行選擇”。因此,一旦選擇結果不穩(wěn)定或某一步選擇出現(xiàn)偏差,誤差會在后續(xù)生成中不斷累積,導致整體生成過程不夠穩(wěn)定。文章也通過理論推導,證明了在僅有single policy coverage的合理假設下,純粹基于專家選擇的token-level路由存在本質上的"不可識別性"——即便存在一條最優(yōu)路徑,僅憑沿最優(yōu)軌跡觀測到的Q值也無法可靠地識別出哪個專家應被選中,揭示了以往token-level協(xié)作的主要瓶頸。

FusionRoute的關鍵思路是引入了一個可訓練的router模塊,提供兩個功能:

1、對于decoding過程中的每個token,輸出一個路由權重。系統(tǒng)之后會選擇權重最高的專家進行這個token的生成。

2、輸出router logits,利用router的理解能力對expert的token logits進行補充生成。最終的logits合并專家logits和router logits。這種設計使得最終生成不再僅依賴于單一專家的輸出,而是融合了expert能力與全局理解,從而在保持細粒度協(xié)作的同時,顯著提升了生成的穩(wěn)定性與魯棒性。

路由模型訓練

在訓練上,F(xiàn)usionRoute無需對專家進行額外微調(diào),而是固定已有的專家,僅訓練一個輕量級的router模塊。訓練分為兩個階段:

1、首先,在監(jiān)督微調(diào)(SFT)階段,訓練router使其能夠在給定上下文下學習如何組合不同專家的輸出。具體而言,router自身會生成補充的logits,并通過next-token cross-entropy loss進行優(yōu)化;同時,router輸出的路由權重與多個expert提供的token分布加權得到最終的聚合logits,并通過專家選擇損失對路由線性層進行端到端優(yōu)化。值得注意的是,論文在路由損失中只保留了"信息性token"——即不同專家預測結果存在分歧的位置,避免標點、虛詞等所有專家都能正確預測的token主導梯度,從而讓路由真正學到的是專家之間的能力差異。經(jīng)過這一階段,router已能夠學習基本的專家選擇與語言能力。

2、第二個階段是訓練router logits的補充生成能力(CDPO)。具體來說,F(xiàn)usionRoute將router logits和專家logits合并起來,然后在偏好數(shù)據(jù)集上計算token的概率,并基于DPO進行優(yōu)化。這里的一個關鍵設計是,專家提供的log-ratio項被作為不傳梯度的"偏置項"處理——當專家本身已經(jīng)能給出強策略時,該偏置項較大,router自身的梯度自然變小;當專家薄弱時,log-ratio gap縮小,router會獲得更大的修正信號。這種機制讓router在專家失效的位置才發(fā)力,自動實現(xiàn)"按需補充"。另一大挑戰(zhàn)在于,單獨訓練router logits的補充生成能力會使得router的參數(shù)與輸出路由權重的線性層不匹配。由此,F(xiàn)usionRoute設計了一種混合訓練策略,將監(jiān)督微調(diào)(SFT)與基于偏好的優(yōu)化(CDPO)結合在同一訓練流程中。

實驗1:在多個領域上顯著提升了綜合能力



論文使用了MergeBench里的數(shù)學專家模型,代碼生成專家模型和指令跟隨專家模型,涵蓋Llama-3和Gemma-2兩個模型種類。文章在五個基準上評估FusionRoute:數(shù)學推理任務GSM8K、MATH-500,代碼生成任務HumanEval、MBPP以及指令跟隨任務IfEval。基線包含不同的專家Sequence Selection(令所有模型均生成回答,并使用外部reward模型選擇最優(yōu)回答),以往的token-level協(xié)作范式Collab,兩個Model Merging的方法(DARE, TaskArithmetic),以及在數(shù)據(jù)集上直接微調(diào)的模型(“Fine-tuned” in Table 1)。實驗結果如Table 1所示,F(xiàn)usionRoute取得了穩(wěn)定的性能提升。更值得關注的是,F(xiàn)usionRoute在專家本身擅長的領域并沒有犧牲性能——在GSM8K、HumanEval等任務上,它的表現(xiàn)與對應專家持平甚至略勝,說明這種細粒度協(xié)作真正做到了"取長補短"。

實驗2:在通用數(shù)據(jù)集上顯著提升整體生成質量



除了數(shù)學推理和代碼生成等domain-specific任務之外,論文還進一步評估了FusionRoute在通用場景下的整體生成質量。為此,論文在PerfectBlend測試集上隨機采樣500條prompt,讓各方法生成不超過300個token的回答,并使用GPT-4o進行pairwise比較,以Fine-tuned Model的回答作為參照計算win rate。實驗結果表明,F(xiàn)usionRoute在通用數(shù)據(jù)集上依然能夠優(yōu)于微調(diào)模型以及其他協(xié)作方法,說明其能夠融合不同expert的能力,能夠在混合場景下生成更加高質量且更自然的回答。

另一個有趣的現(xiàn)象是在不同模型規(guī)模之間的對比上。在更大的8B Llama-3家族上,F(xiàn)usionRoute相對基線的優(yōu)勢顯著擴大,而其他token-level協(xié)作方法(如Collab)和sequence-level選擇方法反而出現(xiàn)明顯退化;而在2B的Gemma-2家族上,純專家選擇類的方法表現(xiàn)尚可。這說明隨著模型容量上升,"純粹從專家中挑一個"的范式變得越來越脆弱——專家越強,候選之間的細微差別越難僅憑外部reward區(qū)分出來;而router提供的補充生成機制能夠更充分地利用額外的表達能力,把模型容量真正轉化為協(xié)作質量。換句話說,F(xiàn)usionRoute的設計哲學在更強的底座上反而更具優(yōu)勢。

意義

FusionRoute的核心貢獻可以從幾個層面來看。

在方法層面,F(xiàn)usionRoute首次將"專家選擇"與"補充生成"統(tǒng)一在同一個輕量級router模塊中。以往的多LLM協(xié)作要么是sequence-level的粗粒度融合,要么是token-level但純粹基于選擇的方案——前者效率低、粒度粗,后者依賴專家在每一個token上的正確性,魯棒性不夠。FusionRoute讓router同時承擔"指揮"和"補位"兩個角色,既保留了token-level的細粒度優(yōu)勢,又通過補充logits修正專家在不擅長場景下的輸出,從根本上提升了協(xié)作系統(tǒng)的穩(wěn)定性。

在理論層面,論文給出了一個對該方向具有指導意義的結果——在僅有single policy coverage的合理假設下,純粹依賴專家選擇的token-level協(xié)作存在本質上的不可識別性,無法保證恢復出近似最優(yōu)策略。這一不可能性結果解釋了過去token-level方法在實踐中表現(xiàn)不穩(wěn)定的根源,也從理論上論證了router作為補充生成器的必要性——在加入補充logits之后,最終策略的可表達策略類被顯著擴張,從而能夠在更弱的假設下恢復近似最優(yōu)。

在工程層面,F(xiàn)usionRoute既不要求各專家模型結構同構,也無需對專家進行任何額外的梯度更新,僅需訓練一個輕量級router,就可以將一組現(xiàn)成的、結構異質的領域模型組裝成一個綜合能力更強的系統(tǒng)。這種"即插即用"的設計在實際部署中具有重要意義——當一個新的領域專家出現(xiàn)時,可以快速納入?yún)f(xié)作框架,而無需推倒重訓整個系統(tǒng)。

最重要的是,這些性能提升并不依賴于對expert模型的額外微調(diào),而是通過更高效的推理協(xié)作機制實現(xiàn)的。這表明FusionRoute能夠在保持較低額外成本的前提下,充分挖掘多模型之間的互補能力,從而實現(xiàn)更強的綜合表現(xiàn)。沿著這一方向,多個專門化小模型的協(xié)作正在成為通用大模型之外一條具有現(xiàn)實價值的技術路徑。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
卡卡:球迷常說我和阿扎爾是皇馬隊史最失敗引援,對此我接受

卡卡:球迷常說我和阿扎爾是皇馬隊史最失敗引援,對此我接受

懂球帝
2026-06-12 23:10:06
世界杯1日4賽:五星巴西欲復仇,澳洲袋鼠磕強敵,2場湊數(shù)或爆冷

世界杯1日4賽:五星巴西欲復仇,澳洲袋鼠磕強敵,2場湊數(shù)或爆冷

萌蘭聊個球
2026-06-13 16:55:26
人的一生,要闖三關。第一關,送父母終老;第三關,守好自己的命

人的一生,要闖三關。第一關,送父母終老;第三關,守好自己的命

富書
2026-05-31 21:32:50
79歲林子祥和老婆上海購物,葉蒨文打扮貴氣,脖子上掛著幾串珍珠

79歲林子祥和老婆上海購物,葉蒨文打扮貴氣,脖子上掛著幾串珍珠

無處不風景l(fā)ove
2026-06-12 23:07:40
當女人偷情后,再和丈夫同房心里會有陰影嗎?

當女人偷情后,再和丈夫同房心里會有陰影嗎?

思絮
2026-06-12 21:42:26
全員跑路!東方甄選初代主播全軍覆沒,離職潮根本剎不住

全員跑路!東方甄選初代主播全軍覆沒,離職潮根本剎不住

雷科技
2026-06-11 12:07:08
法專家曾言:中國電力已讓世界畏懼!為啥中國人自己卻渾然不知?

法專家曾言:中國電力已讓世界畏懼!為啥中國人自己卻渾然不知?

蜉蝣說
2026-06-13 10:55:14
美媒曾言:美國再成為唯一超級大國,中國曾有機會,如今輸?shù)舾偁?>
    </a>
        <h3>
      <a href=花漾夜雨飄雪
2026-06-13 19:04:34
張軍被查創(chuàng)下多個尷尬“紀錄”,18年前曾因酒駕被查

張軍被查創(chuàng)下多個尷尬“紀錄”,18年前曾因酒駕被查

元芳有看法
2026-04-30 09:25:44
有色金屬:緊急提醒2.5億股民!從6月12日,或將來迎牛低頭行情

有色金屬:緊急提醒2.5億股民!從6月12日,或將來迎牛低頭行情

花小貓的美食日常
2026-06-13 16:51:04
深圳樓市開始離譜了!龍華紅山板塊從8萬變成5.6萬,福田上班族開始出手了

深圳樓市開始離譜了!龍華紅山板塊從8萬變成5.6萬,福田上班族開始出手了

民生格物
2026-06-12 12:57:11
坐公交時對面老太緊盯著我的肚子,她緩聲說:你的孩子被人調(diào)換了

坐公交時對面老太緊盯著我的肚子,她緩聲說:你的孩子被人調(diào)換了

古怪奇談錄
2026-06-13 14:52:18
新帥打臉克洛普!利物浦清洗冠軍核心,4400 萬接班人遭曼聯(lián)瘋搶

新帥打臉克洛普!利物浦清洗冠軍核心,4400 萬接班人遭曼聯(lián)瘋搶

瀾歸序
2026-06-13 06:08:42
森林狼需要提升一號位實力,歐文和莫蘭特都可能是他們的目標?

森林狼需要提升一號位實力,歐文和莫蘭特都可能是他們的目標?

稻谷與小麥
2026-06-14 02:58:38
一張殯儀館名單讓全網(wǎng)沉默:8人里5個沒到50歲,最小的才14歲!

一張殯儀館名單讓全網(wǎng)沉默:8人里5個沒到50歲,最小的才14歲!

叮當當科技
2026-06-14 01:38:04
沉默45年,中國第二輪"嚴打"終于來了!目標改變總體戰(zhàn)正式打響

沉默45年,中國第二輪"嚴打"終于來了!目標改變總體戰(zhàn)正式打響

薦史
2026-05-03 13:48:04
上海女子帶娃住酒店被投屏不雅視頻,酒店方:已暫停全部投屏服務并為客人退了房費;記者調(diào)查:部分酒店網(wǎng)絡安全或存在漏洞

上海女子帶娃住酒店被投屏不雅視頻,酒店方:已暫停全部投屏服務并為客人退了房費;記者調(diào)查:部分酒店網(wǎng)絡安全或存在漏洞

揚子晚報
2026-06-12 22:23:54
SpaceX上市前,馬斯克半裸充氣人偶現(xiàn)身時代廣場!馬斯克回應來了

SpaceX上市前,馬斯克半裸充氣人偶現(xiàn)身時代廣場!馬斯克回應來了

王爺說圖表
2026-06-12 15:24:39
臺灣主動回歸?退將開出兩個條件,大陸:第一個可以,第二個沒門

臺灣主動回歸?退將開出兩個條件,大陸:第一個可以,第二個沒門

混沌錄
2026-06-14 01:20:23
13日WTT挑戰(zhàn)賽:女單四強名單揭曉!出現(xiàn)三大驚喜,陳熠大放異彩

13日WTT挑戰(zhàn)賽:女單四強名單揭曉!出現(xiàn)三大驚喜,陳熠大放異彩

小七說籃球
2026-06-13 10:07:43
2026-06-14 04:20:49
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
13246文章數(shù) 142669關注度
往期回顧 全部

科技要聞

SpaceX上市首日破2萬億美元,馬斯克再封神

頭條要聞

特朗普:美伊協(xié)議計劃周日簽署 霍爾木茲海峽立即開放

頭條要聞

特朗普:美伊協(xié)議計劃周日簽署 霍爾木茲海峽立即開放

體育要聞

美國4比1巴拉圭:這統(tǒng)治力真是美國隊?!

娛樂要聞

鄧超曬孫儷親手織的帽子,笑瘋全網(wǎng)!

財經(jīng)要聞

梁文鋒向左,楊植麟向右

汽車要聞

深藍S07華為乾崑激光版增程車型上市 限時15.49萬元起

態(tài)度原創(chuàng)

藝術
本地
游戲
手機
公開課

藝術要聞

廣州再建一座“小蠻腰”?190米,頂著個球,2027年見!

本地新聞

AK劉彰邂逅河北南大港濕地

LPL淘汰賽:就差一點,今天無奇跡!BLG五局戰(zhàn)勝WE,決賽見

手機要聞

比華為三折疊還稀缺!iPhone Ultra國行備貨量不足:博主直言搶到賺到

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版