來源:市場資訊
![]()
一個直觀的解釋是訓練數據不足,但更本質的問題在于表示空間不匹配。已有研究表明,LLM 已經在統一的語義空間中編碼了豐富的跨語言知識,并且在處理多語言文本時會專門「經過」這個統一語義空間(如英語表示空間)。這意味著,LLM 的多語言瓶頸不在缺乏知識,而是難以將已有的知識正確映射到多語言表示空間中。
與此同時,多語言神經機器翻譯(NMT)模型在跨語言表示建模方面表現出色。這些 NMT 模型通過 encoder-decoder 架構構建了一個統一的跨語言語義空間,實現上百種語言之間穩定的語義轉換。這啟發我們:能否將 LLM 的知識處理能力和多語言 NMT 模型的多語言能力組合,實現優勢互補?
基于這一思路,中國科學院計算技術研究所 NLP 團隊提出了一種新的多語言擴展范式 XBridge:組合 LLM 以英文為中心的通用能力,以及現有多語言 NMT 模型的多語言理解和生成能力,實現二者的能力互補,組合成一個多語言通用模型。換言之,將多語言理解和生成卸載到外部 NMT 模型,LLM 進行以英文為中心的通用知識處理。
![]()
論文:https://arxiv.org/abs/2603.17512
代碼:https://github.com/ictnlp/XBridge
模型:https://huggingface.co/collections/ICTNLP/xbridge
該成果已被 ACL 2026 主會接收。
XBridge:模型組合的多語言擴展方案
XBridge 的核心思想是,將多語言能力卸載到 NMT 模型,同時保留 LLM 作為知識處理和推理的核心。
![]()
1. 模型架構
XBridge 采用 encoder-LLM-decoder 三段式架構,模塊之間用 MLP 架構的輕量映射層連接:
NMT encoder:將多語言輸入映射到共享語義空間。
LLM:以英語為中心的知識處理和推理核心。
NMT decoder:生成目標語言輸出。
直觀來看,多語言輸入首先被 encoder 編碼成共享語義表示,再由 LLM 進行知識處理和推理,最后 decoder 映射到目標語言輸出,實現完整的多語言「理解 - 處理 - 生成」閉環。
2. 最優運輸對齊
由于不同模型之間的表示空間天然不一致,例如 token 粒度上嚴重錯位,單純利用 MLP 進行跨模型表示映射難以實現語義一致的轉換。為解決這一問題,我們引入最優運輸(Optimal Transport, OT)對齊目標,自適應地學習 token 粒度的軟匹配,從而在不同長度、不同分詞方式的異構表示空間之間建立細粒度的語義對齊關系,實現穩定的語義轉換和高質量的多語言生成。
3. 三階段訓練策略
為在不同模型之間建立穩定對齊,XBridge 設計三階段訓練策略,LLM 全程無需訓練:
跨模型對齊階段:學習 encoder-LLM-decoder 之間的基礎語義映射關系。
編碼器適配階段:讓 LLM 學會利用 encoder 表示完成下游任務。
解碼器適配階段:進一步提升 decoder 多語言生成質量。
分階段的訓練設計能夠有效避免不同優化目標之間的沖突,使模型能夠逐步建立穩定的跨模型映射,并適配下游任務。
實驗結果:
不訓練 LLM 即可支持高質量未見語言問答
1. 多語言能力成功卸載到 NMT 模型
在 FLORES-101 翻譯任務上,XBridge 顯著提升了 LLM 在低資源語言或未見語言(如孟加拉語、斯瓦西里語等)上的理解和生成能力,性能接近或超越外部 NMT 模型。這表明 LLM 的多語言能力是可以卸載到外部 NMT 模型的。
![]()
2. 下游任務顯著提升
在多語言數學推理(MGSM)和摘要生成(XL-Sum)任務上,XBridge 在低資源語言上獲得顯著提升,顯著縮小高資源、低資源語言的性能差距,同時保持或提升高資源語言性能。值得注意的是,這個過程不需要訓練 LLM。
![]()
3. 可泛化、語言無關的跨模型映射
XBridge 在未訓練的語言上仍表現出良好的泛化能力,性能甚至接近外部 NMT 模型,這表明 XBridge 學到的是一種語言無關的跨模型映射。此外,OT 任務對語言生成的泛化具有重要作用。
![]()
4. 可控語言生成與無損語言切換
通過控制 decoder 輸入語言標簽,XBridge 可以靈活指定輸出語言,實現任意語言對之間的跨語言生成,同時保持無損的多語言切換。
![]()
以下是一個語言切換示例。
![]()
5. 系統演示
我們借助一階段的泛化性,直接在 50 種語言的通用指令遵循數據上訓練 XBridge。以下是一個 demo,展示了 XBridge 多語言問答能力和語言切換的效果。
總結與展望
通過將多語言能力卸載到外部 NMT 模型,XBridge 在不訓練 LLM 的前提下,實現了對低資源和未見語言的高質量支持。除了性能的提升,XBridge 更重要的價值在于為 LLM 的多語言擴展提供了一個新思路:擴展 LLM 的多語言能力,或許不再需要依賴大規模、高質量、多任務的多語言訓練數據,而是可以通過組合現有模型,實現低成本擴展。
作者介紹
卜夢煜,中國科學院計算技術研究所博士研究生,導師為馮洋研究員。主要研究方向為多語言大模型。在 ACL、EMNLP 等自然語言處理領域頂級國際會議發表多篇論文。
馮洋,中國科學院院計算技術研究所研究員、博士生導師,擔任國際計算語言學學會執委(ACL Secretary)以及 ACL/EMNLP 等多個國際會議高級領域主席,獲 ACL 2019 唯一最佳長文獎。主導研發了百聆大模型和 LLaMA-Omni 即時交互語音大模型(曾位列 Huggingface 連續一周模型下載量前十)。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.