網易首頁 > 網易號 > 正文申請入駐

ACL 2026 | 不訓練LLM也能支持未見語言問答？中科院計算所團隊讓多語言能力「外掛式」加載

2026-04-25 18:13:53　來源: 新浪財經

河北舉報

分享至

來源：市場資訊

一個直觀的解釋是訓練數據不足，但更本質的問題在于表示空間不匹配。已有研究表明，LLM 已經在統一的語義空間中編碼了豐富的跨語言知識，并且在處理多語言文本時會專門「經過」這個統一語義空間（如英語表示空間）。這意味著，LLM 的多語言瓶頸不在缺乏知識，而是難以將已有的知識正確映射到多語言表示空間中。

與此同時，多語言神經機器翻譯（NMT）模型在跨語言表示建模方面表現出色。這些 NMT 模型通過 encoder-decoder 架構構建了一個統一的跨語言語義空間，實現上百種語言之間穩定的語義轉換。這啟發我們：能否將 LLM 的知識處理能力和多語言 NMT 模型的多語言能力組合，實現優勢互補？

基于這一思路，中國科學院計算技術研究所 NLP 團隊提出了一種新的多語言擴展范式 XBridge：組合 LLM 以英文為中心的通用能力，以及現有多語言 NMT 模型的多語言理解和生成能力，實現二者的能力互補，組合成一個多語言通用模型。換言之，將多語言理解和生成卸載到外部 NMT 模型，LLM 進行以英文為中心的通用知識處理。

論文：https://arxiv.org/abs/2603.17512
代碼：https://github.com/ictnlp/XBridge
模型：https://huggingface.co/collections/ICTNLP/xbridge

該成果已被 ACL 2026 主會接收。

XBridge：模型組合的多語言擴展方案

XBridge 的核心思想是，將多語言能力卸載到 NMT 模型，同時保留 LLM 作為知識處理和推理的核心。

1. 模型架構

XBridge 采用 encoder-LLM-decoder 三段式架構，模塊之間用 MLP 架構的輕量映射層連接：

NMT encoder：將多語言輸入映射到共享語義空間。
LLM：以英語為中心的知識處理和推理核心。
NMT decoder：生成目標語言輸出。

直觀來看，多語言輸入首先被 encoder 編碼成共享語義表示，再由 LLM 進行知識處理和推理，最后 decoder 映射到目標語言輸出，實現完整的多語言「理解 - 處理 - 生成」閉環。

2. 最優運輸對齊

由于不同模型之間的表示空間天然不一致，例如 token 粒度上嚴重錯位，單純利用 MLP 進行跨模型表示映射難以實現語義一致的轉換。為解決這一問題，我們引入最優運輸（Optimal Transport, OT）對齊目標，自適應地學習 token 粒度的軟匹配，從而在不同長度、不同分詞方式的異構表示空間之間建立細粒度的語義對齊關系，實現穩定的語義轉換和高質量的多語言生成。

3. 三階段訓練策略

為在不同模型之間建立穩定對齊，XBridge 設計三階段訓練策略，LLM 全程無需訓練：

跨模型對齊階段：學習 encoder-LLM-decoder 之間的基礎語義映射關系。
編碼器適配階段：讓 LLM 學會利用 encoder 表示完成下游任務。
解碼器適配階段：進一步提升 decoder 多語言生成質量。

分階段的訓練設計能夠有效避免不同優化目標之間的沖突，使模型能夠逐步建立穩定的跨模型映射，并適配下游任務。

實驗結果：

不訓練 LLM 即可支持高質量未見語言問答

1. 多語言能力成功卸載到 NMT 模型

在 FLORES-101 翻譯任務上，XBridge 顯著提升了 LLM 在低資源語言或未見語言（如孟加拉語、斯瓦西里語等）上的理解和生成能力，性能接近或超越外部 NMT 模型。這表明 LLM 的多語言能力是可以卸載到外部 NMT 模型的。

2. 下游任務顯著提升

在多語言數學推理（MGSM）和摘要生成（XL-Sum）任務上，XBridge 在低資源語言上獲得顯著提升，顯著縮小高資源、低資源語言的性能差距，同時保持或提升高資源語言性能。值得注意的是，這個過程不需要訓練 LLM。

3. 可泛化、語言無關的跨模型映射

XBridge 在未訓練的語言上仍表現出良好的泛化能力，性能甚至接近外部 NMT 模型，這表明 XBridge 學到的是一種語言無關的跨模型映射。此外，OT 任務對語言生成的泛化具有重要作用。

4. 可控語言生成與無損語言切換

通過控制 decoder 輸入語言標簽，XBridge 可以靈活指定輸出語言，實現任意語言對之間的跨語言生成，同時保持無損的多語言切換。

以下是一個語言切換示例。

5. 系統演示

我們借助一階段的泛化性，直接在 50 種語言的通用指令遵循數據上訓練 XBridge。以下是一個 demo，展示了 XBridge 多語言問答能力和語言切換的效果。

總結與展望

通過將多語言能力卸載到外部 NMT 模型，XBridge 在不訓練 LLM 的前提下，實現了對低資源和未見語言的高質量支持。除了性能的提升，XBridge 更重要的價值在于為 LLM 的多語言擴展提供了一個新思路：擴展 LLM 的多語言能力，或許不再需要依賴大規模、高質量、多任務的多語言訓練數據，而是可以通過組合現有模型，實現低成本擴展。

作者介紹

卜夢煜，中國科學院計算技術研究所博士研究生，導師為馮洋研究員。主要研究方向為多語言大模型。在 ACL、EMNLP 等自然語言處理領域頂級國際會議發表多篇論文。

馮洋，中國科學院院計算技術研究所研究員、博士生導師，擔任國際計算語言學學會執委（ACL Secretary）以及 ACL/EMNLP 等多個國際會議高級領域主席，獲 ACL 2019 唯一最佳長文獎。主導研發了百聆大模型和 LLaMA-Omni 即時交互語音大模型（曾位列 Huggingface 連續一周模型下載量前十）。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.