網易首頁 > 網易號 > 正文 申請入駐

ACL 2026 | 不訓練LLM也能支持未見語言問答?中科院計算所團隊讓多語言能力「外掛式」加載

0
分享至

來源:市場資訊


一個直觀的解釋是訓練數據不足,但更本質的問題在于表示空間不匹配。已有研究表明,LLM 已經在統一的語義空間中編碼了豐富的跨語言知識,并且在處理多語言文本時會專門「經過」這個統一語義空間(如英語表示空間)。這意味著,LLM 的多語言瓶頸不在缺乏知識,而是難以將已有的知識正確映射到多語言表示空間中。

與此同時,多語言神經機器翻譯(NMT)模型在跨語言表示建模方面表現出色。這些 NMT 模型通過 encoder-decoder 架構構建了一個統一的跨語言語義空間,實現上百種語言之間穩定的語義轉換。這啟發我們:能否將 LLM 的知識處理能力和多語言 NMT 模型的多語言能力組合,實現優勢互補?

基于這一思路,中國科學院計算技術研究所 NLP 團隊提出了一種新的多語言擴展范式 XBridge:組合 LLM 以英文為中心的通用能力,以及現有多語言 NMT 模型的多語言理解和生成能力,實現二者的能力互補,組合成一個多語言通用模型。換言之,將多語言理解和生成卸載到外部 NMT 模型,LLM 進行以英文為中心的通用知識處理。


  • 論文:https://arxiv.org/abs/2603.17512

  • 代碼:https://github.com/ictnlp/XBridge

  • 模型:https://huggingface.co/collections/ICTNLP/xbridge

該成果已被 ACL 2026 主會接收。

XBridge:模型組合的多語言擴展方案

XBridge 的核心思想是,將多語言能力卸載到 NMT 模型,同時保留 LLM 作為知識處理和推理的核心。


1. 模型架構

XBridge 采用 encoder-LLM-decoder 三段式架構,模塊之間用 MLP 架構的輕量映射層連接:

  • NMT encoder:將多語言輸入映射到共享語義空間。

  • LLM:以英語為中心的知識處理和推理核心。

  • NMT decoder:生成目標語言輸出。

直觀來看,多語言輸入首先被 encoder 編碼成共享語義表示,再由 LLM 進行知識處理和推理,最后 decoder 映射到目標語言輸出,實現完整的多語言「理解 - 處理 - 生成」閉環。

2. 最優運輸對齊

由于不同模型之間的表示空間天然不一致,例如 token 粒度上嚴重錯位,單純利用 MLP 進行跨模型表示映射難以實現語義一致的轉換。為解決這一問題,我們引入最優運輸(Optimal Transport, OT)對齊目標,自適應地學習 token 粒度的軟匹配,從而在不同長度、不同分詞方式的異構表示空間之間建立細粒度的語義對齊關系,實現穩定的語義轉換和高質量的多語言生成。

3. 三階段訓練策略

為在不同模型之間建立穩定對齊,XBridge 設計三階段訓練策略,LLM 全程無需訓練:

  • 跨模型對齊階段:學習 encoder-LLM-decoder 之間的基礎語義映射關系。

  • 編碼器適配階段:讓 LLM 學會利用 encoder 表示完成下游任務。

  • 解碼器適配階段:進一步提升 decoder 多語言生成質量。

分階段的訓練設計能夠有效避免不同優化目標之間的沖突,使模型能夠逐步建立穩定的跨模型映射,并適配下游任務。

實驗結果:

不訓練 LLM 即可支持高質量未見語言問答

1. 多語言能力成功卸載到 NMT 模型

在 FLORES-101 翻譯任務上,XBridge 顯著提升了 LLM 在低資源語言或未見語言(如孟加拉語、斯瓦西里語等)上的理解和生成能力,性能接近或超越外部 NMT 模型。這表明 LLM 的多語言能力是可以卸載到外部 NMT 模型的。


2. 下游任務顯著提升

在多語言數學推理(MGSM)和摘要生成(XL-Sum)任務上,XBridge 在低資源語言上獲得顯著提升,顯著縮小高資源、低資源語言的性能差距,同時保持或提升高資源語言性能。值得注意的是,這個過程不需要訓練 LLM。


3. 可泛化、語言無關的跨模型映射

XBridge 在未訓練的語言上仍表現出良好的泛化能力,性能甚至接近外部 NMT 模型,這表明 XBridge 學到的是一種語言無關的跨模型映射。此外,OT 任務對語言生成的泛化具有重要作用。


4. 可控語言生成與無損語言切換

通過控制 decoder 輸入語言標簽,XBridge 可以靈活指定輸出語言,實現任意語言對之間的跨語言生成,同時保持無損的多語言切換。


以下是一個語言切換示例。


5. 系統演示

我們借助一階段的泛化性,直接在 50 種語言的通用指令遵循數據上訓練 XBridge。以下是一個 demo,展示了 XBridge 多語言問答能力和語言切換的效果。

總結與展望

通過將多語言能力卸載到外部 NMT 模型,XBridge 在不訓練 LLM 的前提下,實現了對低資源和未見語言的高質量支持。除了性能的提升,XBridge 更重要的價值在于為 LLM 的多語言擴展提供了一個新思路:擴展 LLM 的多語言能力,或許不再需要依賴大規模、高質量、多任務的多語言訓練數據,而是可以通過組合現有模型,實現低成本擴展。

作者介紹

卜夢煜,中國科學院計算技術研究所博士研究生,導師為馮洋研究員。主要研究方向為多語言大模型。在 ACL、EMNLP 等自然語言處理領域頂級國際會議發表多篇論文。

馮洋,中國科學院院計算技術研究所研究員、博士生導師,擔任國際計算語言學學會執委(ACL Secretary)以及 ACL/EMNLP 等多個國際會議高級領域主席,獲 ACL 2019 唯一最佳長文獎。主導研發了百聆大模型和 LLaMA-Omni 即時交互語音大模型(曾位列 Huggingface 連續一周模型下載量前十)。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
普京罕見讓步,中國了結30年心愿!日本徹底慌了,高市遣使求饒

普京罕見讓步,中國了結30年心愿!日本徹底慌了,高市遣使求饒

凡知
2026-04-25 19:27:35
你被豆包忽悠過嗎?以親身經歷提醒你,警惕豆包信口開河

你被豆包忽悠過嗎?以親身經歷提醒你,警惕豆包信口開河

讀鬼筆記
2026-04-22 19:51:21
廣東珠海一女神好漂亮, 身高179cm,體重50kg 美的讓人移不開眼

廣東珠海一女神好漂亮, 身高179cm,體重50kg 美的讓人移不開眼

今日搞笑分享
2026-04-06 17:55:16
國務院免去二人職務!此前任上被查

國務院免去二人職務!此前任上被查

上觀新聞
2026-04-24 15:51:06
以色列當著全世界質問:中國憑什么能過海峽?沒想到全場無人理會

以色列當著全世界質問:中國憑什么能過海峽?沒想到全場無人理會

阿紿聊社會
2026-04-25 19:41:47
分身乏術的俄羅斯終于點了頭,與其拖著不如給中國一個順水人情

分身乏術的俄羅斯終于點了頭,與其拖著不如給中國一個順水人情

阿天愛旅行
2026-04-25 18:20:58
鄧文迪還是牛!前夫默多克95歲生日宴,她和兩個女兒精心打扮出席

鄧文迪還是牛!前夫默多克95歲生日宴,她和兩個女兒精心打扮出席

照見古今
2026-03-12 19:27:38
誰把東方甄選的主播們逼走了? 俞敏洪一天損失四員大將!主播明明等發公開信直指新管理層“不友好”

誰把東方甄選的主播們逼走了? 俞敏洪一天損失四員大將!主播明明等發公開信直指新管理層“不友好”

新浪財經
2026-04-25 18:08:34
看了胡明軒不壓表瞎扔三分的騷操作,才發現,陳家政為啥打不出來

看了胡明軒不壓表瞎扔三分的騷操作,才發現,陳家政為啥打不出來

后仰大風車
2026-04-25 09:05:08
ASML公司CEO:中國芯片落后世界8年,因為他們已經8年沒有獲得我們的EUV光刻機

ASML公司CEO:中國芯片落后世界8年,因為他們已經8年沒有獲得我們的EUV光刻機

芯火相承
2026-04-23 17:33:03
男孩cos弗利薩,媽媽用乳膠漆化妝,洗不掉成“永久皮膚”

男孩cos弗利薩,媽媽用乳膠漆化妝,洗不掉成“永久皮膚”

國創漫話
2026-04-19 15:57:41
男子用2條毒蛇泡酒,12年后打開本想品嘗美酒,誰知出現驚人現象

男子用2條毒蛇泡酒,12年后打開本想品嘗美酒,誰知出現驚人現象

詭譎怪談
2025-04-01 17:37:59
烏軍曝出丑聞,西爾斯基怒不可遏:所有指揮官撤職查辦!

烏軍曝出丑聞,西爾斯基怒不可遏:所有指揮官撤職查辦!

史政先鋒
2026-04-25 20:38:13
春假+“五一”最多連休11天,部分城市出游訂單翻3倍

春假+“五一”最多連休11天,部分城市出游訂單翻3倍

上游新聞
2026-04-25 15:32:06
99年轉業回家半路幫迷路大爺找到了家,3天后,家門口來了輛軍車

99年轉業回家半路幫迷路大爺找到了家,3天后,家門口來了輛軍車

麥子情感故事
2026-04-24 14:15:11
新款大眾ID. Buzz官圖發布!網友:價格25萬起,肯定排隊

新款大眾ID. Buzz官圖發布!網友:價格25萬起,肯定排隊

汽車網評
2026-04-23 23:00:31
美國全面封鎖伊朗進出口,對伊朗的傷害有多大?

美國全面封鎖伊朗進出口,對伊朗的傷害有多大?

高博新視野
2026-04-24 07:30:14
爸爸夢到已故兒子說腳被刺扎了,立馬驅車來到孩子墓前,眼前的一幕讓人驚呆了!

爸爸夢到已故兒子說腳被刺扎了,立馬驅車來到孩子墓前,眼前的一幕讓人驚呆了!

張曉磊
2026-04-10 11:24:23
蔣介石遺體已腐爛不堪?守靈三年的侍衛,終于說出慈湖的秘密!

蔣介石遺體已腐爛不堪?守靈三年的侍衛,終于說出慈湖的秘密!

云霄紀史觀
2026-04-25 19:33:41
田馥甄曬3人合體爬山,陳嘉樺帶包子接地氣,任家萱現在最沒星味

田馥甄曬3人合體爬山,陳嘉樺帶包子接地氣,任家萱現在最沒星味

離離言幾許
2026-04-25 20:49:13
2026-04-25 21:47:00
新浪財經 incentive-icons
新浪財經
新浪財經是一家創建于1999年8月的財經平臺
3010677文章數 6923關注度
往期回顧 全部

教育要聞

高校重磅改革:40%課程將AI化

頭條要聞

媒體:美軍在中東罕見高密度集結 伊朗開始調整戰術

頭條要聞

媒體:美軍在中東罕見高密度集結 伊朗開始調整戰術

體育要聞

火箭0-3觸發百分百出局定律:本季加時賽9戰8敗

娛樂要聞

《我們的爸爸2》第一季完美爸爸翻車了

財經要聞

90%訂單消失,中東旺季沒了

科技要聞

DeepSeek V4發布!黃仁勛預言的"災難"降臨

汽車要聞

2026款樂道L90亮相北京車展 樂道L80正式官宣

態度原創

房產
游戲
教育
健康
公開課

房產要聞

新一輪教育大爆發來了!海口,開始瘋狂建學校!

《魔獸世界》更新翻車:暴雪官方緊急致歉!

教育要聞

教育縱深 | 閱讀走新更走心

干細胞如何讓燒燙傷皮膚"再生"?

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版