網易首頁 > 網易號 > 正文 申請入駐

架構解耦是統一多模態模型所必須的嗎?全新AIA損失:No

0
分享至



近一年以來,統一理解與生成模型發展十分迅速,該任務的主要挑戰在于視覺理解和生成任務本身在網絡層間會產生沖突。早期的完全統一模型(如 Emu3)與單任務的方法差距巨大,Janus-Pro、BAGEL 通過一步一步解耦模型架構,極大地減小了與單任務模型的性能差距,后續方法甚至通過直接拼接現有理解和生成模型以達到極致的性能。

香港中文大學 MMLab 和美團的研究者相信,在不久的將來統一模型的性能一定能夠達到單任務的水平,但同時也引起了他們的思考,目前通過拆解架構換取性能提升的方式真的是正確的嗎,它是否背離統一模型的初衷,它能夠提升性能的內在原因又是什么,這種方式真的是統一模型必須的嗎?

「統一模型的初衷」以及「 架構解耦的缺點」

統一理解生成模型的初衷是為了通過透明化、合理化的圖文交錯思考過程,提高單任務的性能,例如讓模型走迷宮時統一模型可以生成每一步對應的圖像,可以在模型做數學題的時候給圖像畫上輔助線,或者是在生成一張圖像的時候邊畫邊思考有沒有生成不合理的地方并且自動修正,這些都是 Uni-MMMU 等當前統一模型基準所關注,也是它本身被獨立成一個領域的初衷。

再回到架構解耦的模型,例如 BAGEL 上,它本身如果要實現圖文交錯思考,需要經歷隱空間解碼到文字或者像素空間,然后再編碼到隱空間的復雜過程,兩個任務也幾乎不在同一個模型空間中,具有計算開銷大、信息丟失兩大問題。雖然在當前情況下相比于其可觀的性能,這個問題似乎并不顯著,但是研究者認為隨著研究的進行,這會是一個很大的問題。

AIA: 模型架構解耦不是統一模型必須的

為了探究清楚「架構解耦帶來性能提升的內在原因」以及「探索不使用架構解耦的前提下提升模型性能的方式」,香港中文大學 MMLab 和美團聯合推出了 AIA。



  • 論文標題:Architecture Decoupling Is Not All You Need For Unified Multimodal Model
  • 論文鏈接:https://arxiv.org/abs/2511.22663
  • 代碼:https://github.com/zhengdian1/AIA
  • 網頁:https://github.com/zhengdian1/AIA-project

研究者首先通過研究不同架構的統一模型在每一層網絡中跨模態交互的強度,他們驚訝地發現不管如何進行模型架構解耦,理解和生成任務在同一層網絡中始終呈現負相關的關系,同時進一步驗證了這個現象與輸入的模態、長度和類別都沒有關系,這說明是模型自發在學習如何合理地分配兩個任務在每一層中的占比,從而 「緩解沖突」,這又說明架構解耦本質上并沒有解決任務之間沖突的問題。

研究者進一步在最后一列可視化了現在單任務 SOTA 的模型的多模態交互模式(HunyuanImage-3.0 雖然是統一模型,但更側重于生成效果),結果發現隨著模型解耦程度的增強,其對應的跨模態交互模式會趨向于單任務的表現,這也是能夠實現性能提升的主要原因



基于這個發現,研究者設計了Attention Interaction Alignment (AIA) 損失,通過將單任務模型的跨模態交互模式作為學習目標,在訓練的過程中顯式地約束統一模型的交互模式。

AIA 效果如何?

研究者在 Emu3 和 Janus-Pro 這兩種完全統一架構、輕微模型解耦架構上進行了實驗,如下表所示,結果表明本文的方法能夠在沒有任何其他 trick 的情況下提升這些模型的性能,減小了與更高解耦程度模型的差距。



同時,研究者給出了使用 AIA 損失之后 Emu3 和 Janus-Pro 跨模態交互模式曲線變化,可以發現加入了 AIA 損失之后,兩個模型的交互曲線都向單任務模型的表現靠近了,既證明了 AIA 損失的有效性,同時也說明了模型架構解耦不是唯一能夠提高統一模型性能的方式。

當然,研究者也承認在目前情況下完全統一的方法和高解耦程度的模型之間存在很大的差距,但正如 Emu3.5 的出現,他們認為這個差距會越來越小。因此,研究者呼吁更多的人拋開表層的框架和數據配比,深入研究統一模型的任務沖突問題,尋找更優的解法。

AIA 好訓嗎?

由于 Emu3 只有預訓練 (PT) 階段是統一訓練的,因此研究者在其 PT 權重上進行微調,而 Janus-Pro 給的是最終 SFT 微調后的權重,研究者在此基礎上進行后訓練。

研究者通過調整 AIA 損失與 next-token-prediction (NTP) 損失的比重來測試其微調的敏感度,結果發現訓練 Emu3 的時候由于其預訓練知識比較薄弱,AIA 損失在一個很大的范圍內都能達到穩定收斂的效果。而在 Janus-Pro 中,由于其本身預訓練知識很強,AIA 的加入非常容易影響模型訓練,但在合適的比重情況下仍然能夠達到不錯的效果。

AIA 有什么優勢?

AIA 損失的加入可以一定程度上減少現在常見的數據配比工程問題,本文的方法在生成與理解數據配比在 1:1 的情況下能夠達到更好的效果,這說明在一定程度上兩個任務的訓練不再是沖突的,產生了協同優化的效果。

統一模型訓練的正確道路是什么?

通過結合現在所有統一模型訓練的問題以及本文的實驗分析,可以發現不管怎樣解耦模型,其始終會在統一訓練的過程中動態分配不同任務在同一層的權重來緩解沖突,那這是否實際上代表了統一模型的正確行為



另一條統一路徑是移除所有可以用來區分任務的線索(即采用統一分詞器、消除任務相關特殊 token、使用交錯數據數據輸入),迫使模型只能從輸入中學習真正的統一空間。雖然這種方法或許可以解決任務間的負相關問題,但也會顯著增加訓練難度。

未來展望

AIA 邁出了統一模型訓練原理分析的第一步,研究者希望能夠有更多志同道合的研究者加入這個領域的探索。統一模型現在的理論、架構都遠遠沒有達到成熟,需要大家共同進行探索。同時研究者也希望大家能夠更加關注統一模型真正的意義,不要一味地關注當前單任務基準上的性能。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
天津一景區內一名飛行員死亡,事故調查報告公布

天津一景區內一名飛行員死亡,事故調查報告公布

揚子晚報
2026-04-25 21:02:36
全球44個君主制國家,只有14個國王擁有實權,他們是誰?

全球44個君主制國家,只有14個國王擁有實權,他們是誰?

七號說三國
2026-04-25 20:07:27
反差拉滿!蔚來CEO李斌騎共享單車去北京車展,比亞迪董事長王傳福則攜眾高管坐地鐵前往

反差拉滿!蔚來CEO李斌騎共享單車去北京車展,比亞迪董事長王傳福則攜眾高管坐地鐵前往

魯中晨報
2026-04-25 19:52:13
3000萬歐年薪!皇馬巨星要挾高層,不給就轉會,姆巴佩笑了

3000萬歐年薪!皇馬巨星要挾高層,不給就轉會,姆巴佩笑了

祥談體育
2026-04-25 16:59:55
喝酒后出現這3個現象,說明你的身體已不適合喝酒,再喝就是玩命

喝酒后出現這3個現象,說明你的身體已不適合喝酒,再喝就是玩命

深度報
2026-04-24 22:31:58
美國對購買伊朗石油的中國小型煉油廠實施制裁

美國對購買伊朗石油的中國小型煉油廠實施制裁

財聞
2026-04-25 12:36:40
7年敗光80億!華誼兄弟申請破產,56歲王中磊落魄,兒子在美瀟灑

7年敗光80億!華誼兄弟申請破產,56歲王中磊落魄,兒子在美瀟灑

阿庫財經
2026-04-25 12:50:08
鏈家悄悄上線新功能,買房賣房都坐不住了

鏈家悄悄上線新功能,買房賣房都坐不住了

大川東山再起
2026-04-25 23:06:28
山西一地多個部門“一把手”調整

山西一地多個部門“一把手”調整

山西晚報
2026-04-25 20:26:55
潔白的包臀裙:那不是一條裙子,是一面鏡子

潔白的包臀裙:那不是一條裙子,是一面鏡子

疾跑的小蝸牛
2026-04-25 22:29:33
女子深圳公交站臺勸阻男子抽煙起沖突,當地通報:責令男子改正,并處行政罰款

女子深圳公交站臺勸阻男子抽煙起沖突,當地通報:責令男子改正,并處行政罰款

封面新聞
2026-04-25 22:44:22
美國一旦霸權結束,一定會滅亡的三個國家,排第一的果然是它

美國一旦霸權結束,一定會滅亡的三個國家,排第一的果然是它

琴音繚繞回
2026-04-25 07:21:31
現代級魔改,估計俄羅斯娘家也看傻眼了吧

現代級魔改,估計俄羅斯娘家也看傻眼了吧

三叔的裝備空間
2026-04-24 23:53:16
DeepSeek聯手華為掀桌子后,黃仁勛給英偉達下達了死命令

DeepSeek聯手華為掀桌子后,黃仁勛給英偉達下達了死命令

南宗歷史
2026-04-25 10:12:48
下一個 B 費?曼聯鎖定“德容+佩德里結合體”,轉會費或破紀錄

下一個 B 費?曼聯鎖定“德容+佩德里結合體”,轉會費或破紀錄

瀾歸序
2026-04-26 06:26:48
四大邊鋒毫無貢獻?阿森納進球難的問題,應當由他們幾個來負責

四大邊鋒毫無貢獻?阿森納進球難的問題,應當由他們幾個來負責

里芃芃體育
2026-04-26 05:00:03
高市早苗走投無路,求中國重啟談判,中國亮劍:賣光日本都不夠賠

高市早苗走投無路,求中國重啟談判,中國亮劍:賣光日本都不夠賠

金額多少啊
2026-04-25 18:13:26
多庫:事不過三,我希望這次能贏下足總杯冠軍

多庫:事不過三,我希望這次能贏下足總杯冠軍

懂球帝
2026-04-26 04:45:07
穆杰塔巴傷情曝光,比外界想象的更嚴重,他用了一招終結斬首戰術

穆杰塔巴傷情曝光,比外界想象的更嚴重,他用了一招終結斬首戰術

溫讀史
2026-04-25 01:18:21
破防了!杰倫再遭傷病,衛冕冠軍迎噩耗,真要止步季后賽首輪?

破防了!杰倫再遭傷病,衛冕冠軍迎噩耗,真要止步季后賽首輪?

體育大朋說
2026-04-25 10:33:29
2026-04-26 07:04:49
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
12852文章數 142636關注度
往期回顧 全部

科技要聞

DeepSeek V4發布!黃仁勛預言的"災難"降臨

頭條要聞

媒體:美軍在中東罕見高密度集結 伊朗開始調整戰術

頭條要聞

媒體:美軍在中東罕見高密度集結 伊朗開始調整戰術

體育要聞

那一刻開始,兩支球隊的命運悄然改變了

娛樂要聞

《我們的爸爸2》第一季完美爸爸翻車了

財經要聞

90%訂單消失,中東旺季沒了

汽車要聞

2026款樂道L90亮相北京車展 樂道L80正式官宣

態度原創

教育
時尚
手機
藝術
親子

教育要聞

跟孩子說話要小心:你強調什么,他就變成什么

這些穿搭適合春天!外套彩色內搭白色、褲子穿基礎款,舒適大方

手機要聞

停更一年憋大招!小米大折疊攜玄戒O3回歸,系統也是新的

藝術要聞

毛澤東寫小字,太瀟灑了

親子要聞

總感覺她們兩是上輩子的情人!

無障礙瀏覽 進入關懷版