无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

架構解耦是統一多模態模型所必須的嗎?全新AIA損失:No

0
分享至

近一年以來,統一理解與生成模型發展十分迅速,該任務的主要挑戰在于視覺理解和生成任務本身在網絡層間會產生沖突。早期的完全統一模型(如 Emu3)與單任務的方法差距巨大,Janus-Pro、BAGEL 通過一步一步解耦模型架構,極大地減小了與單任務模型的性能差距,后續方法甚至通過直接拼接現有理解和生成模型以達到極致的性能。

香港中文大學 MMLab 和美團的研究者相信,在不久的將來統一模型的性能一定能夠達到單任務的水平,但同時也引起了他們的思考,目前通過拆解架構換取性能提升的方式真的是正確的嗎,它是否背離統一模型的初衷,它能夠提升性能的內在原因又是什么,這種方式真的是統一模型必須的嗎?

「統一模型的初衷」以及「 架構解耦的缺點」

統一理解生成模型的初衷是為了通過透明化、合理化的圖文交錯思考過程,提高單任務的性能,例如讓模型走迷宮時統一模型可以生成每一步對應的圖像,可以在模型做數學題的時候給圖像畫上輔助線,或者是在生成一張圖像的時候邊畫邊思考有沒有生成不合理的地方并且自動修正,這些都是 Uni-MMMU 等當前統一模型基準所關注,也是它本身被獨立成一個領域的初衷。

再回到架構解耦的模型,例如 BAGEL 上,它本身如果要實現圖文交錯思考,需要經歷隱空間解碼到文字或者像素空間,然后再編碼到隱空間的復雜過程,兩個任務也幾乎不在同一個模型空間中,具有計算開銷大、信息丟失兩大問題。雖然在當前情況下相比于其可觀的性能,這個問題似乎并不顯著,但是研究者認為隨著研究的進行,這會是一個很大的問題。

AIA: 模型架構解耦不是統一模型必須的

為了探究清楚「架構解耦帶來性能提升的內在原因」以及「探索不使用架構解耦的前提下提升模型性能的方式」,香港中文大學 MMLab 和美團聯合推出了 AIA。

  • 論文標題:Architecture Decoupling Is Not All You Need For Unified Multimodal Model
  • 論文鏈接:https://arxiv.org/abs/2511.22663
  • 代碼:https://github.com/zhengdian1/AIA
  • 網頁:https://github.com/zhengdian1/AIA-project

研究者首先通過研究不同架構的統一模型在每一層網絡中跨模態交互的強度,他們驚訝地發現不管如何進行模型架構解耦,理解和生成任務在同一層網絡中始終呈現負相關的關系,同時進一步驗證了這個現象與輸入的模態、長度和類別都沒有關系,這說明是模型自發在學習如何合理地分配兩個任務在每一層中的占比,從而 「緩解沖突」,這又說明架構解耦本質上并沒有解決任務之間沖突的問題。

研究者進一步在最后一列可視化了現在單任務 SOTA 的模型的多模態交互模式(HunyuanImage-3.0 雖然是統一模型,但更側重于生成效果),結果發現隨著模型解耦程度的增強,其對應的跨模態交互模式會趨向于單任務的表現,這也是能夠實現性能提升的主要原因

基于這個發現,研究者設計了Attention Interaction Alignment (AIA) 損失,通過將單任務模型的跨模態交互模式作為學習目標,在訓練的過程中顯式地約束統一模型的交互模式。

AIA 效果如何?

研究者在 Emu3 和 Janus-Pro 這兩種完全統一架構、輕微模型解耦架構上進行了實驗,如下表所示,結果表明本文的方法能夠在沒有任何其他 trick 的情況下提升這些模型的性能,減小了與更高解耦程度模型的差距。

同時,研究者給出了使用 AIA 損失之后 Emu3 和 Janus-Pro 跨模態交互模式曲線變化,可以發現加入了 AIA 損失之后,兩個模型的交互曲線都向單任務模型的表現靠近了,既證明了 AIA 損失的有效性,同時也說明了模型架構解耦不是唯一能夠提高統一模型性能的方式。

當然,研究者也承認在目前情況下完全統一的方法和高解耦程度的模型之間存在很大的差距,但正如 Emu3.5 的出現,他們認為這個差距會越來越小。因此,研究者呼吁更多的人拋開表層的框架和數據配比,深入研究統一模型的任務沖突問題,尋找更優的解法。

AIA 好訓嗎?

由于 Emu3 只有預訓練 (PT) 階段是統一訓練的,因此研究者在其 PT 權重上進行微調,而 Janus-Pro 給的是最終 SFT 微調后的權重,研究者在此基礎上進行后訓練。

研究者通過調整 AIA 損失與 next-token-prediction (NTP) 損失的比重來測試其微調的敏感度,結果發現訓練 Emu3 的時候由于其預訓練知識比較薄弱,AIA 損失在一個很大的范圍內都能達到穩定收斂的效果。而在 Janus-Pro 中,由于其本身預訓練知識很強,AIA 的加入非常容易影響模型訓練,但在合適的比重情況下仍然能夠達到不錯的效果。

AIA 有什么優勢?

AIA 損失的加入可以一定程度上減少現在常見的數據配比工程問題,本文的方法在生成與理解數據配比在 1:1 的情況下能夠達到更好的效果,這說明在一定程度上兩個任務的訓練不再是沖突的,產生了協同優化的效果。

統一模型訓練的正確道路是什么?

通過結合現在所有統一模型訓練的問題以及本文的實驗分析,可以發現不管怎樣解耦模型,其始終會在統一訓練的過程中動態分配不同任務在同一層的權重來緩解沖突,那這是否實際上代表了統一模型的正確行為

另一條統一路徑是移除所有可以用來區分任務的線索(即采用統一分詞器、消除任務相關特殊 token、使用交錯數據數據輸入),迫使模型只能從輸入中學習真正的統一空間。雖然這種方法或許可以解決任務間的負相關問題,但也會顯著增加訓練難度。

未來展望

AIA 邁出了統一模型訓練原理分析的第一步,研究者希望能夠有更多志同道合的研究者加入這個領域的探索。統一模型現在的理論、架構都遠遠沒有達到成熟,需要大家共同進行探索。同時研究者也希望大家能夠更加關注統一模型真正的意義,不要一味地關注當前單任務基準上的性能。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
男子體檢查出2.1厘米肺結節,多家醫院診斷為“肺癌”;醫生切開笑了:是個紅色辣椒尖,“辣椒在CT下與肺組織密度幾乎一致”

男子體檢查出2.1厘米肺結節,多家醫院診斷為“肺癌”;醫生切開笑了:是個紅色辣椒尖,“辣椒在CT下與肺組織密度幾乎一致”

揚子晚報
2026-06-13 15:44:05
廣東球迷欲舉報杜鋒,范子銘有望加盟山東,李春江有望加盟北控!

廣東球迷欲舉報杜鋒,范子銘有望加盟山東,李春江有望加盟北控!

中國籃壇快訊
2026-06-14 19:00:09
老淚縱橫!泰王哭到雙眼紅腫,沉重父愛看得人好心酸

老淚縱橫!泰王哭到雙眼紅腫,沉重父愛看得人好心酸

凡知
2026-06-14 00:15:14
私生活混亂,從央視主持到勞改犯,如今靠直播打賞討生活

私生活混亂,從央視主持到勞改犯,如今靠直播打賞討生活

素衣讀史
2026-06-11 21:56:30
衣服全是假貨?繼“南極人”之后,這4家品牌也靠賣吊牌賺錢了

衣服全是假貨?繼“南極人”之后,這4家品牌也靠賣吊牌賺錢了

青梅侃史啊
2026-06-12 19:17:06
日媒:韓國決定申請加入CPTPP

日媒:韓國決定申請加入CPTPP

參考消息
2026-06-13 12:18:28
“墨西哥持槍搶劫中國球迷案”1名嫌疑人落網,當事人:除手機外財物被搶光,無心看球已提前回國

“墨西哥持槍搶劫中國球迷案”1名嫌疑人落網,當事人:除手機外財物被搶光,無心看球已提前回國

極目新聞
2026-06-14 12:59:31
對于明天周一A股,我只說3點:第一,4060點大概率是反彈的終點?

對于明天周一A股,我只說3點:第一,4060點大概率是反彈的終點?

趨勢清風俠
2026-06-14 08:46:04
晚飯七分飽被推翻了?醫生:過了65歲,吃飯盡量要做到這5點

晚飯七分飽被推翻了?醫生:過了65歲,吃飯盡量要做到這5點

健康科普365
2026-06-14 18:10:08
無視美日反對,法國將G7峰會辦成世界大會,特邀中國多方對話?

無視美日反對,法國將G7峰會辦成世界大會,特邀中國多方對話?

兵國大事
2026-06-13 15:51:43
高溫持續不下,印民組團跑到上海:吃飯美甲不給錢,專鉆小店空子

高溫持續不下,印民組團跑到上海:吃飯美甲不給錢,專鉆小店空子

人間無味啊
2026-06-13 18:54:58
畢業啦!谷愛凌曬斯坦福畢業照,氣質身材完美并存

畢業啦!谷愛凌曬斯坦福畢業照,氣質身材完美并存

東方不敗然多多
2026-06-14 14:17:21
千方百計“搶”農時保豐收——山東麥收一線見聞

千方百計“搶”農時保豐收——山東麥收一線見聞

新華社
2026-06-13 16:33:16
4400萬輛車在“蹭路”?央媒連發三炮,電車養路費這回真要來了

4400萬輛車在“蹭路”?央媒連發三炮,電車養路費這回真要來了

混沌錄
2026-06-11 21:00:07
SpaceX上市前,馬斯克半裸充氣人偶現身時代廣場!馬斯克回應來了

SpaceX上市前,馬斯克半裸充氣人偶現身時代廣場!馬斯克回應來了

王爺說圖表
2026-06-12 15:24:39
延時噴劑多久起作用?不同品牌實測對比,持久不麻木性價比高干貨分享

延時噴劑多久起作用?不同品牌實測對比,持久不麻木性價比高干貨分享

新廣網
2026-06-08 13:14:27
福原愛首聊二婚老公,有3方面要比前夫好,對現任婆婆稱呼顯尊重

福原愛首聊二婚老公,有3方面要比前夫好,對現任婆婆稱呼顯尊重

小冠說娛
2026-06-14 14:41:02
1夜7大轉會!拜仁二連簽,萊萬轉戰美職聯,凱爾特人官宣奧尼爾!

1夜7大轉會!拜仁二連簽,萊萬轉戰美職聯,凱爾特人官宣奧尼爾!

田先生籃球
2026-06-14 06:58:08
大批私家車主,收到警示短信,立即注銷網約車賬戶!

大批私家車主,收到警示短信,立即注銷網約車賬戶!

網約車焦點
2026-06-12 11:28:22
張雪贏麻了!53號張雪機車上,多了一個醒目的品牌標識“大疆”

張雪贏麻了!53號張雪機車上,多了一個醒目的品牌標識“大疆”

火山詩話
2026-06-14 05:27:59
2026-06-14 20:48:49
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
13256文章數 142669關注度
往期回顧 全部

科技要聞

Anthropic最強模型被禁,傳亞馬遜通風報信

頭條要聞

伊朗球員受訪 反問美記者:我在美國安全嗎

頭條要聞

伊朗球員受訪 反問美記者:我在美國安全嗎

體育要聞

8年8隊奪冠,鄧肯那句話,現在還給了馬刺

娛樂要聞

鄧超攜子觀戰NBA,等等帥氣十足

財經要聞

金價跌至900元關口,大媽又來抄底了!

汽車要聞

綜合續航超1600km/零百加速4秒級 2027款星途ES預售18.99萬起

態度原創

本地
數碼
教育
時尚
手機

本地新聞

AK劉彰邂逅河北南大港濕地

數碼要聞

出貨量兩連冠:華為朱懂東稱鴻蒙平板連續兩年在國內絕對領先

教育要聞

高三生必看!四川省本科高校2026年招生章程要點匯總

世界杯的“頭”等大事,來了

手機要聞

2026上半年旗艦銷量Top30:蘋果獨攬前三,國產僅華為撐場面

無障礙瀏覽 進入關懷版