網易首頁 > 網易號 > 正文 申請入駐

AdaGen: 讓圖像生成模型學會自適應策略

0
分享至



當前主流的圖像生成模型——擴散模型(如 DiT)、自回歸模型(如 VAR)、掩碼生成模型(如 MaskGIT)、流模型(如 SiT)——都遵循一個共同范式:將復雜的圖像生成任務拆解為多個可控的子步驟,逐步迭代完成。然而,這種多步策略引入了一個不可忽視的問題:每一步都需配置大量超參數(如噪聲水平、采樣溫度、引導尺度等),而現有方法普遍依賴手工設計的靜態調度規則來管理這些參數。

這種做法存在兩個重要缺陷:一是需要大量專家知識和反復調參,二是"一刀切"的靜態策略無法適配每個樣本的獨特特性

本文提出AdaGen——一個通用的、可學習的、樣本自適應的生成策略框架。通過強化學習訓練一個輕量級策略網絡,AdaGen 能根據當前生成狀態自動為每個樣本定制最優的生成策略,在四大主流生成范式上均實現了顯著的性能提升與效率優化。

  • 論文標題:
  • AdaGen: Learning Adaptive Policy for Image Synthesis
  • 論文鏈接:
  • https://arxiv.org/abs/2603.06993
  • 論文代碼:
  • https://github.com/LeapLabTHU/AdaGen

核心動機:從"靜態一刀切"到"動態因材施教"



圖:AdaGen的核心思想。現有方法使用預定義的靜態策略,所有樣本共享相同調度規則;AdaGen則通過RL訓練的策略網絡,為每個樣本自適應地產生定制化的生成策略。

現有的多步生成模型在推理時,所有樣本共享同一套預定義的調度規則。以 MaskGIT 為例,即使生成步數為 T = 16,也需要配置 64 個策略參數(每步 4 個參數),實際操作中極度依賴人工經驗。更關鍵的是,一張簡單的風景圖和一張復雜的人物肖像,真的應該用完全相同的生成策略嗎?

AdaGen 的核心思想非常直觀:引入一個通過強化學習訓練的策略網絡(Policy Network),讓它觀察當前的生成狀態,自動且自適應地為每個樣本決定最優的生成參數。

統一 MDP 建模:一個框架統一四大生成范式







狀態轉移 (Transition):由預訓練的生成模型決定。擴散模型和流模型的轉移由 ODE 求解器確定,是確定性的;MaskGIT 和自回歸模型的轉移則是隨機的





對抗獎勵建模:不讓策略"投機取巧"

訓練策略網絡的另一個核心挑戰在于:如何設計有效的獎勵信號?論文探索了三種方案,揭示了一個重要發現:



圖:三種獎勵設計的對比。(a) 用FID作獎勵:FID雖低至2.56,但圖像質量差,保真度不達標;(b) 用預訓練獎勵模型:保真度好了但樣本多樣性嚴重不足;(c) AdaGen的對抗獎勵建模:保真度與多樣性兼顧。

(a) 用 FID 作獎勵:雖然 FID 數值可以被優化到很低(2.56),但生成圖像的視覺質量反而很差。策略網絡學會了"刷"指標的捷徑,犧牲了視覺保真度。

(b) 用預訓練獎勵模型:保真度上去了,但生成樣本趨于同質化,多樣性嚴重不足。策略過擬合于獎勵模型的偏好。

(c) 對抗獎勵建模(AdaGen 的方案):引入一個判別器作為獎勵模型,與策略網絡進行對抗訓練。策略網絡試圖最大化獎勵,而判別器則不斷提高區分真假圖像的標準,有效防止策略過擬合。最終實現了保真度與多樣性的良好平衡



圖:AdaGen的訓練流程。策略網絡控制生成過程產生圖像,對抗獎勵模型同時評估生成結果并不斷自我進化。預訓練生成模型在整個過程中保持凍結。

訓練算法簡潔優雅,核心循環僅包含兩步:(1) 策略網絡優化:生成圖像,用 PPO 算法更新策略網絡使獎勵最大化;(2) 獎勵模型優化:同時采樣真實和生成圖像,訓練判別器更好地區分兩者。兩者交替進行,形成類似 GAN 的博弈過程。

動作平滑:馴服高維動作空間的探索





圖:優化過程。當生成步數從T=8增加到T=32時(黃色曲線),優化變得不穩定且性能下降。引入動作平滑后(紅色曲線),訓練恢復穩定且性能超越T=8基線。

論文發現,不穩定性的根源在于 PPO 探索時對每步獨立添加高斯噪聲,導致動作序列出現劇烈且不必要的高頻波動。而對于逐步推進的迭代生成過程,最優策略往往是平滑變化的。為此,論文提出動作平滑技術——對策略輸出施加指數移動平均(EMA)濾波:







圖:動作平滑前后的對比。左側未平滑時,動作序列劇烈抖動(FID=3.5);右側引入平滑后,序列合理平穩(FID=2.3)。

上圖直觀對比了平滑前后的效果:從雜亂無章的鋸齒波到平滑有序的下降曲線,FID 也從 3.5 降至 2.3。

實驗結果:四大范式全面提升

跨范式有效性驗證

AdaGen 在 ImageNet 256×256 上跨越四大生成范式、六個模型進行了驗證。在所有范式和推理步數下,AdaGen 均一致超越對應的基線方法,且性能增益在推理步數較少時更為顯著:



表:AdaGen 在 ImageNet 256×256 上的 FID-50K 結果(↓越低越好),覆蓋四大生成范式。注:MaskGIT、DiT、SiT 在不同推理步數 T 下評測;VAR 采用固定的 10 步生成,因此僅在 T=10 列報告結果。

效率優勢



圖:AdaGen在四種模型上的質量-效率權衡。無論是理論計算量(TFLOPs)還是實際GPU/CPU推理時延,AdaGen均能推進質量-效率前沿,實現1.6×到3.6×的推理加速。

上圖系統展示了 AdaGen 在四種生成模型上的質量-效率權衡。無論是理論計算量還是實際推理延遲,AdaGen 均一致推進了質量-效率前沿,實現1.6× 到 3.6×的推理加速。

極低的額外開銷

AdaGen 的策略網絡僅為生成器增加0.07% 到 0.40%的額外推理計算量,因此其性能提升并不以增大推理開銷為代價:



表:AdaGen 策略網絡的推理開銷占生成器總計算量的比例。

結語

AdaGen 將生成策略的設計從"手工藝術"轉變為"數據驅動的優化問題"。通過統一的 MDP 建模、對抗獎勵設計和動作平滑技術,AdaGen 以一種輕量、通用的方式,在四大主流生成范式上實現了 17% 到 54% 的性能提升,或 1.6× 到 3.6× 的推理加速。這一工作表明,多步生成模型的潛力遠未被充分挖掘——一個好的"調度策略",和模型架構本身同樣重要。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
萊溫斯基:1995年,我的藍裙子被總統克林頓脫下,就在白宮辦公室

萊溫斯基:1995年,我的藍裙子被總統克林頓脫下,就在白宮辦公室

杰絲聊古今
2026-04-11 14:41:31
《八千里路云和月》遭痛批,抗戰劇要的是接地氣,不是“接地府”

《八千里路云和月》遭痛批,抗戰劇要的是接地氣,不是“接地府”

星宿影視鴨
2026-04-20 16:24:42
內鬼出賣!無錫一企業遭致命泄密!全抓了

內鬼出賣!無錫一企業遭致命泄密!全抓了

無錫eTV全媒體
2026-04-24 20:01:55
退休人員注意!人社部28號文明確:這類工齡必須算,少一年都不行

退休人員注意!人社部28號文明確:這類工齡必須算,少一年都不行

笑熬漿糊111
2026-04-25 00:05:16
提升50%,消息稱蘋果iPhone 18標準版配12GB內存

提升50%,消息稱蘋果iPhone 18標準版配12GB內存

IT之家
2026-04-25 06:55:03
砸6700億建雄安,面積抵3個紐約,如今究竟咋樣了?

砸6700億建雄安,面積抵3個紐約,如今究竟咋樣了?

娛樂圈的筆娛君
2026-03-26 12:15:32
凈利狂飆123%!10股送10股!這家輪胎“小巨人”爆量發紅包

凈利狂飆123%!10股送10股!這家輪胎“小巨人”爆量發紅包

輪胎報官方
2026-04-24 20:24:23
格拉斯納:若去安菲爾德不為勝利而戰,還不如留在倫敦喝咖啡

格拉斯納:若去安菲爾德不為勝利而戰,還不如留在倫敦喝咖啡

懂球帝
2026-04-25 07:10:48
郭冬臨現狀:住北京老房子,身形消瘦、臉頰凹陷,59歲無兒無女

郭冬臨現狀:住北京老房子,身形消瘦、臉頰凹陷,59歲無兒無女

娛說瑜悅
2026-04-23 16:04:39
大澤鄉起義成功后,陳勝為何要殺掉吳廣,司馬遷說出了其中的原因

大澤鄉起義成功后,陳勝為何要殺掉吳廣,司馬遷說出了其中的原因

芳芳歷史燴
2026-04-23 02:45:51
奧納納點球大戰撲出3球,特拉布宗主席:我們希望他能留下來

奧納納點球大戰撲出3球,特拉布宗主席:我們希望他能留下來

懂球帝
2026-04-24 09:16:18
多國反對,中國專機抵美,G20峰會出現變故,80歲總統硬剛特朗普

多國反對,中國專機抵美,G20峰會出現變故,80歲總統硬剛特朗普

阿鳧愛吐槽
2026-04-25 02:21:15
蛇吞象?生產殲-20的中國軍工巨頭174億就被收購了,用意耐人尋味

蛇吞象?生產殲-20的中國軍工巨頭174億就被收購了,用意耐人尋味

趣文說娛
2026-04-23 19:52:36
德普前妻隱居歐洲迎雙胞胎!單親媽媽帶3娃新照引熱議,有人猜生父是她前任馬斯克?

德普前妻隱居歐洲迎雙胞胎!單親媽媽帶3娃新照引熱議,有人猜生父是她前任馬斯克?

英國報姐
2026-04-24 20:39:48
1951年,112歲虛云和尚在云門寺被打斷肋骨,五竅流血,驚動北京

1951年,112歲虛云和尚在云門寺被打斷肋骨,五竅流血,驚動北京

興趣知識
2026-04-23 03:24:33
趙露思的紅裙殺太絕了!這才是甜妹變御姐的天花板打開方式

趙露思的紅裙殺太絕了!這才是甜妹變御姐的天花板打開方式

星Xin辰大海
2026-04-25 07:14:15
139場136球!凱恩用不到兩個賽季追上埃爾伯,在德甲徹底封神!

139場136球!凱恩用不到兩個賽季追上埃爾伯,在德甲徹底封神!

歲月有情1314
2026-04-24 13:57:58
王平河系列:北海風起結局

王平河系列:北海風起結局

金昔說故事
2026-04-24 23:21:37
德西利奧:現在重返賽場的話,和斯帕萊蒂合作讓我很感興趣

德西利奧:現在重返賽場的話,和斯帕萊蒂合作讓我很感興趣

懂球帝
2026-04-25 07:41:07
多地早已禁養,卻在南通蔓延?是蜜糖還是砒霜!

多地早已禁養,卻在南通蔓延?是蜜糖還是砒霜!

好通網
2026-04-24 14:59:58
2026-04-25 07:55:00
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
12852文章數 142635關注度
往期回顧 全部

科技要聞

DeepSeek V4牽手華為,價格依然"屠夫級"

頭條要聞

兩屆奧運冠軍、中國羽協主席張軍"失聯" 知情人士發聲

頭條要聞

兩屆奧運冠軍、中國羽協主席張軍"失聯" 知情人士發聲

體育要聞

上海男籃23連勝+主場全勝 姚明之后最強一季

娛樂要聞

停工16個月!趙露思證實接拍新劇

財經要聞

LG財閥內斗:百億美元商業帝國爭奪戰

汽車要聞

零跑Lafa5 Ultra北京車展上市:11.88-12.48萬

態度原創

時尚
家居
數碼
教育
軍事航空

今日熱點:愛奇藝回應暫停頁面廣告爭議;經紀公司否認THEBOYZ解約成功……

家居要聞

自然肌理 溫潤美學

數碼要聞

宏碁掠奪者戰斧9 / 10 Neo游戲本上架:搭載滿功耗RTX 5060

教育要聞

教室火鍋”被人民日報點贊,卻被家長瘋狂舉報

軍事要聞

美防長:戰事不會“沒完沒了”

無障礙瀏覽 進入關懷版