无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

D-OPSD: 將OPSD引入擴散模型,讓少步擴散模型「邊跑邊學」

0
分享至



本文由阿里巴巴 Z-Image 團隊聯合香港科技大學等機構共同完成。第一作者為香港科技大學預備博士生 & 通義實驗室實習生姜登陽,他的研究方向為視覺表征和生成。

少步擴散模型(如 Z-Image-Turbo)憑借高效采樣和優異質量,已成為圖像生成領域的主流方案。然而,這些經過 "步數蒸餾" 的模型在持續微調時面臨一個棘手問題:傳統監督微調(SFT)和離線 RL 方法會讓模型 "忘記" 原本的少步生成能力,訓練與推理之間存在嚴重的分布偏移。

為此,阿里巴巴 Z-Image 團隊聯合香港科技大學、加州大學圣地亞哥分校、香港中文大學等機構提出D-OPSD(On-Policy Self-Distillation),首個針對少步擴散模型的在線策略自蒸餾框架。D-OPSD 無需獎勵模型、無需成對偏好數據,僅憑目標圖像 - 文本對即可讓模型在保持原有少步采樣能力的同時,學會新概念、新風格和新領域偏好。在 LoRA 定制和全量微調實驗中,D-OPSD 在概念學習、視覺質量、提示詞遵循和先驗知識保留之間取得了最佳平衡。



  • 論文標題:D-OPSD: On-Policy Self-Distillation for Continuously Tuning Step-Distilled Diffusion Models
  • 論文鏈接:https://arxiv.org/abs/2605.05204
  • 項目主頁:https://vvvvvjdy.github.io/d-opsd/
  • 代碼地址:https://github.com/vvvvvjdy/D-OPSD

一、核心問題:少步模型的 "持續學習" 困境

當前高性能圖像生成模型正從低效的多步采樣器轉向高效的少步采樣器。這些經過步數蒸餾的模型在減少函數評估次數的同時保持了生成質量,極具實用價值。但如何對這類模型進行持續微調,學界尚無明確答案。

傳統訓練范式各有短板:



  • Vanilla SFT:通過目標圖像構造 GT velocity 進行監督,但優化狀態和信號均來自目標圖像而非模型自身的少步采樣軌跡,導致訓練與推理嚴重不匹配。
  • 離線 RL 方法(如 Diffusion-DPO、PSO):引入成對監督,但優化狀態仍非完全由學生當前分布誘導。
  • 在線 RL 方法(如 ReFL、Flow-GRPO):在模型 rollout 上訓練,能更好保留少步行為,但依賴獎勵函數或獎勵模型,而二次開發者往往只有圖像 - 文本對,難以獲取高質量獎勵信號。

D-OPSD 在設計空間中占據了一個獨特的位置:在線策略、無需獎勵模型、保持訓練 - 推理一致性,同時通過自蒸餾引入目標圖像 - 文本對。

二、關鍵發現:擴散模型繼承了 LLM/VLM 的 "上下文能力"

近期,大語言模型(LLM)領域的 On-Policy Distillation(OPD)和 On-Policy Self-Distillation(OPSD)范式引起了廣泛關注。其核心思想是:學生模型在自身采樣出的軌跡(on-policy roll-outs)上進行訓練,而教師模型在更豐富的上下文條件下提供更強的監督信號,從而在不依賴外部獎勵模型的情況下實現高效的后訓練對齊。例如,在 LLM 中,學生基于自身采樣的回答進行優化,教師則在更完整的上下文(如參考文檔、多輪對話歷史)下給出更優的預測,通過分布對齊將學生拉向教師。

現代配備 LLM/VLM 編碼器的擴散模型,能夠從編碼器中繼承上下文學習(in-context learning)能力。研究團隊發現,當僅用文本提示時,模型生成的是通用結果;而當將目標圖像與文本提示一起輸入編碼器、使用多模態特征作為條件時,即使不做任何額外訓練,模型也能生成保留目標概念或風格的圖像變體。



這一涌現行為為在線策略自蒸餾提供了關鍵基礎:目標圖像不再作為直接的降噪目標(那會改變軌跡本身),而是作為更強教師條件的上下文監督信號。學生分支僅基于文本條件采樣,教師分支基于文本 + 圖像的多模態條件提供更強預測,兩者在同一個 on-policy 軌跡上進行對齊。

三、方法框架:學生跑軌跡,教師給監督

D-OPSD 的訓練流程如下:



對于每個訓練對 首先編碼學生和教師條件,然后進行學生 on-policy 軌跡采樣,再在同一狀態上,對齊學生預測速度和 教師預測速度,然后更新學生模型和同步 EMA 更新教師。



與 LLM 中的 OPD(On-Policy Distillation)類比:學生的采樣響應對應學生的降噪軌跡,教師的更強預測對應更強的條件降噪場。核心區別在于,自回歸 LLM 輸出離散詞表分布,可直接用 KL 散度對齊;而流匹配擴散模型參數化條件速度場,因此 D-OPSD 采用速度預測的均方誤差作為對齊目標,起到類似的作用 ——> 將學生的條件生成動態拉向教師,在更強的多模態上下文下對齊誘導的軌跡分布。

四、為什么 D-OPSD 能保留少步能力?

與 SFT 相比,D-OPSD 避免了強迫模型擬合在其自身少步采樣過程中從未出現過的目標圖像狀態。優化始終在學生的實際 rollout 上進行,大幅減少了訓練與推理之間的失配。因此,D-OPSD 為步數蒸餾擴散模型提供了一種在線策略監督訓練范式,使其能夠從目標圖像中學習新概念、風格或領域偏好,同時保留原始的少步采樣行為。

五、核心實驗效果


1. LoRA 定制:少量樣本學會新概念

在僅有少量圖像 - 文本對的 LoRA 訓練中,D-OPSD 能夠從極少量樣本中學習新概念,同時保持少步生成質量,并能泛化到未見過的提示詞。

對比基線模型、SFT 和 PSO:

  • 基線模型:完全不理解新概念 [V]
  • SFT:雖然學到了概念,但視覺質量明顯下降,出現模糊、偽影
  • PSO:質量較好,但概念保真度不足,且可能破壞原有風格
  • D-OPSD:在保持高視覺質量的同時,精準復現目標概念,并能自然融入新場景



2. 全量微調:適應新領域不丟老本

在全量微調實驗中,D-OPSD 將模型向目標領域(如動漫風格)適配,同時保留原始領域知識和少步推理能力。

  • SFT:過度擬合目標域,原始域知識嚴重遺忘
  • PSO:保留部分先驗,但目標域適配不夠充分
  • D-OPSD:在目標域表現優異的同時,原始域生成質量依然穩定,真正實現了 "學新不忘舊"

六、未來值得研究的方向


未來,D-OPSD 框架還可向多個方向拓展:

  • 更豐富的教師上下文:引入圖像編輯模型或視頻生成模型的指導信號
  • 額外訓練約束:結合其他訓練目標進一步提升性能
  • 多專家在線策略蒸餾:用其他算法訓練領域專屬專家后,在 D-OPSD 框架內蒸餾回單一基礎模型

即少步擴散模型仍有巨大的后訓練提升空間。"蒸餾 + 在線策略" 范式,為未來進一步釋放擴散模型在可控性、組合性與持續學習能力方面的潛力,提供了一個充滿前景的新方向。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
馬斯克深夜用中文發帖,全世界都懵了!外媒他到底想干什么?

馬斯克深夜用中文發帖,全世界都懵了!外媒他到底想干什么?

侃故事的阿慶
2026-05-15 10:22:08
原來她是X媽媽,難怪兒子如此惹人愛,孩子4個月大就與馬斯克分手

原來她是X媽媽,難怪兒子如此惹人愛,孩子4個月大就與馬斯克分手

一盅情懷
2026-05-15 14:39:27
葡媒:穆里尼奧和皇馬已經完成簽約,下周亮相伯納烏

葡媒:穆里尼奧和皇馬已經完成簽約,下周亮相伯納烏

懂球帝
2026-05-15 14:15:07
沒有中方官員接待?日本代表團抵滬第三天,外交部打開天窗說亮話

沒有中方官員接待?日本代表團抵滬第三天,外交部打開天窗說亮話

健身狂人
2026-05-14 19:04:08
科爾:原本95%的概率退休,但附加賽擊敗快船讓我改變了主意

科爾:原本95%的概率退休,但附加賽擊敗快船讓我改變了主意

懂球帝
2026-05-15 16:57:22
特朗普43歲小兒媳穿旗袍赴宴,華裔設計師作品,前私教自認普通

特朗普43歲小兒媳穿旗袍赴宴,華裔設計師作品,前私教自認普通

譯言
2026-05-15 12:26:05
13年后雷軍合影馬斯克,全網沸騰

13年后雷軍合影馬斯克,全網沸騰

新浪財經
2026-05-15 00:49:53
90后新婚夫妻同患罕見病,丈夫發聲:“養倉鼠致病”說法不實

90后新婚夫妻同患罕見病,丈夫發聲:“養倉鼠致病”說法不實

大風新聞
2026-05-15 12:00:25
福建民企又一高光時刻!曹暉出席國宴,同馬斯克、黃仁勛、庫克等中美企業家同席

福建民企又一高光時刻!曹暉出席國宴,同馬斯克、黃仁勛、庫克等中美企業家同席

閩商報
2026-05-15 10:39:43
5月14日俄烏最新:意想不到的轉折

5月14日俄烏最新:意想不到的轉折

西樓飲月
2026-05-14 18:53:06
“中美關系新定位”,帶給世界什么?

“中美關系新定位”,帶給世界什么?

新民晚報
2026-05-15 09:50:45
中國球迷可以在家看世界杯了!中央廣播電視總臺已獲2026年美加墨世界杯版權

中國球迷可以在家看世界杯了!中央廣播電視總臺已獲2026年美加墨世界杯版權

揚子晚報
2026-05-15 14:52:38
潔麗雅40周年爆大瓜!爺爸同娶堂姐妹,嫡長孫被踢出局太心酸

潔麗雅40周年爆大瓜!爺爸同娶堂姐妹,嫡長孫被踢出局太心酸

小鋭有話說
2026-05-14 17:25:52
74歲布麗吉特:為了馬克龍,整容扮嫩撐了9年,如今終于可以解脫

74歲布麗吉特:為了馬克龍,整容扮嫩撐了9年,如今終于可以解脫

毒舌小紅帽
2026-05-14 16:09:46
談妥了?曝十家中國企業獲批采購英偉達H200,名單毫不意外

談妥了?曝十家中國企業獲批采購英偉達H200,名單毫不意外

泡泡網
2026-05-14 17:19:06
蘋果官宣降價:iPhone 17 Pro系列全線下調1000元

蘋果官宣降價:iPhone 17 Pro系列全線下調1000元

極目新聞
2026-05-15 00:52:56
故宮建造時使用的木材,來自哪里?為何這些木材至今沒有腐爛

故宮建造時使用的木材,來自哪里?為何這些木材至今沒有腐爛

云霄紀史觀
2026-05-15 01:49:45
日本公布世界杯26人名單:留洋23將 39歲傳奇入選 三笘薫因傷無緣

日本公布世界杯26人名單:留洋23將 39歲傳奇入選 三笘薫因傷無緣

我愛英超
2026-05-15 13:29:38
劉濤彎腰7秒上熱搜:娛樂圈人設塌了,真實值錢了?

劉濤彎腰7秒上熱搜:娛樂圈人設塌了,真實值錢了?

情感大頭說說
2026-05-15 12:53:30
特朗普CEO天團訪華,大佬們第一學歷大起底

特朗普CEO天團訪華,大佬們第一學歷大起底

老郭在學習
2026-05-15 15:47:24
2026-05-15 17:15:00
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
13004文章數 142649關注度
往期回顧 全部

科技要聞

兩年聯姻一地雞毛,傳蘋果OpenAI瀕臨決裂

頭條要聞

銀行買"雇員忠誠險"后員工騙走客戶393萬 欲理賠被拒

頭條要聞

銀行買"雇員忠誠險"后員工騙走客戶393萬 欲理賠被拒

體育要聞

德約科維奇買的球隊,從第6級聯賽升入法甲

娛樂要聞

方媛為何要來《桃花塢6》沒苦硬吃?

財經要聞

特朗普的北京時刻

汽車要聞

標桿級乘坐感受 駕駛智界V9需要再細膩一點?

態度原創

親子
本地
健康
房產
游戲

親子要聞

東城發布2026年幼兒園招生公告

本地新聞

用蘇繡的方式,打開江西婺源

專家揭秘干細胞回輸的安全風險

房產要聞

海口商業也是出息了!“友誼陽光城”,殺入北京最牛商街!

IGN日本8分評地平線6!富士山只許看不許去必須差評

無障礙瀏覽 進入關懷版