![]()
本文第一作者姚宇軒為復(fù)旦大學本科四年級學生,即將在復(fù)旦與上海創(chuàng)智學院攻讀博士,研究方向為多模態(tài)理解生成模型;復(fù)旦大學碩士研究生陳宇軒為共同第一作者。復(fù)旦大學教授、上海創(chuàng)智學院全時導(dǎo)師朱思語為通訊作者。
近年來,文生圖模型的能力快速提升。從 Stable Diffusion 到 FLUX、Qwen-Image,擴散模型已經(jīng)能夠生成高質(zhì)量圖像,也能處理越來越復(fù)雜的文本提示。
然而,當提示詞中包含多個對象、顏色屬性、數(shù)量關(guān)系或空間位置時,模型仍然經(jīng)常出現(xiàn)「圖不對文」的問題。
![]()
一項來自復(fù)旦大學、上海創(chuàng)智學院、上海科學智能研究院等機構(gòu)的研究指出,這一問題可能來自多模態(tài)擴散 Transformer(MMDiT)內(nèi)部的一種現(xiàn)象:Prompt Forgetting,即提示詞遺忘。
研究團隊發(fā)現(xiàn),在 MMDiT 的去噪過程中,文本分支中的提示詞表示會隨著網(wǎng)絡(luò)層數(shù)加深逐漸丟失細粒度語義信息。為此,他們提出了一種無需訓練、僅在推理階段生效的針對性解決方法Prompt Reinjection,通過將淺層文本特征重新注入深層 Transformer 塊,緩解提示詞信息的逐層衰減問題。
目前,該論文已被 ICML 2026 接收。
![]()
- 論文標題:Prompt Reinjection: Alleviating Prompt Forgetting in Multimodal Diffusion Transformers
- 論文地址: https://arxiv.org/abs/2602.06886
- 代碼鏈接:https://github.com/fudan-generative-vision/PromptReinjection
核心問題:模型不是沒理解提示詞,而是在深層逐漸「忘了」
傳統(tǒng)文生圖擴散模型通常將文本作為外部條件,通過 cross-attention 注入圖像去噪器。而在 SD3、FLUX、Qwen-Image 等 MMDiT 架構(gòu)中,文本 token 和圖像 latent token 會在統(tǒng)一的 Transformer 堆棧中共同演化。
這種設(shè)計帶來了更強的跨模態(tài)交互能力,但也引入了一個潛在問題:圖像 token 受到去噪目標的直接監(jiān)督,而文本 token 只是通過對圖像生成的影響間接更新。換句話說,模型優(yōu)化的主要目標仍然是圖像 latent 空間中的去噪誤差,而不是保證文本表示在深層仍然保留完整語義。
研究團隊將這一現(xiàn)象定義為Prompt Forgetting:隨著網(wǎng)絡(luò)層數(shù)加深,文本分支中原本可恢復(fù)的 token 級信息逐漸變得不可恢復(fù)。論文通過 CKNNA、PCA 可視化和逐層 probing 實驗驗證了這一點。
結(jié)果顯示,在 SD3、SD3.5 和 FLUX 中,文本表示的局部語義結(jié)構(gòu)會隨深度逐漸破壞,probe 對名詞、形容詞、數(shù)量詞和空間關(guān)系等 token 類別的識別準確率也會下降,其中空間關(guān)系詞受影響最明顯。
這也解釋了為什么文生圖模型常常在「一個物體在另一個物體上方」「A 在 B 的右邊」「生成四個對象」這類看似簡單的任務(wù)中表現(xiàn)不穩(wěn)定:模型在淺層可能仍然保留這些信息,但到了深層生成階段,相關(guān)語義已經(jīng)被削弱。
![]()
簡單直接緩解遺忘問題:把淺層提示詞特征重新注入深層網(wǎng)絡(luò)
基于這一觀察,研究團隊提出了Prompt Reinjection。方法非常直接:既然淺層文本特征仍然保留較完整的提示詞語義,那么就在推理時把這些淺層特征重新注入到后續(xù)深層 MMDiT block 中。
![]()
不過,在有些模型上,直接相加的注入方法并不表現(xiàn)穩(wěn)定,不同層之間的文本特征可能存在顯著的分布差異和幾何空間差異,因此論文額外設(shè)計了兩個對齊模塊:
- 第一是 Distribution Anchoring:它通過歸一化和統(tǒng)計量恢復(fù),讓淺層特征和目標層特征在數(shù)值尺度上更匹配,避免注入后破壞后續(xù) Transformer block 的正常生成分布。
- 第二是 Geometry Alignment:研究團隊使用正交 Procrustes 變換,對淺層和深層文本特征進行幾何對齊,使淺層語義能夠以更合適的方向進入深層語義空間。
最終,Prompt Reinjection 形成了一種訓練無關(guān)的推理時增強機制:不需要重新訓練模型,也不需要改動模型參數(shù),只需要在生成過程中對文本分支進行輕量干預(yù)。
實驗結(jié)果:增強語義遵循,保持生成質(zhì)量
研究團隊在五個主流 MMDiT 文生圖模型上進行了系統(tǒng)評估,包括 SD3-medium、SD3.5-large、FLUX.1-dev、HunyuanImage-2.1 和 Qwen-Image,并在 GenEval、DPG-Bench、T2I-CompBench++ 等多個基準上考察模型的文本 - 圖像對齊能力和指令遵循能力。
實驗結(jié)果顯示,Prompt Reinjection 在不同模型和任務(wù)上均帶來了穩(wěn)定提升。以 GenEval 為例,SD3.5 和 HunyuanImage-2.1 的整體分數(shù)分別提升了 6.48% 和 7.75%。
更值得注意的是,這種提升并非均勻分布在所有子任務(wù)上,而是更集中地體現(xiàn)在依賴細粒度文本理解的場景中,例如屬性綁定、數(shù)量理解、多對象組合以及空間關(guān)系建模。尤其是在 GenEval 的 position 任務(wù)中,Prompt Reinjection 帶來了最明顯、最穩(wěn)定的提升,這與前文 probing 實驗中「空間關(guān)系詞最容易被遺忘」的發(fā)現(xiàn)相互印證。
![]()
在視覺質(zhì)量方面,Prompt Reinjection 并沒有以犧牲圖像質(zhì)量為代價來換取更好的語義遵循能力。相反,該方法在 HPSv2、ImageReward、PickScore 和 CLIP 等指標上整體保持穩(wěn)定,并在部分指標上實現(xiàn)小幅提升。
這表明,Prompt Reinjection 并非只是單純提升語義遵循基準分數(shù),而是在保持甚至提升視覺質(zhì)量的同時,使生成結(jié)果更加精準,從而具備更強的真實場景應(yīng)用價值。
![]()
此外,該方法在推理階段只引入極小的額外開銷。
研究團隊在 SD3-medium 上的測試表明,基礎(chǔ)版 reinjection 幾乎不增加計算成本:在不使用 Distribution Anchoring 和 Geometry Alignment 的情況下,其額外 FLOPs 僅約為單個 Transformer block 的「0.00002x」;即便采用完整的對齊版 Prompt Reinjection,額外 FLOPs 也僅約為「0.088x」。
這意味著Prompt Reinjection 可以在幾乎不影響推理成本的前提下,提升模型的生成可靠性。
![]()
總結(jié)與展望
這項工作的意義并不止于提出一種提升文生圖效果的推理時技巧。更重要的是,它揭示了當前 MMDiT 架構(gòu)中一個容易被忽視的內(nèi)部機制問題:當文本 token 與圖像 token 在同一個 Transformer Backbone 中共同逐層演化時,由于文本分支缺乏直接監(jiān)督,提示詞語義并不一定會在深層表示中保持穩(wěn)定。
換言之,模型雖然在輸入端接收了完整提示詞,但在逐層去噪和跨模態(tài)交互過程中,部分細粒度語義可能會被逐漸削弱甚至遺忘。
過去許多文生圖改進方法主要關(guān)注注意力控制、布局約束、偏好優(yōu)化或訓練數(shù)據(jù)增強,而這篇論文從模型內(nèi)部的文本 token 演化出發(fā),指出「文本條件在深層是否仍然有效」本身就是影響復(fù)雜指令遵循能力的關(guān)鍵因素。Prompt Reinjection 正是基于這一發(fā)現(xiàn)提出的輕量化解決方案:通過在推理階段重新注入淺層文本特征,使模型在不重新訓練、不改變參數(shù)的情況下,更好地保留數(shù)量、顏色屬性、空間關(guān)系和復(fù)雜描述等細粒度信息,同時保持整體圖像質(zhì)量和美觀度。
從更長遠的角度看,Prompt Reinjection 不僅是一種即插即用的增強方法,也為理解和改進未來擴散生成模型的基礎(chǔ)架構(gòu)提供了有價值的線索。
它表明,當前 MMDiT 架構(gòu)在跨模態(tài)聯(lián)合建模中仍可能存在文本語義保持不足的問題,而如何在深層網(wǎng)絡(luò)中持續(xù)維護穩(wěn)定、可用的文本條件,可能成為下一代可控生成模型設(shè)計的重要方向。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.