復(fù)旦創(chuàng)智等提出Prompt Reinjection，提升文生圖指令遵循能力

2026-06-08 19:32:52　來源: 機器之心Pro

北京舉報

分享至

本文第一作者姚宇軒為復(fù)旦大學本科四年級學生，即將在復(fù)旦與上海創(chuàng)智學院攻讀博士，研究方向為多模態(tài)理解生成模型；復(fù)旦大學碩士研究生陳宇軒為共同第一作者。復(fù)旦大學教授、上海創(chuàng)智學院全時導(dǎo)師朱思語為通訊作者。

近年來，文生圖模型的能力快速提升。從 Stable Diffusion 到 FLUX、Qwen-Image，擴散模型已經(jīng)能夠生成高質(zhì)量圖像，也能處理越來越復(fù)雜的文本提示。

然而，當提示詞中包含多個對象、顏色屬性、數(shù)量關(guān)系或空間位置時，模型仍然經(jīng)常出現(xiàn)「圖不對文」的問題。

一項來自復(fù)旦大學、上海創(chuàng)智學院、上海科學智能研究院等機構(gòu)的研究指出，這一問題可能來自多模態(tài)擴散 Transformer（MMDiT）內(nèi)部的一種現(xiàn)象：Prompt Forgetting，即提示詞遺忘。

研究團隊發(fā)現(xiàn)，在 MMDiT 的去噪過程中，文本分支中的提示詞表示會隨著網(wǎng)絡(luò)層數(shù)加深逐漸丟失細粒度語義信息。為此，他們提出了一種無需訓練、僅在推理階段生效的針對性解決方法Prompt Reinjection，通過將淺層文本特征重新注入深層 Transformer 塊，緩解提示詞信息的逐層衰減問題。

目前，該論文已被 ICML 2026 接收。

論文標題：Prompt Reinjection: Alleviating Prompt Forgetting in Multimodal Diffusion Transformers
論文地址: https://arxiv.org/abs/2602.06886
代碼鏈接：https://github.com/fudan-generative-vision/PromptReinjection

核心問題：模型不是沒理解提示詞，而是在深層逐漸「忘了」

傳統(tǒng)文生圖擴散模型通常將文本作為外部條件，通過 cross-attention 注入圖像去噪器。而在 SD3、FLUX、Qwen-Image 等 MMDiT 架構(gòu)中，文本 token 和圖像 latent token 會在統(tǒng)一的 Transformer 堆棧中共同演化。

這種設(shè)計帶來了更強的跨模態(tài)交互能力，但也引入了一個潛在問題：圖像 token 受到去噪目標的直接監(jiān)督，而文本 token 只是通過對圖像生成的影響間接更新。換句話說，模型優(yōu)化的主要目標仍然是圖像 latent 空間中的去噪誤差，而不是保證文本表示在深層仍然保留完整語義。

研究團隊將這一現(xiàn)象定義為Prompt Forgetting：隨著網(wǎng)絡(luò)層數(shù)加深，文本分支中原本可恢復(fù)的 token 級信息逐漸變得不可恢復(fù)。論文通過 CKNNA、PCA 可視化和逐層 probing 實驗驗證了這一點。

結(jié)果顯示，在 SD3、SD3.5 和 FLUX 中，文本表示的局部語義結(jié)構(gòu)會隨深度逐漸破壞，probe 對名詞、形容詞、數(shù)量詞和空間關(guān)系等 token 類別的識別準確率也會下降，其中空間關(guān)系詞受影響最明顯。

這也解釋了為什么文生圖模型常常在「一個物體在另一個物體上方」「A 在 B 的右邊」「生成四個對象」這類看似簡單的任務(wù)中表現(xiàn)不穩(wěn)定：模型在淺層可能仍然保留這些信息，但到了深層生成階段，相關(guān)語義已經(jīng)被削弱。

簡單直接緩解遺忘問題：把淺層提示詞特征重新注入深層網(wǎng)絡(luò)

基于這一觀察，研究團隊提出了Prompt Reinjection。方法非常直接：既然淺層文本特征仍然保留較完整的提示詞語義，那么就在推理時把這些淺層特征重新注入到后續(xù)深層 MMDiT block 中。

不過，在有些模型上，直接相加的注入方法并不表現(xiàn)穩(wěn)定，不同層之間的文本特征可能存在顯著的分布差異和幾何空間差異，因此論文額外設(shè)計了兩個對齊模塊：

第一是 Distribution Anchoring：它通過歸一化和統(tǒng)計量恢復(fù)，讓淺層特征和目標層特征在數(shù)值尺度上更匹配，避免注入后破壞后續(xù) Transformer block 的正常生成分布。
第二是 Geometry Alignment：研究團隊使用正交 Procrustes 變換，對淺層和深層文本特征進行幾何對齊，使淺層語義能夠以更合適的方向進入深層語義空間。

最終，Prompt Reinjection 形成了一種訓練無關(guān)的推理時增強機制：不需要重新訓練模型，也不需要改動模型參數(shù)，只需要在生成過程中對文本分支進行輕量干預(yù)。

實驗結(jié)果：增強語義遵循，保持生成質(zhì)量

研究團隊在五個主流 MMDiT 文生圖模型上進行了系統(tǒng)評估，包括 SD3-medium、SD3.5-large、FLUX.1-dev、HunyuanImage-2.1 和 Qwen-Image，并在 GenEval、DPG-Bench、T2I-CompBench++ 等多個基準上考察模型的文本 - 圖像對齊能力和指令遵循能力。

實驗結(jié)果顯示，Prompt Reinjection 在不同模型和任務(wù)上均帶來了穩(wěn)定提升。以 GenEval 為例，SD3.5 和 HunyuanImage-2.1 的整體分數(shù)分別提升了 6.48% 和 7.75%。

更值得注意的是，這種提升并非均勻分布在所有子任務(wù)上，而是更集中地體現(xiàn)在依賴細粒度文本理解的場景中，例如屬性綁定、數(shù)量理解、多對象組合以及空間關(guān)系建模。尤其是在 GenEval 的 position 任務(wù)中，Prompt Reinjection 帶來了最明顯、最穩(wěn)定的提升，這與前文 probing 實驗中「空間關(guān)系詞最容易被遺忘」的發(fā)現(xiàn)相互印證。

在視覺質(zhì)量方面，Prompt Reinjection 并沒有以犧牲圖像質(zhì)量為代價來換取更好的語義遵循能力。相反，該方法在 HPSv2、ImageReward、PickScore 和 CLIP 等指標上整體保持穩(wěn)定，并在部分指標上實現(xiàn)小幅提升。

這表明，Prompt Reinjection 并非只是單純提升語義遵循基準分數(shù)，而是在保持甚至提升視覺質(zhì)量的同時，使生成結(jié)果更加精準，從而具備更強的真實場景應(yīng)用價值。

此外，該方法在推理階段只引入極小的額外開銷。

研究團隊在 SD3-medium 上的測試表明，基礎(chǔ)版 reinjection 幾乎不增加計算成本：在不使用 Distribution Anchoring 和 Geometry Alignment 的情況下，其額外 FLOPs 僅約為單個 Transformer block 的「0.00002x」；即便采用完整的對齊版 Prompt Reinjection，額外 FLOPs 也僅約為「0.088x」。

這意味著Prompt Reinjection 可以在幾乎不影響推理成本的前提下，提升模型的生成可靠性。

總結(jié)與展望

這項工作的意義并不止于提出一種提升文生圖效果的推理時技巧。更重要的是，它揭示了當前 MMDiT 架構(gòu)中一個容易被忽視的內(nèi)部機制問題：當文本 token 與圖像 token 在同一個 Transformer Backbone 中共同逐層演化時，由于文本分支缺乏直接監(jiān)督，提示詞語義并不一定會在深層表示中保持穩(wěn)定。

換言之，模型雖然在輸入端接收了完整提示詞，但在逐層去噪和跨模態(tài)交互過程中，部分細粒度語義可能會被逐漸削弱甚至遺忘。

過去許多文生圖改進方法主要關(guān)注注意力控制、布局約束、偏好優(yōu)化或訓練數(shù)據(jù)增強，而這篇論文從模型內(nèi)部的文本 token 演化出發(fā)，指出「文本條件在深層是否仍然有效」本身就是影響復(fù)雜指令遵循能力的關(guān)鍵因素。Prompt Reinjection 正是基于這一發(fā)現(xiàn)提出的輕量化解決方案：通過在推理階段重新注入淺層文本特征，使模型在不重新訓練、不改變參數(shù)的情況下，更好地保留數(shù)量、顏色屬性、空間關(guān)系和復(fù)雜描述等細粒度信息，同時保持整體圖像質(zhì)量和美觀度。

從更長遠的角度看，Prompt Reinjection 不僅是一種即插即用的增強方法，也為理解和改進未來擴散生成模型的基礎(chǔ)架構(gòu)提供了有價值的線索。

它表明，當前 MMDiT 架構(gòu)在跨模態(tài)聯(lián)合建模中仍可能存在文本語義保持不足的問題，而如何在深層網(wǎng)絡(luò)中持續(xù)維護穩(wěn)定、可用的文本條件，可能成為下一代可控生成模型設(shè)計的重要方向。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.