无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

復(fù)旦創(chuàng)智等提出Prompt Reinjection,提升文生圖指令遵循能力

0
分享至



本文第一作者姚宇軒為復(fù)旦大學本科四年級學生,即將在復(fù)旦與上海創(chuàng)智學院攻讀博士,研究方向為多模態(tài)理解生成模型;復(fù)旦大學碩士研究生陳宇軒為共同第一作者。復(fù)旦大學教授、上海創(chuàng)智學院全時導(dǎo)師朱思語為通訊作者。

近年來,文生圖模型的能力快速提升。從 Stable Diffusion 到 FLUX、Qwen-Image,擴散模型已經(jīng)能夠生成高質(zhì)量圖像,也能處理越來越復(fù)雜的文本提示。

然而,當提示詞中包含多個對象、顏色屬性、數(shù)量關(guān)系或空間位置時,模型仍然經(jīng)常出現(xiàn)「圖不對文」的問題。



一項來自復(fù)旦大學、上海創(chuàng)智學院、上海科學智能研究院等機構(gòu)的研究指出,這一問題可能來自多模態(tài)擴散 Transformer(MMDiT)內(nèi)部的一種現(xiàn)象:Prompt Forgetting,即提示詞遺忘。

研究團隊發(fā)現(xiàn),在 MMDiT 的去噪過程中,文本分支中的提示詞表示會隨著網(wǎng)絡(luò)層數(shù)加深逐漸丟失細粒度語義信息。為此,他們提出了一種無需訓練、僅在推理階段生效的針對性解決方法Prompt Reinjection,通過將淺層文本特征重新注入深層 Transformer 塊,緩解提示詞信息的逐層衰減問題。

目前,該論文已被 ICML 2026 接收。



  • 論文標題:Prompt Reinjection: Alleviating Prompt Forgetting in Multimodal Diffusion Transformers
  • 論文地址: https://arxiv.org/abs/2602.06886
  • 代碼鏈接:https://github.com/fudan-generative-vision/PromptReinjection

核心問題:模型不是沒理解提示詞,而是在深層逐漸「忘了」

傳統(tǒng)文生圖擴散模型通常將文本作為外部條件,通過 cross-attention 注入圖像去噪器。而在 SD3、FLUX、Qwen-Image 等 MMDiT 架構(gòu)中,文本 token 和圖像 latent token 會在統(tǒng)一的 Transformer 堆棧中共同演化。

這種設(shè)計帶來了更強的跨模態(tài)交互能力,但也引入了一個潛在問題:圖像 token 受到去噪目標的直接監(jiān)督,而文本 token 只是通過對圖像生成的影響間接更新。換句話說,模型優(yōu)化的主要目標仍然是圖像 latent 空間中的去噪誤差,而不是保證文本表示在深層仍然保留完整語義。

研究團隊將這一現(xiàn)象定義為Prompt Forgetting:隨著網(wǎng)絡(luò)層數(shù)加深,文本分支中原本可恢復(fù)的 token 級信息逐漸變得不可恢復(fù)。論文通過 CKNNA、PCA 可視化和逐層 probing 實驗驗證了這一點。

結(jié)果顯示,在 SD3、SD3.5 和 FLUX 中,文本表示的局部語義結(jié)構(gòu)會隨深度逐漸破壞,probe 對名詞、形容詞、數(shù)量詞和空間關(guān)系等 token 類別的識別準確率也會下降,其中空間關(guān)系詞受影響最明顯。

這也解釋了為什么文生圖模型常常在「一個物體在另一個物體上方」「A 在 B 的右邊」「生成四個對象」這類看似簡單的任務(wù)中表現(xiàn)不穩(wěn)定:模型在淺層可能仍然保留這些信息,但到了深層生成階段,相關(guān)語義已經(jīng)被削弱。



簡單直接緩解遺忘問題:把淺層提示詞特征重新注入深層網(wǎng)絡(luò)

基于這一觀察,研究團隊提出了Prompt Reinjection。方法非常直接:既然淺層文本特征仍然保留較完整的提示詞語義,那么就在推理時把這些淺層特征重新注入到后續(xù)深層 MMDiT block 中。



不過,在有些模型上,直接相加的注入方法并不表現(xiàn)穩(wěn)定,不同層之間的文本特征可能存在顯著的分布差異和幾何空間差異,因此論文額外設(shè)計了兩個對齊模塊:

  • 第一是 Distribution Anchoring:它通過歸一化和統(tǒng)計量恢復(fù),讓淺層特征和目標層特征在數(shù)值尺度上更匹配,避免注入后破壞后續(xù) Transformer block 的正常生成分布。
  • 第二是 Geometry Alignment:研究團隊使用正交 Procrustes 變換,對淺層和深層文本特征進行幾何對齊,使淺層語義能夠以更合適的方向進入深層語義空間。

最終,Prompt Reinjection 形成了一種訓練無關(guān)的推理時增強機制:不需要重新訓練模型,也不需要改動模型參數(shù),只需要在生成過程中對文本分支進行輕量干預(yù)。

實驗結(jié)果:增強語義遵循,保持生成質(zhì)量

研究團隊在五個主流 MMDiT 文生圖模型上進行了系統(tǒng)評估,包括 SD3-medium、SD3.5-large、FLUX.1-dev、HunyuanImage-2.1 和 Qwen-Image,并在 GenEval、DPG-Bench、T2I-CompBench++ 等多個基準上考察模型的文本 - 圖像對齊能力和指令遵循能力。

實驗結(jié)果顯示,Prompt Reinjection 在不同模型和任務(wù)上均帶來了穩(wěn)定提升。以 GenEval 為例,SD3.5 和 HunyuanImage-2.1 的整體分數(shù)分別提升了 6.48% 和 7.75%。

更值得注意的是,這種提升并非均勻分布在所有子任務(wù)上,而是更集中地體現(xiàn)在依賴細粒度文本理解的場景中,例如屬性綁定、數(shù)量理解、多對象組合以及空間關(guān)系建模。尤其是在 GenEval 的 position 任務(wù)中,Prompt Reinjection 帶來了最明顯、最穩(wěn)定的提升,這與前文 probing 實驗中「空間關(guān)系詞最容易被遺忘」的發(fā)現(xiàn)相互印證。



在視覺質(zhì)量方面,Prompt Reinjection 并沒有以犧牲圖像質(zhì)量為代價來換取更好的語義遵循能力。相反,該方法在 HPSv2、ImageReward、PickScore 和 CLIP 等指標上整體保持穩(wěn)定,并在部分指標上實現(xiàn)小幅提升。

這表明,Prompt Reinjection 并非只是單純提升語義遵循基準分數(shù),而是在保持甚至提升視覺質(zhì)量的同時,使生成結(jié)果更加精準,從而具備更強的真實場景應(yīng)用價值。



此外,該方法在推理階段只引入極小的額外開銷。

研究團隊在 SD3-medium 上的測試表明,基礎(chǔ)版 reinjection 幾乎不增加計算成本:在不使用 Distribution Anchoring 和 Geometry Alignment 的情況下,其額外 FLOPs 僅約為單個 Transformer block 的「0.00002x」;即便采用完整的對齊版 Prompt Reinjection,額外 FLOPs 也僅約為「0.088x」。

這意味著Prompt Reinjection 可以在幾乎不影響推理成本的前提下,提升模型的生成可靠性。



總結(jié)與展望

這項工作的意義并不止于提出一種提升文生圖效果的推理時技巧。更重要的是,它揭示了當前 MMDiT 架構(gòu)中一個容易被忽視的內(nèi)部機制問題:當文本 token 與圖像 token 在同一個 Transformer Backbone 中共同逐層演化時,由于文本分支缺乏直接監(jiān)督,提示詞語義并不一定會在深層表示中保持穩(wěn)定。

換言之,模型雖然在輸入端接收了完整提示詞,但在逐層去噪和跨模態(tài)交互過程中,部分細粒度語義可能會被逐漸削弱甚至遺忘。

過去許多文生圖改進方法主要關(guān)注注意力控制、布局約束、偏好優(yōu)化或訓練數(shù)據(jù)增強,而這篇論文從模型內(nèi)部的文本 token 演化出發(fā),指出「文本條件在深層是否仍然有效」本身就是影響復(fù)雜指令遵循能力的關(guān)鍵因素。Prompt Reinjection 正是基于這一發(fā)現(xiàn)提出的輕量化解決方案:通過在推理階段重新注入淺層文本特征,使模型在不重新訓練、不改變參數(shù)的情況下,更好地保留數(shù)量、顏色屬性、空間關(guān)系和復(fù)雜描述等細粒度信息,同時保持整體圖像質(zhì)量和美觀度。

從更長遠的角度看,Prompt Reinjection 不僅是一種即插即用的增強方法,也為理解和改進未來擴散生成模型的基礎(chǔ)架構(gòu)提供了有價值的線索。

它表明,當前 MMDiT 架構(gòu)在跨模態(tài)聯(lián)合建模中仍可能存在文本語義保持不足的問題,而如何在深層網(wǎng)絡(luò)中持續(xù)維護穩(wěn)定、可用的文本條件,可能成為下一代可控生成模型設(shè)計的重要方向。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
海外封神國內(nèi)翻車?董路青訓深陷輿論漩渦,原來范志毅早看透真相

海外封神國內(nèi)翻車?董路青訓深陷輿論漩渦,原來范志毅早看透真相

樂享人生風雨
2026-06-09 18:23:50
選一個你最想住進去的臥室,是哪個?

選一個你最想住進去的臥室,是哪個?

繪本家居
2026-06-10 21:02:41
袁立重病住院,病房里手握十字架,不謝醫(yī)生謝上帝

袁立重病住院,病房里手握十字架,不謝醫(yī)生謝上帝

可達鴨面面觀
2026-05-25 08:52:13
100000臺訂單!比亞迪新車曝光:6月17日,正式上市

100000臺訂單!比亞迪新車曝光:6月17日,正式上市

高科技愛好者
2026-06-08 22:55:55
長壽公式來了!每天做好 3 件事,多活近10年,50歲開始都不晚

長壽公式來了!每天做好 3 件事,多活近10年,50歲開始都不晚

醫(yī)學原創(chuàng)故事會
2026-06-03 17:10:27
網(wǎng)紅董赤赤栽了:1300萬粉絲、54萬債務(wù),她的結(jié)局比想象中慘得多

網(wǎng)紅董赤赤栽了:1300萬粉絲、54萬債務(wù),她的結(jié)局比想象中慘得多

橙星文娛
2026-06-03 11:31:20
俄又一中將司令當街被殺,歐盟推出第21輪對俄制裁

俄又一中將司令當街被殺,歐盟推出第21輪對俄制裁

史政先鋒
2026-06-10 10:36:03
家長給高三兒子吃全碳水午餐,稱孩子是來報恩的,引大量網(wǎng)友不滿

家長給高三兒子吃全碳水午餐,稱孩子是來報恩的,引大量網(wǎng)友不滿

林林先生
2026-06-02 06:20:03
WTT連爆大冷!首位世界冠軍出局,國乒3人被淘汰,林詩棟打硬戰(zhàn)

WTT連爆大冷!首位世界冠軍出局,國乒3人被淘汰,林詩棟打硬戰(zhàn)

寶哥精彩賽事
2026-06-10 18:32:20
評論員:皇馬應(yīng)出售維尼修斯,轉(zhuǎn)而引進奧利塞

評論員:皇馬應(yīng)出售維尼修斯,轉(zhuǎn)而引進奧利塞

懂球帝
2026-06-11 02:23:24
胃開始癌變,不是看胃疼不疼!醫(yī)生:出現(xiàn)5個癥狀,胃癌或已來臨

胃開始癌變,不是看胃疼不疼!醫(yī)生:出現(xiàn)5個癥狀,胃癌或已來臨

芹姐說生活
2026-06-03 14:16:06
想征服一個女人,牢記“五不主動”,她遲早會來找你

想征服一個女人,牢記“五不主動”,她遲早會來找你

匹夫來搞笑
2026-06-10 15:29:18
【2026.6.10】扒醬料不停:那些你不知道的八卦一二三

【2026.6.10】扒醬料不停:那些你不知道的八卦一二三

娛樂真爆姐
2026-06-10 23:28:32
我今年72了,用一生的經(jīng)驗告訴你:永遠不要跟任何人,透露這3個底牌,哪怕是最親的人

我今年72了,用一生的經(jīng)驗告訴你:永遠不要跟任何人,透露這3個底牌,哪怕是最親的人

東林夕亭
2026-05-07 09:32:41
65歲,我后悔了:不該把房子給女兒,如今她老公讓我滾

65歲,我后悔了:不該把房子給女兒,如今她老公讓我滾

真實人物采訪
2026-06-09 16:00:07
電梯門事件持續(xù)發(fā)酵!阿珍開始直播了,大量勝宏的股民刷禮物安慰

電梯門事件持續(xù)發(fā)酵!阿珍開始直播了,大量勝宏的股民刷禮物安慰

火山詩話
2026-06-10 05:53:04
中東局勢大亂,川普和內(nèi)塔尼亞胡演雙簧,穆杰塔巴臨時來客串?

中東局勢大亂,川普和內(nèi)塔尼亞胡演雙簧,穆杰塔巴臨時來客串?

壹家言
2026-06-10 08:13:48
凱蒂·赫爾姆斯和安妮斯頓都愛的40美元涼拖,到底什么來頭?

凱蒂·赫爾姆斯和安妮斯頓都愛的40美元涼拖,到底什么來頭?

時光慢旅人
2026-06-10 00:35:44
特雷澤蓋:曾接近加盟皇馬,后悔沒代表阿根廷

特雷澤蓋:曾接近加盟皇馬,后悔沒代表阿根廷

懂球帝
2026-06-10 13:25:11
如果你有一套不住人的房子,勸你先別租,有些東西比租金經(jīng)得起放

如果你有一套不住人的房子,勸你先別租,有些東西比租金經(jīng)得起放

科學發(fā)掘
2026-06-09 17:03:16
2026-06-11 03:51:00
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
13224文章數(shù) 142665關(guān)注度
往期回顧 全部

科技要聞

史上最大IPO將至:1.8萬億美元的信仰豪賭

頭條要聞

杭州店主回應(yīng)2188元天價面:一天200個電話不分晝夜罵

頭條要聞

杭州店主回應(yīng)2188元天價面:一天200個電話不分晝夜罵

體育要聞

2026世界杯,我們看什么?

娛樂要聞

蒙淇淇發(fā)文開撕白鹿!輿論再次反轉(zhuǎn)

財經(jīng)要聞

SpaceX IPO或誕生4000名百萬富翁

汽車要聞

埃安i60 530寧德時代版上市限時煥新價10.36萬起

態(tài)度原創(chuàng)

本地
房產(chǎn)
游戲
藝術(shù)
公開課

本地新聞

世界杯還沒開始,蘇超已經(jīng)火到爆梗

房產(chǎn)要聞

方案曝光,三亞又一地王級豪宅要出!

《神鬼寓言》游民前瞻:時隔十多年的華麗重生

藝術(shù)要聞

驚嘆!最新一組超質(zhì)感的國際人像攝影作品

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版