无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

何愷明團隊新作:刪掉VAE和私有數據后,文生圖竟然更強了

0
分享至



機器之心編輯部

文本生成圖像的領域早已經是一片紅海,看上去已經卷無可卷了。

想在當下訓一個很牛的文生圖模型,你需要什么?

如果從當下主流方案入手,那需要:預訓練好的 VAE 編解碼器、文本編碼器的拼接、精心設計的條件注入機制、海量數據、RL 或 DPO 對齊階段……

總體上,大家似乎默認了一個前提:做文生圖,就是得這么復雜。

而何愷明團隊卻反其道而行之,在文生圖模型領域做出了新的思考。他們發布了MiniT2I —— 一個刻意追求極簡的像素空間文生圖模型

沒有 VAE 編解碼器,沒有 AdaLN 條件注入,沒有輔助損失函數,沒有私有數據,沒有 RL/DPO 對齊,純粹的流匹配目標直接在像素上訓練。258M 參數的 B/16 版本,在 GenEval 上達到 0.87,DPG-Bench 達到 84.2,超越了參數量大它數倍的同類像素空間模型。



MiniT2I 的核心主張是:如果把文本條件當作「帶有語義信息的上下文 token」注入模型,文生圖和類別條件的 ImageNet 生成在本質上并沒有那么大的區別 —— 架構可以相似,算力可以相當,甚至數據量級也可以對齊。



  • 論文標題:A Minimalist Baseline for Text-to-Image Generation
  • 技術博客:https://peppaking8.github.io/#/post/minit2i
  • 開源地址:https://github.com/PeppaKing8/minit2i-jax

技術路線:每一步都在做減法

像素空間直出,不要 VAE

MiniT2I 的第一個設計選擇就很激進:丟掉 VAE,直接在 RGB 像素上做去噪。

潛在擴散模型(Latent Diffusion)是當前主流范式,先用自編碼器把圖像壓縮到低維空間再做擴散。這確實讓高分辨率變得可行,但代價是引入了重建誤差、額外的訓練階段、以及編碼器 - 去噪器之間的目標不對齊問題。

MiniT2I 選擇像素空間的理由很務實:對于 512×512 分辨率,用 16×16 的 patch 把圖像切成 1024 個 token,序列長度完全在 Transformer 的舒適區內。去掉 VAE 后,單步前向的計算從~1379 GFLOPs 降到~570 GFLOPs(B/16 設置),而且不存在重建精度的上限問題 —— 去噪器能力有多強,輸出就能有多好。

實驗也證實了這一點:在相同參數預算下,像素模型的 FID 和潛在空間模型持平(18.7 vs 19.0),但單步成本低了 5 倍。



MM-JiT 架構:回歸樸素 Transformer

SD3 的 MM-DiT 在每個 block 中用 AdaLN(Adaptive Layer Normalization)將時間步和池化文本編碼注入網絡 —— 每個子塊需要計算 scale、shift 和 gate 參數,通過一個額外的 MLP 從條件向量生成。這是一套精巧的調制機制,但 MiniT2I 發現它并非必需。



MiniT2I 提出的 MM-JiT 架構做了兩件事:

1.加兩層文本適配器:在聯合注意力之前,插入兩個輕量 Transformer block,讓凍結的 T5 特征先「適應」去噪器的需求。

2.刪除 AdaLN 分支:不再通過額外路徑注入時間步和全局文本信息。模型依然能感知噪聲水平 —— 因為被噪聲污染的圖像本身就攜帶了時間步信息。

結果是一個接近標準預歸一化 Transformer 的干凈架構。去掉 AdaLN 后參數減少,但可以用相同算力預算換來更多層數(12 層 → 17 層)。FID 從 18.7 降到 13.7,同時架構本身更容易理解和修改。



訓練數據:全公開,兩階段

MiniT2I 的訓練數據同樣追求極簡:

  • 預訓練:LLaVA-recaptioned CC12M(公開可用的 VLM 重標注數據集),250K 步
  • 微調:~12 萬張高質量圖文對(BLIP3o-60K + LAION DALL?E 3 Discord set + ShareGPT-4o-Image),40K 步

這種「預訓練 - 微調」的兩階段模式完全對標 LLM 的訓練范式:預訓練買覆蓋面,微調教模型什么是好答案。消融顯示兩者缺一不可 —— 只做預訓練,圖像質量可以但提示跟隨很差;只做微調,模型看到的世界太窄,生成多樣性坍塌。

結果:小模型,大表現

在像素空間文生圖的對比中,MiniT2I 的性價比極為突出:



MiniT2I-B/16 僅用約 600M 總參數(含文本編碼器),就在 GenEval 和 DPG-Bench 上超越了參數量 3-4 倍于己的模型。而且訓練成本極低:B/32 消融模型在 8 張 H100 上只需約 3 天,總訓練 FLOPs 與標準 ImageNet 200 epoch 實驗相當。



擴展到 L/16(912M 參數)后,模型在風格多樣性、空間關系和文字渲染方面都有明顯進步,與 SD3-Medium(~2B 參數)在想象力場景上的生成質量相當甚至更優。

在更全面的 PRISM-Bench 評測中,MiniT2I-L/16 在風格、組合和想象力維度上表現出色(79.9、78.4、57.9),已經接近 SD3-Medium 水平。但在文字渲染(30.6 vs SD3 的 50.9)和命名實體(60.3 vs 66.3)上仍有差距 —— 團隊坦承這是公開數據配方的固有局限,需要補充專項數據來彌補。



局限與展望

MiniT2I 是一條技術路線的概念驗證,而非最終產品。團隊誠實地指出了幾個未解問題:

  • 像素空間的 patch 偽影:在 patch 邊界處存在可測量的不連續(邊界處梯度比非邊界高 17-22%),潛在空間模型沒有這個問題
  • CFG 在像素空間的副作用:高引導系數(~6)會將局部 token 推離數據流形,在沒有解碼器「平滑」的情況下直接暴露為視覺瑕疵
  • 分辨率天花板:當前在 512×512 工作良好,推向 4K+ 需要更長序列或更高效的注意力機制
  • 數據瓶頸:文字渲染和命名實體仍弱于工業系統,需要專項數據補強

MiniT2I 證明了現階段的文生圖不是只有頂尖工業實驗室才能玩的游戲。

當一個 258M 參數的模型,用純公開數據,在學術級算力上訓練 3 天就能打敗體量大數倍的對手時,或許文生圖正在經歷從「堆料」到「提純」的范式轉換

「T2I 不再是高不可攀的圍墻。歡迎使用并改進它,打造更簡潔的基線。」

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
FW支招火箭交易來21+5后衛,兩位前探花成籌碼,今年次輪簽當添頭

FW支招火箭交易來21+5后衛,兩位前探花成籌碼,今年次輪簽當添頭

謝說籃球
2026-06-22 17:46:34
封禁半年后復出!車評大V陳震解封首日:擼鐵、發聲感恩、曬車架

封禁半年后復出!車評大V陳震解封首日:擼鐵、發聲感恩、曬車架

財視傳播
2026-06-22 17:39:04
以色列開戰以來最慘重創!王牌36師師部被精準斬首,高級軍官團滅

以色列開戰以來最慘重創!王牌36師師部被精準斬首,高級軍官團滅

揚子的故事屋
2026-06-22 13:52:48
正式復出,張繼科官宣重返賽場,首秀曝光,迎戰德國名將

正式復出,張繼科官宣重返賽場,首秀曝光,迎戰德國名將

泥說體育
2026-06-21 16:40:38
英國又為烏克蘭研發出一款大殺器

英國又為烏克蘭研發出一款大殺器

史政先鋒
2026-06-21 23:18:32
事關高考錄取!2026高考查分后必須要做好的4件事!家長考生了解

事關高考錄取!2026高考查分后必須要做好的4件事!家長考生了解

高三倒計時
2026-06-22 17:57:51
A股:緊急提醒2.5億股民!從今天6月22日起,A股或迎大級別變盤行情?

A股:緊急提醒2.5億股民!從今天6月22日起,A股或迎大級別變盤行情?

趨勢清風俠
2026-06-22 07:29:05
斬斷“職業閉店人”灰色產業鏈

斬斷“職業閉店人”灰色產業鏈

時間財經
2026-06-22 16:24:41
莫言:動不動就生氣的人,沒有一個是智者|生活多半過得一團糟

莫言:動不動就生氣的人,沒有一個是智者|生活多半過得一團糟

杏花煙雨江南的碧園
2026-06-19 11:15:03
全程不提日本!中國連簽3份聲明后,東京集體沉默,周邊國家醒悟

全程不提日本!中國連簽3份聲明后,東京集體沉默,周邊國家醒悟

一口娛樂
2026-06-22 17:27:27
樸智星:日本不斷成長和進步,一步一個腳印地達到今天的成就

樸智星:日本不斷成長和進步,一步一個腳印地達到今天的成就

懂球帝
2026-06-22 11:17:18
拿孩子當籌碼?哈里梅根攜子女高調返英,被曝設局勒索王室要特權

拿孩子當籌碼?哈里梅根攜子女高調返英,被曝設局勒索王室要特權

世界王室那些事
2026-06-22 18:36:12
PCB真正的主線排出來了 第一梯隊才是最缺貨的

PCB真正的主線排出來了 第一梯隊才是最缺貨的

風風順
2026-06-22 02:20:07
紙尿褲風波中的母嬰店:急忙貼檢測報告,暫未下架產品

紙尿褲風波中的母嬰店:急忙貼檢測報告,暫未下架產品

界面新聞
2026-06-22 17:13:08
網友分享自己身邊的高學歷現狀:有人全職送外賣、有人待業...

網友分享自己身邊的高學歷現狀:有人全職送外賣、有人待業...

燈錦年
2026-06-22 12:33:29
又讓王健林說中了?若不出意外,2026年下半年樓市將面臨5大變化

又讓王健林說中了?若不出意外,2026年下半年樓市將面臨5大變化

貓叔東山再起
2026-06-21 09:35:10
克里米亞油慢慢加滿了,烏克蘭的車隊卻在冒黑煙,這對比絕了

克里米亞油慢慢加滿了,烏克蘭的車隊卻在冒黑煙,這對比絕了

戧詞奪理
2026-06-22 15:04:23
雷克薩斯迎來金主!胖東來創始人于東來現身鄭州4S店,評論區沸騰

雷克薩斯迎來金主!胖東來創始人于東來現身鄭州4S店,評論區沸騰

火山詩話
2026-06-22 08:35:16
賣茶直播間月入千萬!央視曝光:27位“茶農”20位是演員,4.5萬元/公斤的古樹只賣109元,全是假的……

賣茶直播間月入千萬!央視曝光:27位“茶農”20位是演員,4.5萬元/公斤的古樹只賣109元,全是假的……

齊魯壹點
2026-06-22 11:08:12
佛得角可能與阿根廷淘汰賽相遇,門將沃齊尼亞:渴望與梅西交手,那將是夢想成真

佛得角可能與阿根廷淘汰賽相遇,門將沃齊尼亞:渴望與梅西交手,那將是夢想成真

紅星新聞
2026-06-22 16:57:26
2026-06-22 19:36:49
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
13329文章數 142677關注度
往期回顧 全部

科技要聞

智譜盤中狂飆超40%,市值破萬億港元

頭條要聞

29歲女主持人患癌去世:確診僅幾個月 申請做大體老師

頭條要聞

29歲女主持人患癌去世:確診僅幾個月 申請做大體老師

體育要聞

法國球星祝中國隊下屆世界杯取得好成績

娛樂要聞

陪睡陪玩是皮毛,向佐揭內娛暗規則

財經要聞

多部門核查"嬰幼兒紙尿褲甲酰胺問題"

汽車要聞

華為智駕ADS限時優惠月底結束 7月1日前下訂立省3000元

態度原創

教育
游戲
家居
手機
公開課

教育要聞

大學生選專業 超半數瞄準人工智能 田剛校長:給學生自主

《幻想水滸傳》新作Steam頁面公開!多平臺 截圖曝光

家居要聞

綠意盎然 自然之境

手機要聞

消息稱某廠小屏性能機評估驍龍8 Elite Gen6,預計為一加16T

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版