无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網(wǎng)易首頁

網(wǎng)易新聞
網(wǎng)易公開課
網(wǎng)易紅彩
網(wǎng)易嚴選
郵箱大師
網(wǎng)易云課堂

注冊免費郵箱

注冊VIP郵箱（特權(quán)郵箱，付費）
免費下載網(wǎng)易官方手機郵箱應用

移動端
網(wǎng)易公開課
網(wǎng)易嚴選
支付
郵箱

網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

全員本科生！何愷明組新作：文生圖，258M參數(shù)就夠了

2026-06-18 17:09:07　來源: 量子位

河北舉報

0

分享至

henry 發(fā)自凹非寺
量子位 | 公眾號 QbitAI

全員本科生！

剛剛，何愷明攜本科生“軍團”又放出一篇新論文。

繼去年探索直接從像素預測圖像的JiT架構(gòu)后，團隊這次又把這套“刪繁就簡”的思路擴展到了文生圖領(lǐng)域，推出全新工作：

MiniT2I

在今天動輒數(shù)十億參數(shù)、海量圖文數(shù)據(jù)訓練文生圖模型的背景下，MiniT2I選擇了另一條路。

它基于全新的MM-JiT架構(gòu)，直接在像素空間進行擴散生成，同時盡可能壓縮模型復雜度和訓練成本。

最終，僅用258M參數(shù)，就實現(xiàn)了不錯的文生圖效果。

更關(guān)鍵的是，整個訓練成本只相當于一次標準ImageNet實驗。

這是怎么做到的？

從JiT到MM-JiT

整體看來，MM-JiT是愷明組之前論文「Back to Basics」在T2I（文本生成圖像）方向上的延伸。

Back to Basics中，愷明和他的博后黎天鴻提出了JiT架構(gòu)，Just image Transformers。

JiT的核心主張是：拋開VAE編解碼器，直接在像素空間預測干凈圖像（x-prediction），而不是像傳統(tǒng)擴散模型那樣預測噪聲。

這樣做的好處是，整個生成流程更加直接，符合流形假設(shè)以及“從像素出發(fā)”的第一性原理。

不過，當時的JiT主要針對類別條件生成（class-conditional generation），任務范圍相對有限，模型只能根據(jù)ImageNet的類別標簽生成對應圖像。

然而，真實的圖像生成任務往往不限于ImageNet的1000個固定類別，而是需要理解并遵循開放的文本Prompt

問題也隨之而來。一旦從類別生成擴展到文生圖，訓練成本往往會迅速攀升。

無論是SD3、FLUX.1-dev還是DALL·E 3，背后都依賴多階段訓練流程、龐大的文本編碼器以及海量數(shù)據(jù)資源。

對于大多數(shù)學術(shù)團隊而言，從零開始訓練一個完整的文生圖模型，幾乎是一項難以承擔的工程。

于是，MiniT2I應運而生。

它試圖回答一個更現(xiàn)實的問題：

如果只用接近ImageNet訓練規(guī)模的計算資源，能不能也做出效果不錯的文生圖模型？

答案是，可以。

研究發(fā)現(xiàn)，當文本首先被預訓練語言模型編碼為語義表示后，對于生成模型而言，文本條件本質(zhì)上只是另一種形式的上下文條件。

換句話說，文生圖或許并沒有想象中那么特殊。

在模型架構(gòu)、訓練計算量，甚至所需數(shù)據(jù)規(guī)模上，它與類別條件生成的差距遠沒有業(yè)界普遍認為的那么大。

如果這個判斷成立，那么一個很自然的問題就出現(xiàn)了：

既然類別條件生成已經(jīng)能用JiT這樣的極簡架構(gòu)完成，那么文生圖任務里那些復雜的模塊，究竟哪些是真正必要的？

MM-JiT給出的答案是：把它們一個個刪掉，再看模型還能不能工作。

MM-JiT：刪繁就簡

對于上面這個問題，MiniT2I項目負責人王銜邦在X上的總結(jié)非常精煉：

我們的原則很簡單，能去掉的全去掉。起點是像素空間、標準的T5-Large編碼器，以及一個采用x-prediction的簡潔多模態(tài)骨干MM-JiT。

這套思路的第一刀，砍向了VAE。

眾所周知，當前主流文生圖模型大多采用潛在擴散（Latent Diffusion）路線：

先通過VAE把圖像壓縮到低維潛空間，再在潛空間里完成擴散生成，最后解碼回像素。

這樣做的好處是顯著降低計算量，但代價也很明顯——

VAE會帶來重建誤差和偽影，同時還額外增加了一套編解碼器的訓練流程。

針對這一問題，在前作JiT中，團隊已經(jīng)證明，至少在ImageNet任務上，直接在像素空間建模并不存在所謂的“不可逾越瓶頸”。

那么在文生圖任務里，VAE是否真的不可替代？

團隊決定直接把它刪掉試試。

MiniT2I將擴散過程重新搬回像素空間，希望驗證一個看似反常識的判斷：直接在像素空間擴散，不僅完全可行，而且未必比潛空間路線更貴。

實驗表明，傳統(tǒng)潛空間模型單次前向傳播需要1379 GFLOPs，而徹底擺脫VAE之后，MiniT2I的計算開銷僅為265 GFLOPs，直接降低了約80%。

刪掉VAE之后，團隊又把目光轉(zhuǎn)向了模型架構(gòu)本身。

前作JiT面向的是ImageNet分類條件生成，因此采用標準DiT，并通過AdaLN-Zero注入類別標簽和時間步信息。

但到了開放式文生圖任務，最自然的參考對象就變成了SD3采用的MM-DiT。

在團隊看來，MM-DiT身上仍然掛著不少“歷史包袱”。

其中最典型的就是AdaLN機制。模型會把時間步和池化后的文本特征轉(zhuǎn)換成縮放、偏移和門控參數(shù)，并注入到每一層網(wǎng)絡中。

MM-JiT的選擇則相當激進：直接把AdaLN整個刪掉。

理由也很簡單——擴散模型當前所處的噪聲水平，其實已經(jīng)包含在加噪后的輸入 z_t 里。

換句話說，模型完全可以自己推斷當前處于擴散過程的哪個階段，并不需要額外開一條通道專門傳遞時間步信息。

于是，條件信息只通過聯(lián)合注意力這一條路徑進入模型，整個骨干網(wǎng)絡也回歸到更接近標準Pre-Norm Transformer的形式。

與此同時，團隊只額外增加了兩個Text Adapter Block，放在聯(lián)合注意力之前，讓凍結(jié)的T5文本特征先完成一次適配，再與圖像Token交互。

實驗結(jié)果再次驗證了團隊的判斷。

參數(shù)量幾乎保持不變，依舊只有260M，但模型性能卻一路提升：

FID從18.7（MM-DiT像素空間基線），提升到17.4（加入Text Adapter），最終達到13.7（移除AdaLN后的MM-JiT）。

訓練與實驗

在具體實現(xiàn)上，MiniT2I基于流匹配（Flow Matching）框架，網(wǎng)絡直接預測干凈圖像，并在速度空間計算損失。

訓練分為兩個階段：首先在CC12M上預訓練25萬步，學習基礎(chǔ)視覺分布；隨后在12萬張高質(zhì)量合成圖像上微調(diào)4萬步，進一步提升Prompt遵循能力。

結(jié)果證明，這套極簡設(shè)計并沒有犧牲性能。

B/16版本總參數(shù)量不到600M，在GenEval上達到0.87、DPG-Bench達到84.2，超過了多款參數(shù)規(guī)模數(shù)倍于自身的像素空間文生圖模型。

更重要的是，完成這一訓練僅需約等于一次標準ImageNet實驗的算力預算——8張H100，大約3天。

即便與工業(yè)級模型相比，MM-JiT也展現(xiàn)出不俗競爭力。

在PRISM-Bench上，L/16版本取得62.4分，而FLUX.1-dev為68.5分。具體來看，模型在風格表現(xiàn)和開放想象力兩個維度甚至超過了FLUX；

短板方面，則主要集中在文字渲染和命名實體生成，這與公開訓練數(shù)據(jù)覆蓋范圍有限有關(guān)。

（注：具體實驗設(shè)置可參考文末博客鏈接）

作者介紹

這篇工作最值得聊的，除了技術(shù)本身，還有背后的作者們。

整篇論文一共六位作者。除了何愷明之外，其余五位都還是本科生。

而且，這些年輕面孔并不是第一次出現(xiàn)在論文作者欄里。在何愷明團隊此前的多篇工作中，他們都已經(jīng)開始嶄露頭角。

項目負責人王銜邦(Xianbang Wang)目前是MIT大一本科生，去年剛從人大附中畢業(yè)。

2024年，他代表中國隊參加第65屆國際數(shù)學奧林匹克競賽(IMO)，拿下金牌。

更早之前，他還在2021年和2022年斬獲全國信息學奧林匹克競賽的銀牌。

在這項工作之前，他已經(jīng)是何愷明團隊Bidirectional Normalizing Flow論文的共同第一作者。

另一位核心貢獻者趙瀚宏(Hanhong Zhao)，目前是MIT大二學生，曾獲得國際物理奧林匹克競賽（IPhO）金牌。

不久前引發(fā)關(guān)注的ELF（連續(xù)擴散語言模型）論文中，趙瀚宏也是作者之一。

核心貢獻者陸伊煬(Yiyang Lu)則來自清華大學姚班，目前大二，在MIT CSAIL實習，導師正是何愷明。

高中時期，他是物理競賽生，曾以江蘇省第一、全國第九的成績獲得第39屆全國中學生物理競賽（CPhO）金牌。

此前，他已經(jīng)與何愷明合作完成Bidirectional Normalizing Flow、Pixel Mean Flow等工作，在ELF論文中同樣名列作者名單。

周康陽（Kangyang Zhou）也是MIT本科生(Class of 2029)，背景更偏信息學方向。

2024年，他在第36屆國際信息學奧林匹克競賽（IOI）中奪冠，并以600分滿分成為當屆唯一滿分選手。

更早的2023年，他以全國信息學奧林匹克競賽（NOI）金牌第一名的成績?nèi)脒x國家集訓隊，領(lǐng)先第二名55分。今年，他還作為MIT代表隊成員獲得ICPC 2026北美錦標賽冠軍。

馬麟瑞（Linrui Ma）同樣畢業(yè)于人大附中，目前在MIT就讀本科。

他曾擔任中國國家隊隊長，在第56屆國際化學奧林匹克競賽（IChO 2024）中獲得金牌。

最后再簡單介紹一下何愷明。

目前，他是MIT EECS終身副教授，同時兼任Google DeepMind杰出科學家。

他是深度學習、計算機視覺一系列重要工作，如ResNet、Faster R-CNN、Mask R-CNN、MoCo、MAE的作者。其中，ResNet是21世紀被引用次數(shù)最多的論文。

某種程度上說，這篇論文最有意思的地方，不只是提出了一個新方法，更像是一群剛剛走出奧賽賽場的年輕人，已經(jīng)開始站上AI研究最前沿的舞臺。

[1] https://peppaking8.github.io/#/post/minit2i

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦

熱點推薦

杭州深山老林里，一輛酷炫的路特斯跑車趴窩了近半年，輪胎也全癟了，每天都有人去打卡拍照，是被主人遺棄了？

都市快報橙柿互動 2026-06-18 10:53:52
3017 跟貼 3017
凱恩也梅開二度了 C羅簡單回應"顆粒無收"：遠未結(jié)束

澎湃新聞 2026-06-18 07:12:27
3318 跟貼 3318

柬埔寨對華免簽落地首日即有老廣團出發(fā)

新快報新聞 2026-06-16 08:19:02
19364 跟貼 19364

重慶30年老面館招牌上的“高”字是“被迫”加的，老板：以前不懂商標，打官司沒要回

瀟湘晨報 2026-06-17 23:25:16
82 跟貼 82
歐盟模擬拿光刻機卡中國脖子推演結(jié)果讓他們看清現(xiàn)實

澎湃新聞 2026-06-17 21:36:49
1099 跟貼 1099

寧德時代曾毓群“炮轟”動力電池行業(yè)亂象：部分競爭對手只會挖人偷技術(shù)，低價競爭源于心態(tài)浮躁、行為短視

每日經(jīng)濟新聞 2026-06-17 21:01:02
121 跟貼 121

中國女排戰(zhàn)勝德國女排，收獲世界女排聯(lián)賽安卡拉站開門紅

澎湃新聞 2026-06-17 19:58:27
691 跟貼 691
周冬雨被曝演話劇不背臺詞，熱搜第一

大風新聞 2026-06-18 13:33:03
1399 跟貼 1399

嚴重超標多款知名品牌檢出毒物湖北人別買了

蓬勃新聞 2026-06-18 10:50:01
35 跟貼 35
銅纜高速連接概念漲2.30%，主力資金凈流入23股

證券時報 2026-06-18 16:54:58
1 跟貼 1
貨拉拉將向司機退還不合理費用1.2億

央視新聞客戶端 2026-06-18 16:04:55
54 跟貼 54
巴拿馬功虧一簣，加納補時絕殺1比0拿下3分

澎湃新聞 2026-06-18 09:08:27
242 跟貼 242
視頻揭秘高考閱卷現(xiàn)場：任何紙張都無法攜帶入場

央視新聞 2026-06-18 10:46:05
309 跟貼 309
中國裁判史上第二人馬寧執(zhí)法厄瓜多爾vs庫拉索

新華社 2026-06-17 21:00:32
389 跟貼 389
創(chuàng)業(yè)板指漲逾2% 算力產(chǎn)業(yè)鏈繼續(xù)走強

財聯(lián)社 2026-06-18 10:40:13
47 跟貼 47
祝賀！徐嘉余50仰破亞洲紀錄奪冠

極目新聞 2026-06-17 19:29:25
123 跟貼 123
門檻太高的優(yōu)待不是優(yōu)待，不要寒了無償獻血者的心

南方都市報 2026-06-18 07:06:19
39 跟貼 39
“福建順昌遭遇嚴重暴雨災情”不實（2026·06·18）

今日辟謠 2026-06-18 17:44:03
1 跟貼 1
雙腔空懸與高階智駕降維入局，20萬內(nèi)SUV市場迎來新挑戰(zhàn)者

封面新聞 2026-06-18 15:13:19
8 跟貼 8
《小區(qū)情報站》

農(nóng)視網(wǎng) 2026-06-18 18:10:00
1 跟貼 1
《止咳藥的身份危機》

農(nóng)視網(wǎng) 2026-06-18 17:24:07
1 跟貼 1
杭州男子花90萬買銀條扛回家，如今虧成45萬：真是慘啊，從春節(jié)虧到端午！已打算“硬扛”：熬到回本

極目新聞 2026-06-18 16:52:17
0 跟貼 0
長沙閑置包包變現(xiàn)避坑全攻略：拆解回收行業(yè) 5 大套路，教你安心賣出奢侈品高價

臺州交通廣播 2026-06-18 18:18:20
0 跟貼 0
SpaceX爆火華裔女工程師真名叫郭璨？本人辟謠

網(wǎng)易號社區(qū)管理員 2026-06-18 18:20:32
0 跟貼 0
核載7人面包車裝了16人，司機被立案調(diào)查！乘客多是打零工的村民

紅星新聞 2026-06-18 18:13:07
0 跟貼 0

賈玲啊賈玲，你糊涂啊，身材有了，但臉一下子老20歲，觀眾緣沒了

賈玲啊賈玲，你糊涂啊，身材有了，但臉一下子老20歲，觀眾緣沒了

動物奇奇怪怪

2026-06-18 00:01:38

“我中招了，都是在小藍上亂來的結(jié)果”！20歲小伙哭訴撞上HIV

“我中招了，都是在小藍上亂來的結(jié)果”！20歲小伙哭訴撞上HIV

火山詩話

2026-06-18 10:12:31

江蘇省紀委監(jiān)委通報：張建華被查

江蘇省紀委監(jiān)委通報：張建華被查

上觀新聞

2026-06-18 13:31:30

G7宣布對華重磅決定，高市早苗向我國喊話，澤連斯基也來湊熱鬧

G7宣布對華重磅決定，高市早苗向我國喊話，澤連斯基也來湊熱鬧

面包夾知識

2026-06-18 17:21:33

上海市委書記陳吉寧：平庸與卓越的差別（強烈推薦）

上海市委書記陳吉寧：平庸與卓越的差別（強烈推薦）

新浪財經(jīng)

2026-06-18 07:10:25

哈蘭德攜女友逛紐約，首秀43分鐘兩球追平隊史紀錄

哈蘭德攜女友逛紐約，首秀43分鐘兩球追平隊史紀錄

喜歡歷史的阿繁

2026-06-18 11:40:50

比稀土更稀缺！卡住PCB命門的三大緊缺材料之王（附股）

比稀土更稀缺！卡住PCB命門的三大緊缺材料之王（附股）

生活新鮮市

2026-06-17 19:40:50

穆里尼奧皇馬清洗名單出爐！皇馬球星主動申請解約，遭到球隊拒絕

穆里尼奧皇馬清洗名單出爐！皇馬球星主動申請解約，遭到球隊拒絕

夜白侃球

2026-06-18 11:34:05

科創(chuàng)50暴漲3%！寒武紀漲超13%刷新歷史紀錄，但末日期權(quán)翻倍后仍面臨歸零

科創(chuàng)50暴漲3%！寒武紀漲超13%刷新歷史紀錄，但末日期權(quán)翻倍后仍面臨歸零

財聞

2026-06-18 10:51:48

拿清華全額獎學金留學，印度女學生回國瘋狂吐槽：中國是封閉社會

拿清華全額獎學金留學，印度女學生回國瘋狂吐槽：中國是封閉社會

小徐講八卦

2026-06-16 14:59:41

最容易和別人發(fā)生關(guān)系的女人，通常有兩個特征

最容易和別人發(fā)生關(guān)系的女人，通常有兩個特征

心理觀察局

2026-06-18 06:27:06

恥辱！葡萄牙世界杯頭號罪人！全場隱身坑死全隊！

恥辱！葡萄牙世界杯頭號罪人！全場隱身坑死全隊！

奶蓋熊本熊

2026-06-18 05:05:34

韓媒：韓國足壇的奇恥大辱——中國足球裁判時隔24年擔任世界杯主裁

韓媒：韓國足壇的奇恥大辱——中國足球裁判時隔24年擔任世界杯主裁

寶哥精彩賽事

2026-06-18 10:24:39

2026年基本養(yǎng)老金調(diào)整即將啟動，補發(fā)7個月，工齡25年能補多少？

2026年基本養(yǎng)老金調(diào)整即將啟動，補發(fā)7個月，工齡25年能補多少？

虎哥閑聊

2026-06-18 11:14:49

川普放話俄羅斯股市應聲下跌，小澤二次出手莫斯科迎來最美早晨

川普放話俄羅斯股市應聲下跌，小澤二次出手莫斯科迎來最美早晨

西樓飲月

2026-06-18 15:39:06

深圳暴雨致寶安機場超400架次航班延誤，有旅客等待超6小時，機場工作人員：14時許已有航班陸續(xù)起飛

深圳暴雨致寶安機場超400架次航班延誤，有旅客等待超6小時，機場工作人員：14時許已有航班陸續(xù)起飛

極目新聞

2026-06-18 17:31:56

107萬臺燃油車倒計時兩周，賣不完就上不了牌

107萬臺燃油車倒計時兩周，賣不完就上不了牌

網(wǎng)上車市

2026-06-16 17:14:51

人奶背后的“吃人”邏輯

布衣亂彈

2026-06-17 18:31:01

看了馬浴柯的家世，才懂已經(jīng)財富自由的梁洛施，為何要跟他戀愛

看了馬浴柯的家世，才懂已經(jīng)財富自由的梁洛施，為何要跟他戀愛

趣文說娛

2026-06-17 22:09:53

醫(yī)生忠告：肺癌早期不是咳嗽，而是頻繁出現(xiàn)這3癥狀，千萬別忽視

醫(yī)生忠告：肺癌早期不是咳嗽，而是頻繁出現(xiàn)這3癥狀，千萬別忽視

健康之光

2026-06-18 11:25:14

追蹤人工智能動態(tài)

12815文章數(shù) 176499關(guān)注度

往期回顧全部

科技要聞

庫克承認扛不住了，蘋果漲價“不可避免”

頭條要聞

男子深夜拉車門盜走5萬元作案前后向AI"求教":判多久

頭條要聞

男子深夜拉車門盜走5萬元作案前后向AI"求教":判多久

體育要聞

波切蒂諾：我仍對西班牙有信心

娛樂要聞

39歲梅西不愧是人生贏家！

財經(jīng)要聞

沃什“首秀”：刻意的模糊？

汽車要聞

驚出冷汗！重慶實測奧迪A5L，華為智駕這波操作絕了…

態(tài)度原創(chuàng)

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

家居

教育

手機

游戲

藝術(shù)

家居要聞

綠意盎然自然之境

空間微調(diào) 移形換境
自由流光回溯生活真意
雅奢之序五層別墅

教育要聞

2026年太殘酷了，1290萬高中生+1270萬大學畢業(yè)生

手機要聞

果粉吵翻了！蘋果實錘漲價，你還會購買嗎？

大雷泳裝屈原！日本手游端午活動神操作網(wǎng)友噴爆了

藝術(shù)要聞

央美教授，張義波油畫作品選

© 1997-2026 網(wǎng)易公司版權(quán)所有 About NetEase | 公司簡介 | 聯(lián)系方法 | 招聘信息 | 客戶服務 | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權(quán)投訴

無障礙瀏覽進入關(guān)懷版