網易首頁 > 網易號 > 正文 申請入駐

預測下一個像素還需要幾年?谷歌:五年夠了

0
分享至



機器之心報道

機器之心編輯部

既然語言可以當序列來學,那圖像能不能也當序列來學?

通過將圖像表示為像素序列,先前的研究表明通過下一像素預測,可以以一種簡單、端到端的方式同時學習視覺識別與生成。

從概念上講,下一像素預測非常容易擴展,因為它是無監督學習:無需任何人工標注。同時,將圖像表示為像素序列,也對圖像結構施加了最少的歸納偏置。

然而,盡管像素級端到端建模在早期被證明是可行的,但這一范式近年來卻不再流行。

其主要原因在于出現了計算效率更高的方法,例如:使用視覺 tokenizer 進行 patch 級別學習。

盡管研究重心已經發生轉移,但一個簡單卻極其關鍵的問題仍未被回答:我們距離真正大規模擴展下一像素預測,還有多遠?

不可否認,相比自然語言中的下一詞預測,下一像素預測要困難得多,主要有以下幾點原因:

  • 首先,像素的語義信息極低。一個句子里的詞通常包含豐富含義,而一個像素只是一點顏色信息,兩者差距巨大。
  • 其次,像素之間的空間關系非常復雜,不容易用序列方式來表示。一個像素的顏色不僅受到周圍鄰域像素的影響,還受到圖像中那些與它不相鄰的物體和結構的影響。
  • 第三,隨著圖像分辨率升高,下一像素預測的計算量會急劇增加。例如,要生成一張 128 × 128 的圖片,一個自回歸模型必須逐個預測 16,384 個像素,一步都不能少。

在這篇論文中,來自 Google DeepMind 的研究者分析了下一像素預測在圖像識別與圖像生成兩類任務中的擴展特性(scaling properties)。

本文首先在固定的 32×32 像素分辨率下開展研究,在這一分辨率下,圖像已開始呈現清晰的結構與可辨識的物體交互,因此可被視為對原生高分辨率圖像的一種有意義的近似。

實驗基于下一像素預測損失進行了初始 scaling 實驗。如圖 1 (a) 所示,結果表明:相較于文本 token,原始像素的學習需要顯著更高(10–20 倍)的最優 token-parameter 比例。更具體地,要實現計算最優平衡,像素模型所需的 token-per-parameter 至少比語言模型高一個數量級(約 400 vs. 20)。

這一初步發現促使研究者進一步深入三個核心問題。第一,我們如何可靠地評估這些模型的性能,尤其是在較低分辨率下(低分辨率便于開展大量實驗)?第二,基于下一像素預測損失得出的 scaling 規律,是否與更有意義的下游任務(如分類與圖像補全)的 scaling 行為一致?第三,不同圖像分辨率下的 scaling 趨勢會如何變化?

為回答這些問題,本文圍繞三類指標進行了系列可控實驗。

在固定的 32×32 分辨率下,實驗結果(見圖 1 (b))顯示:最優的 scaling 策略高度依賴目標任務,其中圖像生成質量需要比分類任務或下一像素預測任務更大的 token-parameter 比例。此外,這些 scaling 動態并非靜態不變;對 16×16 與 64×64 等不同分辨率的研究顯示:隨著分辨率提升,模型規模的增長必須顯著快于數據規模的增長。

最后,鑒于訓練算力正以每年四到五倍的速度增長,本文預測逐像素建模方式在未來五年內將變得可行。



  • 論文標題:Rethinking generative image pretraining: How far are we from scaling up next-pixel prediction?
  • 論文地址:https://arxiv.org/pdf/2511.08704

方法介紹

本文從 32×32 分辨率的圖像出發,在多種 IsoFlops(等算力)配置下訓練了一系列 Transformer 模型,最大計算量達到 7e19 FLOPs,并從三個不同指標對其性能進行評估:下一像素預測目標、ImageNet 分類準確率以及以 Fréchet Distance 衡量的生成質量。結果發現:

  • 首先,最佳擴展策略強烈依賴任務類型:即使在固定的 32×32 分辨率下,分類任務與生成任務的最優 scaling 需求也完全不同,其中生成任務要達到最優效果所需的數據規模增長速度是分類任務的三到五倍。
  • 其次,隨著圖像分辨率的提升,最優 scaling 策略顯示模型規模必須比數據規模增長得更快。更令人意外的是,根據趨勢外推,像素級模型的主要瓶頸并不是訓練數據,而是計算量。

本文采用 Transformer 架構進行研究,共四種規模,參數從 2800 萬到 4.49 億不等。Transformer 架構的詳細信息列在表 1 中。



本文在 JFT-300M 數據集上進行預訓練,該數據集包含 3 億張多樣化圖像,規模是 ImageNet ILSVRC 2012 訓練集的 10 倍以上。在分辨率為 32×32 的條件下,對數據集完整遍歷一遍相當于處理超過 3000 億個像素。訓練過程采用標準的 Inception 風格隨機裁剪,并以 50% 概率進行水平翻轉。

在評估上,本文進行了兩種評估方式,即圖像分類和圖像補全。

實驗及結果

像素是否遵循與文本相同的規律?

答案是肯定的:對原始像素預測的擴展趨勢與文本類似、可預測,但效率要低得多。由于單個像素所攜帶的語義信息遠少于語言 token,本文估計模型在學習原始像素時,需要比語言模型多 10–20 倍的 token-per-parameter 才能達到有效學習。



本文進一步計算了在不同訓練 FLOPs 下的最優 token-per-parameter 比例,并與典型語言模型進行比較。如圖 1 (a) 所示,即便在超過 10^21 FLOPs 的訓練預算下,學習原始像素仍然需要比語言 token 多 10–20 倍的數據量。

這表明,即便在低分辨率 32×32 圖像中,單個像素的語義信息密度仍遠低于語言 token,后者本身就是一種壓縮且意義集中的信息單位。例如,cat 這個詞是高度壓縮的符號,攜帶著大量抽象信息:它是一種動物,有毛,會喵叫,有胡須。而單個像素本身幾乎不包含語義,因為它的顏色值可能同時對應貓、汽車或天空的一部分。



總的來說,實驗結果顯示,下一像素預測的最優擴展趨勢的確可以通過語言模型中已成熟的 scaling 框架進行預測。

最優 scaling 是否能直接遷移到下游任務?

答案是不行,至少不是以一種簡單方式。在固定的 32×32 分辨率下,由下一像素預測損失得到的最優擴展策略對圖像生成來說并非最優。具體而言,要獲得良好的生成質量,需要一種更加數據驅動的 scaling 方式,即數據規模的增長速度必須明顯快于模型規模的增長速度。

不同任務的最優 scaling 存在顯著差異。如圖 1 (b) 所示,基于獨立 IsoFlops 配置得到的最優 token-to-parameter 比例在下一像素預測損失、ImageNet 分類 top-1 準確率以及基于圖像補全的 Fréchet Distance 之間存在明顯差別。

隨著圖像分辨率提升,最優 scaling 會改變嗎?

答案是會的。隨著圖像分辨率的提高,最優擴展策略從在 32×32 分辨率下對模型規模與數據規模的平衡,轉變為在更高分辨率下明顯偏向更大的模型,而非更多的數據。

圖像分類 vs. 圖像生成。正如圖 4 (a) 和圖 4 (c) 所一致展示的,在更高分辨率下訓練模型能夠提升下游任務表現。

對于圖像分類,從 16×16 切換到 32×32 時能夠帶來明顯提升,但在 FLOPs 超過 1e20 的情況下,從 32×32 增加到 64×64 僅帶來輕微改進。這表明:對于 ImageNet 分類任務,在 32×32 之后,進一步提升分辨率的收益趨于減弱。

相比之下,對于圖像生成,32×32 附近的 scaling 趨勢并未飽和,將分辨率從 32×32 提升至 64×64 能帶來顯著改進。直觀來看,分辨率提高后,單像素的信息密度下降,但像素之間的視覺結構變得更復雜、更真實。抽象語義在低分辨率即可有效捕獲,而細粒度紋理則需要更高分辨率。



我們距離原始下一像素預測還有多遠?

目前由于巨大的計算成本而難以實際執行,但逐像素建模在未來五年內仍是一條可行路徑,并能達到具有競爭力的性能。其主要瓶頸是計算量,而不是訓練數據的可獲得性。本文預計在未來五年內,基于原始像素的學習將成為一條可行的發展方向。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
負債2萬億!向太:許家印拖麻袋賭牌還故意送錢,我知道他想干啥

負債2萬億!向太:許家印拖麻袋賭牌還故意送錢,我知道他想干啥

大魚簡科
2026-04-20 19:48:45
西方媒體:就算中國全力以赴,也不可能按時建成這樣龐大的工程

西方媒體:就算中國全力以赴,也不可能按時建成這樣龐大的工程

泠泠說史
2026-04-20 20:17:23
德國機構得出結論:中國已經開始在所有領域,全力沖擊美國的優勢

德國機構得出結論:中國已經開始在所有領域,全力沖擊美國的優勢

趣文說娛
2026-04-20 19:46:45
冠心病去世的越來越多,建議:1不喝、2不碰、3堅持,別大意了

冠心病去世的越來越多,建議:1不喝、2不碰、3堅持,別大意了

芹姐說生活
2026-04-20 16:10:12
伊朗:盡管美副總統萬斯及美國談判團隊成員正前往巴基斯坦,但伊朗不參加談判的決定尚未改變;特朗普威脅如停火到期美伊未達成協議,那么大量炸彈將開始爆炸

伊朗:盡管美副總統萬斯及美國談判團隊成員正前往巴基斯坦,但伊朗不參加談判的決定尚未改變;特朗普威脅如停火到期美伊未達成協議,那么大量炸彈將開始爆炸

每日經濟新聞
2026-04-21 01:44:17
伊朗萬噸大船沖向美軍封鎖線,特朗普暴怒!美官員直接點中國的名

伊朗萬噸大船沖向美軍封鎖線,特朗普暴怒!美官員直接點中國的名

二大爺觀世界
2026-04-20 20:36:50
太難了!貴州女子哭訴生意不好,想把女兒生活費2000降到1600遭拒

太難了!貴州女子哭訴生意不好,想把女兒生活費2000降到1600遭拒

火山詩話
2026-04-20 13:51:19
原雷神山院長落馬,其“權色交易”的背后,坑害了多少女醫護家庭

原雷神山院長落馬,其“權色交易”的背后,坑害了多少女醫護家庭

長安一孤客
2026-04-20 18:58:28
為什么全國人民都在拒接電話?

為什么全國人民都在拒接電話?

黯泉
2026-04-18 17:00:56
1983年,“收聽敵臺”的美女知青被執行死刑…

1983年,“收聽敵臺”的美女知青被執行死刑…

年代回憶
2026-04-20 20:03:54
爭議!趙繼偉慘敗夜發“呵呵” 自責“想找地縫鉆進去”引熱議

爭議!趙繼偉慘敗夜發“呵呵” 自責“想找地縫鉆進去”引熱議

醉臥浮生
2026-04-20 22:28:30
特朗普:如未能達成協議“幾無可能”再延長停火

特朗普:如未能達成協議“幾無可能”再延長停火

界面新聞
2026-04-20 23:21:47
19歲女孩挪用自家1700萬當“榜一大姐” 親爹帶女兒自首:坐牢才有可能追回錢款

19歲女孩挪用自家1700萬當“榜一大姐” 親爹帶女兒自首:坐牢才有可能追回錢款

封面新聞
2026-04-20 17:48:14
睡一覺5萬沒了!全國多地爆發新型盜刷,睡前必查手機這4處

睡一覺5萬沒了!全國多地爆發新型盜刷,睡前必查手機這4處

洞見小能手
2026-04-20 16:03:26
4月21日精選熱點:光纖價格暴漲650%  這3家處于底部龍頭要起爆

4月21日精選熱點:光纖價格暴漲650% 這3家處于底部龍頭要起爆

元芳說投資
2026-04-20 21:31:20
國際油價飆漲7%,黃金白銀、美股期指全線下挫,加密貨幣16萬人爆倉,美軍向伊朗商船開火

國際油價飆漲7%,黃金白銀、美股期指全線下挫,加密貨幣16萬人爆倉,美軍向伊朗商船開火

21世紀經濟報道
2026-04-20 06:46:08
澆小麥的地下水變成血紅色,誰來守護我們的生存底線?

澆小麥的地下水變成血紅色,誰來守護我們的生存底線?

記錄劉杰
2026-04-19 21:39:47
福原愛官宣三胎僅3天,男方被扒底朝天,前夫江宏杰的做法太體面

福原愛官宣三胎僅3天,男方被扒底朝天,前夫江宏杰的做法太體面

阿纂看事
2026-04-20 14:51:18
出手扣下兩批軍火,又一個歐洲國家,加入制裁以色列的行列中

出手扣下兩批軍火,又一個歐洲國家,加入制裁以色列的行列中

空天力量
2026-04-20 17:09:18
澳華人美女網紅走光照瘋傳!靠成人平臺吸粉百萬,怒買數十套房,實現“經濟自由”!

澳華人美女網紅走光照瘋傳!靠成人平臺吸粉百萬,怒買數十套房,實現“經濟自由”!

澳洲紅領巾
2026-04-20 13:44:46
2026-04-21 04:39:00
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
12813文章數 142633關注度
往期回顧 全部

科技要聞

HUAWEI Pura X Max發布 售價10999元起

頭條要聞

19歲女孩挪用自家1700萬當"榜一大姐" 親爹帶女兒自首

頭條要聞

19歲女孩挪用自家1700萬當"榜一大姐" 親爹帶女兒自首

體育要聞

阿森納已拼盡全力,但你早干嘛去了...

娛樂要聞

《八千里路云和月》田家泰暗殺

財經要聞

利潤暴跌7成,字節到底在做什么

汽車要聞

把天門山搬進廠?開仰望U8沖上45度坡的那刻 我腿軟了

態度原創

藝術
家居
游戲
健康
軍事航空

藝術要聞

沙特官宣:全球最大單體建筑,延期十年!網友:又是畫餅?

家居要聞

自然慢調 慢享時光

大司馬回歸兩個月,某音人氣穩居頂流行列,道出風光背后心酸現狀

干細胞抗衰4大誤區,90%的人都中招

軍事要聞

特朗普:美艦向伊朗貨船開火炸出個洞

無障礙瀏覽 進入關懷版