網易首頁 > 網易號 > 正文 申請入駐

GPT-Image-2 :隨意做出可作為“證據”的圖片,強到讓人恐慌

0
分享至


作者 | 貓貓頭
郵箱 | cathy@pingwest.com

+242。

這是4月21日GPT-Image-2在Image Arena Text-to-Image排行榜上領先第二名的Elo分差。Arena官方用了一個詞:clean sweep——全榜第一,沒有例外。


OpenAI在這天正式發布了GPT-Image-2。面向所有ChatGPT用戶,API預計5月初跟進。核心參數:最高4096×4096分辨率,生成速度比前代快一倍,文字渲染準確率從前代的90-95%跳到約99%。定價每百萬token $8-$30,折合單張圖片$0.006-$0.211。

模型分兩種模式。Instant是快出圖,所有人可用;Thinking模式集成推理和網頁搜索,單次最多生成8張風格一致的圖片——但鎖在Plus及以上付費層級。

只看參數,這像一次常規迭代。但Arena創始人@ml_angelopoulos 看完Arena榜單后說了一句話:"literally broke the chart——有史以來最大的差距。"


差距背后是一個積攢了三年的問題終于被正面回應了。AI圖像生成最大的笑話,一直是文字。

DALL-E 3拼不對復雜單詞,Midjourney把招牌寫成亂碼,Stable Diffusion在海報上輸出鬼畫符。文字渲染是生圖模型的"手指問題"——不是不重要,而是一做就露餡。99%的準確率如果成立,AI生成的海報、菜單、UI截圖、品牌物料第一次可以跳過人工修正,直接交付。

生圖模型的能力邊界,正在從"視覺"擴展到"信息"。

1

案例:它到底能做什么

發布當天,社區反應幾乎是即時的。

文字渲染是發布當天被驗證最多的能力。VentureBeat的Carl Franzen讓模型生成阿茲特克、瑪雅和印加三大帝國版圖的歷史地圖,附完整圖例。地圖準確、圖例完全可讀,他用的詞是"seemingly flawlessly"。


TechCrunch的Amanda Silberling讓模型生成一份墨西哥餐廳菜單——兩年前DALL-E 3拼不對"enchilada",這次的輸出"可以直接放進餐廳使用,客人不會察覺任何異樣"。


Thumio創始人@corbin_braun 連發幾串thread,做了更直覺的對比:把Google Pro 3和GPT Image 2的縮略圖生成結果并排放出來。他的結論一個詞:"insane。"同一天他還連發數條帖,稱這是"YouTube thumbnail endgame"。



文字之外,角色一致性是另一個被反復提到的點。OpenAI演示了從一張自拍生成三頁漫畫的工作流,角色在多頁間保持一致。美妝博主@jameygannon 把這個能力拉進了商業場景:一條prompt生成一整套品牌kit——logo、配色、排版、多頁應用。



值得注意的是,這些測試全部發生在發布后幾小時內,來自不同人、不同場景、不同訴求。沒有人在精心挑選最佳輸出。

2

技術拆解:為什么這次不一樣

架構重寫。GPT-Image-2不再基于GPT-4o的圖像pipeline。研究負責人Boyuan Chen將其定義為"GPT for images"——一個從頭設計的獨立系統。社區測試者在4月初Arena泄露階段(模型以maskingtape-alpha、gaffertape-alpha、packingtape-alpha三個代號出現)就注意到變化:從兩階段生成轉向單次推理。

用一個類比:過去的模型是"先聽懂你說什么,再動手畫",中間有一次信息壓縮;GPT-Image-2是"邊理解邊畫",語言理解和圖像生成在同一過程中完成。所以文字渲染終于準了——生成每個像素時,模型仍然"知道"自己在寫什么字。

Thinking模式。開啟后,模型在落筆前先規劃構圖,生成后檢查輸出,發現錯誤還會迭代修正。anti gamble創始人@damianplayer 的拆解:"reasoning mid-generation——plans the composition, checks its own output。"推理集成還讓模型可以在生成過程中調用網頁搜索、將文檔轉化為視覺圖表、在8張圖片間維持角色一致性。


世界知識的飛躍。訓練數據明顯偏向真實世界的視覺素材:UI截圖、店面招牌、界面布局。當你要求生成"普通工程師的屏幕",它輸出的是可信的顯示器畫面,不是關鍵詞拼貼。@Yuchenj_UW 試用后的判斷很直接:"It is really good. OpenAI is finally leading the image gen again。"


架構決定了它能"讀懂"文字,Thinking讓它能"檢查"文字,世界知識讓它知道文字應該"長什么樣"。三層能力疊在一起,文字渲染從短板變成了長板。

3

人類必須嚴肅對待這樣的以假亂真能力

StartupFortune在發布日給了一個定位:從"creative novelty"到"production infrastructure"。品牌mockup、廣告設計、信息圖表,過去因為文字不可靠而必須人工介入的場景,開始變成一條prompt可以交付的工作流。

不過StartupFortune自己也加了一句謹慎的提醒:"benchmark performance and production performance often diverge。"99%是實驗室數字,真實世界的多語言、多字體、多排版場景能不能hold住,5月API開放后才會有答案。

我們更關心的是另一個問題。


Jake Handy在發布日的Substack技術拆解中寫了當天最尖銳的一段:讓GPT-Image-2成為最好生產力工具的那組能力——精確的文字渲染、可信的UI布局、真實世界的視覺詞匯——恰好也是制造虛假信息的完美工具集。

假UI截圖、假Bloomberg終端、假法庭文件、假Slack對話,"every one of those is dense text laid over a known visual vocabulary, which is the exact workload OpenAI optimized for。"("這些中的每一個都是在已知視覺詞匯之上疊加的密集文本,而這正是 OpenAI 所優化的工作負載。)

這個觀察之所以刺眼,是因為它不是在說模型有什么"副作用",它在說模型最被贊美的那個能力——把文字精確地嵌入可信的視覺場景——本身就是雙刃的。

過去的生圖模型因為文字太爛,反而天然帶有一層"防偽標記":一眼就能看出是AI做的。GPT-Image-2把這層天然屏障拆掉了。

OpenAI的應對是C2PA元數據水印和溯源分類器。image-2 lauch的直播中,產品負責人Adele Li在發布會上自己承認,元數據"is not a silver bullet"——截圖、裁剪、平臺壓縮,任何一步都讓水印失效。


Jake Handy給出的定性我們認為是準確的:"The model is an excellent problem。"

AI圖像生成確實進入了"文字時代"。但文字可信這件事,在人類的媒介史上,從來就不只是一個技術問題。

這也許才是那個“強到不應該公開發布”的模型,今天之后,每個人都有了隨意生成曾經都會被認作事實證據的圖片,信息的判斷變得前所未有的難,這個強到離譜的模型會在未來很長一段時間給人們帶來恐慌,我們會看到因此而產生的各種沖突和討論,人類必須一起嚴肅應對這種以假亂真的能力了。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
DeepSeek再放大招,國產大模型坐不住了

DeepSeek再放大招,國產大模型坐不住了

鈦媒體APP
2026-04-25 16:01:39
區桂芝:臺灣不能再被“臺獨”綁架,否則終將引火自焚

區桂芝:臺灣不能再被“臺獨”綁架,否則終將引火自焚

金牛傳聲
2026-04-26 09:08:21
上交所、深交所、北交所,同日公告

上交所、深交所、北交所,同日公告

上觀新聞
2026-04-26 00:08:08
香港明明是中國的領土,為何他們回歸多年,依然還在使用港幣?

香港明明是中國的領土,為何他們回歸多年,依然還在使用港幣?

抽象派大師
2026-04-25 18:47:51
范元甄:與江青齊名的延安四美之一,嫁主席秘書,卻輸掉了一生

范元甄:與江青齊名的延安四美之一,嫁主席秘書,卻輸掉了一生

干史人
2026-03-05 21:06:35
趙鴻剛發文稱被公司解約,遭索賠200萬元,此前參加“世界扇耳光大賽”被KO倒地,卻因“眼神堅毅、毫不閃躲”圈粉百萬被喊“真男人”!

趙鴻剛發文稱被公司解約,遭索賠200萬元,此前參加“世界扇耳光大賽”被KO倒地,卻因“眼神堅毅、毫不閃躲”圈粉百萬被喊“真男人”!

大象新聞
2026-04-25 14:49:05
醫生1分鐘復位收100元被舉報,衛健委回懟:應收110,你還少給了!家長拒繳溜走!

醫生1分鐘復位收100元被舉報,衛健委回懟:應收110,你還少給了!家長拒繳溜走!

醫客
2026-04-23 12:09:21
臺專家:兩岸統一課題不再是政治禁忌,島內年輕人脫綠

臺專家:兩岸統一課題不再是政治禁忌,島內年輕人脫綠

金牛傳聲
2026-04-26 09:03:43
“香港演員幾乎全軍覆沒! 無戲可拍”引發網友熱議

“香港演員幾乎全軍覆沒! 無戲可拍”引發網友熱議

許三歲
2026-03-26 11:35:13
10國簽反華協議!沉默一天后,中方出手,不得未經允許接受美資

10國簽反華協議!沉默一天后,中方出手,不得未經允許接受美資

清歡百味
2026-04-25 16:25:29
全球44個君主制國家,只有14個國王擁有實權,他們是誰?

全球44個君主制國家,只有14個國王擁有實權,他們是誰?

七號說三國
2026-04-25 20:07:27
住2億別墅、雇4個保姆,'苦等'9年的沈夢辰,被那英一語擊中

住2億別墅、雇4個保姆,'苦等'9年的沈夢辰,被那英一語擊中

楓塵余往逝
2026-04-24 19:50:27
湖底驚現39年前失蹤的運鈔車,鈔箱毫發無損,撬開后卻傻眼了

湖底驚現39年前失蹤的運鈔車,鈔箱毫發無損,撬開后卻傻眼了

青青會講故事
2025-09-17 11:32:38
造不出高端發動機?日企拆開紅旗車,才發現中國早已走在時代前面

造不出高端發動機?日企拆開紅旗車,才發現中國早已走在時代前面

杰絲聊古今
2026-04-26 09:47:35
56歲健康母親赴瑞士安樂死:兒子已走4年,我只想體面離開

56歲健康母親赴瑞士安樂死:兒子已走4年,我只想體面離開

胡一舸南游y
2026-04-25 16:22:22
美伊談判,最新進展!伊朗外長率團抵達巴基斯坦?!美方特使赴巴,萬斯待命!

美伊談判,最新進展!伊朗外長率團抵達巴基斯坦?!美方特使赴巴,萬斯待命!

上觀新聞
2026-04-25 08:32:21
毛主席去世前,留下兩大謎團,一個至今無人知曉

毛主席去世前,留下兩大謎團,一個至今無人知曉

幽州校尉
2026-03-29 08:12:28
25萬,逆天啊...

25萬,逆天啊...

放毒
2026-04-25 17:06:44
韓國女星泫雅,已不卷身材,胖成糯米團子,反而越來越討喜了

韓國女星泫雅,已不卷身材,胖成糯米團子,反而越來越討喜了

橙星文娛
2026-04-26 09:34:05
成熟阿姨一身精致的打扮,把旁邊的小伙看呆了

成熟阿姨一身精致的打扮,把旁邊的小伙看呆了

牛彈琴123456
2026-04-25 10:41:41
2026-04-26 10:32:49
硅星GenAI incentive-icons
硅星GenAI
比一部分人更先進入GenAl。
274文章數 38關注度
往期回顧 全部

科技要聞

漲價浪潮下,DeepSeek推動AI“價格戰”

頭條要聞

牛彈琴:伊朗放了美國人鴿子 特朗普被氣壞了

頭條要聞

牛彈琴:伊朗放了美國人鴿子 特朗普被氣壞了

體育要聞

那一刻開始,兩支球隊的命運悄然改變了

娛樂要聞

《我們的爸爸2》第一季完美爸爸翻車了

財經要聞

90%訂單消失,中東旺季沒了

汽車要聞

2026款樂道L90亮相北京車展 樂道L80正式官宣

態度原創

家居
房產
游戲
本地
公開課

家居要聞

自然肌理 溫潤美學

房產要聞

新一輪教育大爆發來了!海口,開始瘋狂建學校!

制作人親口證實!Steam超好評游戲新篇章要來了

本地新聞

云游中國|逛世界風箏都 留學生探秘中國傳統文化

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版