網易首頁 > 網易號 > 正文 申請入駐

菜單上的字終于對了:ChatGPT Images 2.0離人類設計師更近一步

0
分享至



兩年前,你讓當時最強的AI圖像模型生成一張餐廳菜單。

菜單出來了,排版漂亮,配色正確,但菜名全部是亂碼。

兩年后,同樣的提示詞交給ChatGPT Images 2.0,生成的菜單可以直接送去印刷。不僅文字正確,價格合理,連排版間距都像是真正的設計師做的。

這兩年之間發生了什么?OpenAI認為過去一直沒有解決的問題叫“意圖鴻溝”(intent gap):用戶腦子里想要的東西,和屏幕上最終出現的東西之間,有一條一直跨不過去的溝。

最新發布的ChatGPT Images 2.0解決的正是這個問題,雖然不夠徹底,但已經足夠讓一部分人先用起來。

01.這次更新,OpenAI自己怎么定義它?

官方發布的ChatGPT Images 2.0功能清單是:更快、文字渲染更準、多語言支持、新增Thinking模式。但如果只說Images 2.0是"更好的圖像生成器"顯然也低估了OpenAI的野心。



OpenAI內部對這個產品的定位,是專門為了彌合AI圖像生成中的“意圖鴻溝”而打造的。所謂意圖鴻溝,是指用戶腦子里想要的東西,和最終生成出來的東西之間,長期存在的那條鴻溝。

這背后有一個根本性的轉變:

以前:你描述→AI生成

Images 2.0:你描述→AI理解你的真實意圖→AI自主查資料、想布局→AI生成,并在交付前自我審查

中間多出來的那兩步,才是這次發布真正重點。

02.Thinking模式:它在做什么?

根據OpenAI的說明,Thinking模式給了模型三種新能力:

聯網搜索:接到任務后,模型可以主動檢索相關參考資料,而不是單純依賴訓練數據。這意味著它能處理品牌規范、最新產品信息、時事相關的視覺需求。

多方案并行生成:在單次提示詞下生成多達8張保持"角色與對象一致性"的連貫圖像。這對于漫畫分鏡、社交媒體系列圖、品牌物料的批量生產,是一個實質性的工作流改變。

生成前自我審查:模型會在最終輸出之前檢查自己的草稿是否符合要求。這一步在以前是完全缺失的——AI生成什么就是什么,沒有"質檢"環節。



三者組合起來,讓整個工作流程更接近一個助理設計師,而不是一個“接受指令、照單輸出”的機械性工具。

Thinking模式目前僅對ChatGPTPlus、Pro 和 Business用戶開放。免費用戶使用的是基礎模式,生成邏輯和結果都有所不同。這一點在很多評測中被混淆,導致對比結論出入較大。

03.文字渲染:為什么這是最被低估的進步?

AI圖像生成發展了幾年,文字渲染一直是最明顯的短板。原因在于技術架構本身:傳統擴散模型(diffusion model)以像素為單位生成圖像,文字信息在訓練數據中占比極小,模型幾乎沒有機會“學會”文字是怎么工作的。

Images 2.0的進步之所以顯著,在于它能夠處理以前幾乎不可能完成的任務:

? 餐廳菜單,菜名、價格、排版全部正確

? 密集的UI截圖還原,文字層次清晰

? 多語言混排的信息圖表,包括中文、日語、韓語、印地語、孟加拉語



這最后一點對咱們中文用戶的意義不言而喻。AI視覺內容生產長期存在一條隱性的語言鴻溝:英語世界的用戶可以用AI做精準的營銷海報和品牌物料,而非英語用戶面對的往往是錯別字和亂碼,被迫放棄或尋找人工替代。

如果Images 2.0真正穩定地解決了這個問題,它實際上是在把一種工業級的視覺生產能力,更平等地交給全球非英語用戶。對東南亞、南亞、東亞市場的設計從業者和中小企業來說,這將是實際工作流層面的改變。



當然,“顯著進步”和“徹底解決”之間仍有差距。測試結果顯示,非英語語種渲染依然存在不穩定性,復雜排版下的錯誤率高于英語。

04.架構問題:OpenAI為何不回答?

在發布前的媒體簡報會上,OpenAI拒絕回答關于Images 2.0底層模型架構的問題,不說是擴散模型,不說是自回歸模型,一概不提。

傳統擴散模型的文字渲染能力有其結構性上限,而Images 2.0展示出的文字理解和指令跟隨能力,從表現上看已經超出了這個上限。

一種合理的推測是,Images 2.0 與 GPT-4o的語言模型架構存在比DALL-E時代更深度的集成,視覺輸出能力更接近語言模型的“延伸”,而非一個獨立的圖像生成系統。

但這終究是推測。OpenAI選擇不披露,既有商業競爭的考量,也可能有模型仍在迭代的原因。我們唯一能判斷的是,它在某些任務上的表現,已經超出了現有架構分類所能預測的邊界。

05.灰度測試細節:代號“duct tape”

在正式發布之前,Images 2.0 以代號“duct tape”(膠帶)的形式,悄悄上線了第三方AI測試平臺LM Arena,公開運行了數周,收集真實用戶反饋。

這個細節反映了OpenAI產品發布策略的一個變化,從“憋大招、一鍵發布”,轉向"先讓真實用戶用、再正式推出"。這是一種更工程化、風險更可控的節奏。

“duct tape”這個代號本身也耐人尋味,膠帶意味著臨時性的連接,把兩個不完全匹配的部分強行粘合。這可能只是一個隨意的內部命名,但也可能暗示OpenAI對當前這個版本仍然持有某種謙遜:它是一個階段性的解決方案,而非終點。

06.競爭格局:真正的對手不是Midjourney

市場上,Google于2026年2月發布的Gemini 3 Pro Image同樣具備文字嵌入圖像的能力,在部分任務上與 Images 2.0 互有勝負。Midjourney 在藝術風格生成上依然有其獨特優勢。

但把這場競爭描述為“圖像生成模型之間的比拼”就完全理解錯了。

Images 2.0真正在擠壓的,是另一類工具的市場空間:Canva的模板編輯器、Adobe Express的快速設計功能、小型設計工作室承接的低復雜度物料需求。OpenAI自己點名的目標應用場景是本地化廣告、信息圖表、教育內容、品牌物料,這些商業設計的日常基本盤,而非藝術創作的邊緣地帶。



這個定位意味著它的潛在用戶,首先不是創意設計師,而是每天需要生產大量視覺物料、但沒有專職設計資源的人:品牌運營、市場專員、內容編輯、獨立創業者。

07.還沒解決的問題

渲染穩定性:非英語語種的文字渲染仍然存在不穩定性,英語以外的復雜排版錯誤率仍高于預期。"有進步"和"徹底解決"之間,還有明顯的距離。

數據截止日期:模型的訓練數據截至2025年12月。Thinking模式雖然可以聯網搜索,但搜索質量與最終圖像質量之間的銜接機制,目前仍不透明。對于需要引用最新事件或數據的視覺需求,結果可能出現偏差。

內容安全:OpenAI特別強調了圖像水印和實時內容監控。背景是AI生成視覺內容已經出現了被用于政治宣傳和虛假信息的案例。更強的生成能力,與更難辨別的濫用風險,是同一枚硬幣的兩面。技術迭代無法獨自解決這個問題。

08.結語

ChatGPT Images 2.0發布后,社交媒體上流傳最多的,是那些令人驚嘆的演示,完美的菜單、精準的多語言海報、連貫的分鏡圖。它們大多是在最優條件下、由有經驗的用戶生成的。所以我們真正使用起來的時候,可能結果沒那么穩定和精美。

下圖就是作者用小貓照片生成的一張帶有中文字的圖片,它甚至自主給小貓取了中文名:小金。圖中文字去嗯對,沒有錯別字。但圖片精致程度和官方照片顯然也差一個量級。



OpenAI正在解決一個難而正確的問題。文字渲染從“基本無用”到“可以直接使用”,跨越的是一個現實的使用門檻。

“意圖鴻溝”還沒有徹底消失。但它確實變窄了,窄到一些人可以開始重新思考自己的工作流了。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
沉默3天,日本向中國抗議,不許在東海建新設施,解放軍開始增兵

沉默3天,日本向中國抗議,不許在東海建新設施,解放軍開始增兵

小影的娛樂
2026-04-22 12:30:46
4.5萬家店倒閉!月關3000家,這碗國民米線涼了?真相有多扎心

4.5萬家店倒閉!月關3000家,這碗國民米線涼了?真相有多扎心

青眼財經
2026-03-17 15:15:34
美國的陽謀:等中國的光刻機全壞掉,就無法完成高端芯片的制造了

美國的陽謀:等中國的光刻機全壞掉,就無法完成高端芯片的制造了

近史博覽
2026-04-23 12:58:24
記者:曼聯不會等賽季結束才行動,確認歐冠資格就會推進選帥

記者:曼聯不會等賽季結束才行動,確認歐冠資格就會推進選帥

懂球帝
2026-04-23 22:18:05
伊朗向中國通報內幕!談判團差點被美軍“團滅”,連電話都不敢打

伊朗向中國通報內幕!談判團差點被美軍“團滅”,連電話都不敢打

老搽學科普
2026-04-20 20:06:37
保利集團嚴正聲明

保利集團嚴正聲明

深圳晚報
2026-04-23 23:08:59
美伊談判懸而未決,伊斯蘭堡停滯中等待:交通停運,人們居家辦公

美伊談判懸而未決,伊斯蘭堡停滯中等待:交通停運,人們居家辦公

紅星新聞
2026-04-23 12:38:15
廣東一家制衣廠僅有一位男員工,百余名女同事圍著輪流投喂呵護

廣東一家制衣廠僅有一位男員工,百余名女同事圍著輪流投喂呵護

搗蛋窩
2026-04-07 13:22:20
“中年返貧三件套”,正在吞掉一代人的存款

“中年返貧三件套”,正在吞掉一代人的存款

閱讀第一
2026-04-15 08:34:45
女子吐槽孩子去外地上學留下個渾身是毛的外孫,我卻笑死在評論區

女子吐槽孩子去外地上學留下個渾身是毛的外孫,我卻笑死在評論區

夜深愛雜談
2026-04-22 20:21:02
女子破廟避雨,見兩黑蛇纏綿不休,她一把扯掉自己紅肚兜

女子破廟避雨,見兩黑蛇纏綿不休,她一把扯掉自己紅肚兜

夢飛故事會
2024-08-03 21:13:29
饅頭立大功!研究發現:糖尿病患者常吃饅頭,或能降低5類并發癥

饅頭立大功!研究發現:糖尿病患者常吃饅頭,或能降低5類并發癥

杜醫生聊健康
2026-04-22 16:50:03
為什么說可憐之人必有可恨之處?網友:不還錢就算了,還都罵我

為什么說可憐之人必有可恨之處?網友:不還錢就算了,還都罵我

另子維愛讀史
2026-04-20 09:28:15
特朗普的中東騙局被戳穿,炸伊朗、逼談判是演戲,真正目標藏不住

特朗普的中東騙局被戳穿,炸伊朗、逼談判是演戲,真正目標藏不住

西樓知趣雜談
2026-04-22 11:42:50
明天起,穿衣請調整一下!

明天起,穿衣請調整一下!

新浪財經
2026-04-23 23:58:41
達州市第五屆人民代表大會常務委員會決定免職和任命名單

達州市第五屆人民代表大會常務委員會決定免職和任命名單

明月照鳳凰
2026-04-23 21:19:07
美商務部長親口承認:英偉達H200芯片,中國一塊沒買!黃仁勛急了

美商務部長親口承認:英偉達H200芯片,中國一塊沒買!黃仁勛急了

夢史
2026-04-24 00:06:40
成都太古里迎開業11周年 啟動第三階段全面升級

成都太古里迎開業11周年 啟動第三階段全面升級

中國經營報
2026-04-23 19:51:53
女籃世界杯與美國同組賺翻了?中國隊獲3大利好:或再度上演逆襲

女籃世界杯與美國同組賺翻了?中國隊獲3大利好:或再度上演逆襲

籃球快餐車
2026-04-23 00:16:00
明日停牌!000610,將被*ST

明日停牌!000610,將被*ST

中國基金報
2026-04-23 23:54:20
2026-04-24 02:11:00
強調Next incentive-icons
強調Next
關注科技,與創新企業共成長
62文章數 2關注度
往期回顧 全部

科技要聞

馬斯克喊出"史上最大產品",但量產難預測

頭條要聞

以色列:只要美國同意 將刺殺伊朗最高領袖

頭條要聞

以色列:只要美國同意 將刺殺伊朗最高領袖

體育要聞

給文班剃頭的馬刺DJ,成為NBA最佳第六人

娛樂要聞

王大陸因涉黑討債被判 女友也一同獲刑

財經要聞

普華永道賠償10億 恒大股東見到"回頭錢"

汽車要聞

預售30.29萬起 嵐圖泰山X8配896線激光雷達

態度原創

家居
數碼
游戲
藝術
手機

家居要聞

浪漫協奏 法式風格

數碼要聞

799元!小米推出米家無線吸塵器4C:170AW大吸力、75分鐘長續航

任天堂NS2銷量4倍碾壓PS5!差距懸殊 索尼難挽頹勢

藝術要聞

吉達塔蓋到第100層,“它是沙特唯一能按期完成的大項目”

手機要聞

vivo X500 Pro Max被曝光:2nm工藝+5GHz,2K直屏九月發!

無障礙瀏覽 進入關懷版