![]()
編輯:Panda、Youli
北京時間凌晨 3 點,直播準時開始,OpenAI 發布了 ChatGPT Images 2.0。
![]()
- 直播鏈接:https://openai.com/zh-Hans-CN/live/
據介紹,「ChatGPT Images 2.0 是下一步進化:一個最先進的模型,能夠處理復雜的視覺任務,并生成精確、可直接使用的視覺內容。」
似乎也正因為此,OpenAI 發布的官方博客內容還提供了兩個版本(圖像模式與經典模式),其中圖像模式下的內容完全是由該模型生成的!
![]()
- 博客地址:https://openai.com/index/introducing-chatgpt-images-2-0/
在博客中,OpenAI 表示:「圖像是一種語言,而不是裝飾。好的圖像,就像好的句子一樣,會進行選擇、組織與呈現。它可以解釋機制,營造氛圍,驗證想法,或構建論證。」
ChatGPT Images 2.0 模型在細致遵循指令方面實現了質的躍遷,能夠準確放置與關聯對象,并渲染高密度文本,同時支持多種寬高比生成。它在構圖與視覺審美上的能力,使輸出不再像「AI 生成」,而更像「有意設計」。
并且其在多語言環境下同樣表現準確,并能利用擴展的視覺與世界知識為你補全細節,從而以更少提示詞獲得更智能的圖像。
為應對最復雜的任務,Images 2.0 首次引入「思考能力」。在 ChatGPT 中選擇 thinking 或 pro 模型時,Images 2.0 可以聯網獲取實時信息,從一個提示生成多張不同圖像,并對自身輸出進行復核。借助「思考」,模型能夠承擔從想法到圖像之間更多的工作,尤其在準確性、時效性、一致性與視覺統一性至關重要時。
結合 OpenAI 推理模型的智能與對視覺世界的深刻理解,這一模型將圖像生成從「渲染」提升為「策略性設計」,從工具進化為視覺系統,幫助人們將想法轉化為可理解、可分享、可教學、可構建的成果。
該能力已從今日起向 ChatGPT、Codex 與 API 的所有用戶開放。
更高的精度與控制力
Images 2.0 為圖像創作帶來了前所未有的具體性與還原度。它不僅能構思更復雜的圖像,還能有效將其實現,能夠嚴格遵循指令,保留關鍵細節,并渲染以往模型容易失真的精細元素:小文本、圖標、UI 元素、高密度構圖以及細微風格約束。在 API 中最高支持 2K 分辨率。結果不再是「差不多」,而是「可以直接使用」。
注意看,下面這張截圖整體上其實是 Images 2.0 生成的!
![]()
更強的多語言能力
以往圖像生成模型在英語及拉丁字母語言中表現更穩定,但在其他語言,尤其是復雜或密集文本時精度較低。
Images 2.0 突破了這一限制,在多語言理解上顯著增強,尤其是在日語、韓語、中文、印地語與孟加拉語的文本渲染方面有明顯提升。它不僅能正確生成非英語文本,還能保證語言表達自然流暢。
![]()
這不僅意味著翻譯標簽,而是讓語言本身成為設計的一部分,從海報、說明圖,到圖解與漫畫,都能實現視覺與語言的統一。這使模型具備更強的全球適用性,讓用戶能夠在真實使用的語言環境中創作視覺內容。
在直播中,OpenAI 圖像研究團隊的成員陳博遠展示了一個案例,他給出提示詞:「Make a artisitic marketing poster for a fictional OpenAI bakery.The poster should be inJapanese language.」
![]()
結果生成的海報完全符合提示詞,且在細節上也能夠做到精準。
![]()
「它非常擅長遵循非常詳細的指令,所以如果你有非常具體的品牌語言、設計美學 —— 所有那些對創意工作至關重要的東西 —— 你都可以使用 ChatGPT 來創建和完善你的想法,從而得到你想要的結果。」陳博遠說道。
更成熟的風格表達與真實感
Images 2.0 在多種視覺風格上的還原度顯著提升。它更擅長捕捉照片的關鍵特征,包括那些增強真實感的微小瑕疵,同時也能穩定呈現電影感畫面、像素藝術、漫畫等多種視覺語言,在紋理、光影、構圖與細節上更一致。
![]()
因此,模型輸出更貼近指定風格,而非近似模仿。這對于游戲原型設計、分鏡制作、營銷創意,以及特定媒介或類型的資產創作尤為有價值。
靈活的寬高比
新模型在輸出形式上更靈活,支持從 3:1 到 1:3 的多種寬高比,可直接適配橫幅、演示文稿、海報、手機界面、書簽及社交媒體圖形等不同場景。你可以在提示中指定寬高比,或通過預設選項將已有圖像重新生成至新的尺寸。
下面展示了兩個非常規寬高比的示例:
![]()
![]()
更強的現實世界理解
Images 2.0 引入了截至 2025 年 12 月的知識,使生成結果在相關性與語境準確性上更進一步。這對于說明圖、教育圖形與可視化總結尤為關鍵,因為在這些場景中,正確性與清晰度與美觀同樣重要。
其智能能力還體現在端到端任務處理上:整合信息、撰寫內容,并以清晰結構、合理留白與良好視覺流進行排版。
![]()
視覺思考伙伴
在 ChatGPT 中啟用 thinking 模型后,系統會在后臺進行更深入的理解與執行。它可以聯網檢索信息,將上傳材料轉化為清晰的視覺說明,并在生成前對圖像結構進行推理。
在這種模式下,Images 2.0 更像一個視覺思考伙伴,幫助你將初步概念推進為完整成品,大幅降低工作量。
![]()
它還支持一次生成多張不同圖像,這在 ChatGPT 圖像生成中尚屬首次。這使得諸如多頁漫畫、整屋設計方案、系列海報或多語言多尺寸社交素材等工作流變得高效可行。
你無需逐張生成再手動拼接,只需一次請求,即可獲得最多八張在角色與元素上保持一致、且具有連續性的輸出。
![]()
在 Codex 中使用圖像生成
Images 能力被整合進 Codex,使視覺創作、迭代與交付在同一工作空間內完成,拓展了其在設計、營銷、產品、銷售及學習等領域的應用。
例如,你可以快速生成多種 UI 方向與原型,比較方案,并將最佳設計直接轉化為產品或網頁體驗,無需離開 Codex。通過 ChatGPT 訂閱即可使用,無需額外 API 密鑰。
通過 API 將圖像能力嵌入產品
開發者與企業可通過 gpt-image-2 API 將這些能力集成進自身產品,在現有工作流中加入高質量圖像生成與編輯能力。
憑借更強的文本渲染、多語言生成、指令遵循能力,以及更多輸出格式與寬高比支持,API 更易于構建真實業務場景中的圖像工作流,例如本地化廣告、信息圖、說明圖、教育內容、設計工具、創意平臺及網頁生成產品。
局限性
OpenAI 也在博客中提到了該模型的局限性:盡管 Images 2.0 是重要進步,但仍不完美。對于需要完整物理世界建模的任務(如折紙教程、魔方等復雜結構),以及隱藏面、傾斜面或反向表面的精確細節,模型仍可能表現不足。
極高密度或重復性細節(如細沙)也可能帶來挑戰。標簽與圖示在涉及精確箭頭或部件標注時,仍建議人工校對。
這些都是未來改進的重要方向。
![]()
在 API 中,超過 2K 的輸出目前仍處于測試階段,可能出現不穩定情況。
定價與可用性
ChatGPT Images 2.0 今日起已向所有 ChatGPT 與 Codex 用戶開放。具備「思考」能力的高級輸出對 ChatGPT Plus、Pro 與 Business 用戶提供。
gpt-image-2 模型已在 API 中提供,價格根據圖像質量與分辨率有所不同。
![]()
OpenAI 也在官網上線了大量案例,感興趣的讀者可自行前往查看。
我們也進行了一些簡單測試,比如讓其生成了一張中國高考數學試卷第 2 頁,看著還行:
![]()
實測中,我們可以在頁面上看到 ChatGPT Images 2.0 生成一張圖片通常會經歷多個步驟:創建→打個草稿→生成初稿→搭建場景→打磨細節→收尾→最后潤色→最后微調。
接下來我們繼續,「生成一張《將敬酒》繁體中文草書書法作品,寬高比 3:1,內容是李白的《將敬酒》全文。落款是 ChatGPT Images 2.0」:
![]()
不過很顯然該模型并沒有生成完整,且也明顯不是草書。
最后來一頁閃電五連鞭的功夫招式圖解說明:
![]()
還挺有趣。
整體體驗下來,我們感覺 ChatGPT Images 2.0 確實比目前的 Nano Banana 2 強大不少;看看接下來谷歌如何接招。
你試過 ChatGPT Images 2.0 了嗎?感覺如何?
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.