網易首頁 > 網易號 > 正文 申請入駐

半壁華人!GPT Image 2團隊曝光:無錫才俊帶隊,13人4個月封神

0
分享至

夢晨 發自 凹非寺
量子位 | 公眾號 QbitAI

GPT Image2全網刷屏,但效果究竟為什么這么好?

研究負責人陳博遠揭秘:底層架構已徹底重構。



但他又拒絕回答是否采用擴散模型或自回歸技術,只是神秘的將其描述為“通用模型”或“圖像領域的GPT”。



陳博遠的一條推文還透露,從去年12月底的GPT Image 1.5算起,只用了四個月就有如此大的改進。



這樣突破性的成果,核心團隊只有13人

整個團隊的負責人Gabriel Goh曬出了的團隊成員AI全家福。



評論區有網友感嘆:怎么全是亞洲人?



陳博遠:從不懂Python到Research Lead

GPT Image 2究竟是什么架構?

OpenAI恐怕很長一段時間都不會公布了,但從核心團隊成員的學術經歷可以看出一些痕跡。

陳博遠是團隊的Research Lead,他和另一位成員Kiwhan Song在MIT讀博時有同一位導師Vincent Sitzmann。



他博士期間的代表作Diffusion Forcing: Next-token Prediction Meets Full-Sequence Diffusion入選了NeurIPS 2024。

這項研究提出Diffusion Forcing這一全新序列生成訓練范式,將逐token獨立噪聲級擴散與因果下一個token預測結合,融合自回歸模型的可變長度生成與全序列擴散模型的長程引導優勢。



他在谷歌實習期間還以共同一作身份發表了SpatialVLM

通過過自動構建互聯網規模的3D空間推理 VQA 數據集(1000 萬圖像、20 億 QA 對),為視覺語言模型賦予定量 / 定性空間推理能力,可從單張 2D 圖像輸出米制距離、尺寸、方位等精確數值。

這項研究把思維鏈空間推理應用到了具身智能領域。



在谷歌實習期間,他開發的指令微調技術后續還被Gemini 2.0采用。

他在高中參加科研夏令營時,還不懂Python的基本語法,那時結識的谷歌DeepMind資深研究員夏斐把他引入了AI世界。

夏斐兩次邀請他到DeepMind完成高質量實習,這些經歷使陳博遠積累了大規模模型訓練的工程經驗,也為他理解多模態系統的數據需求提供了寶貴視角。

博士畢業后,陳博遠于2025年6月加入OpenAI,迅速成為GPT圖片生成五人核心成員之一,負責GPT圖像生成模型的所有訓練,同時也是Sora視頻生成團隊的一員。

在演示中,他給家鄉無錫做了一張海報。然后為來自首爾的隊友做韓文海報,為來自Bangladesh的隊友做孟加拉語海報。每一張中的文字渲染都精準無誤。



中科大Jianfeng Wang:讓生圖AI理解世界知識

中科大博士畢業的Jianfeng Wang,在GPT Image 2團隊負責的是另一個讓人驚嘆的能力:指令遵循和理解世界。



舊模型畫的永遠時鐘永遠指向10:10,源于網絡上的鐘表廣告圖,幾乎清一色都是10:10。

這是因為鐘表廠商找心理學家做過實驗,認為這有助于刺激消費者買表的意愿。



他讓新模型畫2:25、3:30、9:10、7:45,基本精準。



這只是開胃菜。

更多復雜的空間布局,蘋果在中心、杯子在右邊、書在上面、相機在左邊、籃球在下面。模型全部精準執行。



在加入OpenAI 之前,他在微軟工作近9年。在微軟期間就與OpenAI團隊在DALLE-3上有合作。

他在計算機視覺領域發表了多篇學術論文,研究內容可能涵蓋 圖像分類、目標檢測、語義分割、以及視覺表征學習 等方向

世界知識理解能力的大幅提升,對象的語義內容和功能結構 有正確的理解

JianFeng Wang在演示視頻結尾說到:GPT Image 2正在消除你的意圖和模型產出之間的差距。

真正做到你想要什么,模型就給你什么。

Yuguang Yang:生成高精度復雜信息圖表

Yuguang Yang在GPT Image 2的發布活動中演示了生成信息圖和PPT。



整整75頁的GPT-3論文拖進ChatGPT,自動生成7張幻燈片。



他的經歷可以說是團隊成員中最豐富的,每換一個工作都是跨界,但都聚焦機器學習。

他本科在浙大竺可楨學院學的工程,博士在約翰斯霍普金斯大學期間學的是計算化學物理與機器學習。

他第一份全職工作是量化分析師,在清華做訪問研究員期間研究的是用于納米機器人的強化學習和控制算法。

后來他在亞馬遜做過Alexa語音研究。

又在微軟做過Bing搜索的查詢理解和檢索、文檔理解。

2025年初加入OpenAI后,除了圖像生成還參與過ChatGPT智能體項目。



他在個人賬號上介紹GPT Image 2的信息圖生成能力,可以為科研人員節省大量時間。



還反復提醒大家,要做信息圖不要忘記選擇思考模式。



從DALL-E到GPT Image 2.0

從團隊成員Kenji Hata的自我介紹中得知,GPT Image 1.0也就是GPT-4o的圖像生成部分。



有一個人從DALL-E開始參與了OpenAI多模態系列研究的全程。

他就是GPT Image 2.0團隊負責人Gabriel Goh

從2019年加入OpenAI,他的早期研究更篇理論,專注于可解釋性和凸優化等等。

從DALL-E開始慢慢轉向了圖像生成。



看到另一位團隊成員Weixin Liang的研究履歷,GPT Image 2的技術底色又揭開了一角。

他在Meta實習期間的代表作Mixture-of-Transformers,引入模態解耦的MoE和解耦注意力,顯著降低多模態模型預訓練的計算成本。



他博士畢業自斯坦福,本科也畢業自浙大竺可楨學院,不過比Yuguang Yang要晚好幾年。

Weixin Liang與陳博遠一樣都是25年博士剛畢業就加入OpenAI,迅速成為團隊的核心成員。



其他GPT Image 2.0團隊成員還包括:

Ayaan Haque,之前在Luma AI 工作,參與過Luma的視頻生成基礎模型Dream Machine的訓練。

Bing Liang,在Google干了5年多,參與Imagen3、Veo、Gemini Multimodal,2025年跳到OpenAI做圖像生成研究。

Mengchao Zhong,本科上海交通大學校友,碩士畢業于得克薩斯農工大學,在Pinterest和Airtable做過軟件工程師,在OpenAI負責多模態產品的工程。

Dibya Bhattacharjee,耶魯大學,2015年IPhO銅牌,CIE A-Level數學和生物全球最高分。

Kiwhan Song是25年10月最晚加入的,除了做研究之外,他還是團隊里的提示詞大師,大家看到的官方演示圖很多都出自他手。
……

從最早的DALL-E到今天的GPT Image 2.0,這只團團隊先后解決了。畫得出來、畫得清楚、畫得好看、畫得準。



盡管近年來OpenAI的人才流動很大,但OpenAI還是那個能不斷吸引各種有個性的人才,不限制專業、歡迎跨界,信奉自下而上涌現式研究的公司。

從一個小團隊開始,有了突破后公司傾斜更多資源,直到改變世界。

One More Thing

曾經,GPT-4o圖像生成模仿吉卜力風格生成的頭像席卷了全世界。

如今GPT Image 2.0的團隊成員,都把自己頭像換成了這種奇脖子畫風。



那么這種畫風的提示詞是什么?團隊成員也公布了出來

Usemy photo only for identity. Redraw me as a very simple surreal Japanese sticker-style caricature: long thin neck, small deadpan face, minimal black outline, flat light coloring, almost no shading, very few facial details, simplified hair shape, lots of white space, plain white background, slightly awkward and funny. Ultratall1:3image.

參考鏈接:
[1]
https://x.com/gabeeegoooh/status/2046674385407512687?s=20
[2]
https://venturebeat.com/technology/openais-chatgpt-images-2-0-is-here-and-it-does-multilingual-text-full-infographics-slides-maps-even-manga-seemingly-flawlessly

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
后續來了!被保安扇耳光女士確診耳膜穿孔,新線索對保安不利

后續來了!被保安扇耳光女士確診耳膜穿孔,新線索對保安不利

蜜桔娛樂
2026-04-23 08:32:28
馬斯克承認特斯拉HW3無法實現FSD,將建“迷你工廠”協助升級硬件

馬斯克承認特斯拉HW3無法實現FSD,將建“迷你工廠”協助升級硬件

IT之家
2026-04-23 09:59:13
成都一小區一把菜刀從天而降,墜落兒童游樂區!有監控拍到來自8樓以上,犯罪嫌疑人已被抓獲并被刑事拘留

成都一小區一把菜刀從天而降,墜落兒童游樂區!有監控拍到來自8樓以上,犯罪嫌疑人已被抓獲并被刑事拘留

都市快報橙柿互動
2026-04-23 15:52:49
靠“漢芯一號”騙取11億研究經費,后逃到美國的陳進,結局如何?

靠“漢芯一號”騙取11億研究經費,后逃到美國的陳進,結局如何?

阿鳧愛吐槽
2026-04-14 02:01:01
沒錢買人,老將傷停!國安急需新鮮血液,4位新人誰值得蒙帥鍛煉

沒錢買人,老將傷停!國安急需新鮮血液,4位新人誰值得蒙帥鍛煉

體壇鑒春秋
2026-04-23 18:57:40
曝中國槍迷赴英看阿森納比賽被捕!坐了9年牢 獄警拿1-5來羞辱他

曝中國槍迷赴英看阿森納比賽被捕!坐了9年牢 獄警拿1-5來羞辱他

風過鄉
2026-04-23 17:16:10
哈佛大學最新:減少午睡,或能延長老年人壽命,并延緩認知衰退

哈佛大學最新:減少午睡,或能延長老年人壽命,并延緩認知衰退

醫諾維
2026-04-23 16:59:57
9級大地震前的一幕再次上演,毀天滅地的海嘯或于本周席卷日本

9級大地震前的一幕再次上演,毀天滅地的海嘯或于本周席卷日本

霽寒飄雪
2026-04-23 11:46:45
美海軍部長突然離職:曾深夜給特朗普發短信討論工作,赫格塞思不滿其“越級匯報”,兩人關系緊張;越南裔老兵上位,有25年海軍服役經歷

美海軍部長突然離職:曾深夜給特朗普發短信討論工作,赫格塞思不滿其“越級匯報”,兩人關系緊張;越南裔老兵上位,有25年海軍服役經歷

揚子晚報
2026-04-23 14:23:42
東風導彈泄密案!間諜郭萬鈞一家三口,全部被處以死刑

東風導彈泄密案!間諜郭萬鈞一家三口,全部被處以死刑

番外行
2026-03-31 08:28:28
今日最慘股,近3個月已跌80%,昨日20cm跌停,今日又20cm跌停!

今日最慘股,近3個月已跌80%,昨日20cm跌停,今日又20cm跌停!

丁丁鯉史紀
2026-04-23 16:25:39
精準止損!切爾西巧設條款解約羅森尼爾,省下2400萬鎊巨額賠款!

精準止損!切爾西巧設條款解約羅森尼爾,省下2400萬鎊巨額賠款!

田先生籃球
2026-04-23 08:49:33
狄龍:季后賽應該像喬丹、詹姆斯一樣強硬,亞歷山大有點脆弱

狄龍:季后賽應該像喬丹、詹姆斯一樣強硬,亞歷山大有點脆弱

懂球帝
2026-04-23 13:41:07
紀委的朋友透露:貪官被查之前都有這三個前兆

紀委的朋友透露:貪官被查之前都有這三個前兆

細說職場
2026-04-23 15:31:19
爛醉如泥的趙總!

爛醉如泥的趙總!

仕道
2026-04-23 08:37:01
首輪G2打完,這2支球隊最有冠軍相,火箭偽強隊,3支球隊基本出局

首輪G2打完,這2支球隊最有冠軍相,火箭偽強隊,3支球隊基本出局

毒舌NBA
2026-04-23 12:58:11
“性侵工傷認定”當事人崔麗麗訴前司勞動爭議案開庭:崔麗麗身著職業裝、佩戴女兒送的項鏈出庭,提到網友鼓勵落淚

“性侵工傷認定”當事人崔麗麗訴前司勞動爭議案開庭:崔麗麗身著職業裝、佩戴女兒送的項鏈出庭,提到網友鼓勵落淚

極目新聞
2026-04-23 15:05:28
季后賽首輪G2總結:湖人騎士雷霆引3組2-0 5組1-1戰況激烈

季后賽首輪G2總結:湖人騎士雷霆引3組2-0 5組1-1戰況激烈

醉臥浮生
2026-04-23 12:15:59
防不勝防!伊朗隱藏內鬼竟是路由器,美企集體沉默,中國早有防備

防不勝防!伊朗隱藏內鬼竟是路由器,美企集體沉默,中國早有防備

阿器談史
2026-04-23 13:50:21
湖媒致謝老鷹送來肯納德:堪稱史上最棒交易!兩戰50分忘記里皇

湖媒致謝老鷹送來肯納德:堪稱史上最棒交易!兩戰50分忘記里皇

顏小白的籃球夢
2026-04-23 07:28:44
2026-04-23 21:04:49
量子位 incentive-icons
量子位
追蹤人工智能動態
12522文章數 176457關注度
往期回顧 全部

科技要聞

馬斯克喊出"史上最大產品",但量產難預測

頭條要聞

特朗普"狂怒"稱滅掉了伊朗軍隊 美國官員:不 并沒有

頭條要聞

特朗普"狂怒"稱滅掉了伊朗軍隊 美國官員:不 并沒有

體育要聞

萊斯特城降入英甲,一場虧麻了的豪賭

娛樂要聞

王大陸因涉黑討債被判 女友也一同獲刑

財經要聞

關于AI算力鏈"瓶頸" 這是高盛的最新看法

汽車要聞

令人驚艷的奇瑞車 風云A9可不只是樣子貨

態度原創

時尚
房產
數碼
藝術
教育

無用之書|AI時代,閱讀是否還有意義?

房產要聞

三亞安居房,突然官宣!

數碼要聞

銘凡M1 Lite-125U迷你主機發售,2119元起

藝術要聞

她辭掉高管,花20年自費100萬:這本書,救了山西“正在消失的壁畫”

教育要聞

藏不住了!海淀這所名校附中憑啥成為“大贏家”

無障礙瀏覽 進入關懷版