无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁

網易新聞
網易公開課
網易紅彩
網易嚴選
郵箱大師
網易云課堂

注冊免費郵箱

注冊VIP郵箱（特權郵箱，付費）
免費下載網易官方手機郵箱應用

移動端
網易公開課
網易嚴選
支付
郵箱

網易首頁 > 網易號 > 正文申請入駐

GPT-5.2果然反超谷歌Gemini 3 Pro！北大數院校友核心貢獻

2025-12-12 19:42:42　來源: 算法與數學之美

北京舉報

0

分享至

紅色警報拉響，OpenAI是真急了：

30天，GPT-5.2系列緊接著GPT-5.1而來，這次還專門強化了打工能力。

這是GPT-5.1 Thinking和GPT-5.2 Thinking做人力資源表格的對比：

雖然版本號只加了0.1，但是在多個實用領域都更強了：做表格、做PPT、寫代碼、理解長文檔、調用工具、處理復雜多步驟項目……

視覺理解能力也大幅提升，GPT-5.2能準確標記出更多主板上的元件。

這是GPT-5.2做的網頁版波浪模擬器：

如果你遇到航班延誤、又錯過轉機、需要當地過夜以及需要特殊醫療座位，聽起來就很頭疼。

但GPT-5.2安排好了一切：重新訂機票、安排特殊座位和賠償。

ARC-AGI也在第一時間發布了測試結果。

一年前的o3 (High) 在ARC-AGI-1測試中得分88%，平均每項任務成本為4500美元。

今天的GPT-5.2 Pro (X-High) ，最新SOTA得分為90.5%，平均任務成本僅為11.64美元，在一年內效率提高了約390倍。

同時超過了谷歌Gemini 3 Pro的對應版本（綠色點），也算扳回一局。

GPT5.2發布的這一天，也是OpenAI成立十周年，官方還做了個小視頻來回顧10年來的進展。

拆解GPT-5.2各項能力高經濟價值任務

在GDPval測試中，涵蓋美國GDP前九大產業中的44個職業領域，完成人類需要4-8小時才能完成的任務。

在人類評委打分下，GPT-5.2 Thinking與人類專家相比有71%的勝率，GPT-5.2 Pro還能更高一些。

而且速度是人類專家的11倍以上，成本不到人類專家的1%。

在投行分析師的電子表格建模任務上，GPT-5.2 Thinking平均每項任務得分相比GPT-5.1提升了9.3%，從59.1%上升到68.4%。這些任務包括為財富500強公司搭建三表聯動模型、構建杠桿收購模型等。

提示：您是一名投資銀行分析師，剛剛接到一項任務，需要完成一份瀑布式分析，以了解創始人及現有投資者的所有權和回報情況。您的客戶是一家正在考慮 C 輪融資的初創公司。

請查收附件中的模板，您需要對其進行修改。我在 G 列中添加了必要的假設。C 列的名稱在普通股部分重復出現，以便于索引。假設包括退出時的股權、系列投資金額、基金所有權、認股權證、清算優先權、轉換價格、普通股稀釋后股份數和行權價格。假設種子輪、A 輪和 B 輪均為同等權益的非參與性優先股（即，這些輪次的投資者享有同等待遇；對借款人的資產擁有同等的索償權）

在審查一份特別優秀的成果時，一位GDPval評委表示：

在輸出質量上令人興奮且顯著的飛躍……[它]看起來像是由一家專業公司的員工完成的，兩份交付成果的布局設計和建議都出人意料地出色，盡管其中一份仍存在一些小錯誤需要糾正。

要在ChatGPT中使用新的做表格和PPT能力，需要充值Plus、Pro、Business或 Enterprise套餐，選擇GPT-5.2 Thinking或Pro版本。生成復雜的內容可能需要幾分鐘時間。

代碼能力

GPT-5.2代碼能力同樣刷新紀錄，在SWE-bench Verified上，得分達到80%。

在SWE-Bench Pro這個更難的軟件工程評測上，GPT-5.2 Thinking拿下55.6%的新高。

這個評測不止測Python，還包括JavaScript、TypeScript和Go，更貼近真實工業場景。

早期測試者特別提到，GPT-5.2在前端開發和復雜UI工作上明顯更強，尤其是涉及3D元素的場景。

長上下文

長文檔處理是這次升級的重頭戲。

在OpenAI自制的大海撈針MRCRv2評測中，GPT-5.2 Thinking成為首個在256k 上下文長的4針版（4-needle variant）上達到接近100%準確率的模型。

不過8針版性能還是會隨上下文長度明顯下降。

對于需要超越最大上下文窗口進行思考的任務，GPT-5.2 Thinking兼容簡潔回復模式，能夠處理更多工具密集型、長時間運行的工作流。

視覺理解

視覺能力的提升同樣顯著。

在科學論文圖表理解上，GPT-5.2 Thinking的錯誤率大約降低了一半。

更關鍵的是，它對圖像中元素的空間位置有了更強的把握。

在高分辨率圖形面屏幕截圖推理測試中，配合Python工具得分達到86.3%。

如果禁用Python工具得分會低很多，OpenAI建議在這樣的視覺任務中通通啟用工具。

工具調用

工具調用能力同樣達到新高度，在Tau2-bench Telecom多輪交互電話客服場景評測上，GPT-5.2 Thinking取得98.7%的成績。

Tau2-bench Retail零售場景也達到82%。

這些成績意味著更強大的端到端工作流程，例如解決客戶支持案例、從多個系統中提取數據、運行分析以及生成最終輸出，且各步驟之間的故障更少。

科學能力

OpenAI一直希望AI能加速科學研究，這次他們相信GPT-5.2 Pro和GPT-5.2 Thinking是目前世界上最適合輔助科學家的模型。

在GPQA Diamond研究生水平的問答評測上，GPT-5.2 Pro拿下93.2%，GPT-5.2 Thinking緊隨其后達到92.4%。

在專家級數學評測FrontierMath（Tier 1-3）上，GPT-5.2 Thinking以40.3%的解題率創下新紀錄。

官方還透露了一個實際案例：

研究人員使用GPT-5.2 Pro探索了統計學習理論中的一個開放問題，在一個狹窄、明確的設定下，模型提出了一個證明，隨后被作者驗證并經過同行評審。

事實準確性方面，GPT-5.2 Thinking的幻覺問題相比GPT-5.1從8.8%減少到6.2%。

不過OpenAI也提示模型仍不完美，關鍵內容還是需要人工復核。

One More Thing

自從Meta瘋狂挖人以來，OpenAI都很少在研究進展文章后面附上貢獻者列表了，直接統一署名OpenAI了事。

不過從開發者相互祝賀的推文中，還是可以挖出GPT-5.2的幾位核心團隊成員：多為2024年之后加入OpenAI的新面孔，而且多是數學專業出身。

Yu Bai：北大數院校友、斯坦福統計學博士，2024年5月加入OpenAI。

Yaodong Yu：UC伯克利博士畢業，2024年9月加入OpenAI。

Yufeng Zhang：本科中科大數學系、西北大學博士、字節前研究員，2024年底加入OpenAI

梅松：北大數院校友、斯坦福計算與數學工程博士、UC伯克利助理教授，2025年5月暫離學校加入OpenAI。

Ofir Nachum：MIT CS碩士畢業，前谷歌大腦研究員，2023年加入OpenAI。

每當外界覺得OpenAI進展不及預期的時候，總有新的人才帶來新的驚喜。

參考鏈接：
[1]https://openai.com/zh-Hans-CN/index/introducing-gpt-5-2/

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

皇馬官方宣布穆里尼奧出任主教練

央視新聞客戶端 2026-06-12 02:39:10
2440 跟貼 2440
剛剛，人類歷史上首位萬億美元富豪誕生！

每日經濟新聞 2026-06-12 22:32:06
964 跟貼 964

高鐵行李架現白色寵物蛇列車長僅用塑料袋徒手拿捏

極目新聞 2026-06-12 10:06:52
1022 跟貼 1022

公開征求意見！廣州擬繼續在全市所有道路禁止機動車鳴喇叭

南方都市報 2026-06-12 19:04:34
122 跟貼 122
“張雪機車”獲得WSBK艾米利亞-羅馬涅站桿位賽第三名

極目新聞 2026-06-12 23:00:07
4 跟貼 4

“年年交1.5元一度電從來沒變過，都麻木了” ，市民紛紛吐槽廣州城中村電費加價

南方都市報 2026-06-12 08:28:28
74 跟貼 74

鬧心！奧迪純電SUV，提車三天“故障頻發”！上海車主7個月報修10次，結果更鬧心

新民晚報 2026-06-12 19:26:49
203 跟貼 203
厄爾尼諾已正式形成預計強度將打破1950年以來紀錄！

財聯社 2026-06-12 16:50:07
41 跟貼 41

美擬撤走北約歐洲防務三分之一戰機

界面新聞 2026-06-12 13:06:43
1659 跟貼 1659
5個月神話破滅！Donut Lab固態電池被實錘造假背后：從未實際生產過電池電芯，固態電池產業化仍需五到十年

每日經濟新聞 2026-06-11 16:39:10
168 跟貼 168
高考，考的不僅僅是分數

環球網資訊 2026-06-12 18:45:15
150 跟貼 150
"中醫匠人"賣課號稱"行走的CT" 自稱學技術可掙錢改命

新京報 2026-06-12 11:56:14
1256 跟貼 1256
上海31歲男幼師溺水身亡，母親發聲：兒子不會主動去水邊，事發前一日與園長談話至午夜；當地教育局已介入

封面新聞 2026-06-13 00:54:35
0 跟貼 0
海光信息在漢披露：國產CPU處理器性能已比肩英特爾

支點財經 2026-06-11 21:27:18
174 跟貼 174
僅靠宣傳“吸煙有害健康”難奏效，學者呼吁提高煙草稅來控煙

南方都市報 2026-06-12 14:34:07
25 跟貼 25
證監會同意長鑫科技科創板IPO注冊申請

財聯社 2026-06-12 18:45:19
20 跟貼 20
揭秘：為什么不建議老舊家電“超期服役”?

北青網-北京青年報 2026-06-12 12:00:04
226 跟貼 226
19.98萬元起，方程豹鈦7 EV閃充科技開啟純電出行新體驗

齊魯壹點 2026-06-12 23:14:12
4 跟貼 4
惡臭!上海一別墅區傳出高頻尖叫,居民不堪其擾

看看新聞Knews 2026-06-12 22:37:03
0 跟貼 0
高考后旗袍退貨潮：汗臭難聞吊牌未摘犯大忌

無處遁形 2026-06-13 00:53:57
0 跟貼 0
密歇根警方啟用電動“隱形”警車，專治路怒司機

競技風云錄 2026-06-13 01:21:26
0 跟貼 0

氣人，NBA公布總決賽G4最后兩分鐘報告，讓尼克斯的逆轉雪上加霜

氣人，NBA公布總決賽G4最后兩分鐘報告，讓尼克斯的逆轉雪上加霜

好火子

2026-06-12 06:20:25

菲律賓大地震中國一毛沒掏！馬科斯剛罵完中國，現世報隨即就到！

菲律賓大地震中國一毛沒掏！馬科斯剛罵完中國，現世報隨即就到！

凡知

2026-06-11 13:14:07

印度游客的尷尬真相：泰國痛下殺手取消免簽，自己人連夜警告？

印度游客的尷尬真相：泰國痛下殺手取消免簽，自己人連夜警告？

寰球經緯所

2026-06-12 14:55:59

再見，周琦！國家隊的大門已經關上

再見，周琦！國家隊的大門已經關上

體育新角度

2026-06-12 22:00:44

陳凱歌曾評價周迅：如果身高再多上10厘米，那么整個世界就是她的

陳凱歌曾評價周迅：如果身高再多上10厘米，那么整個世界就是她的

寒士之言本尊

2026-05-29 13:04:53

成了“中國水軍”？這些美國人氣笑了

成了“中國水軍”？這些美國人氣笑了

環球時報國際

2026-06-12 07:57:05

國內自駕 No.1沒有之一！3萬公里走完要 111 天，其他路都成將就

國內自駕 No.1沒有之一！3萬公里走完要 111 天，其他路都成將就

走吧自駕游

2026-06-10 16:42:12

【2026.6.12】扒醬料不停：那些你不知道的八卦一二三

【2026.6.12】扒醬料不停：那些你不知道的八卦一二三

娛樂真爆姐

2026-06-12 23:42:20

曾經加價到百萬還搶不到，如今18萬賤賣！路虎極光跌成“白菜價”

曾經加價到百萬還搶不到，如今18萬賤賣！路虎極光跌成“白菜價”

搗蛋窩

2026-06-13 00:45:22

王寶強的天塌了，釋永信毀滅牽出馬蓉往事，自己差點也“墊背”

王寶強的天塌了，釋永信毀滅牽出馬蓉往事，自己差點也“墊背”

麥芽是個小趴菜

2026-06-03 22:38:17

鵝腿阿姨用鴨腿翻車成就人大食堂主任：冤屈終于洗白，只賣真鵝腿

鵝腿阿姨用鴨腿翻車成就人大食堂主任：冤屈終于洗白，只賣真鵝腿

蜜桔娛樂

2026-06-11 11:06:32

常穿這兩種顏色的女人，多半是天選之人，不是迷信，是能量在說話

常穿這兩種顏色的女人，多半是天選之人，不是迷信，是能量在說話

心理觀察局

2026-05-13 09:18:09

內蒙古多地有中到大雨，局地有暴雨?

內蒙古多地有中到大雨，局地有暴雨?

新浪財經

2026-06-12 15:11:29

泰國47歲長公主去世，感染支原體細菌引發心肌炎昏迷多年，曾是外界最看好的王位繼承人選

泰國47歲長公主去世，感染支原體細菌引發心肌炎昏迷多年，曾是外界最看好的王位繼承人選

極目新聞

2026-06-12 10:26:17

一枚導彈威懾全球！中國為何主動亮出終極底牌？目的其實只有一個

一枚導彈威懾全球！中國為何主動亮出終極底牌？目的其實只有一個

慕名而來只為你

2026-06-12 21:21:11

央視突襲！每天入口吃食，竟是化工廢桶加爛拖鞋做的，官方已出手

央視突襲！每天入口吃食，竟是化工廢桶加爛拖鞋做的，官方已出手

無情有思ss

2026-06-12 00:05:26

廣電座談會成照妖鏡！王曉晨疲態盡顯，劉浩存憑實力翻身

廣電座談會成照妖鏡！王曉晨疲態盡顯，劉浩存憑實力翻身

情感大頭說說

2026-06-12 18:54:06

央企“最牛女副處長”落馬：兩年與上司開房410次，細節曝光

央企“最牛女副處長”落馬：兩年與上司開房410次，細節曝光

西門老爹

2025-12-16 15:35:31

深圳樓市，爆了！

睿見投資

2026-06-10 12:03:53

與王曼昱秘密戀愛真相大白后，林高遠近況曝光，難怪淡出國家隊

與王曼昱秘密戀愛真相大白后，林高遠近況曝光，難怪淡出國家隊

余憁搞笑段子

2026-06-12 21:02:03

算法與數學之美

分享知識，交流思想

5609文章數 64624關注度

往期回顧全部

科技要聞

剛剛，人類歷史上首位萬億美元富豪誕生！

頭條要聞

美加墨世界杯第二場比賽就現空座英媒：尷尬

頭條要聞

美加墨世界杯第二場比賽就現空座英媒：尷尬

體育要聞

歐洲恐韓？肉德維德？

娛樂要聞

一天4個瓜，肖戰熱巴最意外

財經要聞

萬億美元順差背后，透露這些信號

汽車要聞

標配激光雷達/雙動力可選昊鉑S600限時售17.99萬起

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

家居

本地

時尚

親子

公開課

家居要聞

空間微調移形換境

自由流光回溯生活真意
雅奢之序五層別墅
220平對味兒家空間情緒宅

本地新聞

AK劉彰邂逅河北南大港濕地

夏天別總穿一身白或一身黑！試試一半彩色、一半基礎色，高級亮眼

親子要聞

給孩子報個幼兒園還要工資流水？難道這就是傳說中的“因財施教”

公開課

李玫瑾：為什么性格比能力更重要？

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
七個無法存下錢的壞習慣
李彥宏：百度離破產30天

© 1997-2026 網易公司版權所有 About NetEase | 公司簡介 | 聯系方法 | 招聘信息 | 客戶服務 | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權投訴

無障礙瀏覽進入關懷版