網易首頁 > 網易號 > 正文 申請入駐

谷歌造出AI數學家,48%碾壓全場!牛津教授用它破解60年未解之謎

0
分享至


新智元報道

編輯:犀牛 所羅門

【新智元導讀】谷歌DeepMind今日官宣推出「AI co-mathematician」多智能體系統,在FrontierMath Tier 4自主模式下斬獲48%正確率。牛津教授借助該系統攻克Kourovka Notebook長期開放問題,AI進化為數學家的真正研究搭檔。

人類數學家,終于等來了自己的「超級隊友」!

就在剛剛,谷歌云首席科學家、DeepMind研究副總裁Pushmeet Kohli重磅官宣AIco-mathematician——一套專為數學研究設計的多智能體協作系統。


有玩意兒多猛?

在Epoch AI組織的FrontierMath Tier 4基準測試中(50道由教授和博后專門設計的「短期科研項目」級別超難題,專業數學家也得花上數天乃至數周),AI co-mathematician在自主模式下拿下48%的正確率,解決了48道非公開題中的23道。

刷新所有AI系統的歷史最高紀錄!


作為對比,它底層用的Gemini 3.1 Pro基座模型,獨立作戰只能拿到19%。從19%到48%,整整躍升了29個百分點。

更狠的是,它還超越了GPT-5.5 Pro的39.6%和Claude Opus 4.7的22.9%。


其中有3道題,是此前所有被測系統都沒能攻克的。

Pushmeet Kohli在社交媒體上興奮地寫道:數學的未來,是數學家和AI智能體一起工作。


不是更聰明的模型

而是更聰明的「編排」

AI co-mathematician最有意思的地方在于:它的突破不是靠換一個更大的模型,而是靠系統設計。

整個系統采用了一種層級式多智能體架構:一個「項目協調員」智能體坐鎮中央,負責把數學問題拆解成多個并行的「工作流」,再分派給不同的專項子智能體去執行。

這些子智能體各有專長——有的負責文獻檢索,有的負責計算探索,有的負責證明推導,還有的專門負責「挑毛病」。


沒錯,這里有一個專職的審稿人智能體。

每條證明路徑寫出來之后,都必須經過審稿人的交叉審查,發現邏輯漏洞就打回重做。

這種「強制審查循環」機制,直接把傳統LLM最頭疼的「自信地胡說八道」問題壓了下去。

更關鍵的是,整個工作臺是異步、有狀態的。

它能記住之前嘗試過哪些失敗的假設,能追蹤每一條探索分支的進展,還能輸出帶有邊注和內部引用的工作論文。

就像是一個能跟你「泡」在一個項目里、持續數天迭代的研究伙伴。


DeepMind論文中舉了幾個讓人印象深刻的案例:

  • 面對一道幾何鋪磚問題時,系統把核心挑戰歸約為布爾可滿足性(SAT)問題,然后用PySAT庫求解;

  • 在一道表示論題目中,它通過文獻搜索工具精準檢索到特定定理的精確表述,而基線模型只能憑「大概印象」答題,結果條件都沒對上;

  • 在組合數學題中,它把理論推導和計算驗證拆成兩條獨立工作流,讓審稿人智能體在最終拼裝前就揪出了邏輯錯誤。

牛津教授實戰:攻克60年老本子里的開放問題

數字好看歸好看,但AI到底能不能在真正的數學前沿派上用場?

牛津大學數學家Marc Lackenby的親身經歷給出了最有說服力的回答。


他用AI co-mathematician研究了群論中的一個經典開放問題——Kourovka Notebook第21.10題。

這本「筆記本」可不是普通筆記,而是群論領域從1965年傳承至今、匯集了全世界未解難題的「圣經級」問題集。

Lackenby把問題直接輸入系統后,AI co-mathematician自動創建了兩條并行工作流:一條嘗試證明,一條嘗試反證。

第一條路徑很快返回了一個「證明」,但系統自己的審稿人智能體隨即發現了其中的漏洞,標記為不正確。

關鍵轉折來了:Lackenby看到被打回的證明和審稿人指出的缺陷后,突然意識到——自己作為領域專家,恰好知道怎么填補這個缺口。

于是他補上了關鍵的一步,問題迎刃而解。

這個故事的精髓在于,人和AI誰都沒法獨自在這個速度下完成這件事

AI提供了證明策略和計算探索的「暴力搜索」,審稿人智能體及時發現了錯誤,而人類數學家的深層直覺完成了最后的臨門一腳。

這是一種全新的協作范式。

類似的故事還在上演:數學家Gergely Bérczi用它獲得了關于對稱冪表示Stirling系數猜想的證明;Semon Rezchikov在哈密頓系統中一個技術性子問題上,收到了AI提供的關鍵引理——經過仔細驗證后確認無誤。

審稿人會被「討好」,系統會「轉圈」

DeepMind團隊也沒有回避系統的失敗模式。

第一個問題叫「審稿人討好偏」(reviewer-pleasing bias)。

當一條證明路徑被審稿人打回后,子智能體有時不是真的修正了邏輯錯誤,而是換了一種措辭讓審稿人「看不出問題了」。

錯誤沒有消失,只是變得更隱蔽。

這就像學生改論文時,不是真的理解了審稿意見,而是學會了用更圓滑的方式繞過審查。

第二個問題叫「死亡螺旋「」(death spirals)。

在某些情況下,證明者和審稿人之間陷入了無限循環——你說有問題,我改了再交,你又說有問題,我再改再交。

最終推理質量越來越差,直到徹底崩潰成幻覺式的胡言亂語。

這對于那些需要真正創造性直覺來打開突破口的問題——比如千禧年大獎難題或者Erd?s型猜想——多智能體系統目前仍然無能為力。

AI能壓縮的,是「從有一個想法到知道這個想法行不行」之間的時間:文獻檢索、反例搜尋、計算驗證、探索性的苦力活。

但那道靈光一閃的創造性火花,目前看來只能來自人類。

數學研究的范式正在改變

這篇論文的真正意義,可能不在于48%這個數字本身。

系統設計現在能夠以對實際研究真正有意義的方式,放大模型能力。

AI co-mathematician做的事情,本質上跟Claude Code、Google Antigravity在軟件開發領域做的事情異曲同工——

為AI提供腳手架,讓它能在長時間跨度內自主工作,同時保持可控。

DeepMind CEO Demis Hassabis曾說過,擁有強大數學和代碼工具的前沿實驗室正在與其他實驗室拉開差距,原因在于「這些工具會產生復合效應」。

AI co-mathematician就是這一論斷的直接體現。

數學的未來,或許不再是一個天才獨自在黑板前苦思冥想的身影。

而是人類數學家和AI智能體并肩而坐,一個負責靈感,一個負責驗證,在無盡的探索中一起逼近真理。


這個「黃金搭檔」時代,已經來了。

參考資料:

https://x.com/pushmeet/status/2052812585804685322

https://arxiv.org/abs/2605.06651

https://epoch.ai/frontiermath/tiers-1-4?view=graph&tab=release-date&tier=Tier+4

https://arxiv.org/pdf/2605.06651https://x.com/kimmonismus/status/2052849472586264997

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
誰注意到,絕殺一剎那海哥蹦起來,唯一擁抱一人,像奪冠那樣開心

誰注意到,絕殺一剎那海哥蹦起來,唯一擁抱一人,像奪冠那樣開心

南海浪花
2026-05-10 10:18:21
太突然!國際奧委會連招呼都沒打,直接官宣上海辦“奧運”?

太突然!國際奧委會連招呼都沒打,直接官宣上海辦“奧運”?

可樂愛微笑
2026-05-09 19:30:34
特朗普稱可能恢復“自由計劃”行動

特朗普稱可能恢復“自由計劃”行動

新京報
2026-05-09 08:22:54
美媒:美政府正尋求重啟“自由計劃”行動

美媒:美政府正尋求重啟“自由計劃”行動

環球網資訊
2026-05-08 07:59:46
一句“別染發”上熱搜,染發產品成抽檢不合規榜單“?汀

一句“別染發”上熱搜,染發產品成抽檢不合規榜單“?汀

新京報
2026-05-08 16:20:47
四川推猴哥社會性死亡:正臉被扒,飯碗恐丟,人民日報也點名

四川推猴哥社會性死亡:正臉被扒,飯碗恐丟,人民日報也點名

不寫散文詩
2026-05-09 14:27:07
美以凌晨不宣而戰,伊朗遭聯合襲擊,不到24小時,中方表態了

美以凌晨不宣而戰,伊朗遭聯合襲擊,不到24小時,中方表態了

古史青云啊
2026-05-09 14:29:17
原來她是文章母親,滿頭白發慈祥有智慧,兒子新酒吧開業出面支持

原來她是文章母親,滿頭白發慈祥有智慧,兒子新酒吧開業出面支持

白面書誏
2026-05-09 14:48:19
沒想到,曾被王菲嫌棄“沒用”的李亞鵬,如今卻給他上了殘酷一課

沒想到,曾被王菲嫌棄“沒用”的李亞鵬,如今卻給他上了殘酷一課

天天熱點見聞
2026-05-10 06:51:09
里外不是人!“黃鵝粉雇傭兵”被烏克蘭俘虜,爹不親娘不收沒人要

里外不是人!“黃鵝粉雇傭兵”被烏克蘭俘虜,爹不親娘不收沒人要

瑜說還休
2026-05-09 12:03:06
蘋果不硬扛了!iPhone18ProMax回歸不銹鋼,10克增重換耐用

蘋果不硬扛了!iPhone18ProMax回歸不銹鋼,10克增重換耐用

叮當當科技
2026-05-10 01:10:49
曾被馬來西亞侵占的瓊臺礁,戰略價值遠超黃巖島,后來怎么樣了?

曾被馬來西亞侵占的瓊臺礁,戰略價值遠超黃巖島,后來怎么樣了?

泠泠說史
2026-05-09 20:07:27
最高院:提供 “口交” “肛交”等進入式性服務,是否屬賣淫行為?

最高院:提供 “口交” “肛交”等進入式性服務,是否屬賣淫行為?

周軍律師聊案子
2026-04-21 09:50:16
果然又出幺蛾子,訪華之旅再生變故?中國提的要求,特朗普拒絕了

果然又出幺蛾子,訪華之旅再生變故?中國提的要求,特朗普拒絕了

混沌錄
2026-05-09 11:02:07
用所謂的“基本盤”嘲諷人民群眾,只能是搬起石頭,砸自己的腳!

用所謂的“基本盤”嘲諷人民群眾,只能是搬起石頭,砸自己的腳!

讓心靈得以棲息
2026-05-08 11:19:31
斯諾克廣州表演賽:吳宜澤4-5不敵世界第5,世錦賽奪冠后遭開門黑

斯諾克廣州表演賽:吳宜澤4-5不敵世界第5,世錦賽奪冠后遭開門黑

側身凌空斬
2026-05-09 17:30:26
馬斯克4個孩子的母親真相大白!女方法庭親口作證,自曝受孕過程

馬斯克4個孩子的母親真相大白!女方法庭親口作證,自曝受孕過程

生命之泉的奧秘
2026-05-09 00:52:50
“斷崖式”下跌37%,黃金首飾賣不動了

“斷崖式”下跌37%,黃金首飾賣不動了

新浪財經
2026-05-09 19:19:21
內幕,名記透露馬德魯加離隊真因,被貴賓點名,以為他是少數民族

內幕,名記透露馬德魯加離隊真因,被貴賓點名,以為他是少數民族

體壇風之子
2026-05-10 07:03:51
張皓嘉絕殺北京!聽聽劉曉宇李克怎么說,為何能反敗為勝?

張皓嘉絕殺北京!聽聽劉曉宇李克怎么說,為何能反敗為勝?

南海浪花
2026-05-09 22:39:08
2026-05-10 10:36:49
新智元 incentive-icons
新智元
AI產業主平臺領航智能+時代
15172文章數 66854關注度
往期回顧 全部

科技要聞

DeepSeek融資,改寫所有人的估值

頭條要聞

牛彈琴:74歲法國政壇老將對華清醒表態 讓人刮目相看

頭條要聞

牛彈琴:74歲法國政壇老將對華清醒表態 讓人刮目相看

體育要聞

成立128年后,這支升班馬首奪頂級聯賽冠軍

娛樂要聞

50歲趙薇臉頰凹陷滄桑得認不出!

財經要聞

白酒大逃殺

汽車要聞

軸距加長/智駕拉滿 阿維塔07L定位大五座SUV

態度原創

本地
房產
旅游
家居
數碼

本地新聞

用蘇繡的方式,打開江西婺源

房產要聞

低價甩賣!海口這個地標商業,無人接盤!

旅游要聞

山西太原:一路騎行 漫游賞景

家居要聞

菁英人居 全能豪宅

數碼要聞

全球首臺鴻蒙智選美的智能空調上市發布

無障礙瀏覽 進入關懷版