網易首頁 > 網易號 > 正文 申請入駐

谷歌造出AI數學家,48%碾壓全場!牛津教授用它破解60年未解之謎

0
分享至


新智元報道

編輯:犀牛 所羅門

【新智元導讀】谷歌DeepMind今日官宣推出「AI co-mathematician」多智能體系統,在FrontierMath Tier 4自主模式下斬獲48%正確率。牛津教授借助該系統攻克Kourovka Notebook長期開放問題,AI進化為數學家的真正研究搭檔。

人類數學家,終于等來了自己的「超級隊友」!

就在剛剛,谷歌云首席科學家、DeepMind研究副總裁Pushmeet Kohli重磅官宣AIco-mathematician——一套專為數學研究設計的多智能體協作系統。


有玩意兒多猛?

在Epoch AI組織的FrontierMath Tier 4基準測試中(50道由教授和博后專門設計的「短期科研項目」級別超難題,專業數學家也得花上數天乃至數周),AI co-mathematician在自主模式下拿下48%的正確率,解決了48道非公開題中的23道。

刷新所有AI系統的歷史最高紀錄!


作為對比,它底層用的Gemini 3.1 Pro基座模型,獨立作戰只能拿到19%。從19%到48%,整整躍升了29個百分點。

更狠的是,它還超越了GPT-5.5 Pro的39.6%和Claude Opus 4.7的22.9%。


其中有3道題,是此前所有被測系統都沒能攻克的。

Pushmeet Kohli在社交媒體上興奮地寫道:數學的未來,是數學家和AI智能體一起工作。


不是更聰明的模型

而是更聰明的「編排」

AI co-mathematician最有意思的地方在于:它的突破不是靠換一個更大的模型,而是靠系統設計。

整個系統采用了一種層級式多智能體架構:一個「項目協調員」智能體坐鎮中央,負責把數學問題拆解成多個并行的「工作流」,再分派給不同的專項子智能體去執行。

這些子智能體各有專長——有的負責文獻檢索,有的負責計算探索,有的負責證明推導,還有的專門負責「挑毛病」。


沒錯,這里有一個專職的審稿人智能體。

每條證明路徑寫出來之后,都必須經過審稿人的交叉審查,發現邏輯漏洞就打回重做。

這種「強制審查循環」機制,直接把傳統LLM最頭疼的「自信地胡說八道」問題壓了下去。

更關鍵的是,整個工作臺是異步、有狀態的。

它能記住之前嘗試過哪些失敗的假設,能追蹤每一條探索分支的進展,還能輸出帶有邊注和內部引用的工作論文。

就像是一個能跟你「泡」在一個項目里、持續數天迭代的研究伙伴。


DeepMind論文中舉了幾個讓人印象深刻的案例:

  • 面對一道幾何鋪磚問題時,系統把核心挑戰歸約為布爾可滿足性(SAT)問題,然后用PySAT庫求解;

  • 在一道表示論題目中,它通過文獻搜索工具精準檢索到特定定理的精確表述,而基線模型只能憑「大概印象」答題,結果條件都沒對上;

  • 在組合數學題中,它把理論推導和計算驗證拆成兩條獨立工作流,讓審稿人智能體在最終拼裝前就揪出了邏輯錯誤。

牛津教授實戰:攻克60年老本子里的開放問題

數字好看歸好看,但AI到底能不能在真正的數學前沿派上用場?

牛津大學數學家Marc Lackenby的親身經歷給出了最有說服力的回答。


他用AI co-mathematician研究了群論中的一個經典開放問題——Kourovka Notebook第21.10題。

這本「筆記本」可不是普通筆記,而是群論領域從1965年傳承至今、匯集了全世界未解難題的「圣經級」問題集。

Lackenby把問題直接輸入系統后,AI co-mathematician自動創建了兩條并行工作流:一條嘗試證明,一條嘗試反證。

第一條路徑很快返回了一個「證明」,但系統自己的審稿人智能體隨即發現了其中的漏洞,標記為不正確。

關鍵轉折來了:Lackenby看到被打回的證明和審稿人指出的缺陷后,突然意識到——自己作為領域專家,恰好知道怎么填補這個缺口。

于是他補上了關鍵的一步,問題迎刃而解。

這個故事的精髓在于,人和AI誰都沒法獨自在這個速度下完成這件事。

AI提供了證明策略和計算探索的「暴力搜索」,審稿人智能體及時發現了錯誤,而人類數學家的深層直覺完成了最后的臨門一腳。

這是一種全新的協作范式。

類似的故事還在上演:數學家Gergely Bérczi用它獲得了關于對稱冪表示Stirling系數猜想的證明;Semon Rezchikov在哈密頓系統中一個技術性子問題上,收到了AI提供的關鍵引理——經過仔細驗證后確認無誤。

審稿人會被「討好」,系統會「轉圈」

DeepMind團隊也沒有回避系統的失敗模式。

第一個問題叫「審稿人討好偏」(reviewer-pleasing bias)。

當一條證明路徑被審稿人打回后,子智能體有時不是真的修正了邏輯錯誤,而是換了一種措辭讓審稿人「看不出問題了」。

錯誤沒有消失,只是變得更隱蔽。

這就像學生改論文時,不是真的理解了審稿意見,而是學會了用更圓滑的方式繞過審查。

第二個問題叫「死亡螺旋「」(death spirals)。

在某些情況下,證明者和審稿人之間陷入了無限循環——你說有問題,我改了再交,你又說有問題,我再改再交。

最終推理質量越來越差,直到徹底崩潰成幻覺式的胡言亂語。

這對于那些需要真正創造性直覺來打開突破口的問題——比如千禧年大獎難題或者Erd?s型猜想——多智能體系統目前仍然無能為力。

AI能壓縮的,是「從有一個想法到知道這個想法行不行」之間的時間:文獻檢索、反例搜尋、計算驗證、探索性的苦力活。

但那道靈光一閃的創造性火花,目前看來只能來自人類。

數學研究的范式正在改變

這篇論文的真正意義,可能不在于48%這個數字本身。

系統設計現在能夠以對實際研究真正有意義的方式,放大模型能力。

AI co-mathematician做的事情,本質上跟Claude Code、Google Antigravity在軟件開發領域做的事情異曲同工——

為AI提供腳手架,讓它能在長時間跨度內自主工作,同時保持可控。

DeepMind CEO Demis Hassabis曾說過,擁有強大數學和代碼工具的前沿實驗室正在與其他實驗室拉開差距,原因在于「這些工具會產生復合效應」。

AI co-mathematician就是這一論斷的直接體現。

數學的未來,或許不再是一個天才獨自在黑板前苦思冥想的身影。

而是人類數學家和AI智能體并肩而坐,一個負責靈感,一個負責驗證,在無盡的探索中一起逼近真理。


這個「黃金搭檔」時代,已經來了。

參考資料:

https://x.com/pushmeet/status/2052812585804685322

https://arxiv.org/abs/2605.06651

https://epoch.ai/frontiermath/tiers-1-4?view=graph&tab=release-date&tier=Tier+4

https://arxiv.org/pdf/2605.06651https://x.com/kimmonismus/status/2052849472586264997

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
史詩級崩盤!財務造假+雙重戴帽5天暴跌57%,十幾萬股東淚奔!

史詩級崩盤!財務造假+雙重戴帽5天暴跌57%,十幾萬股東淚奔!

股市皆大事
2026-05-11 10:18:10
馬云再聊未來房價:180萬的房子,到2030年還能值多少錢?

馬云再聊未來房價:180萬的房子,到2030年還能值多少錢?

貓叔東山再起
2026-05-11 08:35:13
尷尬!王石公開脫衣秀身材“翻車”,網友:像是一副被榨干的軀體

尷尬!王石公開脫衣秀身材“翻車”,網友:像是一副被榨干的軀體

火山詩話
2026-05-08 21:39:02
97年和女同事出差,賓館只剩一間房她白我一眼:你敢亂動我就報警

97年和女同事出差,賓館只剩一間房她白我一眼:你敢亂動我就報警

千秋文化
2026-05-08 10:18:54
局勢惡化,61歲李在明沉痛悼念,韓國被日本激怒,高市捅了馬蜂窩

局勢惡化,61歲李在明沉痛悼念,韓國被日本激怒,高市捅了馬蜂窩

鍋鍋愛歷史
2026-05-11 05:39:50
尷尬!網紅神褲成審美災難,網友稱市場有需求,有些人恨不得裸奔

尷尬!網紅神褲成審美災難,網友稱市場有需求,有些人恨不得裸奔

火山詩話
2026-05-09 19:50:52
工資13500元/月(6險2金+雙休)2026年編制單位面向社會公開招收427名工作人員公告!5月11日開始報名!

工資13500元/月(6險2金+雙休)2026年編制單位面向社會公開招收427名工作人員公告!5月11日開始報名!

材料科學與工程
2026-05-11 10:06:00
保簽失??!白送簽位!看傻整個NBA??!

保簽失?。“姿秃炍?!看傻整個NBA??!

柚子說球
2026-05-11 08:27:42
熔斷!剛剛,全線暴漲!芯片巨頭,繼續猛攻

熔斷!剛剛,全線暴漲!芯片巨頭,繼續猛攻

證券時報
2026-05-11 09:40:12
天王山來了!文班被驅逐,愛德華茲36+6森林狼114-109逆轉馬刺!

天王山來了!文班被驅逐,愛德華茲36+6森林狼114-109逆轉馬刺!

運籌帷幄的籃球
2026-05-11 11:53:07
炸裂!漢坦病毒零號地大反轉,荷蘭夫婦冤了,游輪致命疫情藏秘密

炸裂!漢坦病毒零號地大反轉,荷蘭夫婦冤了,游輪致命疫情藏秘密

溫讀史
2026-05-11 10:05:45
休學門診擠滿了初三學生,北大教培人揭開真相:三條路全被堵死,他們無處可逃

休學門診擠滿了初三學生,北大教培人揭開真相:三條路全被堵死,他們無處可逃

三言四拍
2026-05-10 10:34:00
熔斷!韓國股市大漲!SK海力士漲超10%

熔斷!韓國股市大漲!SK海力士漲超10%

證券時報e公司
2026-05-11 09:38:06
李嘉誠再談及未來房價:100萬的房子,到2030年還能值多少錢?

李嘉誠再談及未來房價:100萬的房子,到2030年還能值多少錢?

社會日日鮮
2026-05-11 04:52:07
NBA臉都不要了!強行拖入天王山:湖人看著眼紅!

NBA臉都不要了!強行拖入天王山:湖人看著眼紅!

運籌帷幄的籃球
2026-05-11 11:50:05
特朗普:美方一直在監控伊朗埋在廢墟下的濃縮鈾

特朗普:美方一直在監控伊朗埋在廢墟下的濃縮鈾

中國網
2026-05-11 09:28:04
奇才會選迪班薩為狀元? 從球隊需求看2026年選秀前三甲怎么排?

奇才會選迪班薩為狀元? 從球隊需求看2026年選秀前三甲怎么排?

仰臥撐FTUer
2026-05-11 09:18:06
活久見!新疆一景區提示再登熱搜:花園有毒蛇,醫院距此400公里

活久見!新疆一景區提示再登熱搜:花園有毒蛇,醫院距此400公里

火山詩話
2026-05-09 08:27:01
先訪日再訪華?美國老套路被看穿,中方回應硬氣到底

先訪日再訪華?美國老套路被看穿,中方回應硬氣到底

安珈使者啊
2026-05-10 09:34:13
余額不足門卻照常彈開!浙江一男子發現付款漏洞后,與同伴深夜瘋狂“零元購”,法院:犯盜竊罪判刑六個月,緩刑一年

余額不足門卻照常彈開!浙江一男子發現付款漏洞后,與同伴深夜瘋狂“零元購”,法院:犯盜竊罪判刑六個月,緩刑一年

臺州交通廣播
2026-05-10 06:39:27
2026-05-11 12:28:50
新智元 incentive-icons
新智元
AI產業主平臺領航智能+時代
15181文章數 66862關注度
往期回顧 全部

科技要聞

黃仁勛:你們趕上了一代人一次的大機會

頭條要聞

特朗普時隔9年再度訪華 今年特朗普還贊嘆中國儀仗隊

頭條要聞

特朗普時隔9年再度訪華 今年特朗普還贊嘆中國儀仗隊

體育要聞

那個曾讓詹姆斯抱頭的兄弟,40歲從大學畢業了

娛樂要聞

謝霆鋒沒想到,王菲靠張藝謀重返巔峰

財經要聞

"手搓汽車"曝光:偽造證件、電池以舊代新

汽車要聞

全球化成國內車企未來勝負手,誰是出海最強"水手"?

態度原創

健康
旅游
親子
房產
教育

干細胞能讓人“返老還童”嗎

旅游要聞

河南洛陽欒川重渡溝景區,百米巨型瀑布被噴上油漆:瀑布暫停開放

親子要聞

fsh值如何降下來?卵子質量不好要調理卵巢嗎?

房產要聞

低價甩賣!海口這個地標商業,無人接盤!

教育要聞

家長的基本修養是“不拖后腿”

無障礙瀏覽 進入關懷版