網易首頁 > 網易號 > 正文 申請入駐

AI解數學題的速度比科學家編考題還快——技術飛速迭代,基準測試正以前所未有的速度過時——IEEE Spectrum

0
分享至

置頂zzllrr小樂公眾號(主頁右上角)數學科普不迷路!

AI解數學題的速度比科學家編考題還快。技術飛速迭代,基準測試正以前所未有的速度過時。

作者:Benjamin Skuse(本杰明·斯庫斯)IEEE Spectrum 2026-2-26

譯者:zzllrr小樂(數學科普公眾號)2026-2-27


圖表:折線圖顯示,谷歌DeepMind的Aletheia AI在博士階段數學習題中的得分,比最新版Gemini Deep Think至少高出5%。

AI解決高階數學問題的能力正飛速提升

圖源:谷歌DeepMind

數學常被視為有效衡量AI進展的理想領域。其分步推進的邏輯易于追蹤,且答案明確、可自動驗證,能排除人為或主觀因素的干擾。但AI系統的進步速度如此之快,以至于數學基準測試已難以跟上其步伐。

早在2024年11月,非營利研究機構Epoch AI悄然發布了FrontierMath基準測試。這一標準化、嚴謹的測試工具,旨在衡量最先進AI工具的數學推理能力。

“它包含一系列難度極高的數學題,”Epoch AI高級研究員格雷格·伯納姆解釋道,“最初只有300道題,也就是我們現在所說的1-3級;但目睹AI能力突飛猛進后,我們意識到必須全力跟進才能保持領先,因此新增了一組精心設計的特殊挑戰題,命名為4級。”

大致來說,1-4級的難度覆蓋從高等本科到博士后初期階段的數學水平。該測試推出時,最先進的AI模型最多只能解決其中2%的題目。而如今,GPT-5.2、Claude Opus 4.6等最優秀的公開AI模型,已能解決FrontierMath 300道1-3級題目中的40%以上,以及50道4級題目中的30%以上。

AI挑戰博士級數學研究

這種驚人的進步速度毫無放緩跡象。例如,谷歌DeepMind近期宣布,其基于Gemini Deep Think開發的實驗性AI系統Aletheia,取得了可發表級別的博士水平研究成果。盡管從數學角度來看較為冷門——計算算術幾何中名為“特征權重”的特定結構常數——但這一成果在AI發展史上具有重要意義。

“他們聲稱該系統基本實現了自主研究,即無需人類指導,且研究結果達到了發表標準,”伯納姆說,“這雖然算不上能讓數學家們興奮不已的重大成果,但它是全新的——是我們此前從未見過的突破。”

為了讓這一成就更易理解:FrontierMath的所有題目都有人類已推導得出的已知答案,而Aletheia的成果,盡管“人類若花一周時間潛心鉆研或許也能完成”,但在此之前,從未有人做到過。

Aletheia的成果及其他AI“數學家”近期的突破表明,我們亟需更快地推出更嚴苛的新基準測試來評估AI能力,因為現有測試很快就會過時。“已有好幾代較簡單的數學基準測試被淘汰了,”伯納姆說,“FrontierMath可能在未來兩年內達到飽和狀態(即最先進AI模型得分為100%),甚至可能更快。”

“首輪證明”挑戰賽

為應對這一問題,2月6日,11位頂尖數學家聯合發起了“首輪證明”(First Proof)挑戰賽。該挑戰賽包含10道極難的數學題,均源自出題者自身的研究過程,證明過程約5頁紙以內,且此前未向任何人公開。這一挑戰賽是評估AI系統獨立解決研究級數學問題能力的初步嘗試。詳情參閱:

挑戰賽在數學界引發了廣泛關注,專業與業余數學家紛紛參與,OpenAI等團隊也積極應戰。但截至2月14日出題者公布證明過程時,尚無任何參與者能提交全部10道題的正確解答。

事實上,差距還很大。出題者本人使用Gemini 3.0 Deep Think和ChatGPT 5.2 Pro,也僅解決了其中2道題。除OpenAI和谷歌DeepMind的Aletheia小團隊外,多數外部參與者的表現都不盡如人意。在“有限人類監督”下,OpenAI最先進的內部AI系統解決了10道題中的5道,Aletheia也取得了類似成績——數學界對此反應不一,有人驚嘆,也有人失望。“首輪證明”挑戰賽團隊計劃于3月14日推出難度更高的第二輪挑戰。

AI的新前沿

“我認為‘首輪證明’挑戰賽非常出色:它盡可能真實地讓AI系統模擬數學家的工作場景,”伯納姆說。盡管他贊賞該挑戰賽能測試AI對各類數學領域及數學家的實用價值,但Epoch AI也推出了自己的新測試方案——FrontierMath:開放問題 (參閱 )。這一試點基準測試的獨特之處在于,它包含16道來自研究領域的開放問題(后續還將新增),這些問題都是專業數學家嘗試解決但未能成功的難題。自1月27日推出以來,尚無AI能解決其中任何一道題。

“通過‘開放問題’測試,我們試圖讓挑戰難度再上一個臺階,”伯納姆說,“僅達到基準線的成果就具備發表價值,至少能在專業期刊上發表。”更重要的是,每道題都設計成可自動評分的形式。“這有點違反直覺,”伯納姆補充道,“雖然沒人知道答案,但我們有一個計算機程序,能夠判斷提交的答案是否正確。”

伯納姆認為“首輪證明”與“開放問題”這兩項測試是互補的。“我認為對AI能力的了解越多越好,”他說,“AI已經發展到在某些方面優于大多數博士生的水平,因此我們需要提出一些人類數學家至少會適度感興趣的問題——不是因為這些問題是AI在解決,而是因為它們本身就是人類數學家關注的數學問題。”

參考資料

https://spectrum.ieee.org/ai-math-benchmarks

小樂數學科普近期文章

·開放 · 友好 · 多元 · 普適 · 守拙·

讓數學

更加

易學易練

易教易研

易賞易玩

易見易得

易傳易及

歡迎評論、點贊、在看、在聽

收藏、分享、轉載、投稿

查看原始文章出處

點擊zzllrr小樂

公眾號主頁

右上角

置頂★加星

數學科普不迷路!

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
俄共主席威脅1917會再次發生!鋼鐵巨頭瀕臨虧損,替代產業失敗

俄共主席威脅1917會再次發生!鋼鐵巨頭瀕臨虧損,替代產業失敗

鷹眼Defence
2026-04-23 18:38:19
新冠后遺癥的長期侵襲,無數人在不知不覺中深陷困境

新冠后遺癥的長期侵襲,無數人在不知不覺中深陷困境

律法刑道
2026-04-01 10:15:47
霍爾木茲海峽再成美伊談判進程焦點!專家分析伊朗的“新牌”

霍爾木茲海峽再成美伊談判進程焦點!專家分析伊朗的“新牌”

南方都市報
2026-04-23 15:08:59
別的不說,殷桃不愧是內娛最性感的女明星之一,豐乳肥臀的太絕了

別的不說,殷桃不愧是內娛最性感的女明星之一,豐乳肥臀的太絕了

鄉野小珥
2026-04-23 19:25:48
東風 - 31 泄密大案:總工程師被美色策反,國之重器險遭滅頂之災

東風 - 31 泄密大案:總工程師被美色策反,國之重器險遭滅頂之災

干史人
2026-04-18 13:44:12
卯兔, 你攤上事了! 4月23號到27號 你會痛失一人 但要拿回這8樣東西

卯兔, 你攤上事了! 4月23號到27號 你會痛失一人 但要拿回這8樣東西

王二哥老搞笑
2026-04-23 06:57:47
楊鈺瑩28年后坦白:若當年接受毛寧,現在已是母親

楊鈺瑩28年后坦白:若當年接受毛寧,現在已是母親

解鎖世界風云
2026-04-23 13:48:39
張敬軒落實出演兩場英皇演唱會!感激粉絲包容與忍耐

張敬軒落實出演兩場英皇演唱會!感激粉絲包容與忍耐

TVB資訊臺
2026-04-23 21:31:49
美特使:已向特朗普提議意大利取代伊朗參加世界杯

美特使:已向特朗普提議意大利取代伊朗參加世界杯

體壇周報
2026-04-23 09:51:15
被指“逼迫旗下主播跟鱷魚同一個魚缸”,千萬粉絲博主“夜巴黎”遭封禁,知情人:視頻是去年的直播錄屏

被指“逼迫旗下主播跟鱷魚同一個魚缸”,千萬粉絲博主“夜巴黎”遭封禁,知情人:視頻是去年的直播錄屏

紅星新聞
2026-04-23 19:33:36
上海靜安一居民建筑發生火情:火勢已撲滅,無傷亡

上海靜安一居民建筑發生火情:火勢已撲滅,無傷亡

澎湃新聞
2026-04-23 17:11:02
單方面延長停火協議,特朗普強硬人設再度“破功” | 京釀館

單方面延長停火協議,特朗普強硬人設再度“破功” | 京釀館

新京報評論
2026-04-23 13:20:06
CBA男籃動態更新!遼寧男籃vs江蘇男籃,賽前帶來遼寧男籃趙繼偉、萊迪、李曉旭以及江蘇男籃龐崢麟最新消息

CBA男籃動態更新!遼寧男籃vs江蘇男籃,賽前帶來遼寧男籃趙繼偉、萊迪、李曉旭以及江蘇男籃龐崢麟最新消息

凱豐侃球
2026-04-24 00:10:07
皇馬遭重創:居勒爾與米利唐賽季報銷,巴西中衛世界杯前景堪憂

皇馬遭重創:居勒爾與米利唐賽季報銷,巴西中衛世界杯前景堪憂

星耀國際足壇
2026-04-24 02:05:50
恒大集團總裁夏海鈞金蟬脫殼

恒大集團總裁夏海鈞金蟬脫殼

地產微資訊
2026-04-23 18:40:16
六臺:居萊爾與米利唐均賽季報銷,二人勉強能趕上世界杯

六臺:居萊爾與米利唐均賽季報銷,二人勉強能趕上世界杯

懂球帝
2026-04-23 19:19:57
舒默:情況對特朗普越來越糟,他正越陷越深

舒默:情況對特朗普越來越糟,他正越陷越深

看看新聞Knews
2026-04-23 08:56:08
4月23日周四消息:22家發布重大利空消息,5家信披違規或戴帽停牌

4月23日周四消息:22家發布重大利空消息,5家信披違規或戴帽停牌

股市皆大事
2026-04-23 11:14:10
觸目驚心!石某某(原百度貼吧員工),獲刑12年

觸目驚心!石某某(原百度貼吧員工),獲刑12年

南方都市報
2026-04-23 19:15:21
官宣!切爾西換帥,劍指冠軍,傳奇中場剛剛奪冠,有望三度回歸

官宣!切爾西換帥,劍指冠軍,傳奇中場剛剛奪冠,有望三度回歸

嗨皮看球
2026-04-23 11:12:37
2026-04-24 04:31:00
小樂數學科普 incentive-icons
小樂數學科普
zzllrr小樂,小樂數學科普,讓前沿數學流行起來~
324文章數 7關注度
往期回顧 全部

科技要聞

馬斯克喊出"史上最大產品",但量產難預測

頭條要聞

以色列:只要美國同意 將刺殺伊朗最高領袖

頭條要聞

以色列:只要美國同意 將刺殺伊朗最高領袖

體育要聞

給文班剃頭的馬刺DJ,成為NBA最佳第六人

娛樂要聞

王大陸因涉黑討債被判 女友也一同獲刑

財經要聞

普華永道賠償10億 恒大股東見到"回頭錢"

汽車要聞

預售30.29萬起 嵐圖泰山X8配896線激光雷達

態度原創

時尚
旅游
健康
本地
數碼

李昀銳:林深見木

旅游要聞

來廣州,分享10億元“中國旅游日”專屬優惠福利

干細胞如何讓燒燙傷皮膚"再生"?

本地新聞

SAGA GIRLS 2026女團選秀

數碼要聞

榮耀重新定義輕薄本,四月連發六款新品續航首超Mac

無障礙瀏覽 進入關懷版