无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

為何基于數學的AI推理基準正逐漸枯竭——譯自HLF海德堡桂冠論壇

0
分享至

置頂zzllrr小樂公眾號,追蹤《小樂數學科普》系列報道!

當下數學類AI推理評測基準已逐漸匱乏,隨著AI數學推理能力飛速進步,現成可用來測評能力的標準化試題越來越少,未來人類或將不再只用數學題目測評AI,轉而讓AI正式參與到前沿數學研究當中。

作者:Benjamin Skuse(本杰明·斯庫斯,英國科普作家)

HLF海德堡桂冠論壇博客 2026-5-13

譯者:zzllrr小樂(數學科普公眾號)2026-5-21

求喜歡

近期,人工智能公司Anthropic的首席執行官提出,該公司旗下熱門通用大語言模型Claude具備意識。對此,Claude謙遜地給自己具備意識的概率定為15%到20%。與此同時,其他主流大語言模型及相關AI人工智能系統,已成功完成曾被認為只有人類才能完成的復雜任務 —— 包括創作并錄制登頂榜單的熱門歌曲 、撰寫獲獎小說,甚至創作出具備頂級獎項水準的藝術作品(參閱文末參考文獻)。


Anthropic CEO Dario Amodei

圖源:TechCrunch

這些成就是否意味著人工智能在創造力與推理能力上已達到或超越人類?我們又該如何判斷?至少就目前而言,我們可以借助數學來尋找答案。

奠基時期

數學是人工智能研究者最青睞的測試領域之一,因為它需要建立在嚴密邏輯基礎上的精確分步推理,且能被嚴格、自動地驗證,避免了主觀判斷或成本高昂的測試。

2017年,基于注意力機制處理序列數據的神經網絡 Transformer 架構問世,此后人工智能語言模型的能力以驚人速度提升。與之適配,人工智能基準測試也變得越來越復雜。

最早的數學類人工智能基準之一是谷歌 DeepMind 推出的數學數據集 https://github.com/google-deepmind/mathematics_dataset 。該數據集于2019年發布,包含超過1億組問答對,難度相當于優秀小學生水平,問題長度限制在160字符內,答案不超過30字符。由于數據由自動生成,題目形式多樣但均為程序化題型,只要記得一點中小學數學知識就能輕松解答。例如:

問題:計算 - 841880142.544 + 411127

答案:- 841469015.544

問題:從 qqqkkklkqkkk 中無放回抽取三個字母,求序列為 qql 的概率

答案:1/110

該基準剛發布時,部分頂尖人工智能模型得分約為35%,但包括2020年發布的OpenAI GPT-3 在內的許多模型表現不佳,因為它們缺乏思維鏈推理能力,無法進行多步代數運算,只能直接預測答案。

2023年,隨著GPT-4與谷歌Gemini發布,其強大的推理能力讓得分突破90%,數學數據集最終被扔進歷史的垃圾桶 —— 這是基準測試生命周期中的飽和階段,說得更直白些,就是過時淘汰。

高中數學

早在數學數據集達到飽和之前,人工智能研究者就已開始設計難度更高的數學類基準。2021年,GSM8K https://github.com/openai/grade-school-math 與命名直白的MATH基準 https://huggingface.co/datasets/qwedsacf/competition_math 同步發布,旨在測試人工智能的多步數學推理能力。

OpenAI推出的GSM8K由人類出題者編寫,包含8500道數學題,難度相當于優秀初中生,只需2到8步即可解答。以下是示例問答:

問題:阿里是一所私立學校的校長,他在該校教授一個班級。約翰是一所公立學校的校長,約翰的學校有兩個班級。每個班級的容量是阿里班級的1/8,而阿里的班級可容納120名學生。兩所學校的總容量是多少?

答案:150

GSM8K發布僅兩年多,GPT-4就取得92%的正確率,該基準基本達到飽和。

MATH基準的表現稍好一些。該基準由加州大學伯克利分校的研究者設計,包含12500道來自高中數學競賽的難題。數據顯示,即使是普通計算機專業博士,在該基準上的得分也僅約40%。相比之下,該基準剛發布時,頂尖人工智能模型得分僅為5%。示例如下:

問題:求所有p的值,使得對任意q>0,都有3 (pq2+p2q+3q2+3pq)/(p+q) > 2p2q。用十進制區間表示答案。

答案:[0,3)

但到2024年,MATH也步GSM8K后塵走向淘汰,前沿模型得分突破90%,其中OpenAI o1達到94.8%。

人工智能研究者需要新的攻關方向,一些人已將目光投向最高級別高中數學競賽 —— 國際數學奧林匹克(IMO)。


2015 IMO閉幕式

圖源:Wikimedia Z3144228

國際數學奧林匹克:頂級數學競賽

國際數學奧林匹克每年舉辦一屆,吸引來自100多個國家的選手參與,被公認為全球最具聲望的數學競賽。盡管只需在兩場4.5小時的比賽中完成6道題目,但每道題都難度極高。

不出所料,IMO獲獎者在職業生涯中取得重要數學突破的概率遠高于其他人。例如,首位獲得菲爾茲獎的女性瑪麗安?米爾扎哈尼是IMO金牌得主;全球最知名數學家之一、同樣獲得菲爾茲獎的陶哲軒,分別在10歲、11歲、12歲獲得IMO銅牌、銀牌與金牌。

2024年,由谷歌AlphaProof與AlphaGeometry 2組成的混合系統,成為首個在IMO中解出6道題里4道的人工智能。這一成績相當于銀牌,但測試并未在競賽規則下進行。

關鍵在于,每道題都必須手動翻譯成形式化數學語言,系統才能理解,這是一項耗時費力的工作。不過,一旦完成翻譯,結合了類Gemini大語言模型與幾何定律形式化引擎的人工智能系統AlphaGeometry 2,僅用19秒就解出一道題;而結合大語言模型與強化學習算法的AlphaProof,在三天內解出兩道代數題與一道數論題。

僅僅一年后,IMO對最先進的人工智能模型而言已不再是有挑戰性的測試。谷歌DeepMind與OpenAI的實驗系統在2025年IMO中取得金牌水平成績,均正確解答6道題中的5道。重要的是,它們在競賽時限內用自然語言完成解題,不再需要將題目手動翻譯為形式化數學語言,并通過大規模樹狀搜索,讓人工智能在確定推理路徑前探索數千個邏輯分支。

真實的開放性數學問題

這些里程碑式的成果,讓基于數學的人工智能基準陷入困境。技術發展過于先進,設計出既有簡潔答案又具備足夠難度的題目變得越來越難。此外,發展速度極快,基準測試在一年內達到飽和的可能性正快速升高。

正因如此,新推出的基準顯著提升了難度;事實上,它們開始要求人工智能解決人類知識前沿甚至超越前沿的問題。

例如,非營利研究機構Epoch AI推出名為FrontierMath的基準,詳情參閱。該基準包含350多道高難度題目,難度覆蓋本科至博士后初期階段,均有人類已得出的答案。截至目前,表現最佳的是 GPT-5.4 Pro (xhigh),得分50%,但該分數持續上升,FrontierMath團隊預計它將在未來一兩年內達到飽和。

為此,他們又設計了 FrontierMath:開放性問題 https://epoch.ai/frontiermath/open-problems 。該模塊包含15道來自數學研究的開放性問題,均為專業數學家嘗試過但未能解答的難題。這些問題的答案,至少對部分數學家而言有一定研究價值,最佳情況則代表重大突破。自發布以來,僅有一道中等價值的問題被人工智能解決(最先由GPT-5.4 Pro解出,隨后 Claude Opus 4.6 (max) 與Gemini 3.1 Pro也成功解答,參閱)。


馬丁?海勒(Martin Hairer)

2024年于德國參加第11屆海德堡獲獎者論壇

圖源:Kreutzer/HLFF

開放性問題發布僅一個月后,由11位頂尖數學家組成的團隊(包括2014年菲爾茲獎得主馬丁?海勒、2010年奈望林納獎得主丹尼爾?斯皮爾曼)提出 “首個證明” (FirstProof)挑戰,包含10道數學題,難度相當于引理,均來自作者研究過程中自然產生的問題,證明過程約5頁以內,且從未對外公開。


丹尼爾?斯皮爾曼(Daniel Spielman)

2023年于德國參加第10屆海德堡獲獎者論壇

圖源:Flemming/HLFF

“首個證明” 挑戰是一項初步嘗試 https://1stproof.org ,用于評估人工智能系統獨立解決研究級數學問題的能力。OpenAI與谷歌DeepMind的實驗系統表現最佳,解出約一半題目。

基于這些結果,“首個證明” 項目的研究者正在設計第二批難度更高的題目,于2026年3月至6月完成出題、測試與評分,并將形成正式基準。

數學基準測試走到盡頭了嗎?

但這個基準,或者 FrontierMath:開放性問題,能維持多久?如果技術按照當前速度發展,答案是否定的。近期,谷歌 DeepMind的實驗人工智能系統 Aletheia 自主產出博士級研究成果——算術Hirzebruch比例性的特征權重Eigenweights for arithmetic Hirzebruch Proportionality https://doi.org/10.48550/arXiv.2601.23245 。

盡管在數學上較為小眾 —— 計算算術幾何中一類名為特征權重的結構常數 —— 但該成果全新、具備一定研究價值且可發表。另請參閱

在其他領域,數學家已將人工智能公司Harmonic的推理智能體亞里士多德、其他同類產品及頂尖大語言模型應用于部分埃爾德什問題 https://www.erdosproblems.com 。這些問題由匈牙利多產數學家保羅?埃爾德什在職業生涯中提出但未解決,共計1217道(其中674道仍未解決,原文寫的是692道,此處譯者更新,譯者注),難度各異。近期,人工智能接連找到多道埃爾德什問題的解答并完成形式化驗證 https://www.erdosproblems.com/forum/thread/blog:2 ,這些成果同樣全新且具備研究價值。


1985年,保羅?埃爾德什(Paul Erd?s)指導十歲的陶哲軒(Terence Tao)學習。

圖源:Billy或Grace Tao

結合這些進展與當前發展速度,展望未來,想象GPT-10或Gemini 8能產出遠超 “具備一定研究價值”、甚至是重大突破性的成果,并非不切實際。

如果人工智能達到這一水平,人類將不再用數學為人工智能設定基準,而是將人工智能視為數學研究過程中的積極參與者。

參考資料

https://scilogs.spektrum.de/hlf/why-we-are-running-out-of-mathematics-based-ai-reasoning-benchmarks/

https://www.telegraph.co.uk/news/2026/04/11/chart-topping-singer-turns-out-to-be-ai/

https://automaton-media.com/en/news/ai-generated-isekai-novel-that-won-a-literary-contest-grand-prize-and-readers-choice-award-has-its-book-publication-and-manga-adaptation-cancelled/

https://www.nytimes.com/2022/09/02/technology/ai-artificial-intelligence-artists.html

https://github.com/google-deepmind/mathematics_dataset

https://github.com/openai/grade-school-math

https://huggingface.co/datasets/qwedsacf/competition_math

https://epoch.ai/frontiermath/open-problems

https://doi.org/10.48550/arXiv.2602.05192

https://1stproof.org

https://doi.org/10.48550/arXiv.2601.23245

https://www.erdosproblems.com

https://www.erdosproblems.com/forum/thread/blog:2

小樂數學科普本月文章

版權聲明:本文首發于微信公眾號“zzllrr小樂”的專欄《小樂數學科普》。歡迎個人轉發。如需轉載,請在“zzllrr小樂”公眾號后臺回復“轉載”,還可通過公眾號菜單、發送郵件到zzllrr@gmail.com與我們取得聯系。相關圖文音視頻內容默認遵守CC BY-NC 4.0知識共享協議,未獲作者和譯者授權,禁止用于營銷宣傳和商業目的。

·開放 · 友好 · 多元 · 普適 · 守拙·


讓數學

更加

易學易練

易教易研

易賞易玩

易見易得

易傳易及

歡迎評論、點贊、在看、在聽

收藏、分享、轉載、投稿

查看原始文章出處

點擊底部一起捐

助力騰訊公益

點擊zzllrr小樂

公眾號主頁

右上角

置頂★加星

數學科普不迷路!

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
文班:付出那么多努力卻把勝利拱手讓人,感覺真的很痛苦

文班:付出那么多努力卻把勝利拱手讓人,感覺真的很痛苦

懂球帝
2026-06-11 12:29:32
iOS 27更新非常大,可惜我們只能用用調休鬧鐘。

iOS 27更新非常大,可惜我們只能用用調休鬧鐘。

差評XPIN
2026-06-09 07:06:39
“未來幾年,不會有一滴水流向巴基斯坦”

“未來幾年,不會有一滴水流向巴基斯坦”

每日經濟新聞
2026-06-10 23:21:05
一米護欄網片報價800元、一顆螺栓20元,寶雞車主撞壞護欄,定損遭遇糊涂賬

一米護欄網片報價800元、一顆螺栓20元,寶雞車主撞壞護欄,定損遭遇糊涂賬

大風新聞
2026-06-08 23:15:27
記者:阿爾瓦雷斯情緒非常低落,他對馬競散播的言論感到憤怒

記者:阿爾瓦雷斯情緒非常低落,他對馬競散播的言論感到憤怒

懂球帝
2026-06-11 10:02:51
NBA|文班32+8,馬刺扳回一城,本賽季大結局還有懸念

NBA|文班32+8,馬刺扳回一城,本賽季大結局還有懸念

澎湃新聞
2026-06-09 11:36:30
河北殘障老人無薪扛水泥20年?被奴役這么久,為何全村裝看不見?

河北殘障老人無薪扛水泥20年?被奴役這么久,為何全村裝看不見?

見骨筆記
2026-06-11 08:15:36
兩年前專家都說他會毀掉阿根廷,如今數據打臉

兩年前專家都說他會毀掉阿根廷,如今數據打臉

斌聞天下
2026-06-11 07:00:07
70歲智者警告:人活一世,保護好自己最好的方式,就這兩句話

70歲智者警告:人活一世,保護好自己最好的方式,就這兩句話

心理觀察局
2026-06-10 07:00:09
一周兩次登門求復合,中方通稿沒提“鐵桿”,巴方該醒醒了

一周兩次登門求復合,中方通稿沒提“鐵桿”,巴方該醒醒了

咸魚金腦袋
2026-06-10 15:47:09
霍爾木茲大消息,伊朗向試圖通過的船只開火!特朗普:秘密幫200多艘商船、1億桶石油通過!美軍向油輪開火致多人失蹤,國際海事組織譴責

霍爾木茲大消息,伊朗向試圖通過的船只開火!特朗普:秘密幫200多艘商船、1億桶石油通過!美軍向油輪開火致多人失蹤,國際海事組織譴責

每日經濟新聞
2026-06-11 07:58:08
遲到一分鐘被拒后續:知情人透露更多細節,原來有三次救命機會!

遲到一分鐘被拒后續:知情人透露更多細節,原來有三次救命機會!

云舟史策
2026-06-10 14:45:00
旅游旺季,福特銳界L準備好了,你呢?

旅游旺季,福特銳界L準備好了,你呢?

道哥說車
2026-06-11 10:11:34
廣西興安突發爆炸致7死17傷,后續現場曝光,內幕被知情人曝光

廣西興安突發爆炸致7死17傷,后續現場曝光,內幕被知情人曝光

老登有事說
2026-06-11 09:57:41
曾被全網罵“表情猙獰”的高考誓師女孩,活成所有人羨慕的樣子

曾被全網罵“表情猙獰”的高考誓師女孩,活成所有人羨慕的樣子

魔都姐姐雜談
2026-06-11 10:57:21
大博阿滕:我曾經與女友每周纏綿至少七八次,上場后雙腿無力

大博阿滕:我曾經與女友每周纏綿至少七八次,上場后雙腿無力

懂球帝
2026-06-11 10:02:52
社評:比利時首相不是“怕中國”,而是怕承擔責任

社評:比利時首相不是“怕中國”,而是怕承擔責任

環球網資訊
2026-06-11 00:16:10
南昌女孩缺考越扒越有!班級前2能上985,老師犀利嘲諷,家長發聲

南昌女孩缺考越扒越有!班級前2能上985,老師犀利嘲諷,家長發聲

奇思妙想草葉君
2026-06-10 18:02:07
唐斯造28年紀錄,布倫森36+5+7頂級3D絕殺,尼克斯逆轉馬刺創歷史

唐斯造28年紀錄,布倫森36+5+7頂級3D絕殺,尼克斯逆轉馬刺創歷史

釘釘陌上花開
2026-06-11 11:41:12
北海銀灘強逼消費后續!多位受害者實錘,惡霸身份曝光,文旅淪陷

北海銀灘強逼消費后續!多位受害者實錘,惡霸身份曝光,文旅淪陷

奇思妙想草葉君
2026-06-10 18:31:26
2026-06-11 14:19:00
小樂數學科普 incentive-icons
小樂數學科普
zzllrr小樂,小樂數學科普,讓前沿數學流行起來~
417文章數 7關注度
往期回顧 全部

科技要聞

淘寶、京東、拼多多、抖音、小紅書被約談

頭條要聞

伊朗革命衛隊:發射12枚彈道導彈 摧毀美軍"大量戰機"

頭條要聞

伊朗革命衛隊:發射12枚彈道導彈 摧毀美軍"大量戰機"

體育要聞

2026世界杯,我們看什么?

娛樂要聞

《花少8》陣容大揭秘!秒殺前一季

財經要聞

干細胞生意:17萬一針的希望

汽車要聞

埃安i60 530寧德時代版上市限時煥新價10.36萬起

態度原創

教育
本地
親子
時尚
公開課

教育要聞

第23課-開會說這幾句話,讓你贏得客戶領導贊揚

本地新聞

世界杯還沒開始,蘇超已經火到爆梗

親子要聞

體溫飆到40.6℃,已有學校臨時停課

畢業季,為林徽因正名的年輕女孩們

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版