網易首頁 > 網易號 > 正文申請入駐

為何基于數學的AI推理基準正逐漸枯竭——譯自HLF海德堡桂冠論壇

2026-05-21 00:05:14　來源: 小樂數學科普

江蘇舉報

分享至

★置頂zzllrr小樂公眾號，追蹤《小樂數學科普》系列報道！

當下數學類AI推理評測基準已逐漸匱乏，隨著AI數學推理能力飛速進步，現成可用來測評能力的標準化試題越來越少，未來人類或將不再只用數學題目測評AI，轉而讓AI正式參與到前沿數學研究當中。

作者：Benjamin Skuse（本杰明·斯庫斯，英國科普作家）

HLF海德堡桂冠論壇博客 2026-5-13

譯者：zzllrr小樂（數學科普公眾號）2026-5-21

求喜歡

近期，人工智能公司Anthropic的首席執行官提出，該公司旗下熱門通用大語言模型Claude具備意識。對此，Claude謙遜地給自己具備意識的概率定為15%到20%。與此同時，其他主流大語言模型及相關AI人工智能系統，已成功完成曾被認為只有人類才能完成的復雜任務 —— 包括創作并錄制登頂榜單的熱門歌曲、撰寫獲獎小說，甚至創作出具備頂級獎項水準的藝術作品（參閱文末參考文獻）。

Anthropic CEO Dario Amodei

圖源：TechCrunch

這些成就是否意味著人工智能在創造力與推理能力上已達到或超越人類？我們又該如何判斷？至少就目前而言，我們可以借助數學來尋找答案。

奠基時期

數學是人工智能研究者最青睞的測試領域之一，因為它需要建立在嚴密邏輯基礎上的精確分步推理，且能被嚴格、自動地驗證，避免了主觀判斷或成本高昂的測試。

2017年，基于注意力機制處理序列數據的神經網絡 Transformer 架構問世，此后人工智能語言模型的能力以驚人速度提升。與之適配，人工智能基準測試也變得越來越復雜。

最早的數學類人工智能基準之一是谷歌 DeepMind 推出的數學數據集 https://github.com/google-deepmind/mathematics_dataset 。該數據集于2019年發布，包含超過1億組問答對，難度相當于優秀小學生水平，問題長度限制在160字符內，答案不超過30字符。由于數據由自動生成，題目形式多樣但均為程序化題型，只要記得一點中小學數學知識就能輕松解答。例如：

問題：計算 - 841880142.544 + 411127

答案：- 841469015.544

問題：從 qqqkkklkqkkk 中無放回抽取三個字母，求序列為 qql 的概率

答案：1/110

該基準剛發布時，部分頂尖人工智能模型得分約為35%，但包括2020年發布的OpenAI GPT-3 在內的許多模型表現不佳，因為它們缺乏思維鏈推理能力，無法進行多步代數運算，只能直接預測答案。

2023年，隨著GPT-4與谷歌Gemini發布，其強大的推理能力讓得分突破90%，數學數據集最終被扔進歷史的垃圾桶 —— 這是基準測試生命周期中的飽和階段，說得更直白些，就是過時淘汰。

高中數學

早在數學數據集達到飽和之前，人工智能研究者就已開始設計難度更高的數學類基準。2021年，GSM8K https://github.com/openai/grade-school-math 與命名直白的MATH基準 https://huggingface.co/datasets/qwedsacf/competition_math 同步發布，旨在測試人工智能的多步數學推理能力。

OpenAI推出的GSM8K由人類出題者編寫，包含8500道數學題，難度相當于優秀初中生，只需2到8步即可解答。以下是示例問答：

問題：阿里是一所私立學校的校長，他在該校教授一個班級。約翰是一所公立學校的校長，約翰的學校有兩個班級。每個班級的容量是阿里班級的1/8，而阿里的班級可容納120名學生。兩所學校的總容量是多少？

答案：150

GSM8K發布僅兩年多，GPT-4就取得92%的正確率，該基準基本達到飽和。

MATH基準的表現稍好一些。該基準由加州大學伯克利分校的研究者設計，包含12500道來自高中數學競賽的難題。數據顯示，即使是普通計算機專業博士，在該基準上的得分也僅約40%。相比之下，該基準剛發布時，頂尖人工智能模型得分僅為5%。示例如下：

問題：求所有p的值，使得對任意q>0，都有3 (pq2+p2q+3q2+3pq)/(p+q) > 2p2q。用十進制區間表示答案。

答案：[0,3)

但到2024年，MATH也步GSM8K后塵走向淘汰，前沿模型得分突破90%，其中OpenAI o1達到94.8%。

人工智能研究者需要新的攻關方向，一些人已將目光投向最高級別高中數學競賽 —— 國際數學奧林匹克（IMO）。

2015 IMO閉幕式

圖源：Wikimedia Z3144228

國際數學奧林匹克：頂級數學競賽

國際數學奧林匹克每年舉辦一屆，吸引來自100多個國家的選手參與，被公認為全球最具聲望的數學競賽。盡管只需在兩場4.5小時的比賽中完成6道題目，但每道題都難度極高。

不出所料，IMO獲獎者在職業生涯中取得重要數學突破的概率遠高于其他人。例如，首位獲得菲爾茲獎的女性瑪麗安?米爾扎哈尼是IMO金牌得主；全球最知名數學家之一、同樣獲得菲爾茲獎的陶哲軒，分別在10歲、11歲、12歲獲得IMO銅牌、銀牌與金牌。

2024年，由谷歌AlphaProof與AlphaGeometry 2組成的混合系統，成為首個在IMO中解出6道題里4道的人工智能。這一成績相當于銀牌，但測試并未在競賽規則下進行。

關鍵在于，每道題都必須手動翻譯成形式化數學語言，系統才能理解，這是一項耗時費力的工作。不過，一旦完成翻譯，結合了類Gemini大語言模型與幾何定律形式化引擎的人工智能系統AlphaGeometry 2，僅用19秒就解出一道題；而結合大語言模型與強化學習算法的AlphaProof，在三天內解出兩道代數題與一道數論題。

僅僅一年后，IMO對最先進的人工智能模型而言已不再是有挑戰性的測試。谷歌DeepMind與OpenAI的實驗系統在2025年IMO中取得金牌水平成績，均正確解答6道題中的5道。重要的是，它們在競賽時限內用自然語言完成解題，不再需要將題目手動翻譯為形式化數學語言，并通過大規模樹狀搜索，讓人工智能在確定推理路徑前探索數千個邏輯分支。

真實的開放性數學問題

這些里程碑式的成果，讓基于數學的人工智能基準陷入困境。技術發展過于先進，設計出既有簡潔答案又具備足夠難度的題目變得越來越難。此外，發展速度極快，基準測試在一年內達到飽和的可能性正快速升高。

正因如此，新推出的基準顯著提升了難度；事實上，它們開始要求人工智能解決人類知識前沿甚至超越前沿的問題。

例如，非營利研究機構Epoch AI推出名為FrontierMath的基準，詳情參閱。該基準包含350多道高難度題目，難度覆蓋本科至博士后初期階段，均有人類已得出的答案。截至目前，表現最佳的是 GPT-5.4 Pro (xhigh)，得分50%，但該分數持續上升，FrontierMath團隊預計它將在未來一兩年內達到飽和。

為此，他們又設計了 FrontierMath：開放性問題 https://epoch.ai/frontiermath/open-problems 。該模塊包含15道來自數學研究的開放性問題，均為專業數學家嘗試過但未能解答的難題。這些問題的答案，至少對部分數學家而言有一定研究價值，最佳情況則代表重大突破。自發布以來，僅有一道中等價值的問題被人工智能解決（最先由GPT-5.4 Pro解出，隨后 Claude Opus 4.6 (max) 與Gemini 3.1 Pro也成功解答，參閱）。

馬丁?海勒（Martin Hairer）

2024年于德國參加第11屆海德堡獲獎者論壇

圖源：Kreutzer/HLFF

開放性問題發布僅一個月后，由11位頂尖數學家組成的團隊（包括2014年菲爾茲獎得主馬丁?海勒、2010年奈望林納獎得主丹尼爾?斯皮爾曼）提出 “首個證明” （FirstProof）挑戰，包含10道數學題，難度相當于引理，均來自作者研究過程中自然產生的問題，證明過程約5頁以內，且從未對外公開。

丹尼爾?斯皮爾曼（Daniel Spielman）

2023年于德國參加第10屆海德堡獲獎者論壇

圖源：Flemming/HLFF

“首個證明” 挑戰是一項初步嘗試 https://1stproof.org ，用于評估人工智能系統獨立解決研究級數學問題的能力。OpenAI與谷歌DeepMind的實驗系統表現最佳，解出約一半題目。

基于這些結果，“首個證明” 項目的研究者正在設計第二批難度更高的題目，于2026年3月至6月完成出題、測試與評分，并將形成正式基準。

數學基準測試走到盡頭了嗎？

但這個基準，或者 FrontierMath：開放性問題，能維持多久？如果技術按照當前速度發展，答案是否定的。近期，谷歌 DeepMind的實驗人工智能系統 Aletheia 自主產出博士級研究成果——算術Hirzebruch比例性的特征權重Eigenweights for arithmetic Hirzebruch Proportionality https://doi.org/10.48550/arXiv.2601.23245 。

盡管在數學上較為小眾 —— 計算算術幾何中一類名為特征權重的結構常數 —— 但該成果全新、具備一定研究價值且可發表。另請參閱

在其他領域，數學家已將人工智能公司Harmonic的推理智能體亞里士多德、其他同類產品及頂尖大語言模型應用于部分埃爾德什問題 https://www.erdosproblems.com 。這些問題由匈牙利多產數學家保羅?埃爾德什在職業生涯中提出但未解決，共計1217道（其中674道仍未解決，原文寫的是692道，此處譯者更新，譯者注），難度各異。近期，人工智能接連找到多道埃爾德什問題的解答并完成形式化驗證 https://www.erdosproblems.com/forum/thread/blog:2 ，這些成果同樣全新且具備研究價值。

1985年，保羅?埃爾德什（Paul Erd?s）指導十歲的陶哲軒（Terence Tao）學習。

圖源：Billy或Grace Tao

結合這些進展與當前發展速度，展望未來，想象GPT-10或Gemini 8能產出遠超 “具備一定研究價值”、甚至是重大突破性的成果，并非不切實際。

如果人工智能達到這一水平，人類將不再用數學為人工智能設定基準，而是將人工智能視為數學研究過程中的積極參與者。

參考資料

https://scilogs.spektrum.de/hlf/why-we-are-running-out-of-mathematics-based-ai-reasoning-benchmarks/

https://www.telegraph.co.uk/news/2026/04/11/chart-topping-singer-turns-out-to-be-ai/

https://automaton-media.com/en/news/ai-generated-isekai-novel-that-won-a-literary-contest-grand-prize-and-readers-choice-award-has-its-book-publication-and-manga-adaptation-cancelled/

https://www.nytimes.com/2022/09/02/technology/ai-artificial-intelligence-artists.html

https://github.com/google-deepmind/mathematics_dataset

https://github.com/openai/grade-school-math

https://huggingface.co/datasets/qwedsacf/competition_math

https://epoch.ai/frontiermath/open-problems

https://doi.org/10.48550/arXiv.2602.05192

https://1stproof.org

https://doi.org/10.48550/arXiv.2601.23245

https://www.erdosproblems.com

https://www.erdosproblems.com/forum/thread/blog:2

小樂數學科普本月文章

·開放 · 友好 · 多元 · 普適 · 守拙·

讓數學

更加

易學易練

易教易研

易賞易玩

易見易得

易傳易及

歡迎評論、點贊、在看、在聽

收藏、分享、轉載、投稿

查看原始文章出處

點擊底部一起捐

助力騰訊公益

點擊zzllrr小樂

公眾號主頁

右上角

置頂★加星

數學科普不迷路！

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.