網易首頁 > 網易號 > 正文申請入駐

AI數學測試遇挫：十道全新難題，頂尖模型僅解出六道

2026-06-17 08:18:38　來源: 一紙書謠

四川舉報

分享至

AI在數學領域的每一次突破都能引爆科技圈。上個月，OpenAI的系統剛剛攻克了已故數學家保羅·埃爾德什留下的一道80年懸案，舉世矚目。然而就在6月10日，一項名為"First Proof"的嚴格數學基準測試給出了更冷靜的評估：面對十道全新的研究級數學難題，表現最好的AI系統只解出了其中六道，頂尖人類數學家的綜合解題能力，目前依然超過所有參賽的AI模型。

這項測試由哈佛大學等機構的數學家聯合發起，核心設計理念只有一個：徹底堵死AI"背答案"的可能性。

現有的大多數AI數學基準測試存在一個根本漏洞：題目來自已發表的競賽題庫或教科書，而這些內容很可能早已出現在AI的訓練數據中。模型看似在"推理"，實則可能只是在"回憶"。

這是同類測試中第一個同時滿足三個條件的基準：研究級難度、全新未見題目、數學家正式評分。

參與測試的四支AI隊伍來路各異。OpenAI以ChatGPT 5.5 Pro單獨參賽，另外三支學術團隊分別來自蘇黎世聯邦理工學院（ETH）、加州大學洛杉磯分校（UCLA）和普林斯頓大學，他們在現有聊天機器人基礎上構建了各自的"測試平臺"，通過多模型協作、反復驗證等方式增強系統的解題能力。

結果顯示，ETH團隊的系統表現最佳，解出了十題中的六道。該系統的設計頗為獨特：ChatGPT給出答案后，會交由另外三個主流聊天機器人組成的"顧問委員會"進行審核和修正，形成一套類似學術討論的多輪交互機制。UCLA團隊以ChatGPT為基礎構建的框架位居第二，OpenAI原版ChatGPT和普林斯頓團隊的系統分列三四位。

ETH團隊成員約翰內斯·施密特在賽后復盤中描述了AI卡殼的典型模式：有些題目，系統掌握了正確的大方向和基本框架，卻在最后一步"差那么一點點"，無法補上人類數學家會憑直覺跳過的那個關鍵躍遷。"系統缺少的，是那個出乎意料但恰到好處的核心想法，"他說。這種描述聽起來像是AI在數學推理上的一道尚未逾越的認知門檻。

60分的成績，放在任何人類數學競賽中都算相當優秀。但哈佛大學數學家、First Proof團隊成員勞倫·威廉姆斯指出，那些被所有AI系統共同卡住的題目，往往有一個共同特征：它們所涉及的數學方向，與AI訓練數據中出現過的已知問題在主題或證明路徑上相差較遠。這隱隱指向一個尚未解決的問題：AI在數學推理上的能力，是否仍然高度依賴模式匹配，而不是真正的邏輯創造？

這不只是格式問題，它觸及一個更深層的隱患：如果AI系統無法準確區分"自己推導出來的"和"從訓練數據中檢索到的"，那么其輸出結果的可信度就需要始終保持警惕。卡內基梅隆大學計算機輔助數學推理研究所所長杰里米·阿維加德肯定了這次測試在方法論上的進步，同時也指出這些細節上的漏洞是未來改進的方向。

對于整個AI數學研究領域來說，First Proof的意義或許不只是一次成績單。測試題目已經公開，那些沒有正式參賽的頂級實驗室，包括谷歌專為數學設計的Aletheia系統和Anthropic尚未完整發布的Claude Mythos，很快就會用這批題目非正式地檢驗自身能力。下一次測試的結果，可能會清晰得多。

聲明：個人原創，僅供參考

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.