![]()
AI在數學領域的每一次突破都能引爆科技圈。上個月,OpenAI的系統剛剛攻克了已故數學家保羅·埃爾德什留下的一道80年懸案,舉世矚目。然而就在6月10日,一項名為"First Proof"的嚴格數學基準測試給出了更冷靜的評估:面對十道全新的研究級數學難題,表現最好的AI系統只解出了其中六道,頂尖人類數學家的綜合解題能力,目前依然超過所有參賽的AI模型。
這項測試由哈佛大學等機構的數學家聯合發起,核心設計理念只有一個:徹底堵死AI"背答案"的可能性。
現有的大多數AI數學基準測試存在一個根本漏洞:題目來自已發表的競賽題庫或教科書,而這些內容很可能早已出現在AI的訓練數據中。模型看似在"推理",實則可能只是在"回憶"。
這是同類測試中第一個同時滿足三個條件的基準:研究級難度、全新未見題目、數學家正式評分。
參與測試的四支AI隊伍來路各異。OpenAI以ChatGPT 5.5 Pro單獨參賽,另外三支學術團隊分別來自蘇黎世聯邦理工學院(ETH)、加州大學洛杉磯分校(UCLA)和普林斯頓大學,他們在現有聊天機器人基礎上構建了各自的"測試平臺",通過多模型協作、反復驗證等方式增強系統的解題能力。
結果顯示,ETH團隊的系統表現最佳,解出了十題中的六道。該系統的設計頗為獨特:ChatGPT給出答案后,會交由另外三個主流聊天機器人組成的"顧問委員會"進行審核和修正,形成一套類似學術討論的多輪交互機制。UCLA團隊以ChatGPT為基礎構建的框架位居第二,OpenAI原版ChatGPT和普林斯頓團隊的系統分列三四位。
ETH團隊成員約翰內斯·施密特在賽后復盤中描述了AI卡殼的典型模式:有些題目,系統掌握了正確的大方向和基本框架,卻在最后一步"差那么一點點",無法補上人類數學家會憑直覺跳過的那個關鍵躍遷。"系統缺少的,是那個出乎意料但恰到好處的核心想法,"他說。這種描述聽起來像是AI在數學推理上的一道尚未逾越的認知門檻。
60分的成績,放在任何人類數學競賽中都算相當優秀。但哈佛大學數學家、First Proof團隊成員勞倫·威廉姆斯指出,那些被所有AI系統共同卡住的題目,往往有一個共同特征:它們所涉及的數學方向,與AI訓練數據中出現過的已知問題在主題或證明路徑上相差較遠。這隱隱指向一個尚未解決的問題:AI在數學推理上的能力,是否仍然高度依賴模式匹配,而不是真正的邏輯創造?
這不只是格式問題,它觸及一個更深層的隱患:如果AI系統無法準確區分"自己推導出來的"和"從訓練數據中檢索到的",那么其輸出結果的可信度就需要始終保持警惕。卡內基梅隆大學計算機輔助數學推理研究所所長杰里米·阿維加德肯定了這次測試在方法論上的進步,同時也指出這些細節上的漏洞是未來改進的方向。
對于整個AI數學研究領域來說,First Proof的意義或許不只是一次成績單。測試題目已經公開,那些沒有正式參賽的頂級實驗室,包括谷歌專為數學設計的Aletheia系統和Anthropic尚未完整發布的Claude Mythos,很快就會用這批題目非正式地檢驗自身能力。下一次測試的結果,可能會清晰得多。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.