網易首頁 > 網易號 > 正文申請入駐

馬丁·海勒（Martin Hairer）教授近期接受《紐約時報》采訪分享他對數學和AI人工智能的見解

2026-02-12 12:24:30　來源: 小樂數學科普

江蘇舉報

分享至

★置頂zzllrr小樂公眾號（主頁右上角）數學科普不迷路！

EPFL（洛桑聯邦理工學院）很高興與大家分享近期《紐約時報》于2026年2月7日刊登的對其主任馬丁·海勒教授的專訪。在這次內容廣泛的對話中，海勒教授反思了人工智能與數學研究之間不斷演變的關系，探討了人工智能在解決深奧的數學問題方面能夠做什么，以及不能做什么。

作為菲爾茲獎得主，他結合自身經驗，深入剖析了當今的前沿實驗、現有人工智能系統在證明原創性結論方面的局限性，以及人類創造力在數學領域經久不衰的作用。此次訪談為我們提供了一個富有洞見的視角，讓我們得以了解人工智能如何重塑數學研究，同時也重申了嚴謹數學思維的基礎性重要性。

作者：EPFL洛桑聯邦理工學院官網 & Siobhan Roberts（紐約時報記者）2026-2-11

譯者：zzllrr小樂（數學科普公眾號）2026-2-12

《紐約時報》原文標題——對話：這群數學家正在測試 AI人工智能

大語言模型難以解決研究級別的數學問題。要判斷它們到底有多差，還得靠人類。

馬丁?海勒身著深綠色高領毛衣，在寫滿公式與圖表的黑板前留影。

馬丁?海勒（Martin Hairer），瑞士洛桑聯邦理工學院數學家。他同時在該校與倫敦帝國理工學院任職。

圖片版權：Aurelien Bergot，《紐約時報》

文 / 西沃恩?羅伯茨（Siobhan Roberts）發表于2026年2月7日

更新于2026年2月10日

幾周前，一名高中生給以驚人創造力聞名的數學家馬丁?海勒（Martin Hairer）發了一封郵件。這名少年立志成為數學家，但隨著AI人工智能的崛起，他開始產生懷疑。“很難理解到底發生了什么，” 他寫道，“感覺這些模型每天都在進步，用不了多久，我們就會變得毫無用處。”

他問道：“如果有一臺機器在解題上遠比我們厲害，數學難道不會失去一部分魔力嗎？”

海勒博士于 2014 年獲得數學界最高榮譽菲爾茲獎（Fields Medal），并于 2021 年獲得獎金豐厚的科學突破獎（Breakthrough Prize）。他同時任職于瑞士洛桑聯邦理工學院（EPFL）與倫敦帝國理工學院（Imperial College London）。在回復這名學生時，他指出，很多領域都在面對 AI 帶來的 “被淘汰” 焦慮。

“我相信數學其實相當‘安全’。” 海勒博士說。他提到，大語言模型（LLM）—— 也就是聊天機器人的核心技術 —— 現在確實很擅長解決人為設計出來的題目。但他表示：“我還沒見過任何一個可信的例子，能證明 LLM 提出了真正全新的想法和（或）概念。”

海勒博士在談論一篇題為

First Proof

（首輪驗證）的新論文 https://arxiv.org/abs/2602.05192 時，提到了這段對話。這篇論文由他與多位數學家合著，包括：斯坦福大學的穆罕默德?阿布扎伊德（Mohammed Abouzaid）、哈佛大學的勞倫?威廉姆斯（Lauren Williams）、運營舊金山灣區咨詢公司 MathSci.ai 的塔瑪拉?科爾達（Tamara Kolda）。

這篇論文介紹了一項剛剛啟動的實驗：收集來自作者未發表研究的真實測試題，旨在為 AI 的數學能力提供一次有實際意義的衡量。

作者們希望，這項研究能為 “AI 已‘攻克’數學領域” 這類常常過于夸張的敘事增添更細致的視角，并減輕炒作帶來的后果 —— 比如嚇走下一代學生、讓科研資助者卻步。

“盡管商用 AI 系統無疑已經達到了可以成為數學家有用工具的水平，” 作者們寫道，“但在沒有專家介入的情況下，AI 系統獨立解決研究級數學問題的能力究竟如何，目前仍不明確。”

AI 公司使用一些數學家口中 “人為編造” 或 “限制條件過多” 的題目，來評估和評測 LLM 在無人輔助下的表現【https://epoch.ai/frontiermath 詳情參閱】。有時，他們會邀請數學家出題，每題報酬約 5000 美元。（First Proof 項目的所有作者均與 AI 公司無任何關聯。）

去年4月，2017 年數學新視野獎（New Horizons in Mathematics Prize）得主阿布扎伊德博士拒絕了這樣一份邀請。

“我認為應該有一項更廣泛、獨立且公開的行動。” 他說。他補充道，First Proof 項目就是第一輪嘗試。

“目標是對 AI 的研究能力做出客觀評估。” 近期獲得古根海姆學者與麥克阿瑟學者稱號的勞倫?威廉姆斯（Lauren Williams）博士說。

勞倫?威廉姆斯身著深紅色高領毛衣，在哈佛大學一棟建筑的欄桿旁留影。

哈佛大學的勞倫?威廉姆斯。

圖片版權：露西?盧（Lucy Lu），《紐約時報》

在這項實驗中，來自不同數學領域的作者們，每人貢獻了一道來自自己正在進行但尚未發表的研究的測試題。他們也確定了答案；這些解答已在線加密，將于2月13日公布 https://1stproof.org 。

“我們的目標是理解邊界 ——AI 究竟能在多大程度上超越它的訓練數據和在網上找到的現有解法？” 科爾達博士說。她是少數當選美國國家工程院院士的數學家之一。

研究團隊對 OpenAI 的 ChatGPT?5.2 Pro 與谷歌的 Gemini 3.0 Deep Think 進行了初步測試。作者寫道，在僅給一次作答機會的情況下，“目前公開可用的最佳 AI 系統在回答我們的許多問題時都十分吃力。”

論文引言對標題做出了解釋：“在烘焙中，首輪發酵（first proof首次醒發）是關鍵步驟：將整團面團作為一個整體發酵，之后再分割、塑形為面包。” 在發布第一批測試題后，團隊邀請數學界共同探索。幾個月后，在意見與思路 “發酵” 之后，將開展第二輪更結構化的評測，使用全新一批題目。

團隊趕在歐拉日（Euler Day）——2月7日，星期六 —— 發布了 First Proof 論文。該節日以 18 世紀瑞士數學家萊昂哈德?歐拉（Leonhard Euler）命名。日期對應歐拉數，一個像圓周率 π 一樣用途廣泛的數學常數，約等于 2.71828……，記為 e。神經網絡 AI 系統的訓練，基于歐拉為求解常微分方程所發現的方法，即歐拉法（Euler’s method）。

以下對話通過視頻會議與郵件進行，經精簡與編輯以便清晰閱讀。

問：First Proof 方法與其他評測工作相比，新穎之處在哪？

穆罕默德?阿布扎伊德（Mohammed Abouzaid）：最主要的新穎點是，我們的測試題真正取自我們自己的研究—— 從我們關心的問題出發。在這個范圍內，我們嘗試設計可以被測試的問題。

問：什么樣的問題適合用來測試？

當前的 AI 系統有一些公認的局限。比如，它們在視覺推理上出了名地差，所以我們避開了這類問題；如果我們的目標是刻意刁難，就會出帶圖的題。

而且，公司會限制模型單次回復的長度，因為超過一定長度后答案質量會下降，所以我們確保避免答案需要超過五頁篇幅的問題。

問：論文謹慎地澄清了 “什么是數學研究”。它到底是什么？

阿布扎伊德：在現代研究中，關鍵一步往往是識別出核心驅動問題，以及應該從什么方向去處理這個問題。這涉及各種前期工作，而數學創造力就體現在這里。

一旦問題被解決，數學家往往會根據由此引出的新問題，來評價研究貢獻的重要性。有時，以某種方式解決一個猜想反而會令人失望，因為它堵死了產生新研究問題的可能。

穆罕默德?阿布扎伊德身著夾克襯衫，未系領帶，在戶外條板墻前留影。

斯坦福大學的穆罕默德?阿布扎伊德（Mohammed Abouzaid）

圖片版權：卡羅琳?方（Carolyn Fong），《紐約時報》

勞倫?威廉姆斯（Lauren Williams）：我打個不太嚴謹的比方。在實驗科學里，我可以把研究分成三部分：一、提出重大問題，希望其研究能照亮我們的領域；二、設計實驗來回答這個問題；三、執行實驗并分析結果。

我可以類似地把數學研究分成對應的三部分：一、提出重大問題，希望其研究能引領我們的領域；二、構建求解框架，把大問題拆成更小、更容易處理的問題 —— 就像我們的測試題；三、找到這些小問題的解，并證明其正確性。

這三部分都必不可少。在 First Proof 項目中，我們聚焦第三部分，因為它最容易被量化。我們可以用小而定義清晰的問題去詢問 AI 模型，然后判斷答案是否正確。如果讓 AI 提出大問題或構建框架，評估其表現會難得多。

問：AI 系統在 “首輪驗證” （First Proof）評測中表現如何？

威廉姆斯：針對我的問題，有一次測試出現了一連串有趣的回復。模型會給出一個答案，然后說 “好了，這就是最終解”。接著又說 “等等，停一下，這個情況呢？” 然后以某種方式修改答案。如此反復：“好了，最終解。等等，這里有個坑！” 它陷入了無限循環。

還有一次回答，解的是一道高度相關但并不相同的題。

塔瑪拉?科爾達（Tamara Kolda）：我的初步結果令人失望：AI 完全搞不懂問題，在答案的某些部分忽略關鍵信息，而且邏輯根本不連貫。我后來修改了問題表述，加了更明確的說明，試圖給 AI 更好的機會。最終結果如何，我們拭目以待。

馬丁?海勒（Martin Hairer）：我整體注意到一點：模型傾向于在簡單的地方鋪陳大量細節，你會心想：“行吧，快點，這些我聽膩了。”而到了論證的關鍵部分，它又說得極少。

有時就像在讀一篇差勁本科生寫的論文：他們大概知道起點在哪，也知道要去哪，但真的不知道怎么過去。于是東拉西扯，到某個點直接塞一句 “因此”，然后祈禱正確。

問：聽起來就是典型的 “糊弄式論證”—— 缺乏嚴謹，跳過復雜環節。

海勒：對，它特別擅長給出這種糊弄式的答案。

問：所以你并不 impressed（被打動）？

海勒：不，我不會這么說。有些時候我其實相當 impressed—— 比如，它能把一堆已知論證串起來，中間夾雜一些計算，而且做得相當正確。這方面它確實很厲害。

問：在你理想的世界里，AI 能為你做什么？

海勒：目前 LLM 的輸出很難讓人信任。它們表現得無比自信，但你要花很大力氣才能確認答案到底對不對；我覺得這在智力上很折磨人。

再說一次，這就像面對一個研究生，你說不清他是真的強，還是只是很會胡說八道。理想的模型應該是可以信任的。

科爾達：AI 被吹得像同事或合作者，但我并不覺得是真的。我的人類同事有各自獨特的視角，我尤其喜歡和他們辯論不同觀點。而 AI 只有我讓它有的觀點，這一點意思都沒有！

我越來越擔心的一點是，AI 可能會無意中減慢科學進步。理論物理學家馬克斯?普朗克有句名言常被引用：“科學是在一場場葬禮中進步的。” 我很清楚，我的觀點可能大錯特錯。但如果我的觀點被編碼進 AI 系統并永遠保留下去，會不會阻礙新科學思想的演進？

參考資料

https://actu.epfl.ch/news/prof-m-hairer-on-artificial-intelligence-and-mathe/

https://www.nytimes.com/2026/02/07/science/mathematics-ai-proof-hairer.html

https://arxiv.org/abs/2602.05192

https://1stproof.org

https://epoch.ai/frontiermath

https://arxiv.org/abs/2509.26076

https://arxiv.org/abs/2505.12575

小樂數學科普近期文章

·開放 · 友好 · 多元 · 普適 · 守拙·

讓數學

更加

易學易練

易教易研

易賞易玩

易見易得

易傳易及

歡迎評論、點贊、在看、在聽

收藏、分享、轉載、投稿

查看原始文章出處

點擊zzllrr小樂

公眾號主頁

右上角

置頂加星★

數學科普不迷路！

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.