★置頂zzllrr小樂公眾號,追蹤《小樂數(shù)學(xué)科普》系列報道!
繼上周感慨“數(shù)學(xué)家冠名定理的時代或?qū)⒙淠弧保?)之后,菲爾茲獎得主蒂姆·高爾斯爵士再談AI大模型聊其缺點并宣告正在構(gòu)建透明的 “啟發(fā)式證明” 平臺,實現(xiàn)點擊式推理,將來使用者只需選擇推理步驟,無需手動書寫推導(dǎo)過程,通過點擊操作即可完成命題推廣、假言推理等常規(guī)邏輯操作。
作者:SAIR(科學(xué)與人工智能研究基金會)2026-5-13
譯者:zzllrr小樂(數(shù)學(xué)科普公眾號)2026-5-15
求喜歡
大語言模型已開始攻克真正的數(shù)學(xué)科研難題。在針對組合數(shù)學(xué)開放性問題的近期實驗中,蒂姆發(fā)現(xiàn),ChatGPT能夠優(yōu)化已知界值,得出的部分成果放在一年前的人工智能系統(tǒng)身上完全難以想象。但一份正確的證明,并不等同于數(shù)學(xué)層面的深度理解。模型是如何想出解題思路的?該思路屬于原創(chuàng)、借鑒已有文獻,還是海量隱性搜索的結(jié)果?它能否清晰闡釋求證路徑,幫助人類學(xué)習(xí)理解?
在本次演講中,蒂姆提出:
AI人工智能在數(shù)學(xué)領(lǐng)域的下一步發(fā)展,不只是強化定理證明能力,更要實現(xiàn)更具透明性的證明推導(dǎo)過程。受波利亞問題求解理論的啟發(fā),我所在的團隊正在搭建一個用于構(gòu)建 “啟發(fā)式證明” 的平臺:通過可明確呈現(xiàn)、可追溯核查的推理步驟生成證明,包括命題推廣、問題拆解、應(yīng)用已知原理、將難題化歸為簡易問題等方式。研究目標(biāo)是把漫無邊界、思路無窮多的數(shù)學(xué)探索過程,轉(zhuǎn)化為有限且結(jié)構(gòu)化的可操作流程。這類透明化證明數(shù)據(jù)庫,有望為未來人工智能系統(tǒng)訓(xùn)練提供支撐,使其開展數(shù)學(xué)研究時效率更高、邏輯可解釋性更強,同時更貼合人類思維模式。
本期視頻內(nèi)容大綱:
人工智能與數(shù)學(xué):蒂姆?高爾斯探討人工智能變革自動定理證明
攻克科研難題:ChatGPT成功求解并優(yōu)化近期數(shù)學(xué)研究問題
高階研究成果:人工智能約90分鐘產(chǎn)出博士級數(shù)學(xué)結(jié)論
透明性困境:大語言模型的推理過程與原創(chuàng)思路生成缺乏可追溯性
算力與教學(xué)短板:人工智能算力消耗過大,且缺少精細(xì)化教學(xué)引導(dǎo)能力
類人化定理證明:劍橋大學(xué)團隊研發(fā)貼合人類思維的數(shù)學(xué)解題范式
點擊式推理平臺:全新系統(tǒng)為人工智能簡化高難度數(shù)學(xué)科研問題
未來發(fā)展目標(biāo):構(gòu)建啟發(fā)性證明體系,訓(xùn)練更高效、推理更透明的人工智能
![]()
圖源:college-de-france.fr
大家好。我是蒂姆?高爾斯(Tim Gowers),一名數(shù)學(xué)家。
近些年來,其實長久以來我一直都對自動定理證明抱有研究興趣。眾所周知,近幾年,借助人工智能、大語言模型以及其他各類人工智能技術(shù),整個自動定理證明領(lǐng)域發(fā)生了顛覆性的變化。這也已經(jīng)極大改變了我看待數(shù)學(xué)的思維方式。我想先通過最近幾天發(fā)生的一件事,來說明這種影響。
人工智能攻克研究難題:ChatGPT成功求解并優(yōu)化近期科研問題
人工智能攻克各類奧數(shù)難題已經(jīng)獲得了大量輿論關(guān)注,這件事固然極具研究價值,但這類難題只是數(shù)學(xué)領(lǐng)域中很小的一部分,即便題目數(shù)量不算少,放在整個數(shù)學(xué)體系中依舊微不足道。我發(fā)現(xiàn)有很多學(xué)術(shù)論文,尤其是我所研究的組合數(shù)學(xué)領(lǐng)域,作者常會引入某個組合參數(shù)并展開研究,但往往沒有時間解答研究過程中自然衍生出的所有問題。
于是作者會在論文中留下大量待解問題,由于沒有投入足夠精力深入鉆研,其中不少問題其實難度并不高。我認(rèn)為這也很適合用來測試人工智能的能力。
就在兩三天前,具體時間我記不太清了,我使用了獲得訪問權(quán)限的 ChatGPT 5.5 Pro,讓它嘗試解答梅爾文?納桑森(Melvin Nathansson)一篇論文中關(guān)于集合可能基數(shù)大小的若干問題。這里我不具體展開問題細(xì)節(jié),只說其中部分問題難度未知,有的看似有希望求解,有的則無法預(yù)判。(詳情參閱小樂數(shù)學(xué)科普:)
人工智能很快就給出了其中一道題的解法,將原本指數(shù)級上界優(yōu)化為多項式上界。我仔細(xì)核驗了整個推導(dǎo)過程,因為我不想為錯誤論證或是模型幻覺空歡喜一場。而近期我的使用體驗是,這類出錯情況已經(jīng)比過去少了很多。經(jīng)核查,這份推導(dǎo)邏輯完全成立。
細(xì)看下來,這套論證的難度并不算高,依舊屬于當(dāng)下許多人工智能成果的共性:只需整合常規(guī)經(jīng)典思路就能完成推導(dǎo)。我認(rèn)為納桑森本人沒有做出這一優(yōu)化,僅僅是沒有把這件事當(dāng)作一段時期內(nèi)的研究重點,其實所需耗時并不會太長。
之后還有一道和第一道高度相關(guān)的問題,我繼續(xù)詢問人工智能能否求解,它同樣順利給出答案,這一點并不讓人意外。緊接著還有第三道題,在我看來難度明顯高出不少。這道題的已知結(jié)論本身推導(dǎo)難度就很大,出自麻省理工學(xué)院一位年輕數(shù)學(xué)家艾薩克?拉賈戈帕爾(Isaac Rajagopal)之手,他目前還只是該校在讀學(xué)生。
拉賈戈帕爾的這項研究成果十分出色,而人工智能找到了優(yōu)化界值的新思路。我認(rèn)為優(yōu)化這個特定界值并非拉賈戈帕爾的研究核心,他得到的原本是指數(shù)級界值,人工智能將其優(yōu)化為平方根指數(shù)級界值。這算是一次不錯的改進,雖不算驚艷,證明過程本身也并無特別出奇之處。
但在推導(dǎo)結(jié)尾,人工智能提到,若順著相關(guān)思路繼續(xù)深挖,有望將界值進一步優(yōu)化為多項式界值,這會讓研究價值大幅提升。我把這份推導(dǎo)內(nèi)容發(fā)給了梅爾文?納桑森,他又轉(zhuǎn)發(fā)給了艾薩克?拉賈戈帕爾。戈帕爾給出了相似的看法,認(rèn)為這份結(jié)果很有價值,還提出可以通過特定方式進一步優(yōu)化,甚至有可能推導(dǎo)出多項式界值。他沒有細(xì)說具體實現(xiàn)路徑,但認(rèn)為這個方向極具潛力。
于是我再次向人工智能提問,長話短說,經(jīng)過兩三輪簡單互動,我僅做了附和式引導(dǎo),告訴它這個思路很有價值、可以繼續(xù)嘗試,人工智能最終給出了這道高難度問題多項式界值的完整證明。
人工智能產(chǎn)出博士級數(shù)學(xué)成果:僅用時約90分鐘
我把這份完整證明發(fā)給艾薩克?拉賈戈帕爾后,他也頗為意外。這份證明并非只是對他原有研究的簡單優(yōu)化,其中用到了一些文獻里并未出現(xiàn)過的新思路,其余論證部分則高度依托他的原有研究。所以即便這份更強的推導(dǎo)結(jié)果,很大一部分功勞仍應(yīng)歸于拉賈戈帕爾,人工智能只是在其基礎(chǔ)上補充了全新思路。
我講這些經(jīng)歷,只是想說明:放在一年前,這樣的事情完全無法想象。整個數(shù)學(xué)領(lǐng)域的發(fā)展節(jié)奏正變得異常迅猛,沒人能預(yù)知未來的走向。
如今我們已經(jīng)走到這樣一個階段:在大語言模型出現(xiàn)之前,這類研究成果完全可以寫成一篇博士學(xué)位論文的其中一章,而現(xiàn)在人工智能僅用大約一個半小時就能完成推導(dǎo)。
這勢必會對數(shù)學(xué)領(lǐng)域本身,以及行業(yè)入門門檻產(chǎn)生巨大影響。一方面,數(shù)學(xué)研究的入門競爭會變得更加激烈;另一方面,新晉研究者可以借助大語言模型提供輔助。眼下我們面臨一個重要的開放性問題:數(shù)學(xué)初學(xué)者能否依托大語言模型,完成人工智能獨立難以攻克的研究工作?由于相關(guān)技術(shù)發(fā)展時間尚短,目前沒人能給出確切答案。
接下來我想聊聊,為何我們不必對當(dāng)下人工智能的表現(xiàn)完全滿意。
我不談這類顛覆性工具給數(shù)學(xué)界帶來的潛在社會層面難題,我并不輕視這類問題,它們真實存在,但并非本次分享的重點。我只想從推動數(shù)學(xué)發(fā)展的核心角度,聊聊為何我們不會完全認(rèn)可大語言模型的輸出結(jié)果。
推理透明性難題:大語言模型的推理邏輯與原創(chuàng)思路生成過程缺乏可追溯性
這也和我當(dāng)下以及大語言模型興起之前一直在做的研究息息相關(guān),某種程度上也算是為我和團隊的研究方向做一點闡釋。
我發(fā)現(xiàn)大語言模型有一個明顯短板:很難厘清它生成解題思路的底層邏輯。原因主要有兩點:第一,有人會提及思維鏈,但我們無從知曉這些思維鏈在多大程度上還原了模型真實的思考過程;第二,我們也無法確認(rèn),思維鏈呈現(xiàn)的內(nèi)容之外,模型是否還嘗試過大量無果的推導(dǎo)路徑,走過許多詭異的研究死胡同。
我也曾嘗試詢問大語言模型是如何想出某個解題思路的,但得到的答復(fù)往往難以令人信服。給我的直觀感受是,模型并不真正記得自身的思考過程,只能依托最終輸出結(jié)果進行推測,當(dāng)然這只是我的個人感受,并非百分百確定。
另外,即便模型給出看似合理的思路,我們也很難判定其原創(chuàng)程度。數(shù)學(xué)研究中,除非作者明確標(biāo)注論證借鑒了哪位學(xué)者的成果,否則外人往往無從知曉思路的溯源出處。
有時論文會直接引用他人定理,溯源相對簡單;但還有很多情況,研究者只是看過相似的論證邏輯,受其啟發(fā)構(gòu)思出新解法,并未正式引用前人成果,也不會特意標(biāo)注借鑒來源。
當(dāng)下大語言模型的輸出,就存在這種思路溯源不透明的問題。我們做數(shù)學(xué)研究,追求的是對數(shù)學(xué)規(guī)律的深度理解,而非僅僅拿到正確證明。
這就好比學(xué)習(xí)解題時,如果直接拿到標(biāo)準(zhǔn)答案,收獲遠(yuǎn)少于他人給出精準(zhǔn)提示、引導(dǎo)自己一步步推導(dǎo)。順帶一提,我近期做過一個小實驗:刻意扮演理解能力普通的學(xué)生,讓人工智能為我講解知識點。
效率與教學(xué)短板:人工智能運算資源消耗過大,且缺乏精細(xì)化教學(xué)引導(dǎo)能力
我發(fā)現(xiàn)人工智能的講解口吻,始終默認(rèn)聽者已經(jīng)理解相關(guān)內(nèi)容。因此我認(rèn)為,提升人工智能推理過程的透明性,是極具價值的優(yōu)化方向。但這件事存在現(xiàn)實難點:人工智能的訓(xùn)練語料大多是教科書式內(nèi)容,只會直接給出結(jié)論知識點,不會像優(yōu)秀教師那樣循循善誘、互動答疑。
模型缺少優(yōu)質(zhì)數(shù)學(xué)課的課堂實錄數(shù)據(jù),也沒有接觸過學(xué)生天馬行空、邏輯未必嚴(yán)謹(jǐn)?shù)奶釂枅鼍埃@類數(shù)據(jù)恰恰是訓(xùn)練其具備優(yōu)質(zhì)教學(xué)能力的關(guān)鍵。
還有一點讓我難以完全認(rèn)可當(dāng)下人工智能的原因:求解數(shù)學(xué)難題時,大語言模型耗費的運算資源,遠(yuǎn)超人類數(shù)學(xué)家。這里所說的運算資源,并非指整個人腦,而是專指大腦中負(fù)責(zé)邏輯推導(dǎo)運算的那部分區(qū)域。
人類數(shù)學(xué)家求解復(fù)雜數(shù)學(xué)問題,所需的運算消耗其實遠(yuǎn)低于大眾預(yù)想,這也是我一直想要深究的核心問題之一。倘若人工智能能夠攻克超高難度數(shù)學(xué)問題,卻要耗費遠(yuǎn)超人類的搜索與運算量,即便我會驚嘆于它的能力,也依舊會覺得有所缺憾。
我并非不了解里奇?薩頓的慘痛教訓(xùn)理論,也認(rèn)同他的觀點,但我仍傾向于保留傳統(tǒng)研究思路。不是忽視大語言模型的強大能力,而是希望更深層地理解背后的原理。
若是下棋這類領(lǐng)域,我們或許不必深究底層邏輯,只要實力足夠強便足矣。但數(shù)學(xué)不一樣,不只是追求解題能力出眾,如果能打造出具備類人思考模式的定理證明工具,其附加價值會更高。
類人化定理證明:劍橋大學(xué)團隊研發(fā)貼合人類思維的數(shù)學(xué)解題方法
接下來我介紹一下我在劍橋大學(xué)牽頭的自動定理證明研究團隊,很高興地告知大家,我們近期即將與某基金會展開合作。
寬泛來說,我們的研究沿襲了波利亞等學(xué)者的研究脈絡(luò):梳理人類數(shù)學(xué)解題的思維過程,總結(jié)規(guī)律并提煉通用方法論。
波利亞撰寫過諸多數(shù)學(xué)解題相關(guān)著作,很多人都愛讀,但爭議點在于,極少有人能真正通過研讀其著作、遵循其方法,切實提升自身數(shù)學(xué)能力。核心問題是他給出的建議過于籠統(tǒng)寬泛。
比如遇到難題時建議考慮更具一般性的命題,但并未說明該如何選取一般性命題,這類指導(dǎo)太過模糊。我們團隊的研究思路和波利亞一脈相承,但細(xì)化到了極高的粒度,精細(xì)到原則上可以直接在計算機上落地實現(xiàn)。
我們團隊的組建時間,早于大語言模型爆火,大概在ChatGPT問世前六個月,時間節(jié)點十分微妙。起初我們并未關(guān)注這類模型,還憑借當(dāng)時的研究結(jié)論篤定大語言模型無法涉足高階數(shù)學(xué)研究,但如今這份篤定早已不復(fù)存在。
點擊式推理平臺:全新系統(tǒng)依托簡易操作,助力人工智能攻克高階科研難題
我們的研究重心也隨之調(diào)整:原本采用自下而上的研究路徑,從簡易數(shù)學(xué)問題入手,逐步攻克難題;如今這條路已失去意義,因為簡易問題人工智能早已能輕松求解。因此我們轉(zhuǎn)而采用自上而下的研究思路。
模仿人類數(shù)學(xué)家處理科研難題的方式:面對超高難度問題,不斷推演變式、提出衍生問題、反復(fù)試錯探索,逐步深化理解,最終把原難題拆解為若干能用常規(guī)經(jīng)典方法求解的簡易子問題。
我們正在梳理這類拆解思維范式,總結(jié)能將復(fù)雜難題簡化為基礎(chǔ)問題的通用邏輯步驟。目前團隊的目標(biāo)是:針對當(dāng)下大語言模型尚且無法求解的數(shù)學(xué)問題,通過這套思維范式拆解,轉(zhuǎn)化為模型能夠解答的子問題。
我們正在搭建一套專屬研究平臺,經(jīng)過深度思考,已經(jīng)梳理出大量通用的定理推導(dǎo)邏輯步驟。這里所說的步驟,指具備普適性的解題思路與推理范式。
這套平臺的核心愿景是:使用者只需選擇推理步驟,無需手動書寫推導(dǎo)過程,通過點擊操作即可完成命題推廣、假言推理等常規(guī)邏輯操作。
通過梳理大量數(shù)學(xué)問題我們發(fā)現(xiàn),即便是看似需要精妙構(gòu)造、暗藏非直觀思路的難題,也能借助點擊式系統(tǒng)生成關(guān)鍵解題提示。我們正全力開發(fā)這套系統(tǒng),希望能將定理推導(dǎo)過程,從看似無限的邏輯選擇空間,收斂到有限可操作的范圍之內(nèi)。
看似數(shù)學(xué)解題擁有無限的構(gòu)造可能性,可用來輔助證明的數(shù)學(xué)對象數(shù)不勝數(shù),但依托標(biāo)準(zhǔn)推理范式能生成的有效構(gòu)造思路,實則是有限且可控的,這也是我們的核心研究理念。
未來研究目標(biāo):打造具備清晰推導(dǎo)邏輯的 “啟發(fā)性證明”,訓(xùn)練更高效、更透明的人工智能
依托這套平臺生成的所有證明推導(dǎo),都具備可追溯的啟發(fā)性特征,推理邏輯清晰透明,能完整還原從思考到求證的全過程。
我們已獲得文藝復(fù)興慈善機構(gòu)與XTX Markets通過人工智能數(shù)學(xué)專項基金提供的資助,資金將用于平臺搭建,并搭建我所說的啟發(fā)式證明數(shù)據(jù)庫,也可以理解為透明化證明數(shù)據(jù)庫,完整公開所有定理的推導(dǎo)思考路徑。
我們認(rèn)為這類數(shù)據(jù)庫能極大助力大語言模型的數(shù)學(xué)能力訓(xùn)練,既能提升運算效率,也能增強推理透明性。其實我本該早些提及效率問題,我們希望人工智能能用更少運算資源完成定理證明,一方面是為了提升運算速度、實現(xiàn)更大規(guī)模應(yīng)用,另一方面也出于環(huán)保考量,若能大幅降低算力消耗,從環(huán)境資源角度而言也極具現(xiàn)實意義。
目前這套平臺已有初代原型,功能尚且簡陋,未來一個月左右我們會完成一次大規(guī)模重構(gòu)升級。等到平臺能夠處理有研究價值的數(shù)學(xué)問題時,我們將會正式對外公開,也希望能吸引海內(nèi)外研究者加入合作研發(fā)。
我的分享就到這里,非常感謝大家。
參考資料
https://www.youtube.com/watch?v=bHjP9777IvI
小樂數(shù)學(xué)科普近期文章
版權(quán)聲明:本文首發(fā)于微信公眾號“zzllrr小樂”的專欄《小樂數(shù)學(xué)科普》。歡迎個人轉(zhuǎn)發(fā)。如需轉(zhuǎn)載,請在“zzllrr小樂”公眾號后臺回復(fù)“轉(zhuǎn)載”,還可通過公眾號菜單、發(fā)送郵件到zzllrr@gmail.com與我們?nèi)〉寐?lián)系。相關(guān)圖文音視頻內(nèi)容默認(rèn)遵守CC BY-NC 4.0知識共享協(xié)議,未獲作者和譯者授權(quán),禁止用于營銷宣傳和商業(yè)目的。
·開放 · 友好 · 多元 · 普適 · 守拙·
![]()
讓數(shù)學(xué)
更加
易學(xué)易練
易教易研
易賞易玩
易見易得
易傳易及
歡迎評論、點贊、在看、在聽
收藏、分享、轉(zhuǎn)載、投稿
查看原始文章出處
點擊底部一起捐
助力騰訊公益
點擊zzllrr小樂
公眾號主頁
右上角
置頂★加星
數(shù)學(xué)科普不迷路!
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.