![]()
機(jī)器之心編輯部
又有 9 個(gè)埃爾德什(Erd?s)問(wèn)題被 AI 解決了,這次是 DeepMind 團(tuán)隊(duì)實(shí)現(xiàn)的。
上周日,大模型科研領(lǐng)域再次傳來(lái)里程碑事件:DeepMind 的大模型在一次「測(cè)試」中,直接解決了 9 個(gè)開(kāi)放的 Erd?s 問(wèn)題。這次 AI 不僅自動(dòng)解題,還進(jìn)行了自動(dòng)驗(yàn)證,隨后其解法通過(guò)了人工審查。這次研究是數(shù)學(xué)界和 AI 界已知的首次針對(duì)開(kāi)放式研究級(jí)數(shù)學(xué)問(wèn)題進(jìn)行的大規(guī)模形式化證明搜索評(píng)估。
現(xiàn)在,AI 不再只是在做奧數(shù)題了,現(xiàn)在它們已稱得上是正經(jīng)的「科研人員」。
![]()
- 論文:Advancing Mathematics Research with AI-Driven Formal Proof Search
- 論文鏈接:https://arxiv.org/abs/2605.22763v1
最近一段時(shí)間,大語(yǔ)言模型(LLM)在數(shù)學(xué)推理方面展現(xiàn)出了卓越的能力,但其固有的不穩(wěn)定性限制了其在數(shù)學(xué)研究中的實(shí)際應(yīng)用價(jià)值。一種緩解該問(wèn)題的方法是利用 LLM 生成基于 Lean 等語(yǔ)言的正式證明。DeepMind 對(duì)該方法解決「開(kāi)放性問(wèn)題」的能力進(jìn)行了首次大規(guī)模評(píng)估,其智能體自主解決了 353 個(gè) Erd?s 開(kāi)放性問(wèn)題中的 9 個(gè),且解決每個(gè)問(wèn)題的成本僅為數(shù)百美元;此外,它還證明了 OEIS 數(shù)據(jù)庫(kù)中 492 個(gè)猜想中的 44 個(gè),目前正被應(yīng)用于組合學(xué)、優(yōu)化理論、圖論、代數(shù)幾何及量子光學(xué)等領(lǐng)域的研究中。
這些研究發(fā)現(xiàn)不僅充分展示了人工智能輔助正式證明搜索技術(shù)的強(qiáng)大潛力,同時(shí)也為實(shí)現(xiàn)此類能力的智能體架構(gòu)設(shè)計(jì)提供了重要的啟示。
「Erd?s 問(wèn)題」通常不是指某一道單一的數(shù)學(xué)題,而是指由 20 世紀(jì)最具影響力的匈牙利數(shù)學(xué)家保羅·埃爾德什(Paul Erd?s)一生中提出的大量數(shù)學(xué)問(wèn)題與猜想。他留下了數(shù)百個(gè)經(jīng)典的數(shù)學(xué)難題,主要集中在數(shù)論、組合數(shù)學(xué)和幾何等領(lǐng)域。
現(xiàn)代組合學(xué)與數(shù)論的許多分支,正是在嘗試解決這些問(wèn)題的過(guò)程中建立起來(lái)的。從素?cái)?shù)間隙到偏差理論,可以說(shuō)這些問(wèn)題塑造了整個(gè)學(xué)科領(lǐng)域。
那么,DeepMind 的 AI 是如何破解這些問(wèn)題的?
方法
DeepMind 此次推出的框架名為AlphaProof Nexus。它的核心邏輯是:將大模型天馬行空的「創(chuàng)造力」與 Lean 編譯器絕對(duì)嚴(yán)謹(jǐn)?shù)摹概袆e力」結(jié)合起來(lái)。
![]()
配備 AlphaProof 的智能體的輸入/輸出示例(應(yīng)用于 Erd?s #125 問(wèn)題)。
在這個(gè)框架下,人類數(shù)學(xué)家只需輸入一個(gè)帶有占位符(把證明部分留空,寫(xiě)上 sorry 占位符,即待證明部分)的代碼草圖,并用特殊的標(biāo)記(如 EVOLVE-BLOCK 或 EVOLVE-VALUE)圈出范圍,告訴 AI 哪些地方可以動(dòng),接下來(lái)就讓智能體接管后續(xù)工作。解決問(wèn)題的宏觀戰(zhàn)略規(guī)劃、微觀邏輯推導(dǎo)、引理創(chuàng)建甚至參數(shù)微調(diào),全部交由 AI 閉環(huán)自主完成。
研究團(tuán)隊(duì)設(shè)計(jì)了兩種核心的智能體架構(gòu),而這兩種架構(gòu)的對(duì)比,揭示了當(dāng)前 AI 發(fā)展的一個(gè)重要趨勢(shì):
- 基礎(chǔ)智能體:思考 - 嘗試循環(huán)
這是一種簡(jiǎn)約的架構(gòu)。系統(tǒng)啟動(dòng)多個(gè)無(wú)共享狀態(tài)的子智能體獨(dú)立運(yùn)行。每個(gè)子智能體內(nèi)部是一個(gè)多輪交互循環(huán):底層模型(Gemini 3.1 Pro)通過(guò)「思考鏈」推理,調(diào)用搜索和替換工具修改代碼草圖。每次修改后,Lean 編譯器會(huì)立即進(jìn)行驗(yàn)證;如果報(bào)錯(cuò),模型就利用報(bào)錯(cuò)信息進(jìn)行自我反思和修正,不斷循環(huán),直到所有證明漏洞被填補(bǔ)。
- 全功能智能體:引入 AlphaProof
除了上述的基礎(chǔ)循環(huán),研究人員還引入了受 AlphaEvolve 啟發(fā)的多智能體演化算法。他們讓另一個(gè)大模型(Gemini 3.0 Flash)充當(dāng)「裁判」,對(duì)生成的證明草圖進(jìn)行清晰度、合理性和新穎性的 Elo 評(píng)分,從而引導(dǎo)系統(tǒng)在龐大的可能性庫(kù)中進(jìn)行優(yōu)勝劣汰的采樣。此外,該架構(gòu)還能調(diào)用專門(mén)針對(duì)奧數(shù)級(jí)別問(wèn)題進(jìn)行過(guò)強(qiáng)化學(xué)習(xí)訓(xùn)練的 AlphaProof 作為輔助求解工具。
![]()
全功能 AlphaProof Nexus 智能體的設(shè)計(jì)。
直覺(jué)上,全功能智能體應(yīng)該全面碾壓基礎(chǔ)架構(gòu)。但事后分析顯示,極其簡(jiǎn)單的「基礎(chǔ)智能體」同樣成功解出了所有 9 道埃爾德什難題。研究團(tuán)隊(duì)明確指出,隨著底層大模型(如 Gemini 3.1 Pro)自身智能密度的不斷躍升,簡(jiǎn)單的智能體交互循環(huán)正在展現(xiàn)出驚人的效能。這預(yù)示著,在絕對(duì)客觀的編譯器反饋錨定下,工業(yè)界可能會(huì)逐漸從構(gòu)建高度特化、復(fù)雜的訓(xùn)練系統(tǒng),轉(zhuǎn)向直接利用通用大模型的原生推理能力。
哪 9 個(gè) Erd?s 問(wèn)題?
![]()
問(wèn)題 12 (i) —— 避免整除的密集整數(shù)集(1970 年提出)
該問(wèn)題探討是否存在一個(gè)包含無(wú)窮多個(gè)正整數(shù)的集合,在這個(gè)集合中,沒(méi)有任何一個(gè)數(shù)字可以整除另外兩個(gè)更大數(shù)字的和。同時(shí),這個(gè)集合在整個(gè)正整數(shù)范圍內(nèi)還要保持足夠的「密集度」(滿足特定的下密度下限)。AI 通過(guò)巧妙融合中國(guó)剩余定理與避免特定算術(shù)級(jí)數(shù)的構(gòu)造法,給出了肯定的證明。
問(wèn)題 12 (ii) —— 避免整除的更高密度極限(1970 年提出)
這是上一題的加強(qiáng)版,要求構(gòu)造的集合在滿足「不整除」條件的同時(shí),擁有逼近極限的超高密度。AI 運(yùn)用 Behrend 風(fēng)格的構(gòu)造法,在極其苛刻的約束下找到了滿足條件的無(wú)窮集合,從而一舉終結(jié)了這兩個(gè)長(zhǎng)達(dá)半個(gè)多世紀(jì)的懸案。
問(wèn)題 125 —— 不同進(jìn)制數(shù)字集合的加和密度(1996 年提出)
想象兩個(gè)特殊的數(shù)字集合:一個(gè)只用 0 和 1 構(gòu)成的三進(jìn)制數(shù)字組成,另一個(gè)只用 0 和 1 構(gòu)成的四進(jìn)制數(shù)字組成。將這兩個(gè)集合里的數(shù)字兩兩相加形成一個(gè)新集合,這個(gè)新集合的數(shù)字分布頻率(下密度)是否大于零?AI 利用丟番圖逼近原理,證明了隨著數(shù)字規(guī)模的擴(kuò)大,其分布密度會(huì)不斷被稀釋,最終嚴(yán)格證明其下密度為零。
問(wèn)題 138(變體)—— 顏色與數(shù)列的間隔極限(1981 年提出)
這個(gè)問(wèn)題與范德瓦爾登數(shù)有關(guān),它描述的是在對(duì)連續(xù)整數(shù)進(jìn)行染色時(shí),為了保證一定能找到同色的等差數(shù)列,所需整數(shù)序列的最小長(zhǎng)度。AI 采用貪心染色擴(kuò)展算法結(jié)合局部矛盾分析,證明了隨著等差數(shù)列長(zhǎng)度要求的增加,這些范德瓦爾登數(shù)之間的間隔會(huì)趨于無(wú)窮大。
問(wèn)題 152 —— 西頓集中的孤立點(diǎn)(1994 年提出)
西頓集是一種特殊的數(shù)字集合,其中任意兩對(duì)數(shù)字的和都不相等。問(wèn)題探討當(dāng)這種集合足夠大時(shí),其兩兩相加得到的新集合中,是否包含大量的「孤立點(diǎn)」(即該數(shù)字的相鄰數(shù)字不在該集合中)。AI 通過(guò)對(duì)內(nèi)部點(diǎn)、偏移鄰居等進(jìn)行細(xì)致的邊界分析,給出了證明。
問(wèn)題 741 (i) —— 集合拆分后的加和密度(1994 年提出)
如果一個(gè)集合與自身相加產(chǎn)生的新集合在自然數(shù)中占據(jù)了可觀的比例(具備正的上密度),那么我們能否把原來(lái)的集合一分為二,使得這兩半各自與自身相加產(chǎn)生的新集合,依然都能占據(jù)可觀的比例?AI 給出了肯定的答案。
問(wèn)題 741 (ii) —— 集合拆分與間隙界限(1994 年提出)
與上一題相關(guān),AI 證明了存在一種極其特殊的「二階基」集合,這種集合包含了一種「禁區(qū)」結(jié)構(gòu)。無(wú)論你如何將它一分為二,這兩個(gè)子集各自相加生成的新集合中,至少有一個(gè)必定會(huì)出現(xiàn)無(wú)限擴(kuò)大的數(shù)字?jǐn)鄬樱o(wú)法保持有界間隙)。
問(wèn)題 846 —— 平面點(diǎn)集的幾何悖論(1992 年提出)
這是一個(gè)關(guān)于平面幾何的奇妙問(wèn)題。AI 證明了存在這樣一種無(wú)限擴(kuò)展的平面點(diǎn)集:你從中任意挑出有限個(gè)點(diǎn),總能發(fā)現(xiàn)其中有很大一部分是不共線的(即沒(méi)有三個(gè)點(diǎn)在同一條直線上)。然而,整個(gè)無(wú)限集合卻無(wú)論如何也無(wú)法被拆分成有限個(gè)「絕對(duì)沒(méi)有三點(diǎn)共線」的子集。
問(wèn)題 26(延伸變體)—— 整數(shù)倍數(shù)密度的極值(1995 年提出)
這探討了整數(shù)倍數(shù)在自然數(shù)系中的分布規(guī)律。AI 通過(guò)精妙的迭代構(gòu)造(利用不斷增加的素?cái)?shù)序列),證明了存在一種特定的正整數(shù)序列,當(dāng)你把這個(gè)序列中的所有數(shù)字都加上任意一個(gè)相同的正整數(shù)偏移量后,這些新數(shù)字生成的所有倍數(shù),其在自然數(shù)中的占比永遠(yuǎn)會(huì)被嚴(yán)格限制在一個(gè)上限(小于四分之三)之下。
在 DeepMind 的實(shí)踐中,大模型在不同問(wèn)題上的計(jì)算開(kāi)銷差異巨大,絕大多數(shù)問(wèn)題的平均成本在幾十美元到幾百美元之間,最「便宜」的問(wèn)題僅需 7.5-15 美元。
看起來(lái)也沒(méi)比 AI 寫(xiě)代碼貴太多?
我們知道,上個(gè)星期 OpenAI 剛剛宣布使用內(nèi)部通用推理模型推翻了數(shù)學(xué)界近 80 年的「平面單位距離猜想」(Erd?s Unit Distance Problem),再加上此次 DeepMind 提交的成果,一系列進(jìn)步標(biāo)志著大模型的能力和應(yīng)用范式正在發(fā)生改變。
現(xiàn)在 AI 能夠解決的問(wèn)題,已是真正的數(shù)學(xué)開(kāi)放性未知領(lǐng)域,它們面對(duì)人類數(shù)學(xué)家也沒(méi)有探索完成的「無(wú)人區(qū)」,正在自主創(chuàng)造新知識(shí)。
科學(xué)發(fā)現(xiàn)的速度正在快速走向指數(shù)化。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.