網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

一個(gè)問(wèn)題幾百美元，DeepMind智能體一次搞定了9個(gè)Erd?s問(wèn)題

2026-05-25 17:23:31　來(lái)源: 機(jī)器之心Pro

河北舉報(bào)

分享至

機(jī)器之心編輯部

又有 9 個(gè)埃爾德什（Erd?s）問(wèn)題被 AI 解決了，這次是 DeepMind 團(tuán)隊(duì)實(shí)現(xiàn)的。

上周日，大模型科研領(lǐng)域再次傳來(lái)里程碑事件：DeepMind 的大模型在一次「測(cè)試」中，直接解決了 9 個(gè)開(kāi)放的 Erd?s 問(wèn)題。這次 AI 不僅自動(dòng)解題，還進(jìn)行了自動(dòng)驗(yàn)證，隨后其解法通過(guò)了人工審查。這次研究是數(shù)學(xué)界和 AI 界已知的首次針對(duì)開(kāi)放式研究級(jí)數(shù)學(xué)問(wèn)題進(jìn)行的大規(guī)模形式化證明搜索評(píng)估。

現(xiàn)在，AI 不再只是在做奧數(shù)題了，現(xiàn)在它們已稱得上是正經(jīng)的「科研人員」。

論文：Advancing Mathematics Research with AI-Driven Formal Proof Search
論文鏈接：https://arxiv.org/abs/2605.22763v1

最近一段時(shí)間，大語(yǔ)言模型（LLM）在數(shù)學(xué)推理方面展現(xiàn)出了卓越的能力，但其固有的不穩(wěn)定性限制了其在數(shù)學(xué)研究中的實(shí)際應(yīng)用價(jià)值。一種緩解該問(wèn)題的方法是利用 LLM 生成基于 Lean 等語(yǔ)言的正式證明。DeepMind 對(duì)該方法解決「開(kāi)放性問(wèn)題」的能力進(jìn)行了首次大規(guī)模評(píng)估，其智能體自主解決了 353 個(gè) Erd?s 開(kāi)放性問(wèn)題中的 9 個(gè)，且解決每個(gè)問(wèn)題的成本僅為數(shù)百美元；此外，它還證明了 OEIS 數(shù)據(jù)庫(kù)中 492 個(gè)猜想中的 44 個(gè)，目前正被應(yīng)用于組合學(xué)、優(yōu)化理論、圖論、代數(shù)幾何及量子光學(xué)等領(lǐng)域的研究中。

這些研究發(fā)現(xiàn)不僅充分展示了人工智能輔助正式證明搜索技術(shù)的強(qiáng)大潛力，同時(shí)也為實(shí)現(xiàn)此類能力的智能體架構(gòu)設(shè)計(jì)提供了重要的啟示。

「Erd?s 問(wèn)題」通常不是指某一道單一的數(shù)學(xué)題，而是指由 20 世紀(jì)最具影響力的匈牙利數(shù)學(xué)家保羅·埃爾德什（Paul Erd?s）一生中提出的大量數(shù)學(xué)問(wèn)題與猜想。他留下了數(shù)百個(gè)經(jīng)典的數(shù)學(xué)難題，主要集中在數(shù)論、組合數(shù)學(xué)和幾何等領(lǐng)域。

現(xiàn)代組合學(xué)與數(shù)論的許多分支，正是在嘗試解決這些問(wèn)題的過(guò)程中建立起來(lái)的。從素?cái)?shù)間隙到偏差理論，可以說(shuō)這些問(wèn)題塑造了整個(gè)學(xué)科領(lǐng)域。

那么，DeepMind 的 AI 是如何破解這些問(wèn)題的？

方法

DeepMind 此次推出的框架名為AlphaProof Nexus。它的核心邏輯是：將大模型天馬行空的「創(chuàng)造力」與 Lean 編譯器絕對(duì)嚴(yán)謹(jǐn)?shù)摹概袆e力」結(jié)合起來(lái)。

配備 AlphaProof 的智能體的輸入/輸出示例（應(yīng)用于 Erd?s #125 問(wèn)題）。

在這個(gè)框架下，人類數(shù)學(xué)家只需輸入一個(gè)帶有占位符（把證明部分留空，寫(xiě)上 sorry 占位符，即待證明部分）的代碼草圖，并用特殊的標(biāo)記（如 EVOLVE-BLOCK 或 EVOLVE-VALUE）圈出范圍，告訴 AI 哪些地方可以動(dòng)，接下來(lái)就讓智能體接管后續(xù)工作。解決問(wèn)題的宏觀戰(zhàn)略規(guī)劃、微觀邏輯推導(dǎo)、引理創(chuàng)建甚至參數(shù)微調(diào)，全部交由 AI 閉環(huán)自主完成。

研究團(tuán)隊(duì)設(shè)計(jì)了兩種核心的智能體架構(gòu)，而這兩種架構(gòu)的對(duì)比，揭示了當(dāng)前 AI 發(fā)展的一個(gè)重要趨勢(shì)：

基礎(chǔ)智能體：思考 - 嘗試循環(huán)

這是一種簡(jiǎn)約的架構(gòu)。系統(tǒng)啟動(dòng)多個(gè)無(wú)共享狀態(tài)的子智能體獨(dú)立運(yùn)行。每個(gè)子智能體內(nèi)部是一個(gè)多輪交互循環(huán)：底層模型（Gemini 3.1 Pro）通過(guò)「思考鏈」推理，調(diào)用搜索和替換工具修改代碼草圖。每次修改后，Lean 編譯器會(huì)立即進(jìn)行驗(yàn)證；如果報(bào)錯(cuò)，模型就利用報(bào)錯(cuò)信息進(jìn)行自我反思和修正，不斷循環(huán)，直到所有證明漏洞被填補(bǔ)。

全功能智能體：引入 AlphaProof

除了上述的基礎(chǔ)循環(huán)，研究人員還引入了受 AlphaEvolve 啟發(fā)的多智能體演化算法。他們讓另一個(gè)大模型（Gemini 3.0 Flash）充當(dāng)「裁判」，對(duì)生成的證明草圖進(jìn)行清晰度、合理性和新穎性的 Elo 評(píng)分，從而引導(dǎo)系統(tǒng)在龐大的可能性庫(kù)中進(jìn)行優(yōu)勝劣汰的采樣。此外，該架構(gòu)還能調(diào)用專門(mén)針對(duì)奧數(shù)級(jí)別問(wèn)題進(jìn)行過(guò)強(qiáng)化學(xué)習(xí)訓(xùn)練的 AlphaProof 作為輔助求解工具。

全功能 AlphaProof Nexus 智能體的設(shè)計(jì)。

直覺(jué)上，全功能智能體應(yīng)該全面碾壓基礎(chǔ)架構(gòu)。但事后分析顯示，極其簡(jiǎn)單的「基礎(chǔ)智能體」同樣成功解出了所有 9 道埃爾德什難題。研究團(tuán)隊(duì)明確指出，隨著底層大模型（如 Gemini 3.1 Pro）自身智能密度的不斷躍升，簡(jiǎn)單的智能體交互循環(huán)正在展現(xiàn)出驚人的效能。這預(yù)示著，在絕對(duì)客觀的編譯器反饋錨定下，工業(yè)界可能會(huì)逐漸從構(gòu)建高度特化、復(fù)雜的訓(xùn)練系統(tǒng)，轉(zhuǎn)向直接利用通用大模型的原生推理能力。

哪 9 個(gè) Erd?s 問(wèn)題？

問(wèn)題 12 (i) —— 避免整除的密集整數(shù)集（1970 年提出）

該問(wèn)題探討是否存在一個(gè)包含無(wú)窮多個(gè)正整數(shù)的集合，在這個(gè)集合中，沒(méi)有任何一個(gè)數(shù)字可以整除另外兩個(gè)更大數(shù)字的和。同時(shí)，這個(gè)集合在整個(gè)正整數(shù)范圍內(nèi)還要保持足夠的「密集度」（滿足特定的下密度下限）。AI 通過(guò)巧妙融合中國(guó)剩余定理與避免特定算術(shù)級(jí)數(shù)的構(gòu)造法，給出了肯定的證明。

問(wèn)題 12 (ii) —— 避免整除的更高密度極限（1970 年提出）

這是上一題的加強(qiáng)版，要求構(gòu)造的集合在滿足「不整除」條件的同時(shí)，擁有逼近極限的超高密度。AI 運(yùn)用 Behrend 風(fēng)格的構(gòu)造法，在極其苛刻的約束下找到了滿足條件的無(wú)窮集合，從而一舉終結(jié)了這兩個(gè)長(zhǎng)達(dá)半個(gè)多世紀(jì)的懸案。

問(wèn)題 125 —— 不同進(jìn)制數(shù)字集合的加和密度（1996 年提出）

想象兩個(gè)特殊的數(shù)字集合：一個(gè)只用 0 和 1 構(gòu)成的三進(jìn)制數(shù)字組成，另一個(gè)只用 0 和 1 構(gòu)成的四進(jìn)制數(shù)字組成。將這兩個(gè)集合里的數(shù)字兩兩相加形成一個(gè)新集合，這個(gè)新集合的數(shù)字分布頻率（下密度）是否大于零？AI 利用丟番圖逼近原理，證明了隨著數(shù)字規(guī)模的擴(kuò)大，其分布密度會(huì)不斷被稀釋，最終嚴(yán)格證明其下密度為零。

問(wèn)題 138（變體）—— 顏色與數(shù)列的間隔極限（1981 年提出）

這個(gè)問(wèn)題與范德瓦爾登數(shù)有關(guān)，它描述的是在對(duì)連續(xù)整數(shù)進(jìn)行染色時(shí)，為了保證一定能找到同色的等差數(shù)列，所需整數(shù)序列的最小長(zhǎng)度。AI 采用貪心染色擴(kuò)展算法結(jié)合局部矛盾分析，證明了隨著等差數(shù)列長(zhǎng)度要求的增加，這些范德瓦爾登數(shù)之間的間隔會(huì)趨于無(wú)窮大。

問(wèn)題 152 —— 西頓集中的孤立點(diǎn)（1994 年提出）

西頓集是一種特殊的數(shù)字集合，其中任意兩對(duì)數(shù)字的和都不相等。問(wèn)題探討當(dāng)這種集合足夠大時(shí)，其兩兩相加得到的新集合中，是否包含大量的「孤立點(diǎn)」（即該數(shù)字的相鄰數(shù)字不在該集合中）。AI 通過(guò)對(duì)內(nèi)部點(diǎn)、偏移鄰居等進(jìn)行細(xì)致的邊界分析，給出了證明。

問(wèn)題 741 (i) —— 集合拆分后的加和密度（1994 年提出）

如果一個(gè)集合與自身相加產(chǎn)生的新集合在自然數(shù)中占據(jù)了可觀的比例（具備正的上密度），那么我們能否把原來(lái)的集合一分為二，使得這兩半各自與自身相加產(chǎn)生的新集合，依然都能占據(jù)可觀的比例？AI 給出了肯定的答案。

問(wèn)題 741 (ii) —— 集合拆分與間隙界限（1994 年提出）

與上一題相關(guān)，AI 證明了存在一種極其特殊的「二階基」集合，這種集合包含了一種「禁區(qū)」結(jié)構(gòu)。無(wú)論你如何將它一分為二，這兩個(gè)子集各自相加生成的新集合中，至少有一個(gè)必定會(huì)出現(xiàn)無(wú)限擴(kuò)大的數(shù)字?jǐn)鄬樱o(wú)法保持有界間隙）。

問(wèn)題 846 —— 平面點(diǎn)集的幾何悖論（1992 年提出）

這是一個(gè)關(guān)于平面幾何的奇妙問(wèn)題。AI 證明了存在這樣一種無(wú)限擴(kuò)展的平面點(diǎn)集：你從中任意挑出有限個(gè)點(diǎn)，總能發(fā)現(xiàn)其中有很大一部分是不共線的（即沒(méi)有三個(gè)點(diǎn)在同一條直線上）。然而，整個(gè)無(wú)限集合卻無(wú)論如何也無(wú)法被拆分成有限個(gè)「絕對(duì)沒(méi)有三點(diǎn)共線」的子集。

問(wèn)題 26（延伸變體）—— 整數(shù)倍數(shù)密度的極值（1995 年提出）

這探討了整數(shù)倍數(shù)在自然數(shù)系中的分布規(guī)律。AI 通過(guò)精妙的迭代構(gòu)造（利用不斷增加的素?cái)?shù)序列），證明了存在一種特定的正整數(shù)序列，當(dāng)你把這個(gè)序列中的所有數(shù)字都加上任意一個(gè)相同的正整數(shù)偏移量后，這些新數(shù)字生成的所有倍數(shù)，其在自然數(shù)中的占比永遠(yuǎn)會(huì)被嚴(yán)格限制在一個(gè)上限（小于四分之三）之下。

在 DeepMind 的實(shí)踐中，大模型在不同問(wèn)題上的計(jì)算開(kāi)銷差異巨大，絕大多數(shù)問(wèn)題的平均成本在幾十美元到幾百美元之間，最「便宜」的問(wèn)題僅需 7.5-15 美元。

看起來(lái)也沒(méi)比 AI 寫(xiě)代碼貴太多？

我們知道，上個(gè)星期 OpenAI 剛剛宣布使用內(nèi)部通用推理模型推翻了數(shù)學(xué)界近 80 年的「平面單位距離猜想」（Erd?s Unit Distance Problem），再加上此次 DeepMind 提交的成果，一系列進(jìn)步標(biāo)志著大模型的能力和應(yīng)用范式正在發(fā)生改變。

現(xiàn)在 AI 能夠解決的問(wèn)題，已是真正的數(shù)學(xué)開(kāi)放性未知領(lǐng)域，它們面對(duì)人類數(shù)學(xué)家也沒(méi)有探索完成的「無(wú)人區(qū)」，正在自主創(chuàng)造新知識(shí)。

科學(xué)發(fā)現(xiàn)的速度正在快速走向指數(shù)化。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.