无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

一個(gè)問(wèn)題幾百美元,DeepMind智能體一次搞定了9個(gè)Erd?s問(wèn)題

0
分享至



機(jī)器之心編輯部

又有 9 個(gè)埃爾德什(Erd?s)問(wèn)題被 AI 解決了,這次是 DeepMind 團(tuán)隊(duì)實(shí)現(xiàn)的。

上周日,大模型科研領(lǐng)域再次傳來(lái)里程碑事件:DeepMind 的大模型在一次「測(cè)試」中,直接解決了 9 個(gè)開(kāi)放的 Erd?s 問(wèn)題。這次 AI 不僅自動(dòng)解題,還進(jìn)行了自動(dòng)驗(yàn)證,隨后其解法通過(guò)了人工審查。這次研究是數(shù)學(xué)界和 AI 界已知的首次針對(duì)開(kāi)放式研究級(jí)數(shù)學(xué)問(wèn)題進(jìn)行的大規(guī)模形式化證明搜索評(píng)估。

現(xiàn)在,AI 不再只是在做奧數(shù)題了,現(xiàn)在它們已稱得上是正經(jīng)的「科研人員」。



  • 論文:Advancing Mathematics Research with AI-Driven Formal Proof Search
  • 論文鏈接:https://arxiv.org/abs/2605.22763v1

最近一段時(shí)間,大語(yǔ)言模型(LLM)在數(shù)學(xué)推理方面展現(xiàn)出了卓越的能力,但其固有的不穩(wěn)定性限制了其在數(shù)學(xué)研究中的實(shí)際應(yīng)用價(jià)值。一種緩解該問(wèn)題的方法是利用 LLM 生成基于 Lean 等語(yǔ)言的正式證明。DeepMind 對(duì)該方法解決「開(kāi)放性問(wèn)題」的能力進(jìn)行了首次大規(guī)模評(píng)估,其智能體自主解決了 353 個(gè) Erd?s 開(kāi)放性問(wèn)題中的 9 個(gè),且解決每個(gè)問(wèn)題的成本僅為數(shù)百美元;此外,它還證明了 OEIS 數(shù)據(jù)庫(kù)中 492 個(gè)猜想中的 44 個(gè),目前正被應(yīng)用于組合學(xué)、優(yōu)化理論、圖論、代數(shù)幾何及量子光學(xué)等領(lǐng)域的研究中。

這些研究發(fā)現(xiàn)不僅充分展示了人工智能輔助正式證明搜索技術(shù)的強(qiáng)大潛力,同時(shí)也為實(shí)現(xiàn)此類能力的智能體架構(gòu)設(shè)計(jì)提供了重要的啟示。

「Erd?s 問(wèn)題」通常不是指某一道單一的數(shù)學(xué)題,而是指由 20 世紀(jì)最具影響力的匈牙利數(shù)學(xué)家保羅·埃爾德什(Paul Erd?s)一生中提出的大量數(shù)學(xué)問(wèn)題與猜想。他留下了數(shù)百個(gè)經(jīng)典的數(shù)學(xué)難題,主要集中在數(shù)論、組合數(shù)學(xué)和幾何等領(lǐng)域。

現(xiàn)代組合學(xué)與數(shù)論的許多分支,正是在嘗試解決這些問(wèn)題的過(guò)程中建立起來(lái)的。從素?cái)?shù)間隙到偏差理論,可以說(shuō)這些問(wèn)題塑造了整個(gè)學(xué)科領(lǐng)域。

那么,DeepMind 的 AI 是如何破解這些問(wèn)題的?

方法

DeepMind 此次推出的框架名為AlphaProof Nexus。它的核心邏輯是:將大模型天馬行空的「創(chuàng)造力」與 Lean 編譯器絕對(duì)嚴(yán)謹(jǐn)?shù)摹概袆e力」結(jié)合起來(lái)。



配備 AlphaProof 的智能體的輸入/輸出示例(應(yīng)用于 Erd?s #125 問(wèn)題)。

在這個(gè)框架下,人類數(shù)學(xué)家只需輸入一個(gè)帶有占位符(把證明部分留空,寫(xiě)上 sorry 占位符,即待證明部分)的代碼草圖,并用特殊的標(biāo)記(如 EVOLVE-BLOCK 或 EVOLVE-VALUE)圈出范圍,告訴 AI 哪些地方可以動(dòng),接下來(lái)就讓智能體接管后續(xù)工作。解決問(wèn)題的宏觀戰(zhàn)略規(guī)劃、微觀邏輯推導(dǎo)、引理創(chuàng)建甚至參數(shù)微調(diào),全部交由 AI 閉環(huán)自主完成。

研究團(tuán)隊(duì)設(shè)計(jì)了兩種核心的智能體架構(gòu),而這兩種架構(gòu)的對(duì)比,揭示了當(dāng)前 AI 發(fā)展的一個(gè)重要趨勢(shì):

  • 基礎(chǔ)智能體:思考 - 嘗試循環(huán)

這是一種簡(jiǎn)約的架構(gòu)。系統(tǒng)啟動(dòng)多個(gè)無(wú)共享狀態(tài)的子智能體獨(dú)立運(yùn)行。每個(gè)子智能體內(nèi)部是一個(gè)多輪交互循環(huán):底層模型(Gemini 3.1 Pro)通過(guò)「思考鏈」推理,調(diào)用搜索和替換工具修改代碼草圖。每次修改后,Lean 編譯器會(huì)立即進(jìn)行驗(yàn)證;如果報(bào)錯(cuò),模型就利用報(bào)錯(cuò)信息進(jìn)行自我反思和修正,不斷循環(huán),直到所有證明漏洞被填補(bǔ)。

  • 全功能智能體:引入 AlphaProof

除了上述的基礎(chǔ)循環(huán),研究人員還引入了受 AlphaEvolve 啟發(fā)的多智能體演化算法。他們讓另一個(gè)大模型(Gemini 3.0 Flash)充當(dāng)「裁判」,對(duì)生成的證明草圖進(jìn)行清晰度、合理性和新穎性的 Elo 評(píng)分,從而引導(dǎo)系統(tǒng)在龐大的可能性庫(kù)中進(jìn)行優(yōu)勝劣汰的采樣。此外,該架構(gòu)還能調(diào)用專門(mén)針對(duì)奧數(shù)級(jí)別問(wèn)題進(jìn)行過(guò)強(qiáng)化學(xué)習(xí)訓(xùn)練的 AlphaProof 作為輔助求解工具。



全功能 AlphaProof Nexus 智能體的設(shè)計(jì)。

直覺(jué)上,全功能智能體應(yīng)該全面碾壓基礎(chǔ)架構(gòu)。但事后分析顯示,極其簡(jiǎn)單的「基礎(chǔ)智能體」同樣成功解出了所有 9 道埃爾德什難題。研究團(tuán)隊(duì)明確指出,隨著底層大模型(如 Gemini 3.1 Pro)自身智能密度的不斷躍升,簡(jiǎn)單的智能體交互循環(huán)正在展現(xiàn)出驚人的效能。這預(yù)示著,在絕對(duì)客觀的編譯器反饋錨定下,工業(yè)界可能會(huì)逐漸從構(gòu)建高度特化、復(fù)雜的訓(xùn)練系統(tǒng),轉(zhuǎn)向直接利用通用大模型的原生推理能力。

哪 9 個(gè) Erd?s 問(wèn)題?



問(wèn)題 12 (i) —— 避免整除的密集整數(shù)集(1970 年提出)

該問(wèn)題探討是否存在一個(gè)包含無(wú)窮多個(gè)正整數(shù)的集合,在這個(gè)集合中,沒(méi)有任何一個(gè)數(shù)字可以整除另外兩個(gè)更大數(shù)字的和。同時(shí),這個(gè)集合在整個(gè)正整數(shù)范圍內(nèi)還要保持足夠的「密集度」(滿足特定的下密度下限)。AI 通過(guò)巧妙融合中國(guó)剩余定理與避免特定算術(shù)級(jí)數(shù)的構(gòu)造法,給出了肯定的證明。

問(wèn)題 12 (ii) —— 避免整除的更高密度極限(1970 年提出)

這是上一題的加強(qiáng)版,要求構(gòu)造的集合在滿足「不整除」條件的同時(shí),擁有逼近極限的超高密度。AI 運(yùn)用 Behrend 風(fēng)格的構(gòu)造法,在極其苛刻的約束下找到了滿足條件的無(wú)窮集合,從而一舉終結(jié)了這兩個(gè)長(zhǎng)達(dá)半個(gè)多世紀(jì)的懸案。

問(wèn)題 125 —— 不同進(jìn)制數(shù)字集合的加和密度(1996 年提出)

想象兩個(gè)特殊的數(shù)字集合:一個(gè)只用 0 和 1 構(gòu)成的三進(jìn)制數(shù)字組成,另一個(gè)只用 0 和 1 構(gòu)成的四進(jìn)制數(shù)字組成。將這兩個(gè)集合里的數(shù)字兩兩相加形成一個(gè)新集合,這個(gè)新集合的數(shù)字分布頻率(下密度)是否大于零?AI 利用丟番圖逼近原理,證明了隨著數(shù)字規(guī)模的擴(kuò)大,其分布密度會(huì)不斷被稀釋,最終嚴(yán)格證明其下密度為零。

問(wèn)題 138(變體)—— 顏色與數(shù)列的間隔極限(1981 年提出)

這個(gè)問(wèn)題與范德瓦爾登數(shù)有關(guān),它描述的是在對(duì)連續(xù)整數(shù)進(jìn)行染色時(shí),為了保證一定能找到同色的等差數(shù)列,所需整數(shù)序列的最小長(zhǎng)度。AI 采用貪心染色擴(kuò)展算法結(jié)合局部矛盾分析,證明了隨著等差數(shù)列長(zhǎng)度要求的增加,這些范德瓦爾登數(shù)之間的間隔會(huì)趨于無(wú)窮大。

問(wèn)題 152 —— 西頓集中的孤立點(diǎn)(1994 年提出)

西頓集是一種特殊的數(shù)字集合,其中任意兩對(duì)數(shù)字的和都不相等。問(wèn)題探討當(dāng)這種集合足夠大時(shí),其兩兩相加得到的新集合中,是否包含大量的「孤立點(diǎn)」(即該數(shù)字的相鄰數(shù)字不在該集合中)。AI 通過(guò)對(duì)內(nèi)部點(diǎn)、偏移鄰居等進(jìn)行細(xì)致的邊界分析,給出了證明。

問(wèn)題 741 (i) —— 集合拆分后的加和密度(1994 年提出)

如果一個(gè)集合與自身相加產(chǎn)生的新集合在自然數(shù)中占據(jù)了可觀的比例(具備正的上密度),那么我們能否把原來(lái)的集合一分為二,使得這兩半各自與自身相加產(chǎn)生的新集合,依然都能占據(jù)可觀的比例?AI 給出了肯定的答案。

問(wèn)題 741 (ii) —— 集合拆分與間隙界限(1994 年提出)

與上一題相關(guān),AI 證明了存在一種極其特殊的「二階基」集合,這種集合包含了一種「禁區(qū)」結(jié)構(gòu)。無(wú)論你如何將它一分為二,這兩個(gè)子集各自相加生成的新集合中,至少有一個(gè)必定會(huì)出現(xiàn)無(wú)限擴(kuò)大的數(shù)字?jǐn)鄬樱o(wú)法保持有界間隙)。

問(wèn)題 846 —— 平面點(diǎn)集的幾何悖論(1992 年提出)

這是一個(gè)關(guān)于平面幾何的奇妙問(wèn)題。AI 證明了存在這樣一種無(wú)限擴(kuò)展的平面點(diǎn)集:你從中任意挑出有限個(gè)點(diǎn),總能發(fā)現(xiàn)其中有很大一部分是不共線的(即沒(méi)有三個(gè)點(diǎn)在同一條直線上)。然而,整個(gè)無(wú)限集合卻無(wú)論如何也無(wú)法被拆分成有限個(gè)「絕對(duì)沒(méi)有三點(diǎn)共線」的子集。

問(wèn)題 26(延伸變體)—— 整數(shù)倍數(shù)密度的極值(1995 年提出)

這探討了整數(shù)倍數(shù)在自然數(shù)系中的分布規(guī)律。AI 通過(guò)精妙的迭代構(gòu)造(利用不斷增加的素?cái)?shù)序列),證明了存在一種特定的正整數(shù)序列,當(dāng)你把這個(gè)序列中的所有數(shù)字都加上任意一個(gè)相同的正整數(shù)偏移量后,這些新數(shù)字生成的所有倍數(shù),其在自然數(shù)中的占比永遠(yuǎn)會(huì)被嚴(yán)格限制在一個(gè)上限(小于四分之三)之下。

在 DeepMind 的實(shí)踐中,大模型在不同問(wèn)題上的計(jì)算開(kāi)銷差異巨大,絕大多數(shù)問(wèn)題的平均成本在幾十美元到幾百美元之間,最「便宜」的問(wèn)題僅需 7.5-15 美元。

看起來(lái)也沒(méi)比 AI 寫(xiě)代碼貴太多?

我們知道,上個(gè)星期 OpenAI 剛剛宣布使用內(nèi)部通用推理模型推翻了數(shù)學(xué)界近 80 年的「平面單位距離猜想」(Erd?s Unit Distance Problem),再加上此次 DeepMind 提交的成果,一系列進(jìn)步標(biāo)志著大模型的能力和應(yīng)用范式正在發(fā)生改變。

現(xiàn)在 AI 能夠解決的問(wèn)題,已是真正的數(shù)學(xué)開(kāi)放性未知領(lǐng)域,它們面對(duì)人類數(shù)學(xué)家也沒(méi)有探索完成的「無(wú)人區(qū)」,正在自主創(chuàng)造新知識(shí)。

科學(xué)發(fā)現(xiàn)的速度正在快速走向指數(shù)化。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
深圳一張征婚表火了!42歲女士要求男方凈資產(chǎn)2000萬(wàn),遭全網(wǎng)罵慘

深圳一張征婚表火了!42歲女士要求男方凈資產(chǎn)2000萬(wàn),遭全網(wǎng)罵慘

譚談社會(huì)
2026-05-23 11:29:48
尷尬到摳腳!馬刺球迷對(duì)著SGA狂噓!!

尷尬到摳腳!馬刺球迷對(duì)著SGA狂噓!!

柚子說(shuō)球
2026-05-25 08:07:02
四川省攀枝花市政府原副市長(zhǎng)龍勇被“雙開(kāi)”

四川省攀枝花市政府原副市長(zhǎng)龍勇被“雙開(kāi)”

界面新聞
2026-05-25 18:41:47
段睿深夜悲痛發(fā)文:再也沒(méi)有人等我回去了!

段睿深夜悲痛發(fā)文:再也沒(méi)有人等我回去了!

原夢(mèng)叁生
2026-04-22 20:06:36
吳婉芳次子大婚!干爹張學(xué)友獻(xiàn)唱,每桌兩瓶茅臺(tái),鄭伊健夫婦也在

吳婉芳次子大婚!干爹張學(xué)友獻(xiàn)唱,每桌兩瓶茅臺(tái),鄭伊健夫婦也在

裕豐娛間說(shuō)
2026-05-24 07:05:20
自稱純天然在讀大二學(xué)生,觀眾要求核驗(yàn)身份,主播不肯出示學(xué)生證

自稱純天然在讀大二學(xué)生,觀眾要求核驗(yàn)身份,主播不肯出示學(xué)生證

搗蛋窩
2026-05-24 15:32:41
A股的「不死鳥(niǎo)」,終于死了

A股的「不死鳥(niǎo)」,終于死了

大嘴説
2026-05-25 17:08:24
艾滋病新增130萬(wàn)!很多人中招很冤枉!在外“5不碰”一定要記死

艾滋病新增130萬(wàn)!很多人中招很冤枉!在外“5不碰”一定要記死

今朝牛馬
2025-12-31 19:31:04
12歲女孩開(kāi)269公里高速回外婆家,交警發(fā)現(xiàn)后問(wèn):你怎么會(huì)開(kāi)車?女孩一句話全場(chǎng)淚目...

12歲女孩開(kāi)269公里高速回外婆家,交警發(fā)現(xiàn)后問(wèn):你怎么會(huì)開(kāi)車?女孩一句話全場(chǎng)淚目...

喬話
2026-05-24 23:37:21
燃油車集體大降價(jià)!45萬(wàn)元的奧迪降至26萬(wàn)元,寶馬最高降超30萬(wàn)元!

燃油車集體大降價(jià)!45萬(wàn)元的奧迪降至26萬(wàn)元,寶馬最高降超30萬(wàn)元!

新浪財(cái)經(jīng)
2026-05-23 23:34:36
79歲黃百鳴法庭上求情,自曝患癌精神受打擊,不想坐牢已決定退休

79歲黃百鳴法庭上求情,自曝患癌精神受打擊,不想坐牢已決定退休

開(kāi)開(kāi)森森
2026-05-23 11:17:36
武契奇訪華前強(qiáng)硬表態(tài):不惜一切代價(jià)鏟除軍中黑惡勢(shì)力

武契奇訪華前強(qiáng)硬表態(tài):不惜一切代價(jià)鏟除軍中黑惡勢(shì)力

標(biāo)體
2026-05-23 23:17:30
A股:周一,股市又拉升了,但是,行情不太對(duì)勁!

A股:周一,股市又拉升了,但是,行情不太對(duì)勁!

明心
2026-05-25 11:40:00
效果立竿見(jiàn)影!巴基斯坦8000軍隊(duì)進(jìn)駐沙特后,科威特也心動(dòng)了?

效果立竿見(jiàn)影!巴基斯坦8000軍隊(duì)進(jìn)駐沙特后,科威特也心動(dòng)了?

忠于法紀(jì)
2026-05-25 18:37:30
官宣中國(guó)男籃第3批裁員名單!10人離隊(duì)7人進(jìn)隊(duì),2大留洋悍將歸隊(duì)

官宣中國(guó)男籃第3批裁員名單!10人離隊(duì)7人進(jìn)隊(duì),2大留洋悍將歸隊(duì)

老吳說(shuō)體育
2026-05-25 11:22:47
TA:上賽季崩盤(pán)前,瓜帥原本想在曼城拿到10座英超冠軍再離開(kāi)

TA:上賽季崩盤(pán)前,瓜帥原本想在曼城拿到10座英超冠軍再離開(kāi)

懂球帝
2026-05-25 15:52:16
外交部就中美元首會(huì)晤涉日本問(wèn)題報(bào)道答記者問(wèn):你提到的內(nèi)容與中方掌握情況不符

外交部就中美元首會(huì)晤涉日本問(wèn)題報(bào)道答記者問(wèn):你提到的內(nèi)容與中方掌握情況不符

澎湃新聞
2026-05-25 14:24:26
馬斯克的用人哲學(xué):一個(gè)員工有沒(méi)有潛力,開(kāi)會(huì)就能看出來(lái),越是平庸的人,越會(huì)在這兩個(gè)細(xì)節(jié)上暴露自己的“打工者思維”

馬斯克的用人哲學(xué):一個(gè)員工有沒(méi)有潛力,開(kāi)會(huì)就能看出來(lái),越是平庸的人,越會(huì)在這兩個(gè)細(xì)節(jié)上暴露自己的“打工者思維”

心理觀察局
2026-05-25 07:20:34
對(duì)華露出獠牙?菲律賓副總統(tǒng)為拉攏軍方,要和“親華”形象劃界限

對(duì)華露出獠牙?菲律賓副總統(tǒng)為拉攏軍方,要和“親華”形象劃界限

新時(shí)代精神
2026-05-25 18:39:56
穆里尼奧出手!皇馬首簽鎖定阿森納水貨,打臉弗洛倫蒂諾放棄巨星

穆里尼奧出手!皇馬首簽鎖定阿森納水貨,打臉弗洛倫蒂諾放棄巨星

瀾歸序
2026-05-25 03:58:13
2026-05-25 19:11:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
13078文章數(shù) 142652關(guān)注度
往期回顧 全部

科技要聞

華為:沒(méi)有先進(jìn)光刻機(jī)也能造出高端芯片

頭條要聞

牛彈琴:伊朗現(xiàn)在哭笑不得 美官員讓伊別理特朗普推文

頭條要聞

牛彈琴:伊朗現(xiàn)在哭笑不得 美官員讓伊別理特朗普推文

體育要聞

如果不好好守門(mén),他可能早就繼承家業(yè)了

娛樂(lè)要聞

李晨鄭愷跑男停宣:12年元老被邊緣化

財(cái)經(jīng)要聞

紙包火的秘密:前發(fā)審委員的冒險(xiǎn)游戲

汽車要聞

啟境GT7定檔5月29日預(yù)售 提供三電機(jī)版本

態(tài)度原創(chuàng)

旅游
房產(chǎn)
手機(jī)
本地
時(shí)尚

旅游要聞

專治都市“班味”,昆士蘭把“度假感”搬進(jìn)北京地鐵

房產(chǎn)要聞

工抵房騙局!134套房款入私賬!海南這個(gè)盤(pán),坑慘買房人!

手機(jī)要聞

榮耀WIN Turbo手機(jī)搭載10000mAh青海湖電池,支持80W超級(jí)快充

本地新聞

用云錦的方式,打開(kāi)江蘇南京

薄底鞋失寵!“這雙鞋”突然爆火,夏天穿時(shí)髦又好看

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版