无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

留給人類數學家的懸賞不多了!谷歌DeepMind一口氣解決9道埃爾德什問題

0
分享至


來源:量子位 | 公眾號 QbitAI

聞樂 發自 凹非寺

AI進軍數學界的速度太快了。

OpenAI前腳剛用內部模型突破埃爾德什的80年單位距離問題,谷歌DeepMind后腳就解決一個同樣卡了人類56年的埃爾德什數學難題——

最新發布AlphaProof Nexus,一套由Gemini驅動的智能體框架,一出手就是9個埃爾德什開放問題


除了這9道,它還順手證明了OEIS整數序列百科里的44個猜想、搞定了一道擱置15年的代數幾何難題、還改進了凸優化領域里一個沿用已久的理論邊界。

推理成本呢?每道題幾百美元,整套證明代碼也全都開源放在了GitHub上。


這篇論文共有20位作者,其中的Aja Huang,也是2016年AlphaGo的核心研究員。

56年沒人做出來的題,AI 給了什么答案

AlphaProof Nexus解決的這幾道題,咱挑三道最有意思的說說。

Erd?s ,1970年提出,懸置56年

這道題問的是:你能不能找出一個無限大的整數集合,滿足兩個聽起來很別扭的條件:

第一,任意從中挑三個不同的數字a、b、c,a永遠不能整除b加c的和。

第二,這組數不能太零散,在自然數里要保持一定的密度。

簡單理解就是,這群數字之間,既不能一個數整除另一個數,也不能一個數整除另外兩個數的和,同時數字還要分布得相對密集,不能只挑寥寥幾個數投機取巧。

從1970年開始,就沒人能給出這個集合的完整構造,各種局部進展有,但始終拼不成一個整體解。


AI的解法是用中國剩余定理把大問題拆成許多個獨立的區塊,每個區塊內部用三項等差數列的回避集來滿足約束,然后把所有區塊拼回一個完整的無限集。


Erd?s ,1996年提出,30年沒有定論

這道題聽著就更奇怪了。

想象兩個數字集合:第一個集合里全是“在三進制下只由數字0和1組成的整數”,第二個集合里全是“在四進制下只由數字0和1組成的整數”。把這兩個集合里所有數字兩兩相加,得到一個新集合。

問:這個新集合里的數字在自然數中出現的頻率(數學上叫下密度)是不是正的?

直覺上你可能會覺得,兩種集合包含的數字本來就不算很多,加起來應該也挺稀疏的。

但稀疏到什么程度?是徹底稀到密度歸零,還是多少保持一點正密度?

這中間的差別非常微妙,1996年提出后一直沒定論。

AI的答案是:密度為零。


證明思路是log?除以log?是無理數。這意味著3的冪次和4的冪次可以以任意精度彼此逼近。

利用這一點,AI構造了一個歸納性稀疏化論證:不斷找到兩個幾乎對齊的尺度,讓密度以0.99的比率一步步衰減,直到徹底歸零。

一個純數論的性質,解決了一個組合幾何的問題。

Erd?s ,1992年提出,卡了人類34年。

這是個平面幾何題,AI證明了存在這樣一個無限擴展的平面點集:

你從中任意挑出有限個點,總能發現其中大部分點是不共線的——

隨便截一段,看起來都挺正常,但當你試圖把這個無限集合拆分成有限個“絕對沒有任何三點共線”的子集時,辦不到。

一個集合的每個有限局部都正常,但整體頑固得不可拆分。這種全局與局部的張力,是組合幾何里最難的那一類問題。

AI把完全圖的每條邊映射到平面上一個點,用二次多項式編碼坐標,再拉上無窮Ramsey定理完成證明,把一個幾何問題翻譯成了圖論和邏輯的語言。

除了這三道,還有六道分別在整除集構造、范德瓦爾登數間隙、西頓集孤立點、集合拆分密度等領域。


同時,AlphaProof Nexus還在OEIS整數序列百科里證明了44個開放猜想,在代數幾何那邊解決了一道希爾伯特函數對數凹性的15年懸案,凸優化那邊改進了一個錨定梯度下降法的理論邊界。


菲爾茲獎得主陶哲軒曾經提醒過,AI目前解決埃爾德什問題的實際成功率大約在1-2%,這次谷歌的系統挑戰了353道題,解開9道,比例剛好對上了。

用幾百美元算力換一道56年難題

AlphaProof Nexus的架構核心用一句話就能說清楚,Gemini 3.1 Pro生成Lean語言證明步驟→Lean編譯器逐行檢查→報錯直接反饋給模型→模型根據報錯修改→再檢查→循環到全部通過。


好家伙,這有點像平時寫代碼,只不過現在Debug的是數學定理……


在這套框架里,DeepMind設計了四個Agent

最簡單的Agent A是同時啟動多個獨立子Agent,先靠Gemini 3.1 Pro梳理解題思路,動手編寫證明代碼。

寫完立刻交給編譯器核驗,一旦報錯,錯誤信息就會傳回模型,讓它不斷修改、重試,直到通關。

全程沒有額外輔助工具,純靠寫代碼+查錯循環。


Agent B多了一樣東西,AlphaProof。

AlphaProof是DeepMind之前專門為奧數級別題目訓練過的強化學習證明工具。

當Agent A模式在某個小步驟上反復卡住、編譯器反復報錯也修不過來時,Agent B可以調用AlphaProof做一次強化學習驅動的樹搜索,專門攻擊這個局部難點。

Agent C引入了進化算法的思路。

前面兩種Agent的子Agent都是各自獨立工作的,互不交流。

Agent C是所有子Agent共享一個證明草圖種群,每一個子模塊都會產出不同的證明草稿。

然后由另一個模型從合理性、清晰度、新穎性三個維度給每一份草稿打分,用Elo評分系統排名。

高分草稿會相互組合,衍生出新解法,低分草稿直接淘汰,整個種群在證明空間里做進化搜索。

Agent D是全功能完全體,進化篩選思路+專項工具攻克難點+大模型邏輯推理,三股力量在一個框架里協同,也是這次批量破解難題的主力。


這么看下來,我以為最強的Agent D應該會碾壓一切,Agent A只當個對照組。

結果沒想到論文里表明最簡單的Agent A,同樣能解出全部9道題

沒有進化算法,沒有AlphaProof,就一個LLM循環加編譯器反饋的Agent A,只是在難題上更費錢一點。


研究團隊把原因歸為兩個:

  • 一是Gemini 3.1 Pro本身的能力已經足夠強了;

  • 二是Lean編譯器的那層實打實的糾錯反饋,對AI的引導作用,遠比人們預想的更大。

這個結果或許也在預示著,未來隨著大模型能力持續升級,復雜的多工具組合系統,可能不再是剛需,只用大模型+專業校驗工具這套簡單循環,就能搞定大多數數學難題。

而且這套方案的優勢也體現在成本上,單題僅需幾百美元。

埃爾德什生前為這些難題設置了懸賞,只是他不會想到——

解開這些謎題的可能不是人類智慧,而是算力。

論文地址:https://arxiv.org/abs/2605.22763v1
Github地址:https://github.com/google-deepmind/alphaproof-nexus-results

參考鏈接:
[1]https://x.com/pushmeet/status/2058936037754224998
[2]https://the-decoder.com/google-deepminds-alphaproof-nexus-solves-decades-old-math-problems-for-a-few-hundred-dollars/

閱讀最新前沿科技趨勢報告,請訪問21世紀關鍵技術研究院的“未來知識庫”


未來知識庫是 “21世紀關鍵技術研究院”建 立的在線知識庫平臺,收藏的資料范圍包括人工智能、腦科學、互聯網、超級智能,數智大腦、能源、軍事、經濟、人類風險等等領域的前沿進展與未來趨勢。目前擁有超過8000篇重要資料。每周更新不少于100篇世界范圍最新研究資料。 歡迎掃描二維碼或訪問https://wx.zsxq.com/group/454854145828進入。

截止到2月28日 ”未來知識庫”精選的百部前沿科技趨勢報告

(加入未來知識庫,全部資料免費閱讀和下載)

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
中足聯官宣重磅罰單!52歲于根偉禁賽5場罰5萬 辱罵+率隊圍堵裁判

中足聯官宣重磅罰單!52歲于根偉禁賽5場罰5萬 辱罵+率隊圍堵裁判

我愛英超
2026-07-02 22:05:30
早上7點 世界杯14億大戰!C羅深陷20年魔咒 必有1巨星出局

早上7點 世界杯14億大戰!C羅深陷20年魔咒 必有1巨星出局

葉青足球世界
2026-07-02 17:12:02
一路走好!1天時間4位名人被曝去世,最大78歲,最小才30歲

一路走好!1天時間4位名人被曝去世,最大78歲,最小才30歲

借你一生
2026-07-02 10:26:03
成田機場的一張廣告牌,讓日本攝影師恍惚:“瞬間以為回到了中國”

成田機場的一張廣告牌,讓日本攝影師恍惚:“瞬間以為回到了中國”

東京在線
2026-07-02 16:57:07
里子面子都丟了!管不住下半身的任素汐,一場演唱會撕下她的體面

里子面子都丟了!管不住下半身的任素汐,一場演唱會撕下她的體面

往史過眼云煙
2026-07-02 09:55:26
首都保衛戰打響后,普京發表全國講話,俄羅斯對美西方發出通牒

首都保衛戰打響后,普京發表全國講話,俄羅斯對美西方發出通牒

策前論
2026-07-02 17:21:49
“一個月600塊你要餓死他?”大學男生吃飯被偷拍,看的人心疼!

“一個月600塊你要餓死他?”大學男生吃飯被偷拍,看的人心疼!

林林先生
2026-07-01 12:30:03
從699分到愛心接力:少年向上 社會向善丨中聽

從699分到愛心接力:少年向上 社會向善丨中聽

大象新聞
2026-07-01 16:30:12
六代機,就這么明晃晃的官宣了!

六代機,就這么明晃晃的官宣了!

新動察
2026-07-02 08:25:58
韓紅一句“走個面兒”引全網聲討,這屆觀眾不伺候了

韓紅一句“走個面兒”引全網聲討,這屆觀眾不伺候了

可達鴨面面觀
2026-07-02 19:44:03
曝38歲德國主帥下課 足協開會3小時要求他辭職 愿付700萬歐補償金

曝38歲德國主帥下課 足協開會3小時要求他辭職 愿付700萬歐補償金

我愛英超
2026-07-02 21:40:07
80%變0!里奇·保羅曝光詹姆斯離湖心路

80%變0!里奇·保羅曝光詹姆斯離湖心路

籃壇第一線
2026-07-02 00:47:17
地鐵吐血女孩半月內多次收到病危通知單,當事人:自己的生命已經進入倒計時,但還是希望能夠有人關注到自己手里仍在運行的公益項目

地鐵吐血女孩半月內多次收到病危通知單,當事人:自己的生命已經進入倒計時,但還是希望能夠有人關注到自己手里仍在運行的公益項目

瀟湘晨報
2026-07-02 16:32:20
賈玲直言自己又活過來了,大方承認體重反彈了,坦言不再逼自己極端自律,活得太通透了

賈玲直言自己又活過來了,大方承認體重反彈了,坦言不再逼自己極端自律,活得太通透了

背包旅行
2026-07-02 11:45:23
西安賽格墜樓熱搜刷屏:我看到謀生的嚴總,走上絕路時的無助

西安賽格墜樓熱搜刷屏:我看到謀生的嚴總,走上絕路時的無助

李晚書
2026-07-02 18:44:26
故意剝奪伊朗隊勝利!伊朗裔美國專家起訴國際足聯,索賠10億美元

故意剝奪伊朗隊勝利!伊朗裔美國專家起訴國際足聯,索賠10億美元

全景體育V
2026-07-02 21:38:20
成都一女子不洗手抱孫子,兒媳怒斥不衛生,兒子一拳打面中,母親揚言要兒子坐牢,兒子卻說:她活該!6年后現狀曝光...

成都一女子不洗手抱孫子,兒媳怒斥不衛生,兒子一拳打面中,母親揚言要兒子坐牢,兒子卻說:她活該!6年后現狀曝光...

背包旅行
2026-07-02 14:33:11
中國臺灣演員陳昊森承認與湖北女演員蘭西雅相戀,目前已交往超過半年,兩人曾合作電影

中國臺灣演員陳昊森承認與湖北女演員蘭西雅相戀,目前已交往超過半年,兩人曾合作電影

極目新聞
2026-07-02 22:47:55
加息,突變!美國重磅數據出爐!美股、黃金、比特幣全線拉升

加息,突變!美國重磅數據出爐!美股、黃金、比特幣全線拉升

證券時報
2026-07-02 21:53:03
扎哈羅娃:馮德萊恩是個“出色的騙子”

扎哈羅娃:馮德萊恩是個“出色的騙子”

參考消息
2026-07-02 14:14:08
2026-07-03 02:28:49
人工智能學家 incentive-icons
人工智能學家
人工智能領域權威媒體
4864文章數 37483關注度
往期回顧 全部

科技要聞

馬斯克不承認,但SpaceX就該造AI手機

頭條要聞

商戶在西安賽格商場墜亡 好友:他曾變賣門店發工資

頭條要聞

商戶在西安賽格商場墜亡 好友:他曾變賣門店發工資

體育要聞

韓國人,為什么恨透了洪明甫?

娛樂要聞

眾星祝福祖國,曾沛慈原形畢露?

財經要聞

千億茶市場無贏家:瀾滄巨虧 八馬停"蹄"

汽車要聞

有純電有增程 還有二代VLA支持 小鵬MONA L03預售價14.38萬起

態度原創

健康
旅游
教育
時尚
游戲

這4類消化病患者 吃粘食管住嘴

旅游要聞

135公里鐵絲網圍泰山,論證過必要性了嗎

教育要聞

初二期末只在校內第120名、第125名,四年后在全省站到了狀元榜眼

這個夏天,你一定吃過她們的瓜

國產外設廠"宣布"放棄實體手柄!數字化徹底解決漂移

無障礙瀏覽 進入關懷版