无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

LLM助力突破60年數(shù)學(xué)猜想!北大王立威團(tuán)隊(duì)大幅刷新斯坦納比下界

0
分享至



本文的共同第一作者包括北京大學(xué)信息科學(xué)技術(shù)學(xué)院圖靈班本科生柯繹思、疏彥凱、數(shù)學(xué)科學(xué)學(xué)院本科生黃天域;共同通訊作者為北京大學(xué)王立威老師、卡內(nèi)基梅隆大學(xué)博士生蓋景初;其他作者還包括北京大學(xué)賀笛老師。

近期,LLM 已經(jīng)在 IMO 上取得了很好的成績(jī),在一些研究級(jí)數(shù)學(xué)上(如短程證明、組合構(gòu)造)也有所進(jìn)展。但如果真正讓 LLM 去處理提出數(shù)十年的數(shù)學(xué)猜想,結(jié)果會(huì)是如何?在本工作中,北大王立威教授團(tuán)隊(duì)構(gòu)建了一套基于 LLM 的框架,聚焦Gilbert-Pollak 猜想(斯坦納比猜想),成功將二維平面的斯坦納比從 1985 年證明的 0.824 改進(jìn)到了,距離猜想目標(biāo)僅差 0.01,一步之遙!

該進(jìn)展已被陶哲軒 Terence Tao收錄組合數(shù)學(xué)優(yōu)化中的常數(shù)列表中!問題編號(hào) 43。

  • 倉(cāng)庫(kù)鏈接:https://github.com/teorth/optimizationproblems

這個(gè)問題有多大影響力?在上個(gè)世紀(jì),該問題由貝爾實(shí)驗(yàn)室科學(xué)家 Gilbert 和 Pollak 提出。著名數(shù)學(xué)家、美國(guó)數(shù)學(xué)學(xué)會(huì)(AMS)前主席 Ronald Graham(葛立恒)、美國(guó)國(guó)家科學(xué)院院士 Fan Chung(金芳蓉)都對(duì)該問題進(jìn)行過系統(tǒng)深入的研究。1990 年,堵丁柱教授和 Frank Hwang(黃光明)研究員進(jìn)行了一系列相關(guān)研究,曾被譽(yù)為 1989 年 - 1990 年度美國(guó)離散數(shù)學(xué)界和理論計(jì)算機(jī)科學(xué)界重大成果。圍繞該問題的研究論文眾多,是一個(gè)飽受數(shù)學(xué)家關(guān)注的猜想。

目前該工作已被 ICML 2026 接收,相關(guān)代碼和數(shù)學(xué)證明均已開源。



  • 論文標(biāo)題:Towards Solving the Gilbert-Pollak Conjecture via Large Language Models
  • 論文地址:https://arxiv.org/abs/2601.22365
  • 項(xiàng)目倉(cāng)庫(kù):https://github.com/keyisi2006/Steiner-Ratio

困擾人類 60 年的 Gilbert-Pollak 猜想





形象點(diǎn)說(shuō):給定平面上 n 個(gè)城市,最小生成樹(MST)就是修建 n - 1 條鐵路將它們連起來(lái)。最小斯坦納樹(SMT)就是可以額外修建若干個(gè)中轉(zhuǎn)站,再修建鐵路將它們連起來(lái)。可以看出,合適地建立中轉(zhuǎn)站會(huì)讓路程變短,但猜想指出:并不會(huì)短太多。





問題 1:直接寫成 prompt 問 LLM,行不行?

之前一系列 AI4Math 的工作,要么是數(shù)學(xué)證明的長(zhǎng)度較短(如 IMO 問題),要么是針對(duì)構(gòu)造性的、非嚴(yán)謹(jǐn)證明性的組合構(gòu)造問題。



讓 LLM 直接去寫幾十頁(yè)的嚴(yán)謹(jǐn)數(shù)學(xué)證明,還要有創(chuàng)新性,對(duì)于目前 LLM 能力來(lái)說(shuō)為時(shí)過早。為了解決斯坦納比猜想,必須減少證明長(zhǎng)度,或者向構(gòu)造性的方向轉(zhuǎn)換。

步驟 1.1:看看人類數(shù)學(xué)家怎么做?

回顧人類數(shù)學(xué)家的工作,發(fā)現(xiàn)大家都是采取了歸納法:對(duì)于一棵很大的斯坦納樹,只去考慮一個(gè)局部,從中摘除(prune)掉一小部分的點(diǎn),并將剩下的點(diǎn)重連成斯坦納樹。



那么,只要剩下的部分滿足比例(歸納假設(shè))+ 摘除過程的變化量滿足比例,就可以合并得到原問題滿足比例!寫成一行公式就是:



從而,問題的關(guān)鍵就是找到更好的摘除 / 分割樹的方式。

步驟 1.2:整理一下?這就是 Max-Min 問題!

本工作中提出了一個(gè)叫做驗(yàn)證函數(shù)(verification functions)的數(shù)學(xué)工具,一個(gè)驗(yàn)證函數(shù)就代表了一種分割樹的方式。歸納法就是要求:任意的樹形態(tài),存在一種分割,使得比例成立。其實(shí)這就是一個(gè)max-min 問題:最大的樹形態(tài) w ——最小的驗(yàn)證函數(shù) F。



人類數(shù)學(xué)家嘗試了 10 種不同的 F,可以得到 0.824 的下界。如果 LLM 能幫助人類嘗試 1000 種不同的 F,就有機(jī)會(huì)得到更好的下界!

本工作設(shè)計(jì)了一個(gè)Reward Model,自動(dòng)化了這一 max-min 問題的求解過程,通過證明單調(diào)性,并配合分治法,為所有樹形態(tài) w 找到一個(gè)驗(yàn)證函數(shù) F 進(jìn)行覆蓋。以前人類數(shù)學(xué)家需要手動(dòng)進(jìn)行啟發(fā)式的參數(shù)空間劃分,現(xiàn)在一個(gè)代碼自動(dòng)搞定。下圖是假設(shè)參數(shù)空間是 2 維的一個(gè)例子:



至此,LLM 不再需要證明完整的猜想,它只需要找到更多的驗(yàn)證函數(shù) F,再與 reward model 交互就可以了!

問題 2:找來(lái)的這么多 F,正確性怎么保證?

想要生成 1000+ 個(gè) F,只需要反復(fù)調(diào)用 LLM 即可。但基于自然語(yǔ)言推理的 LLM,你能相信它的嚴(yán)謹(jǐn)性嗎?如果讓人類一個(gè)一個(gè)檢查,時(shí)間開銷不可估量,難以 scale up。



因此,我們必須讓 LLM 在正確性可驗(yàn)證的框架中運(yùn)行。

步驟 2.1:給 LLM 一個(gè)引理模板

本工作通過數(shù)學(xué)變換,證明了一個(gè)事實(shí):找更多的 F 函數(shù),可以通過找兩類引理的方式實(shí)現(xiàn):一類是 Trapped Regular Point Lemma,另一類是 4-Point Steiner Tree Lemma。



LLM 只需要負(fù)責(zé)填入結(jié)構(gòu)化的參數(shù),通過代碼片段進(jìn)行表達(dá),系統(tǒng)就可以通過翻譯(嵌入代碼片段)的方式產(chǎn)生一系列合法的 F。以第 1 類為例,這個(gè)翻譯過程可以是構(gòu)造分段函數(shù):



步驟 2.2:光有模板還不夠,讓 LLM 徹底「搭積木」

生成結(jié)構(gòu)化的代碼片段仍然可能會(huì)出錯(cuò)。必須要讓 LLM 像「搭積木」一樣,拼湊人類提供的規(guī)則(rules),讓數(shù)學(xué)軟件 Mathematica「合成」保對(duì)的引理,才能從根本上保證正確性。

以第 1 類引理為例,本工作提出了 A、B 兩類規(guī)則,分別代表斯坦納樹必須滿足的性質(zhì),和確保點(diǎn)存在性的條件。LLM 要做的,就是去選擇 2 - 3 個(gè)規(guī)則,調(diào)用 Mathematica 去化簡(jiǎn)「什么條件下,若干個(gè) A 能推出一個(gè) B」。



通過這種方法,LLM 能在多輪的 tools 調(diào)用中,充分探索這個(gè)推理空間。而且這是保對(duì)的——任何的創(chuàng)意搭建,都不會(huì)產(chǎn)生邏輯的錯(cuò)誤。

問題 3:正確的 F 就能提升下界嗎,有沒有「渾水摸魚」?

目前為止,系統(tǒng)看似很完美,實(shí)則還有一個(gè)隱藏的大問題:只是重復(fù)運(yùn)行,生成 1000+ 個(gè) F,很可能其中很多是平凡的甚至重復(fù)的,根本對(duì)斯坦納比沒有提升!



如何讓 LLM 真正生成有效的 F?必須給它針對(duì)性的迭代引導(dǎo)信號(hào)

步驟 3:針對(duì)問題的瓶頸反省機(jī)制

本工作提出了瓶頸(bottleneck)的概念:在 reward model 運(yùn)行完成后,把得到的提升一個(gè)小量 δ(比如 0.0001),再讓 reward model 運(yùn)行——此時(shí)必然反饋失敗,未被 F 覆蓋的部分的 bounding box,就是瓶頸區(qū)域。



換言之,瓶頸就是讓 ρ += δ 必須克服的參數(shù)區(qū)域。在下一輪生成 F 時(shí),LLM 必須確保能夠覆蓋瓶頸區(qū)域。從而為每一輪的高效提升提供了保障。

迭代系統(tǒng)框架和成果

通過「重復(fù)生成 Reward → 確定瓶頸 → LLM Agent 提出引理 → 翻譯并開始下一輪」這個(gè)迭代范式,系統(tǒng)成功在 ~10 輪迭代中,將斯坦納比改進(jìn)到了 0.8559。最終的成果通過了人類的檢查。



本文基于 GPT-5 系列構(gòu)建了系統(tǒng),并驗(yàn)證了模型魯棒性:其余模型如 Gemini 3 和 Claude 4.6 均可得到類似的結(jié)果。下圖展示了迭代輪次和斯坦納比的關(guān)系。



結(jié)語(yǔ)

本工作證明了 LLM 有能力為研究級(jí)數(shù)學(xué)提供幫助,但要設(shè)計(jì)合適的運(yùn)作框架。

在這個(gè)過程中,人類的 insight 仍然是必要的。同時(shí),人類檢查也是必不可少的部分。

如果要用 LLM 去處理其他數(shù)學(xué)問題,可以參考的內(nèi)容包括,設(shè)計(jì)一個(gè)「搭積木」式的結(jié)構(gòu)化推理空間,以及設(shè)計(jì)瓶頸反省機(jī)制。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
《主角》忍了20年的軟柿子團(tuán)長(zhǎng)朱繼儒,上位就掀桌子:真正的狠人

《主角》忍了20年的軟柿子團(tuán)長(zhǎng)朱繼儒,上位就掀桌子:真正的狠人

慫熊劇場(chǎng)
2026-05-18 07:56:17
終于開竅!許指導(dǎo)神級(jí)調(diào)整終結(jié)上海26連勝,獲眾媒體人高度認(rèn)可

終于開竅!許指導(dǎo)神級(jí)調(diào)整終結(jié)上海26連勝,獲眾媒體人高度認(rèn)可

體育見習(xí)官
2026-05-18 08:32:56
泰山景區(qū)因強(qiáng)降雨關(guān)閉!當(dāng)?shù)匾寻l(fā)布暴雨黃色預(yù)警信號(hào),客服:相關(guān)時(shí)段可退票,重新開放時(shí)間未定

泰山景區(qū)因強(qiáng)降雨關(guān)閉!當(dāng)?shù)匾寻l(fā)布暴雨黃色預(yù)警信號(hào),客服:相關(guān)時(shí)段可退票,重新開放時(shí)間未定

極目新聞
2026-05-18 10:10:34
阿斯:穆帥若執(zhí)教皇馬需確立領(lǐng)袖核心&世界杯前敲定引援計(jì)劃

阿斯:穆帥若執(zhí)教皇馬需確立領(lǐng)袖核心&世界杯前敲定引援計(jì)劃

懂球帝
2026-05-18 13:11:07
多項(xiàng)研究顯示:性生活頻率過低,男女容易早衰且患癌風(fēng)險(xiǎn)增高!

多項(xiàng)研究顯示:性生活頻率過低,男女容易早衰且患癌風(fēng)險(xiǎn)增高!

燈錦年
2026-05-05 21:55:51
大學(xué)教授,論文發(fā)表量削減50%!

大學(xué)教授,論文發(fā)表量削減50%!

軟科
2026-05-18 13:34:48
得熬夜!U17國(guó)足VS澳大利亞,開球時(shí)間公布,誰(shuí)能踢進(jìn)亞洲杯決賽

得熬夜!U17國(guó)足VS澳大利亞,開球時(shí)間公布,誰(shuí)能踢進(jìn)亞洲杯決賽

體育大學(xué)僧
2026-05-17 11:47:42
中央再發(fā)鐵令!領(lǐng)導(dǎo)干部出現(xiàn)這15種情形 , 將不能再擔(dān)任現(xiàn)職!

中央再發(fā)鐵令!領(lǐng)導(dǎo)干部出現(xiàn)這15種情形 , 將不能再擔(dān)任現(xiàn)職!

細(xì)說(shuō)職場(chǎng)
2026-05-14 21:37:29
董路是最大贏家!亞洲杯半決賽+直播時(shí)間:中國(guó)U17男足VS澳大利亞

董路是最大贏家!亞洲杯半決賽+直播時(shí)間:中國(guó)U17男足VS澳大利亞

開成運(yùn)動(dòng)會(huì)
2026-05-17 23:18:24
特朗普在白宮念北京,稱訪華三日令他難忘,認(rèn)識(shí)了不可戰(zhàn)勝的中國(guó)

特朗普在白宮念北京,稱訪華三日令他難忘,認(rèn)識(shí)了不可戰(zhàn)勝的中國(guó)

可樂愛微笑
2026-05-17 17:03:50
福建該縣委常委、統(tǒng)戰(zhàn)部部長(zhǎng)被查

福建該縣委常委、統(tǒng)戰(zhàn)部部長(zhǎng)被查

大閩門戶
2026-05-18 13:22:31
張凌赫和泰國(guó)女星Mai合影,顏值在線,幸福感十足!

張凌赫和泰國(guó)女星Mai合影,顏值在線,幸福感十足!

桔彤工作室
2026-05-17 00:45:07
今晚開播,央1又一新劇空降來(lái)襲!首播4集,預(yù)告一出就明白這劇要爆

今晚開播,央1又一新劇空降來(lái)襲!首播4集,預(yù)告一出就明白這劇要爆

東方不敗然多多
2026-05-18 13:55:51
恭喜!他們結(jié)婚了,多年愛情長(zhǎng)跑修成正果,網(wǎng)友祝福:郎才女貌

恭喜!他們結(jié)婚了,多年愛情長(zhǎng)跑修成正果,網(wǎng)友祝福:郎才女貌

環(huán)球網(wǎng)資訊
2026-05-17 08:35:13
史泰龍痛罵《敢死隊(duì)4》:一場(chǎng)該死的災(zāi)難

史泰龍痛罵《敢死隊(duì)4》:一場(chǎng)該死的災(zāi)難

追星雷達(dá)站
2026-05-17 00:29:28
全民拒接陌生來(lái)電,我們正在經(jīng)歷,一場(chǎng)無(wú)聲的信任危機(jī)

全民拒接陌生來(lái)電,我們正在經(jīng)歷,一場(chǎng)無(wú)聲的信任危機(jī)

混沌錄
2026-05-07 21:28:12
不管有錢沒錢,盡快扔掉家里的這7樣?xùn)|西!不是瞎說(shuō),有科學(xué)依據(jù)

不管有錢沒錢,盡快扔掉家里的這7樣?xùn)|西!不是瞎說(shuō),有科學(xué)依據(jù)

家居設(shè)計(jì)師宅哥
2026-05-04 12:45:59
有領(lǐng)導(dǎo)困惑:發(fā)了那么多文,開了那么多會(huì),建立了那么多制度,為什么有的工作責(zé)任就是落不了實(shí)?

有領(lǐng)導(dǎo)困惑:發(fā)了那么多文,開了那么多會(huì),建立了那么多制度,為什么有的工作責(zé)任就是落不了實(shí)?

碧翰烽
2026-05-17 20:34:29
重磅!特朗普2026年訪華核心目的明確,中美敲文定關(guān)系新定位

重磅!特朗普2026年訪華核心目的明確,中美敲文定關(guān)系新定位

觀星賞月
2026-05-18 13:16:30
其實(shí)他才是對(duì)華敵意最深的美國(guó)總統(tǒng),差一點(diǎn)鎖死咱們的崛起之路

其實(shí)他才是對(duì)華敵意最深的美國(guó)總統(tǒng),差一點(diǎn)鎖死咱們的崛起之路

開著車去流浪
2026-05-15 15:28:45
2026-05-18 14:31:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
13021文章數(shù) 142650關(guān)注度
往期回顧 全部

科技要聞

國(guó)產(chǎn)大模型集體更新后能力有多強(qiáng)?

頭條要聞

特朗普嚴(yán)厲警告"臺(tái)獨(dú)"后 賴清德首度發(fā)聲被指態(tài)度強(qiáng)硬

頭條要聞

特朗普嚴(yán)厲警告"臺(tái)獨(dú)"后 賴清德首度發(fā)聲被指態(tài)度強(qiáng)硬

體育要聞

哈登晉級(jí)東決:第5次分區(qū)決賽第5次贏搶七

娛樂要聞

小S曬全家福懷念大S,爺爺奶奶最疼姐姐

財(cái)經(jīng)要聞

前4月工業(yè)生產(chǎn)較快增長(zhǎng) 失業(yè)率5.3%

汽車要聞

小米YU7 GT定檔5月21日19:00上市 跑車級(jí)轎跑SUV

態(tài)度原創(chuàng)

教育
時(shí)尚
旅游
房產(chǎn)
本地

教育要聞

孩子主動(dòng)表達(dá)的語(yǔ)言發(fā)展與成長(zhǎng)策略

夏天褲子不用多買,提前準(zhǔn)備幾條休閑的闊腿褲,百搭舒適顯瘦

旅游要聞

鶴崗:深耕賞花經(jīng)濟(jì) 賦能文旅發(fā)展

房產(chǎn)要聞

最新數(shù)據(jù)!??诙址?jī)r(jià),開始連漲!

本地新聞

用蘇繡的方式,打開江西婺源

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版