網易首頁 > 網易號 > 正文申請入駐

數學研究智能體Aletheia自主求解FirstProof挑戰成績6/10——由Google Gemini 3 Deep Think驅動

2026-03-16 00:07:00　來源: 小樂數學科普

江蘇舉報

分享至

★置頂zzllrr小樂公眾號（主頁右上角）數學科普不迷路！

本研究在谷歌深度思維 (Google DeepMind)開展。

Aletheia簡介：一款由深度思考（Deep Think）驅動的數學研究智能體，可針對研究級數學問題實現迭代式生成、驗證與修正。

我們報告了由 Gemini 3 Deep Think 驅動的數學研究智能體 Aletheia（馮志強等人，2026b）在首屆 FirstProof 挑戰中的表現。在挑戰規定的時間范圍內，根據多數專家評估，Aletheia（古希臘語：真理）自主解決了 10 個問題中的 6 個（問題 2、5、7、8、9、10）；需說明的是，專家僅對問題 8 的評估未達成一致。為保證完全透明，我們解釋了對 FirstProof 挑戰的理解，并披露了實驗細節及評估過程。原始提示詞和輸出結果可通過以下鏈接獲取：https://github.com/google-deepmind/superhuman/tree/main/aletheia

作者：Aletheia團隊 2026-2-27

通訊作者：

fengtony@google.com （馮志強）、

thangluong@google.com

外部機構：

加州大學伯克利分校（Tony Feng）、

布朗大學（Junehyuk Jung）、

韓國高等研究院（Sang-hyun Kim）、

康考迪亞大學（Carlo Pagano）、

加州理工學院（Sergei Gukov）、

中央研究院（Chiang-Chiang Tsai）、

卡內基梅隆大學（David Woodruff）、

南加州大學（Adel Javanmard）、

得克薩斯大學奧斯汀分校（Aryan Mokhtari）。

譯者：zzllrr小樂（數學科普公眾號）2026-3-16

1. 引言

FirstProof（Abouzaid 等人，2026）包含 10 個研究級數學問題，這些問題均源于專業數學家的實際研究工作，旨在評估當前人工智能的能力水平。參閱：

FirstProof 的作者將這些問題描述為 “引理”（Lemmas），即中間技術性命題，而非具有獨立研究價值的開放問題 1。問題于 2026 年 2 月 5 日發布，截止日期為太平洋標準時間 2026 年 2 月 13 日 23:59，屆時官方（人工撰寫）解決方案將同步公布。

1 至少有一個問題（問題 7）此前已被 Weinberger（2023）列為具有研究價值的開放問題。

本報告記錄了 Aletheia（馮志強等人，2026b）—— 一款由 Gemini 3 Deep Think（深度思維團隊，2026）驅動的數學研究智能體 —— 在 FirstProof 挑戰中的表現。Aletheia 針對每個問題進行兩次求解并取最優結果，具體表現如下表 1 所示。

問題編號

Aletheia

（兩次求解最優結果）

專家評估

（正確 / 總評估人數）

無輸出

正確

4/4

無輸出

正確

4/4

無輸出

正確

3/3

疑似正確

5/7

正確

4/4

P10

正確

2/2

表 1 | Aletheia 在 FirstProof 挑戰中的表現總結。“專家評估” 列顯示認為解決方案正確的專家人數與參與評估的專家總數。僅問題 8 的評估未達成一致。

需要強調的是，本研究是由 Aletheia 智能體開發團隊開展的有限范圍研究，評估過程得到了谷歌內部其他專家的協助；該結果并不代表谷歌在 FirstProof 挑戰中的整體成果。

延續我們在數學和科學發現領域人工智能透明度實踐（Luong 和 Mirrokni，2026）以及在（馮志強等人，2026b）中提出的 “人機交互（HAI）卡片” 概念，以下提供獲取 FirstProof 問題解決方案的 HAI 卡片：

人機交互卡片

2. 對挑戰的理解

由于 FirstProof 被定義為無明確規則的實驗性挑戰，我們首先說明對挑戰的理解。FirstProof 作者在 1stproof.org 的常見問題解答（FAQ）中指出：

什么構成解決方案？

如果人工智能模型能夠自主生成符合數學文獻中普遍認可的嚴謹性和學術規范的證明，我們就認為它解決了相應問題。具體而言，人工智能不應依賴人類輸入任何數學思想或內容，也不應依賴人類幫助其提煉問題核心。引用文獻時需包含精確的命題編號，且引用對象應為同行評審期刊發表的文章或 arXiv 預印本。

此外，在論文（Abouzaid 等人，2026）中，作者提到：“…… 目前尚不清楚人工智能系統在無需專家參與的情況下，獨立解決研究級數學問題的能力水平。”

自主性

盡管有上述指導原則，我們仍對 “自主解決方案” 的定義存在一定困惑。例如：若人工智能生成了一個證明，人類評審就某個技術點要求澄清，人工智能隨后補充說明以增強證明的嚴謹性，該結果是否算作自主解決方案？此類交互在人類同行評審中極為常見。我們認為答案可以是 “是”，但需提供完整的交互記錄，且觀察者需認可人類輸入未包含任何數學思想或內容。另一方面，對于 FirstProof 這類級別的研究問題，識別需要澄清的潛在薄弱點本身就需要專業知識，因此這類交互無法在無專家參與的情況下進行。

另一個問題是，是否可以利用人類專業知識從多個嘗試結果中篩選最優解決方案。根據我們對規則的理解，這一做法并未被禁止，但它會帶來潛在的巨大性能優勢，且與人工智能能力評估的核心目標無關。

我們的挑戰應對方案確保了最嚴格意義上的自主性：在解決方案生成過程中，完全無人類干預。人類專家僅對該流程的最終輸出進行評估，不修改任何內容。我們運行了兩個不同的智能體實例，并為每個問題指定一個 “首選解決方案”，其評估結果如表 1 所示。需承認，這一指定過程確實依賴了我們的專業判斷。

正確性

我們將 “正確” 定義為 “經過小幅修改后可滿足同行評審流程要求并發表”，這與 FirstProof 作者提出的標準 2 一致。具體而言，我們并未聲稱生成的解決方案在原始狀態下已達到發表標準。許多解決方案未滿足 “引用文獻需包含精確命題編號且引用對象為同行評審期刊文章或 arXiv 預印本” 的要求，但符合文獻中普遍采用的引用規范。

我們強調，這僅是我們對挑戰的理解。挑戰可能存在其他合理的解讀方式，且 FirstProof 作者在（Abouzaid 等人，2026）中明確表示，該挑戰并非旨在成為正式基準。

2 參考鏈接：https://icarm.zulipchat.com/#narrow/channel/568090-first-proof/topic/Mathematical%20standard/near/573992500

3. 方法與結果

我們將 FirstProof LaTeX 文件中的問題描述直接復制粘貼到智能體 Aletheia（Feng 等人，2026b）中，未做任何修改。Aletheia 的輸出結果會通過一個預定義的驗證與提取提示詞（詳見第 A 節）進行篩選，該提示詞按照 FirstProof 作者提出的標準設計，旨在生成 “符合數學文獻中普遍認可的嚴謹性和學術規范的證明”。此外，驗證與提取提示詞可直接輸出 LaTeX 代碼，確保無需人工干預即可將響應格式化為 LaTeX 文檔。

之后，我們嘗試對該流程的輸出結果進行評估，部分情況下會征求同事的意見。在此過程中，我們未與模型進行任何交互 —— 甚至未就不理解的內容提示模型進行澄清或補充說明。整體流程如下所示：

由于內部權限原因，在 FirstProof 作者于太平洋標準時間 2 月 13 日 23:59 上傳官方解決方案之前，我們無法公開我們的結果。為證明我們的結果未受官方解決方案的影響，我們于太平洋標準時間 2 月 13 日 23:07 將解決方案私下發送給了 FirstProof 作者（同時附上本報告的初稿及表 3，表 3 為我們對解決方案正確性的初步評估）。隨后，我們于太平洋標準時間 2 月 18 日 9:27 公開了解決方案3，FirstProof 主要作者 Mohammed Abouzaid 在同一溝通線程中確認了我們在截止日期前已完成解決方案。?

3 公開鏈接：https://icarm.zulipchat.com/#narrow/channel/568090-first-proof/topic/Aletheia’s%20solutions

? 遺憾的是，我們的提交存在一處筆誤：標注為 FP10_A.pdf 的文件實際是 Aletheia B 針對問題 10 的解決方案，應命名為 FP10_B.pdf；Aletheia A 針對問題 10 的解決方案未包含在初始提交中，現補充為 FP10_A.pdf。

3.1 Aletheia（兩次求解最優結果）

我們在兩個不同的基礎模型上運行了智能體 Aletheia（Feng 等人，2026b），具體如下：

Aletheia A：采用 2026 年 2 月版本的 Gemini 3 Deep Think 作為基礎模型（深度思維團隊，2026）。
Aletheia B：采用 2026 年 1 月版本的 Gemini 作為基礎模型，相關參考見（Feng 等人，2026b）。

在 10 個 FirstProof 問題中，我們的智能體針對 6 個問題（P2、P5、P7、P8、P9、P10）生成了候選解決方案。基于兩次求解最優的評估原則，多數專家認為這 6 個問題均已被正確解決（即僅需小幅修改），但問題 8 的評估未達成一致：7 名專家中僅有 5 名認為其正確。各解決方案的具體評估結果如表 2 所示，第 3.2 節將詳細討論評估過程。

問題編號

Aletheia A

Aletheia B

Zulip

公開評論鏈接

無輸出

正確

https://icarm.zulipchat.com//channel/568090-first-proof/topic/Problem.202.20--.20Aletheia/with/574567015

無輸出

正確

理解偏差

https://icarm.zulipchat.com//channel/568090-first-proof/topic/Problem.205.20--.20Aletheia/with/575042104

無輸出

嚴重缺陷

正確

https://icarm.zulipchat.com//channel/568090-first-proof/topic/Problem.207.20--.20Aletheia/with/574990987

不充分

疑似正確

https://icarm.zulipchat.com//channel/568090-first-proof/topic/Problem.208.20--.20Aletheia/with/574569368

正確

https://icarm.zulipchat.com//channel/568090-first-proof/topic/Problem.209.20--.20Aletheia/with/574726804

P10

正確

https://icarm.zulipchat.com//channel/568090-first-proof/topic/Problem.2010.20--.20Aletheia/with/574570445

表 2 | 基于專家共識的當前（截止日期后）結果評估。問題 8 的專家評估未達成一致。表中包含各問題在 Zulip 平臺的公開評論鏈接。

對于其余 4 個問題（P1、P3、P4、P6），兩個智能體實例均未生成解決方案：要么明確輸出 “未找到解決方案”，要么在規定時間內未返回任何結果。這種自篩選功能是 Aletheia 的核心設計原則之一；我們認為，可靠性是擴大人工智能在研究級數學中應用范圍的主要瓶頸。我們推測，考慮到人類專家驗證的帶寬有限，許多實際研究者更愿意犧牲部分原始問題求解能力以換取更高的準確性。?

? 這是我們開發 Aletheia 的初衷，也是其名稱的由來（Aletheia 意為 “真理”）。

推理成本

Aletheia 在 FirstProof 問題上的推理時計算量可大致反映智能體對問題難度的感知。圖 1 展示了每個候選解決方案的推理成本，以（Feng 等人，2026a）中解決 Erd?s-1051 問題的推理成本為基準倍數。需說明的是，本研究使用的兩個基礎模型與（Feng 等人，2026a）中使用的模型不同，因此該對比僅為參考。所有問題的推理成本均超過了 Erd?s-1051 問題的推理成本。

特別是問題 7，其推理成本較之前觀察到的水平高出一個數量級，原因包括生成子智能體（Generator subagent）需要更多計算資源來生成候選解決方案，且驗證子智能體（Verifier subagent）需要更多交互才能通過驗證。需注意的是，盡管大多數 FirstProof 問題被描述為作者近期研究中的引理，但問題 7 在 Cappell–Weinberger–Yan 發表相關解決方案（該方案與 FirstProof 官方解決方案同步公布）之前，已被 Weinberger（2023）在其著作中列為開放問題。

并非所有問題都需要大量推理資源。Aryan Mokhtari 和 David Woodruff 通過人工協調公開可用的 Gemini 3 Deep Think 模型成功解決了問題 10，具體細節見附錄 C.7。

圖 1 | 各 FirstProof 問題的推理成本，以（Feng 等人，2026a）中解決 Erd?s-1051 問題的推理成本為基準倍數。縱軸為推理成本倍數，橫軸為問題編號（P2、P5、P7、P8、P9、P10），兩條曲線分別代表 Aletheia A 和 Aletheia B。

3.2 評估過程

為評估輸出結果，我們為每個問題至少邀請了兩名學術數學家（部分與谷歌存在部分隸屬關系）進行獨立評估。當專家對評估結果信心不足時，我們會征求更多學術數學家的意見。表 2 總結了評估結果，以下為各問題的詳細評估說明：

P2
4 名專家一致認為兩個解決方案均正確。
P5
專家指出問題表述存在歧義。4 名專家一致認為 Aletheia A 的解決方案正確。Aletheia B 對 “切片濾過”（slice filtration）的理解采用了過時定義，與現代用法不符。因此，評審者將 Aletheia B 的解決方案歸類為 “理解偏差”，未進一步驗證其數學正確性。
P7
3 名專家一致認為 Aletheia B 的解決方案正確。Aletheia A 的解決方案存在 “嚴重缺陷”，其包含兩個核心論點，均等價于聲稱 “若 σ 是自由作用于流形 M 的 2 階自同構，則 M 的（緊支撐）有理歐拉示性數可被 2 整除”。該論點的證明試圖調用（緊支撐）有理歐拉示性數的可乘性，但未對 M 施加必要的有限性條件；這一謬誤在官方問題評論中也被提及。
P8
專家認為 Aletheia A 的解決方案 “不充分”。對于 Aletheia B 的解決方案，太平洋標準時間 2 月 13 日截止日期前，3 名外部辛幾何專家均認為其正確。但一名內部數學家提出質疑，因此我們征求了更多評估意見，最終邀請了 4 名辛幾何專家和 3 名相關領域數學家參與評估。
結果顯示，3 名辛幾何專家和 2 名相關領域數學家認為該解決方案正確，代表性評價為：“總體而言，盡管該解決方案并非完美，但將其視為正確證明是合理的。” 其余 1 名辛幾何專家和 1 名相關領域數學家認為該證明因細節不足而不完整，代表性評價為：“最薄弱的部分確實是插值步驟 —— 將多面體拉格朗日曲面頂點處的局部光滑化擴展到邊的光滑化。我認為有理由要求該步驟提供更多細節，且兩個智能體的證明嘗試在這一點上均存在不足。”

經分析專家評估意見，我們發現所有專家對數學內容的判斷基本一致，分歧主要源于對 “缺失細節是否超出小幅修改范圍” 的主觀解讀。沒有專家指出論證存在錯誤，但大多數專家認為第 3 步和第 4 步的部分內容表述模糊或不夠詳盡（見第 3.2 節），且解決方案整體需修改后才能發表。

P9
4 名專家一致認為 Aletheia A 的解決方案正確；
2 名專家一致認為 Aletheia B 的解決方案正確。
P10
2 名專家一致認為 Aletheia A 和 Aletheia B 的解決方案均正確。

3.3 進一步對比

Aletheia A 和 Aletheia B 分別針對相同的 6 個問題生成了候選解決方案。每個智能體實例均存在至少一個假陽性結果，但通過兩次求解最優的策略，我們為所有 6 個問題獲得了可信的解決方案。這一結果表明，與 2025 年 12 月用于解決 Erd?s 問題的 Aletheia 版本（Feng 等人，2026a）相比，Aletheia A 和 Aletheia B 在智能體架構和基礎模型方面均有顯著改進。

除 Aletheia 外，對公開可用的 Gemini 3 Deep Think 模型的獨立評估也凸顯了其強大能力。盡管該評估并非嚴格自主（需兩名人類篩選并整合最優輸出），但最終生成的問題 10 解決方案達到了與 Aletheia A 自主發現的最優理論復雜度邊界一致的結果，且推理規模顯著更小；詳見附錄 C.7。

4. 致謝

感謝 Daniel Alvarez-Gavela、Otis Chodosh、Vincent Cohen-Addad、Laurent Cote、Jim Davis、Alex Davies、Jim Fowler、Javier Gomez-Serrano、Bogdan Georgiev、Vineet Gupta、Euiwoong Lee、Gilad Lerman、Yaguang Li、Hanzhao (Maggie) Lin、Daniel Litt、Chi-Heng Lo、Aranyak Mehta、Mona Merling、Daniel Miao、Agustin Moreno、Danny Xiaolin Shi、George Tsoukalas、Allen Yuan、Yufei Zhao、Daniel Zheng 和 Goran Zuzic 提供的幫助。感謝 Benoit Schillings、Koray Kavukcuoglu、Demis Hassabis 和 Sergey Brin 的支持及對我們挑戰更復雜問題的鼓勵。

原文參考文獻

Mohammed Abouzaid、Andrew J. Blumberg、Martin Hairer、Joe Kileel、Tamara G. Kolda、Paul D. Nelson、Daniel Spielman、Nikhil Srivastava、Rachel Ward、Shmuel Weinberger、Lauren Williams. FirstProof, 2026. 鏈接：https://arxiv.org/abs/2602.05192
William G. Dwyer、Clarence W. Wilkerson. Smith 理論再探討（
Smith theory revisited
）. 《數學年刊》（Ann. of Math. (2)）, 127 (1): 191–198, 1988. ISSN 0003-486X, 1939-8980. DOI: 10.2307/1971419. 鏈接：https://doi.org/10.2307/1971419
Tony Feng、Trieu Trinh、Garrett Bingham、Jiwon Kang、Shengtong Zhang、Sang hyun Kim、Kevin Barreto、Carl Schildkraut、Junehyuk Jung、Jaehyeon Seo、Carlo Pagano、Yuri Chervonyi、Dawsen Hwang、Kaiying Hou、Sergei Gukov、Cheng-Chiang Tsai、Hyunwoo Choi、Youngbeom Jin、Wei-Yuan Li、Hao-An Wu、Ruey-An Shiu、Yu-Sheng Shih、Quoc V. Le、Thang Luong. 基于 Gemini 的半自主數學發現：Erd?s 問題案例研究（
Semi-Autonomous Mathematics Discovery with Gemini: A Case Study on the Erd?s Problems
）, 2026a. 鏈接：https://arxiv.org/abs/2601.22401
Tony Feng、Trieu H. Trinh、Garrett Bingham、Dawsen Hwang、Yuri Chervonyi、Junehyuk Jung、Joonkyung Lee、Carlo Pagano、Sang hyun Kim、Federico Pasqualotto、Sergei Gukov、Jonathan N. Lee、Junsu Kim、Kaiying Hou、Golnaz Ghiasi、Yi Tay、YaGuang Li、Chenkai Kuang、Yuan Liu、Hanzhao Lin、Evan Zheran Liu、Nigamaa Nayakanti、Xiaomeng Yang、Heng-Tze Cheng、Demis Hassabis、Koray Kavukcuoglu、Quoc V. Le、Thang Luong. 邁向自主數學研究（
Towards Autonomous Mathematics Research
）, 2026b. 鏈接：https://arxiv.org/abs/2602.10177
Thang Luong、Vahab Mirrokni. 借助 Gemini Deep Think 加速數學與科學發現（
Accelerating Mathematical and Scientific Discovery with Gemini Deep Think
）. 鏈接：https://deepmind.google/blog/accelerating-mathematical-and-scientific-discovery-with-gemini-deep-think/ 2026 年 2 月
深度思維團隊（The Deep Think Team）. Gemini 3 Deep Think：推動科學、研究與工程進步（
Gemini 3 Deep Think: Advancing science, research and engineering
）. 鏈接：https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-deep-think/ 2026 年 2 月。訪問日期：2026 年 2 月 17 日
Shmuel Weinberger. 波萊爾主題的變體：基本群在剛性中的作用述評（Variations on a theme of Borel: an essay on the role of the fundamental group in rigidity）, 《劍橋數學講義》
Cambridge Tracts in Mathematics
第 213 卷。劍橋大學出版社, 劍橋，2023. ISBN 978-1-107-14259-6

參考資料

https://arxiv.org/abs/2602.21201

https://github.com/google-deepmind/superhuman/tree/main/aletheia

https://1stproof.org

https://arxiv.org/abs/2602.05192

https://doi.org/10.2307/1971419

https://arxiv.org/abs/2601.22401

https://arxiv.org/abs/2602.10177

https://deepmind.google/blog/accelerating-mathematical-and-scientific-discovery-with-gemini-deep-think/

https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-deep-think/

小樂數學科普近期文章

·開放 · 友好 · 多元 · 普適 · 守拙·

讓數學

更加

易學易練

易教易研

易賞易玩

易見易得

易傳易及

歡迎評論、點贊、在看、在聽

收藏、分享、轉載、投稿

查看原始文章出處

點擊zzllrr小樂

公眾號主頁

右上角

置頂★加星

數學科普不迷路！

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.