★置頂zzllrr小樂公眾號,追蹤《小樂數學科普》系列報道!
近期,谷歌深度思維(Google DeepMind)團隊提出AI協作數學家平臺,這是一款面向數學家的科研工作臺,可借助人工智能智能體開展交互式開放式學術研究。
![]()
原文分為8個章節,內容較長,詳細闡述AI協作數學家的設計理念與整體架構,同時展示前期實測研究成果。譯者重點關注第1章(引言)、第5章(一線數學家實測案例)、第7章(局限性)及第8章(總結與展望)。第2章(理論設計準則)、第3章(具象化設計準則)、第4章(系統評測思路)、第6章(系統評測結果),如讀者感興趣選讀,可點擊閱讀原文。
作者:Google Deepmind(谷歌深度思維團隊)2026-5-13
譯者:zzllrr小樂(數學科普公眾號)2026-5-20
求喜歡
![]()
AI協作數學家平臺(AI co-mathematician),圍繞數學研究具備探索性、反復迭代的真實工作模式完成深度優化,全面支持思路構思、文獻檢索、數值計算探究、定理證明與理論體系搭建全流程工作。
平臺搭載異步有狀態工作空間,能夠把控研究中的各類不確定因素、細化使用者研究意圖、記錄失敗研究猜想,并輸出規范標準的數學研究成果,高度復刻人類之間的學術協作模式。經初步實測驗證,AI協作數學家可協助科研人員攻克公開未解難題、發掘全新研究方向,還能找出以往被忽略的文獻資料。該平臺不僅搭建起一套高交互性的人工智能輔助數學研究范式,還在高難度解題評測基準測試中創下優異成績,其在前沿數學(FrontierMath)四級難度題庫中正確率達到 48%,刷新所有參評人工智能系統的最高紀錄。
1 引言
數學研究是一項多維度、結構復雜且高度依賴反復迭代的科研工作。正式刊發的學術成果幾乎全部經過打磨完善、邏輯嚴謹的完整證明,但長久以來學界公認,數學家日常開展的大量研究工作,大多并未對外公開。嚴謹規范的最終理論成果背后,是大量深度探索性工作:驗證初步研究直覺、尋找反例論證,同時不斷對核心定義與證明過程進行推翻修正、反復完善。
近些年,人工智能在數學領域的應用能力飛速提升,在多個細分方向實現跨越式發展。
在自主數學推理領域,繼 Minerva 等早期研究模型問世以及后續大量相關研究成果推出后,現已誕生 Aletheia 這類可獨立開展學術研究的前沿系統;
在探索式搜索研究方向,AlphaEvolve 及其衍生相關系統,能夠依托可控的持續迭代演化運算,幫助研究者發掘全新算法與數理結構;
在形式化數學研究領域,AlphaProof 等同類系統與 Aristotle 交互式研究環境,將強化學習與大語言模型深度融合,廣泛應用于可核驗數學推導與開源證明輔助工具之中。
與此同時,依托推理能力不斷升級的商用對話大模型,也已經直接為廣大數學家提供了強大的解題助力。
但實際使用各類現有系統后不難發現,數學研究中還有一項核心需求始終未能得到充分滿足:缺少能夠整合各類智能能力、適配長期研究、留存研究狀態且支持多人協同的一體化工作流程。日常數學研究極少依靠零散獨立提問或是單一計算機輔助證明完成,研究過程需要研判不確定結論、整合零散文獻資料、撰寫并修改階段性研究內容,還要在數日乃至數周的研究周期內梳理追蹤多條分支研究猜想。
常規對話交互界面具有臨時性特點,各類專用研究引擎又缺乏全局研究語境,因此研究者只能手動銜接對話思路研討、形式化證明工具與數值運算腳本。如今軟件開發領域早已普及人工智能編程協作環境,實現了這類流程統籌工作,但此類工具的設計邏輯完全貼合代碼開發流程,并不適配數學領域獨有的抽象理論推導、邏輯證明與學術成果產出模式。
我們認為,想要真正加快數學領域科研創新進度,下一代數學人工智能技術必須補齊流程統籌這一核心短板,原生適配繁雜且貼近真實場景的各類數學研究工作。
想要搭建適配數學研究的專屬智能科研環境,可參考軟件工程領域的成熟發展經驗。谷歌反重力智能開發工具(Google Antigravity)、克勞德代碼助手(Claude Code)、OpenAI代碼生成模型(OpenAI Codex)等新興工具,充分印證了人類與AI智能體高效協同協作具備巨大變革潛力。這類工具能夠落地見效的核心原因,在于軟件工程領域成熟的工作流程,恰好契合迭代式探索研究所需的運行邏輯。
借助設計文檔這類非標準化開發規劃資料,智能體能夠在既定研究方向內長時間自主開展工作;自動化持續測試流程可完成成果自動核驗;版本管控工具更是以研發人員熟知的方式,完整記錄并留存項目全程的迭代變化狀態。與之形成鮮明對比的是,數學家日常研究中的同類工作流程,幾乎都尚未實現自動化落地。
為填補數學領域智能協同工作流程的空白,本文依托最新雙子座Gemini大語言模型,打造出這款可供數學家使用、依托AI智能體開展開放式研究的AI協作數學家科研工作臺。
該平臺搭載可統籌全局項目的智能體,能夠將復雜科研任務拆分分配至多條并行研究工作流中。使用者可全程把控研究走向、實時參與迭代研究進程,無需被動等待系統全程自主完成全部研究工作。和其余智能體工具一致,AI 協作數學家僅作為適配主流商用通用大模型的應用框架,無需定制專屬模型結構,也不需要開展額外專項模型訓練。
這一研發思路,也與當下各類實證科研領域的發展趨勢保持一致,目前業內正陸續打造多款多智能體協同科研平臺,專門服務于開放式研究猜想推導與科學數據分析工作。
尤為重要的是,AI 協作數學家的研發定位是補充完善現有前沿研究工具,而非取而代之。依托這套可留存研究狀態的架構,AlphaProof、Aletheia 等自主推理系統,以及 AlphaEvolve 這類迭代演化研究工具,都能夠靈活融入研究者人機交互科研流程之中。目前該平臺僅面向小范圍人群開放內測,我們后續還將持續迭代優化,讓更多科研人員能夠使用這套交互式智能科研研究模式。
本文后續內容將詳細闡述AI協作數學家的設計理念與整體架構,同時展示前期實測研究成果。
第2章介紹交互式人工智能輔助數學研究的核心設計準則:
擁抱證明之外的數學
支持意圖的迭代式精煉
生成原生的數學產出
支持異步交互與靈活引導
通過漸進式披露管理認知負荷
追蹤、管理與溝通不確定性
保留失敗探索的歷史
第3章結合完整實操流程具象化講解設計準則,說明系統通過程序化約束機制、雙向核驗評審機制規避難題簡化解法,依靠多并行工作流實現多角度同步研究;
![]()
![]()
![]()
![]()
第4章探討適用于AI協作數學家這類交互式數學智能系統的評測思路;
第5章展示實測定性研究成果,介紹一線數學家如何借助該平臺推進開放式研究、得出可驗證的學術結論;
第6章依托標準化解題評測題庫完成系統能力測評,明確平臺基礎性能水平;
![]()
第7章梳理平臺研發過程中遇到的各類難題與自身局限性;
最后第8章總結全文,展望人工智能助力數學研究全新發展階段的未來發展方向。
第5章 數學家實測早期成果
為推動交互式工具進一步普及落地,我們已向少量專業數學家開放這款 AI 協作數學家系統,供其開展自主學術研究。
早期使用者探索出的各類應用場景,充分體現了該系統適用范圍廣泛,能夠無縫融入常規學術研究流程。在梳理零散文獻資料、開展數值模擬實驗、推導多個數學分支領域相關證明等工作中,AI協作數學家都能發揮實用輔助作用。本節后續內容,將結合本次小范圍內測中使用者的實際使用案例,展示系統目前具備的實際應用能力。需要說明的是,不少使用者借助該系統完成高效協作,取得了全新研究成果,但大家對這款工具的使用體驗與滿意程度參差不齊,也有部分學者認為該工具難以適配自身研究工作。我們將在第七章探討現存各類難題,同時也希望依托各位數學家的使用經驗與反饋意見,為后續評測體系搭建以及系統優化迭代明確發展方向。
值得著重說明的是,本節展示的所有研究成果,均由數學家直接獨立使用本系統完成,全程無谷歌深度思維團隊研究人員的監督與人為干預。
5.1 案例研究:一個庫羅夫卡(Kourovka)公開問題
早期使用者萊肯比(M. Lackenby)先生,借助AI協作數學家研究拓撲學與群論領域多項學術難題,成功解決了《庫羅夫卡數學問題集》中編號為 21.10 的公開未解難題。此次解題過程,充分印證了人機協同、學者主導研究模式的實用價值。
萊肯比僅輸入完整題目表述,系統先確認題意無誤,隨即拆分出兩條獨立研究工作主線:一條主線嘗試證明該命題成立,另一條主線則嘗試推翻該命題。最先產出的是一份初步證明文稿,而系統自行判定這份證明存在錯誤 —— 撰寫論證內容的智能體完成文稿后,審核智能體很快找出了其中邏輯漏洞。
但萊肯比翻閱這份文稿后發現,即便證明過程存在漏洞,文稿中蘊含著一套極為巧妙的論證思路。在研讀審核智能體給出的漏洞評析內容后,他瞬間理清思路,找到了填補邏輯空缺的方法。
他向系統指明修正論證思路的具體方式,系統隨即整理出完整且嚴謹無誤的正式證明。之后萊肯比下載文稿,自主進行內容修訂,對研究結論做拓展推廣,補充相關實例佐證,再次上傳修訂后的文稿,交由項目統籌智能體組建專項工作小組開展最終終審。終審過程順利發現文稿中兩處細微疏漏,萊肯比完成修改后敲定最終定稿。
該問題具體內容為:求證所有有限群都存在最簡有限表現形式,即存在一種有限定義關系,一旦刪減其中任意一條定義關系,所得群結構便會變為無限群,最終該命題被證實成立。
本次案例充分證明,數學家與人工智能之間反復探討、雙向磨合的協作模式,是攻克該學術難題的核心關鍵。萊肯比也表示,使用者只有深耕對應研究領域,才能最大化發揮這套系統的作用。雖說這一點看似是系統的局限性,但他也坦言,若是面對自己毫無涉獵的研究方向,即便依靠人工智能得出答案,也并無實際研究意義。
后臺智能體執行流程
統籌智能體調配代碼編寫子智能體,開展非最簡有限表現形式的運算檢索,成功找到兩組符合條件的實例樣本。
對檢索樣本展開分析梳理,同步檢索相關學術文獻,梳理出這類群結構構造方式對應的核心理論,總結出推導非最簡有限表現形式的通用方法。
研究團隊明確,該研究結論無法直接推翻原有猜想(同一個有限群可存在多種不同表現形式,找到一種非最簡表現形式,不能證明該群不存在最簡有限表現形式),于是依托現有論證思路提煉出更為精準的全新猜想,整理完整研究報告提交審核。
審核階段與專業評審智能體展開多輪交流探討,評審智能體在此過程中,梳理出可正向證明原猜想成立的有效方法。
統籌智能體采納評審意見,調整研究方向,圍繞這套正向論證方法整理撰寫證明文稿,經過多輪層層審核后,形成完整初稿,最終由萊肯比完善補充,完成整套嚴謹證明。
另一位早期使用者貝爾奇(G. Bérczi)先生,運用AI協作數學家研究對稱冪表示下斯特林(Stirling)系數的變化規律。其核心研究猜想為:在特定二項式展開式當中,各項系數不僅恒為正實數,同時還能構成對數凹序列。
正式啟動研究前,貝爾奇整理撰寫簡明研究紀要,清晰闡述該研究課題、兩大核心猜想的研究背景以及業內通用的傳統研究方法。這份前期資料中,還收錄了他此前使用AlphaEvolve等同類人工智能工具開展實驗總結出的研究思路。此前AlphaEvolve工具無法推導得出高次項對應的相關結論,卻為推導系數遞推公式提供了潛在研究方向,貝爾奇將這一思路整理錄入文檔,作為初期制定研究方案的參考依據。這種全面詳實梳理研究背景、精準設定研究問題的使用方式,也是他在使用多款同類人工智能工具后總結出的高效協作方法。
針對貝爾奇提出的研究問題,AI協作數學家拆分兩條獨立研究主線,分別針對兩大核心猜想完成證明推導,目前兩份證明文稿均已進入人工深度復核階段。除此之外,系統還為論證結論提供詳實完備的數值運算佐證數據,同時針對尚未完成論證的衍生猜想開展專項探究分析。
貝爾奇認為這套系統的多項設計都極大助力了學術研究:不僅可以直觀查看各項研究任務的完成進度,更重要的是,正式文稿側邊標注的批注內容,能夠及時提醒研究者挖掘核心研究切入點,使用者還能借助對話交互界面,針對關鍵研究思路展開深度探討。同時他也坦言,熟練運用人工智能輔助學術研究需要積累實操經驗,當下想要用好這類智能研究工具并非易事,未來學者對于這類大模型工具的使用能力,也會逐步拉開彼此之間的學術研究差距。
后臺智能體執行流程
兩條核心研究主線分別完成對應猜想的論證推導,第一條主線具體運行流程如下:
調配代碼編寫子智能體,在短時合理運算范圍內,完成展開式各項系數的初步批量枚舉統計。
依托運算結果得出結論:原始猜想在n取 1、2 時并不成立,僅在n取更大數值時成立,同時判定最初擬定的論證思路存在根本性漏洞。
調用深度思考智能體,結合修正后的全新猜想擬定全新嚴謹論證思路,整套論證邏輯順利通過統籌智能體與評審智能體的雙重核驗。
第三位早期使用者列奇科夫(S. Rezchikov)先生,將自身研究過程中遇到的一項前沿技術性細分難題輸入系統,該課題聚焦特定類型哈密頓微分同胚映射具備優良擾動性質的存在性論證。
列奇科夫先與項目統籌智能體充分溝通研究題意,上傳與該課題高度相關的前沿學術論文,雙方敲定精準嚴謹的研究任務定義后,系統組建專項研究小組著手解題。最終產出的研究文稿推導出一條核心研究引理,搭配簡潔精煉、邏輯嚴謹的證明過程,經過反復嚴謹核驗無誤,圓滿解答了列奇科夫提出的研究問題。
列奇科夫表示,使用完全一致的提問內容,其余同類人工智能工具均無法完成此次證明推導,不過僅憑單次獨立實驗結果,尚且無法得出絕對性定論。
他還總結出這套系統另外兩大實用價值:其一,能夠快速驗證無效研究思路,大幅縮減試錯耗時,以往耗費一周時間摸索的錯誤研究方向,借助該系統可以快速判定并及時調整研究重心;其二,系統產出的嚴謹證明文稿行文風格極佳,在他使用過的所有智能研究模型當中,這份證明的行文美感與邏輯條理都位居前列。
這一實際應用案例充分說明,AI 協作數學家能夠深度貼合數學研究者日常探索式科研模式,助力學者高效梳理驗證各類學術研究思路。
后臺智能體執行流程
依托專業文獻檢索工具梳理相關研究文獻,匯總該課題常用研究方法與普遍存在的研究誤區,梳理出除使用者提供資料之外的多項核心研究要點。
圍繞梳理得出的關鍵研究要點開展精準定向文獻檢索,深挖各項研究要點的學術內涵與應用條件。
將完整題目表述與全部核心研究背景資料輸入深度思考智能體,由其完成核心引理推導與整套證明撰寫,最終整合內容整理為規范正式的研究報告。
第7章 挑戰與局限
盡管AI協作數學家已經展現出交互式人工智能工作流程的應用潛力,但我們在打造真正實用的此類系統過程中,仍遭遇了諸多難題。
局限性:
1 迎合評審偏好偏差(虛假共識)
迭代評審機制是一套動態運行體系,會持續修改完善研究文稿。當智能體產出存在漏洞且無法自行修正的論證內容時,迫于必須通過評審智能體審核的硬性要求,系統有時會逐步形成依舊存有缺陷、卻無法再被評審智能體識別出錯的論證邏輯。這類論證內容就連人類研究者也很難梳理理清,這也是當前人工智能系統公認的一大短板。相關文獻中也早已指出過命題證明與結果核驗二者互動過程里存在的同類異常問題。雖然該情況出現頻次不高,卻違背了我們主動正視研究不確定性的核心設計原則。
2 難以調和的意見分歧(流程無法終止)
與之相反,若迭代評審環節始終無法達成統一結論,整個流程便會徹底停滯。在此狀態下,反復修改與駁回的循環會無限持續。經過多輪自主推演后,這種死循環往往會催生越來越多脫離實際、憑空杜撰的推理內容,業內俗稱 “死亡螺旋”。我們雖已搭建多種調控機制緩解該問題,但不同語言模型之間時常出現觀點相悖的核心問題依舊沒能根除。早期使用者也察覺到了這一現象,學會辨別研究流程是否陷入此類僵局,并適當降低對此類流程輸出結果的采信程度。
3 系統自主運行需要讓出主導權
數學研究本身充滿探索性,往往無法提前制定完備任務規劃,因為梳理出正確的研究步驟本身就是解題的核心過程。這就導致模型隨時可能遭遇意料之外的研究阻礙,而本系統支持長時間脫離人工介入自主運轉,進一步放大了這類風險。實際使用體驗表明,面對突發難題時,當前人工智能模型的決策能力遠達不到人類水平與預期。如何在保障系統長時間自主運行能力的同時,牢牢把控用戶主導權限,至今仍是難以平衡的難題。
4 排版格式帶來的語義認知誤區
研究團隊很早就發現,數學家常會默認排版工整規范的文稿,其內容嚴謹程度也同樣達標。但大型語言模型恰恰存在這一認知偏差漏洞:它們能夠輕松生成格式完美的專業排版文本,卻很難做到邏輯層面的嚴密自洽。對此,本系統將輸出內容標注為研究草稿并附上旁注提示,以此弱化這類認知誤區。未來還可研發全新交互界面,更直觀地展現文稿真實質量與屬性,人機交互領域近期結合人工智能的相關研究成果,也能為此提供研發思路參考。
挑戰:
此外,將高能力智能體系統全面融入數學學術領域,還會衍生出一系列行業層面的潛在風險,整個學術圈也必須正視并應對各類系統性挑戰:
1 維持學術文獻的有效信息純度
隨著人工智能熟練掌握專業排版與文獻整合技術,未來業內或將涌現大批量人工智能自動生成的文稿。倘若這類工具淪為單純的內容生成器,而非配合人類研究的協作工具,行業內會涌現大量看似合理、實則內容淺顯、研究增量有限甚至暗藏細微邏輯漏洞的論文。這類內容會大幅增加行業內的無效信息,研究者不得不摸索全新甄別方法,在海量文稿中篩選出具備真正原創價值的學術成果。形式化推理與自動形式化轉化技術雖能輔助核查論文正誤、排查邏輯漏洞,卻無法替代學術界同行研讀論文、領會研究核心價值的核心交流過程。
2 適配同行評審行業體系
數學領域的同行評審,向來依靠評審專家投入大量精力完成深度人工核驗。智能體人工智能的出現,打破了原有的評審節奏:人工智能短短數分鐘就能完成一份長達二十頁的證明初稿撰寫,而人類專家往往需要耗費數日時間完成核驗。一旦人工智能輔助撰寫論文成為常態,卻缺少可追溯的完整創作流程記錄,會極大加重無償參與同行評審人員的工作負擔。本系統在文稿中添加旁注標注,只是提升研究成果可追溯性的初步嘗試,整個行業還需建立統一通用的規范標準。
同時,即便系統內置專業評審智能體,也絕不能用人工智能完全取代人工評審,其中存在諸多隱患。自動化評審擅長排查局部邏輯錯誤、修正代數運算失誤、補充遺漏文獻引用,卻不具備人類學者的全局學術視野,無法評判一篇論文的論證精巧度、研究深度以及真正的學術研究價值。過度依賴人工智能開展同行評審,會讓學術評定淪為機械的對錯核驗,忽視推動數學行業發展不可或缺的人文主觀學術評判。
第8章 總結
人工智能領域近期接連實現多項技術突破,多款模型在各類數學測評基準中,已經達到甚至超越人類解題水平。但想要真正借助人工智能助推科研創新突破,僅僅解決既定條件清晰明確的標準化問題遠遠不夠。前沿數學研究絕非簡單的對話問答,也不是彼此孤立的零散解題,而是思路繁雜交錯、步驟反復迭代的探索過程,其中充斥著未經證實的研究直覺、多分支研究猜想,以及復雜的人際學術協作。
AI協作數學家的研發初衷,便是貼合數學家真實的科研工作模式。該系統沒有將人工智能塑造成單純的答案查詢工具或是簡易核驗程序,而是打造出一體化科研工作平臺。它全程把控研究過程中的各類不確定因素,依托層級化任務分配復刻人類科研流程,以標準數學專業文稿作為輸出載體,讓高性能基礎大模型轉變為貼合科研節奏的自然協作伙伴。
依托硬性程序約束,搭配持續更新完善的研究草稿文稿,系統能夠完整留存全部科研軌跡,包括失敗的探索嘗試、整合梳理的文獻資料,以及研究思路的逐步完善過程,所有內容均可溯源核查,清晰直觀地呈現給使用者。早期使用者借助該系統攻克公開難題、推導出全新證明思路的實踐案例足以證明,這種人機雙向協同模式,能夠助力研究者帶領人工智能突破各類科研瓶頸。
想要徹底釋放這套科研協作模式的全部價值,人工智能行業還需轉變成果評判標準。現有測評基準擅長檢驗模型解答標準化試題、輸出標準答案的能力,卻無法衡量前沿科研所需的綜合能力,不能評判模型自主梳理篩選研究猜想、整合小眾冷門文獻資料、在研究遇阻時主動暫停進程并如實說明研究不確定性的實際水平。
若想打造真正意義上比肩專業數學家的人工智能協作系統,就必須搭建配套的全新評測體系,重點考核模型的協同研究能力、持續性探索能力以及嚴謹把控研究不確定性的能力。下一代人工智能輔助數學研究技術的核心競爭力,不再是哪款模型能夠最快算出標準答案,而是哪套系統能夠最高效地助力人類學者探索未知的學術領域。
(致謝、貢獻者、原文參考文獻,均略,請以原文為準)
參考資料
https://arxiv.org/abs/2605.06651
小樂數學科普本月文章
版權聲明:本文首發于微信公眾號“zzllrr小樂”的專欄《小樂數學科普》。歡迎個人轉發。如需轉載,請在“zzllrr小樂”公眾號后臺回復“轉載”,還可通過公眾號菜單、發送郵件到zzllrr@gmail.com與我們取得聯系。相關圖文音視頻內容默認遵守CC BY-NC 4.0知識共享協議,未獲作者和譯者授權,禁止用于營銷宣傳和商業目的。
·開放 · 友好 · 多元 · 普適 · 守拙·
![]()
讓數學
更加
易學易練
易教易研
易賞易玩
易見易得
易傳易及
歡迎評論、點贊、在看、在聽
收藏、分享、轉載、投稿
查看原始文章出處
點擊底部一起捐
助力騰訊公益
點擊zzllrr小樂
公眾號主頁
右上角
置頂★加星
數學科普不迷路!
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.