網易首頁 > 網易號 > 正文申請入駐

2026.5數學未來研討會系列——壓縮即為建模數學的核心 by 邁克爾?弗里德曼——斯坦福FMS

2026-05-26 00:08:37　來源: 小樂數學科普

江蘇舉報

分享至

★置頂zzllrr小樂公眾號，追蹤《小樂數學科普》系列報道！

發言人：邁克爾?弗里德曼（Michael Freedman，菲爾茲獎得主，哈佛大學）

標題：壓縮即為建模數學的核心

摘要：本次報告將講解一篇近期發布于預印本網站 arXiv 的同名論文https://arxiv.org/abs/2603.20396 ，論文合著者為維塔利?阿克塞諾夫（Vitaly Aksenov）、伊夫?博迪納（Eve Bodnia）與邁克?馬利根（Michael Mulligan）。研究思路借鑒物理學思維，借助簡易原型模型對看似繁雜的客觀存在 —— 數學開展建模研究，依托模型完成精準運算，并將運算結果與實際現象比對。

本次建模依托有限生成幺半群，相關數據取自基于Lean證明器搭建的大型知識庫MathLib。數學定義與引理具備層級特性，研究通過為幺半群增設冗余生成元來復刻這一特征，可類比自然數體系中用于位值計數的 10 的冪次。位值計數法能以指數級壓縮形式簡化數字表述，對數學庫的研究表明，這一壓縮規律普遍適用于人類整體數學體系。我們期望文中提出的可觀測指標，能夠助力智能算法探索發掘各類有研究價值的數學問題。

本文中的術語：HM（人類數學）、FM（形式化數學）、DH（有向超圖）、DAG（有向無環圖）、PA（位(值)記數法）

作者：斯坦福大學FSM數學未來研討會（Future of Mathematics Symposium）

邁克爾?弗里德曼（ Michael Freedman，菲爾茲獎得主，哈佛大學）2026-5-1

譯者：zzllrr小樂（數學科普公眾號）2026-5-26

求喜歡

主持人：

接下來有請下一位演講者，邁克?弗里德曼 (Michael Freedman)。他本次演講主題為壓縮即為建模數學的核心。

我最初知曉邁克，是因其拓撲學領域的研究成就。他于1986年憑借四維龐加萊猜想的證明斬獲菲爾茲獎。但實際上，邁克的研究涉獵范圍極為廣博，也是我見過思維最為開闊的學者之一。

他早年深耕拓撲學領域，之后前往微軟量子實驗室 Station Q 投身量子計算相關研究。如今他的研究又和 Lean 體系產生關聯，這段經歷著實令人驚嘆。目前他任職于哈佛大學數學科學與應用中心（CMSA），同時擔任邏輯智能公司（Logical Intelligence）數學首席研究員，近期研究方向轉向機器輔助證明，以及數學整體的存在價值。閑話不多說，下面有請邁克?弗里德曼。

PPT：（中文翻譯僅供參考，請以原文英文為準）

壓縮即為建模數學的核心

邁克爾?弗里德曼演講全文：

感謝賈里德，很榮幸來到現場。聽完利奧（Leonardo de Moura）的分享，嚴謹的研究標準讓我頗為感慨。我向來只能梳理出大致思路，文稿里若出現文字疏漏，大家可以現場自行指正。

今天我想探討的核心觀點是，人類認知與鉆研的數學體系，建立在定義層層嵌套、內容不斷壓縮的架構之上，定理與引理均遵循這一規律。這屬于數學哲學范疇，同時具備切實落地的應用價值。該理論旨在引導智能體遍歷形式化數學空間，空間內所有邏輯推導均可實現，這套理論能規范智能體的探索路徑，幫助其發掘具備研究意義的內容。智能體與人類思維本質相差不大，只是運算速度遠超人類，海量數值也能瞬間算出。我們和人工智能處于同一探索賽道，需要像引導后輩一般，助力智能體堅守合理的研究方向。

本文所指數學，并非純粹形式化理論，而是人類實際研究的數學范疇，既包含現有研究成果，也涵蓋未來待發掘、具備價值的內容。壓縮理論既能闡釋現有數學規律，也可為后續研究探索提供指引。

接下來介紹本次演講的整體脈絡。首先談及數學的形式架構，上一場分享提到，研究體系以集合論邏輯或是依存類型論為起點，細節層面差異顯著。從宏觀角度來看，數學屬于超圖結構，同一結論往往能經由多種推導路徑得出，假言推理便是典型例子，圖中帶黑點的線條代表超邊。簡易示例選取命題邏輯中的命題合取運算。

本次研究核心參考資料 MathLib，其結構被簡化為普通有向無環圖（DAG）。編撰設定當中，一份證明僅對應單一定理，命題陳述為定理標識，推導過程作為主體內容。這種結構適用于記錄最簡命題、梳理基礎定理推導邏輯。但想要搭建完整學科體系，僅依靠有向無環圖遠遠不夠，無法厘清各項結論間的依存關聯，超圖結構則囊括了更多有效信息。

本次研究借鑒物理學研究思路。現場有不少物理領域從業者，我并非物理專業研究者，但長期和物理學者交流，也習得部分研究方法。物理研究通常選取現實中的某類現象，搭建簡潔且邏輯嚴謹的仿真模型模擬客觀規律，一邊觀測真實現象，一邊在模型中運算推演，比對兩者結果，調整模型參數，以此預判現象、加深對客觀世界的認知。

此次我們將數學視作研究客體，把它當作特殊的客觀現象，搭建簡易數學模型挖掘內在規律。數學研究的基本形式為內容拼接整合，基礎單元組合形成中型結論，中型結論再進一步拓展延伸。引理支撐定理推導，定義之間相互嵌套。

適合實現內容拼接的基礎結構以群為代表，群結構支持元素乘法運算，但群還包含逆元屬性，超出本次研究所需范疇。幺半群（monoids）去除逆元條件，自然數體系就是典型的幺半群模型，下文會多次引用該案例。若追求更高抽象維度，還可構建雙范疇、n 范疇結構，這類結構的組合運算不滿足結合律，也可選用球狀廣群模型。本次主要圍繞正整數及其拓展形式展開分析，包含自由交換幺半群，以及運算順序具備約束條件的自由幺半群。

三千年前誕生的位值記數法（PA），是整數體系中極具代表性的數學突破。該記數法僅用少量字符，就能表述量級跨度極大的整數。對 MathLib 的數據統計分析發現，時至今日，數學研究依舊沿用位值記數法蘊含的壓縮邏輯，細微層面也能印證這一規律。

想必多數聽眾都了解位值記數法，這里借此引入宏指令概念，該術語源自計算機領域。以皮亞諾算術體系為例，體系內僅能通過逐次加一的方式生成新整數。

在基礎幺半群中增設冗余生成元，能夠加快數值構建效率，這類新增元素即為宏指令。位值記數法依托層級化方式定義宏指令，以數字 1 作為基礎元，衍生出十進位基礎單位，該單位不屬于獨立原生元素，屬于冗余補充元素，卻能大幅提升表達效率。依照此邏輯，依次衍生百、千等計數單位，整套計數體系便由各類宏指令構成。

位值記數法的宏指令具備精簡特性，對數密度即可實現數值的指數級拓展。研究發現，人類探索數學依托的核心邏輯，和位值記數法的壓縮原理高度契合。

左側列舉兩類常用幺半群，多數研究分析適用于正整數范疇。n 維空間整數坐標點構成交換幺半群，自由幺半群則嚴格區分元素運算順序。最簡自由幺半群由 a、b 兩個元素生成，可衍生出二元字符組合序列，元素數量呈指數式增長。

紅色標注的宏指令集合，用于簡化幺半群內大數元素的表達。位值記數法對應的核心生成元為 10 的冪次。

直觀來看，數學推導步驟不滿足交換性，整體體系如同樹狀分支，研究方向多元，這類特征看似契合非交換自由幺半群。但實際數據顯示，人類數學的壓縮特征和 MathLib 體系一致，整體呈現多項式增長規律，性質更貼近交換幺半群。海森堡幺半群同樣具備多項式增長特點，多項式增長也是人類數學體系的典型特征。

接下來給出相關定義，依托擴張函數分析壓縮特性，函數取值由宏指令集合決定。設定基礎生成元集合為 G，加入宏指令后得到拓展生成元集合 G'。壓縮函數代表依托宏指令，在指定范圍半徑內，所能覆蓋到的原生符號體系最大范圍。位值記數法借助 10 的冪次元素，讓擴張函數呈現指數增長態勢。

我們將 MathLib 視作人類數學的參照樣本，項目初期收錄約五十萬個命名條目，如今條目數量至少翻倍。庫內所有定義、引理與定理均基于 Lean 編寫。

本次論文合著團隊成員均來自邏輯智能公司，部分人員同時兼任高校職務，我也任職于哈佛大學數學科學與應用中心。團隊成員維塔利將 Lean 代碼庫轉化為依存關系有向圖，圖表內每個條目都標注對應的推導依據，團隊針對圖表數據開展統計分析。

研究中定義兩種文本長度，表層長度為條目編寫所用字符總數；深層長度則逐層拆解至 Lean 基礎原生元素，統計完整推導字符量，重復調用的引理內容會重復計入統計數值，該數值也稱作樹形長度。

研究圍繞表層長度、深層長度與層級深度三項指標，剖析 MathLib 體系結構。層級深度代表有向圖內，從條目溯源至基礎元素的最長推導鏈路。

MathLib庫內一條布羅迪克相關定理，表層精簡表述僅350多個字符，完全拆解為原生推導結構后，字符總量可達 21??級別。該案例并非遞歸函數理論下的虛構命題，而是代數幾何研究里的常規推導現象。

這也貼合數學研究的實際體驗，研究者能熟練掌握當前層級的抽象理論，面對更高層級概念則容易難以理解。日常研究適配十余層抽象嵌套結構，層級過多便會超出認知范疇。日常推理一般不會拆解底層邏輯，僅在必要時溯源剖析，研究者通常在固定抽象層級開展工作。

本節核心結論：依托表層長度與深層長度的差值，衡量 MathLib 體系的層級架構與內容壓縮效果。在幺半群搭配宏指令的仿真模型中精準運算，分析壓縮原理與層級規律，對比實測數據與運算結果，以此歸納數學體系的內在特質。

再次梳理核心定義：表層長度為庫內實際編寫字符數，數值通常在百余至數百區間；深層長度數值跨度極大，可達到巨型量級。層級深度代表有向圖中溯源至基礎元素的最長路徑。

MathLib庫內定理包含命題標識與推導主體兩部分，團隊圍繞命題、推導主體分別統計表層與深層長度，四項數據作為參照依據，對比模型運算結果。

研究初期將兩類核心指標命名為偏好度與價值度，命名僅為通俗表述，后續調整為抽象度概念。抽象度越高，基礎表述篇幅越長，精簡表述形式越簡潔，對應抽象度核心數值越高。價值度以定理精簡表述篇幅、完整證明篇幅的比值判定，費馬大定理表述簡短，證明過程卻極為繁復，就具備極高研究價值。

標注下標 0 代表基礎統計維度，后續還會引入網頁排名PageRank算法，梳理命題間的依存推導關系，各指標也會同步迭代優化。

順帶介紹團隊自研自動證明系統 ATP Alpha prover，論文內六七條定理均通過該系統核驗，依托 Lean 校驗證書證實結論無誤，每條定理旁均標注核驗標識。我個人撰寫的推導內容，或多或少都存在瑕疵。

下表匯總模型測算結果，所有多項式增長類幺半群的運算規律相近。

最右側單列代表單一生成元構成的正整數幺半群，其余列為自由幺半群數據，變量參數為宏指令集合規模。表格第三行對應位值記數法模型，10 的冪次元素在整數體系內呈對數密度分布，內容壓縮幅度為恒定區間內的指數級變化。

表格首行相關規律，關聯數論中的拉格朗日四平方和定理與華林定理，數論領域存在加法秩（additive rank）概念，陶哲軒在此方向產出大量研究成果并編撰相關著作。【子集S??的加法秩，指能使其和集（sumset）覆蓋全體自然數的最少子集復用次數，譯者注】

數論領域的研究命題為：確定數集最少組合數量，使其求和結果可以覆蓋全部正整數。拉格朗日證實任意整數均可拆解為四個平方數之和。若將平方數作為宏指令，體系拓展無上限，四個平方數即可組合出所有整數。該規律并未違背信息理論，平方數本身字符書寫體量偏大。三次方數也具備同類特性，九個三次方數可組合得到全部整數，任意整數冪次元素均可滿足組合全覆蓋條件。

前文提及的擴張函數，是數論百年加法秩研究的延伸拓展。傳統研究統計全覆蓋所需元素組合數量，我們研究不斷疊加 S 組元素時，體系覆蓋半徑 R 范圍的擴張速率。

表格里無需逐行詳解，整體規律為宏指令集合密度越低，擴張速度越緩慢。當宏指令僅為有限集合時，擴張速率僅常數波動，始終維持線性增長，對應表格末行。

這份表格核心結論在非交換自由幺半群體系中截然相反。由多組無交換、無消去特性的元素生成自由幺半群，引入多項式密度宏指令，體系依舊呈指數式增長；僅添加同等密度宏指令則毫無效果，擴張速率不會改變。只有近乎將全部元素納入宏指令范疇，才能產生明顯作用。

表格末行采用概率構造方式，人工智能為此提供輔助支撐，構造思路借鑒遍歷式隨機建模。該宏指令集合密度趨近滿集，滿集條件下體系會呈現 N?級指數增長，此集合密度略低于滿集，但差距不大，最終形成拉伸指數級增長速率。

表格總結規律：若幺半群自身幾何規模僅呈多項式增長，交換幺半群、冪零幺半群均屬此類，少量宏指令就能大幅拓寬覆蓋范圍，壓縮效率極高。若幺半群本身已是指數級增長，只有納入絕大部分元素作為宏指令才能起效，無法實現精簡高效的壓縮模式。

后續幻燈片會逐條對應表格規律展開闡釋，受時長限制不再逐一細說。首類模型對應位值記數體系；表格第三行體現整數域多項式增長集合可快速覆蓋全體整數；自由幺半群中多項式規模宏指令無法提升覆蓋能力；概率模型下，宏指令集合覆蓋度接近全部元素時，壓縮效果才得以顯現。

接下來分析 MathLib 統計特征。有限規模局限導致無法依靠直觀數據判定整體增速，圖像曲線在橫坐標數值 20 以內呈現高階多項式甚至指數增長趨勢，后續走勢趨于平緩。目前知識庫體量仍在快速擴張，五年后規模將大幅提升，屆時擬合曲線才能精準判定增長速率，現階段該測算方式并不適用。

研究轉換思路，不從增速切入，轉而剖析壓縮機制，參照 MathLib 實際壓縮規律，反向匹配契合特征的幺半群與宏指令參數。多項式增長型幺半群可貼合實測數據，指數增長型幺半群無論調整宏指令參數，都無法復刻庫內呈現的壓縮特點。

拋開初期小幅波動與極少高表層長度異常樣本，深層長度常用對數值和表層長度之間呈現近似線性關聯。例如格羅滕迪克相關定理表層字符數約三百，以 2 為底取對數后數值約350。

該規律和十進制計數邏輯相通。整數統計中，人們固定以十為單位逐級進位分組，不會隨意變更跨度。映射到知識庫中，即便溯源至基礎概念鏈路極長的深層命題，其表層精簡篇幅也始終維持合理區間。這契合人類認知特點，篇幅冗長的內容難以理解，研究過程中不斷抽象歸納，以此把控內容表達體量。

最具說服力的數據特征為層級抽象度與深層長度對數一一對應，深層長度呈指數變化，其對數值基本等同于抽象層級數量。橫縱軸數值上限同為三百僅為巧合，斜率并未出現倍數偏差。

開展模型匹配驗證，對照不同密度參數下的幺半群與宏指令組合，比對深層長度對數和層級深度的線性關系、表層長度平穩變化趨勢，以及內容壓縮比例。十進制模型具備標準線性特征，庫內實測數據也呈現近似走勢。

自由幺半群無論如何調整引理、定理、定義構成的宏指令體系，均不能匹配實測結果。由此判定人類數學體系具備多項式增長屬性。

標題核心關鍵詞為壓縮，結合偏好度與價值度兩項指標，壓縮分為兩類。歸約式壓縮依托嵌套定義與引理復用，逐層精簡內容篇幅；演繹式壓縮以命題完整證明篇幅和精簡表述篇幅的比值衡量。

歸約式壓縮區別于科爾莫戈羅夫復雜度，僅支持局部信息整合，仿照數學定義與引理的歸納模式，識別重復語句并封裝為精簡宏指令，不會跨片段統籌重組內容。探尋兩類壓縮方式之間的折中形式，有望打造效率更高的數學架構體系。

目前暫時無法在知識庫內劃定明確的宏指令集合。團隊最初計劃篩選關鍵引理與定義作為核心宏指令，但難以界定評判標準。

物理建模領域也普遍存在這類現象，模型中的抽象概念無法在現實載體中直觀對應。量子力學希爾伯特空間、電磁學勢場均無法直接觀測，只能依托實驗佐證存在。若能找出數學體系里類似十進制基數的核心宏指令集合，等同于摸清數學運行底層邏輯，有望推動學科體系重構優化。

本研究并非否定數學推導步驟存在先后次序，核心區分點在于整體增長模式。直觀認知里，具備研究價值的內容增速平緩，單純降低指數參數無法解釋體系差異。指數型幺半群只有近乎全覆蓋宏指令才能實現壓縮，和人類數學特征不符。

隨機生成的可證布爾邏輯命題，僅判定算式有無解，缺少抽象推演過程，不屬于人類常規數學研究范疇。

偏好度與價值度屬于基礎評判標準，進一步梳理命題間依存關聯，篩選支撐學科發展的關鍵結論，借助馬爾可夫鏈穩態分布判定內容權重。

依存關系有向圖的箭頭均指向基礎原始元素，直接測算穩態分布意義有限。引入偏好度與價值度的線性組合參數，結合佩龍 - 弗羅貝尼烏斯定理獲取唯一穩態權重，原理等同于網頁排序算法，以此迭代優化價值評判標準，幫助智能體自主甄別研究重點。

本研究存在兩處局限：

MathLib 基于特定底層邏輯搭建，統計結論無法完全代表全部數學樣貌；人類數學沒有清晰邊界，更適合視作漸變范疇，而非割裂的獨立集合。

后續研究方向仍待探索：

智能體能否實時歸納全新核心定義；能否打造局部壓縮與科爾莫戈羅夫壓縮的融合模式；剖析數學整體架構形態；依托體系特征，讓智能體自主判斷推演方向，規避低效路徑。

研究核心結論：

歸約式、演繹式兩類壓縮特征，印證人類數學呈多項式增長態勢，庫內多數統計規律，和三千年前誕生的位值記數底層邏輯高度相通。

Q&A問答環節

主持人：本場問答環節正式開始，請提問者移步麥克風處發言。

問：格羅滕迪克提出學海演進式數學理念，主張依托概念推演推進研究，他并不認可借助技巧完成證明的方式。定義本身自帶壓縮屬性，未必會體現在證明篇幅上，篇幅懸殊的兩份證明或許內核一致。如何界定定義自帶的內在壓縮特性？

答：嵌套定義是數學研究的必備基礎，所有人都無法直接依托原始底層邏輯思考。研究者可以自主搭建概念層級框架，研究方向會影響定義選取，但無法脫離抽象結構開展探索。本次統計中格羅滕迪克相關定理壓縮程度極高，理論理念和實際成果并不沖突，定義重構數學體系是普遍客觀現象。

問：物理學定理繁多卻極少定義，從壓縮角度來看，物理學科的壓縮機制具備哪些特點？

答：二者壓縮邏輯大體相近，均存在多層級抽象壓縮結構。物理體系底層精度存在局限，研究難度更高。物理學重整化流程對應數學抽象升級，數學可穩固底層基礎，物理微觀高能領域的基礎規律至今尚未探明。

問：數學研究中存在大量同命題多套證明思路，Lean 證明工具中的推演策略，能否看作直覺與邏輯的壓縮形式？如何界定證明過程內部的壓縮行為？

答：單一證明思路存在局限性，不同推導方向適配不同拓展場景。知識庫目前僅留存單一證明版本，后續需要收錄多類證法，搭建完整領域體系庫。

問：論文庫、學術期刊、數學譜系等不同載體，各自用于數學結構分析的優劣分別是什么？

答：MathLib 優勢在于形式化規范，邏輯依存關系清晰。非正規文獻需要大量預處理才能開展統計分析。層級架構適配代數、數論領域，泛函分析、偏微分方程很難搭建規整的引理層級體系，部分領域至今未形成適配的標準表述范式，人工智能有望助力體系完善。

問：定理發揮的作用等同于宏指令，為何無法劃定明確的宏指令集合？

答：十進制體系擁有統一固定的宏指令標準，數學領域暫無公認界定準則。精簡篩選宏指令會出現多種劃分方案，不存在唯一標準答案。搭建合理的核心骨架體系，依舊是極具價值的待解課題。

參考資料

https://www.youtube.com/watch?v=4nM82nZzIxU

https://arxiv.org/abs/2603.20396

https://arxiv.org/abs/2604.06107

小樂數學科普本月文章

小樂數學科普歷年合集

·開放 · 友好 · 多元 · 普適 · 守拙·

讓數學

更加

易學易練

易教易研

易賞易玩

易見易得

易傳易及

歡迎評論、點贊、在看、在聽

收藏、分享、轉載、投稿

查看原始文章出處

點擊底部一起捐

助力騰訊公益

點擊zzllrr小樂

公眾號主頁

右上角

置頂★加星

數學科普不迷路！

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.