網易首頁 > 網易號 > 正文申請入駐

陶哲軒訪談：我為何要聯合創建SAIR（Science & AI Research）基金會—— 人工智能賦能科學

2026-02-14 11:37:55　來源: 小樂數學科普

江蘇舉報

分享至

★置頂zzllrr小樂公眾號（主頁右上角）數學科普不迷路！

在全新一期 On the SAIR 節目中，菲爾茲獎得主陶哲軒（Terence Tao）與 Peter L.（SAIR基金會秘書長）展開對話，探討 “AI for Science（人工智能賦能科學）” 真正需要的是什么：不是炒作，而是科學家能夠信賴的方法。

隨著 AI for Science: Kickoff 2026 活動臨近，陶哲軒分享了他為何參與聯合創立 SAIR：相關工具已經具備重塑科研工作的能力，但錯誤使用它們的方式，遠多于正確使用的方式。想要用對，就需要研究人員深度參與、制定標準，并構建能讓輸出結果可追責的工作流程。

本次對話還深入探討了為何數學或許是最佳試驗場：當 AI 給出看似篤定的結論時，數學領域擁有相應的學術傳統與工具去檢驗它們，包括能把每一步推理轉化為精確、可機器核驗的形式化驗證系統。

陶哲軒與 Peter 共同探討了：

陶哲軒聯合創立 SAIR——Science & AI Research 的原因，以及為何學術界必須主動引領、而非被動跟隨
現代 AI 存在的可靠性短板，以及為何 “看似合理” 遠遠不夠
證明輔助工具與驗證機制如何在數學領域保證輸出可信
為何知識廣度很重要，但仍離不開人類判斷
真正的進步是什么樣的：交互式工作流程，而非一鍵出答案
為何 “AI” 并非單一技術，以及科學家與公眾使用的工具有何不同

正如陶哲軒所說：“我們不只要答案，我們同樣想要過程。”

SAIR 將在加州大學洛杉磯分校（UCLA）舉辦 AI for Science: Kickoff 2026，正式開啟其公開征程。這場全球盛會匯聚了學術界、科技界與研究領域的領軍人物，共同探索人工智能驅動科學的下一個前沿。

作者：SAIR基金會 2026-2-10

譯者：zzllrr小樂（數學科普公眾號）2026-2-14

大家好。今天我們再次請到了陶哲軒（Terence Tao）。很榮幸能有機會再次采訪他。接下來我們要聊的是AI for Science（人工智能賦能科學）的應用，尤其是再過幾天SAIR就要正式啟動了。我們很高興能帶來一些新的視角，探討AI可以如何應用于科學研究，以及未來我們可以做些什么。那么如果您不介意的話，能否簡單快速地做個自我介紹？

好的。我是Terence Tao（陶哲軒），目前是UCLA（加州大學洛杉磯分校）的數學教授。傳統上，我一直專注于純數學，但我越來越多地參與到利用AI及其他技術開展數學研究、乃至更廣泛的科學研究的新方式中。最近，我和其他多位科學家及捐贈者一起，共同創立了SAIR這個全新的基金會，旨在以多種方式支持AI for Science，把這些新技術融入到科研工作流。幾天后，我們將在UCLA的IPAM（純數學與應用數學研究所）舉辦首次啟動活動。

謝謝。我想這也是很多人關心的問題：是什么讓您決定聯合創立SAIR？

這是很多因素共同促成的。正如我剛才所說，過去幾年里，我越來越確信，這些技術已經成熟到足以變革科學，我們必須做好準備、做好規劃去接納它們。我們需要學會以正確的方式使用它，避免錯誤的方式。而遺憾的是，把AI用錯的方式遠比用對的方式多得多，所以我們必須把它用對。

學術界必須深度參與其中。我們不能只等著科技公司給我們一個產品，然后直接拿來用。我們需要真正參與互動，弄清楚我們真正需要什么：哪些科研領域AI能幫上忙，哪些領域人類方法依然適用。

尤其是在過去一年，與此同時，很多科研經費突然出現了不確定性。比如我擔任IPAM（UCLA的純數學與應用數學研究所）特別項目主任時，我們的經費一度被暫停，很多原本計劃開展的項目都不確定能否繼續。所以當時確實到了需要尋找新的資金來源、接觸更多新的投資者與合作伙伴的時候。這段混亂時期帶來的一點積極結果是，IPAM如今有了很多新的項目，包括這次的合作。

我認為，具體到數學領域，AI的能力格外強大。您是否認同這一點？

我認為它擁有格外巨大的潛力。現代AI工具，尤其是大語言模型（large language models），最大的阿喀琉斯之踵（Achilles' heel，致命弱點）是它們并不穩定：有時能給出非常出色的答案，有時又完全是胡說八道。它們不扎根于現實，只是在統計上匹配它們認為“合理”的答案，偶爾會給出極其優秀的結果。

正因為如此，AI在很多其他學科的應用效果，并沒有我們最初期待的那么理想，核心問題就是不可靠性。但在所有應用領域中，數學幾乎是獨一無二的——我們擁有非常成熟的驗證輸出能力。如果有人給我一份數學證明，或是某個數學命題的聲稱證明，我們可以借助邏輯法則與數學法則，檢驗論證是否正確。現在我們甚至可以用計算機來完成這件事，我們有形式化證明助手語言可以自動完成驗證。

這在某種程度上能“約束”AI的行為，而這在其他任何學科中都更難實現。因此，數學最有希望過濾掉AI所有不好的應用場景，只保留好的部分。當然這并非完美，并非數學的每一個方面都能被形式化驗證。證明是數學的重要部分，但還有其他工作：比如提出新的猜想，或是把內容清晰地解釋出來。很多數學任務目前AI還不擅長，但至少在我們做的一部分工作中，潛力非常大。

我完全能理解這一點。您剛才提到了用于驗證AI工作成果的程序。隨著這類程序出現和發展，您認為未來會不會有一天，我們能擁有足夠穩健的程序，讓AI持續生成想法并自動驗證，從而創造出新的東西，而不局限于我們已經規劃好的內容？

這正是我們的希望。目前，如果你讓AI生成想法，它會產出各種隨機內容，也許只有很小一部分真正有價值，但我們暫時還無法驗證這些想法。不過我們或許可以從自然科學中借鑒一些思路。物理學家或化學家提出一個假說后，可以通過實驗收集支持證據——這算不上嚴格證明或證偽，但有辦法增強或削弱對這個假說的信心。

我確實能預見，數學會比現在擁有更多實驗性的一面。目前數學幾乎完全是理論性的，而借助AI，AI可以提出假說，甚至可能提出檢驗這些假說的“實驗”。比如你猜想某個公式對所有自然數成立，就可以檢驗若干數值案例、尋找其他特例、檢查它是否與文獻中的其他結論兼容。這類應用目前還處于初期階段。同樣，因為我們暫時還不具備完善的驗證能力，進展相對緩慢，但隨著我們正確使用AI的專業能力不斷成熟，我相信這一天會到來，不過可能還需要10年左右。

說實話這比我預想的要好。10年聽起來很久，但放在科研領域其實不算長。發展速度比我預期的要快。有些人的期望值非常高，以為到現在數學家或科學家都該被AI取代了。但現實是，AI已經能夠證明一些此前未被標準方法證明的定理，也能發現我們之前沒注意到的patterns（模式、規律）。它依然非常不可靠，但潛力確實存在，我們需要研究如何正確、如何錯誤地使用它。

我認為AI非常擅長的是高度結構化重復，也就是有嚴格指令、可以反復執行的任務。它的意義在于幫我們節省時間，讓我們去做更困難、更有創造性的工作，對吧？

沒錯。AI和人類不一樣。有點可惜的是，目前AI的市場宣傳，甚至“artificial intelligence（人工智能）”這個名字本身，都讓人覺得它是在取代人類。但人類其實很不喜歡做高度重復的任務。比如在數學里，給你一千道題，人類可能只會認真做前一兩道，剩下的998道交給AI去完成就再好不過了。

所以我認為，也許10年后情況會變，但短期內最自然的分工是：人類啟動一個數學項目，給出前幾步思路和預期方向，然后AI把這個框架充實完善，完成所有繁重的基礎工作。這可以極大地加速現有的工作流程。

說到底它只是一個工具，對吧？就是用來幫我們簡化大量流程。我還想請教另一個問題：當AI給出看似隨機的解釋時，我們能做些什么？很多時候AI會給出看似合理、好像正確的答案，但實際上大量內容都是無意義的。您認為我們該如何改進這一點？

在數學領域，目前我們找到應對這個問題最好的辦法就是形式化驗證（formal verification）。AI可以先給出一段自然語言論證，可能對也可能錯，然后我們讓同一個或另一個AI把它轉換成形式化語言（formal language）。每一個論斷都必須被轉換成精確語言，再由一個非常嚴格的編譯器（compiler）驗證——這個編譯器不是AI，而是傳統的、高度可靠的軟件。它被專門設計得極其穩定，主流證明輔助語言的編譯器至今沒有出現過重大漏洞。

如果通過驗證，就說明成立；如果沒通過，我們就讓AI再試一次。通過驗證后，我們會得到一長串AI生成的形式化證明（formal proof），可能不太易讀，但我們可以反過來讓另一個AI來解釋它。而且形式化證明的好處在于，證明里的每一步都非常精確。你可以手動把這個大定理拆成若干部分，分別研究。

即便這份形式化證明長達數千行，你依然可以分析它——可以由人類、AI或兩者結合完成。我們已經有很多這樣的案例：AI先給出一份我們一開始看不懂的證明，我們對它進行反編譯（decompile，拆解）后，有人就能用人類的語言解釋清楚背后的思路。

到目前為止，每次AI給出那種“憑空出現”的驚艷證明，我們經過幾天研究后都會發現，其實文獻中早就有類似思路的論文。AI相比人類的一個優勢是，它可以吸收幾乎全部文獻。它不會直接記住所有內容——它的內存與參數不足以做到這一點——但它能吸收大量技巧的精髓。

人類數學家可能很擅長用四五種技巧解決某類問題，而AI可能掌握十幾種。它不一定總能正確應用，有時會失敗，但它的廣度非常強，至少在處理文獻中已有內容時威力巨大。我們目前還沒看到AI能提出完全沒有文獻先例的原創想法，但話說回來，大多數人類數學家也很難做到這一點。

這確實很難，尤其是現在很多AI都依賴已有信息。這就引出我的下一個問題：您認為AI發展的一個重要里程碑會是什么？是思維方式、理解能力，還是應用層面？

我們仍然期待看到很多東西。一是真正擁有無法追溯到已有文獻的創造力。二是某種針對特定知識體系的持續學習與微調能力。

我自己曾把當前AI在數學上的能力比作一名數學研究生：知識量很大，掌握一套方法，會去嘗試，有時成功有時失敗。但人類研究生有一個特點：如果嘗試失敗了，我們和他交流，指出錯誤，他就會學會不再犯同樣的錯，下次再遇到就會避開。

但AI不一樣，你新開一個會話，它就把之前的一切忘了。你可以保留上下文，它會短暫記住不要做某事，但并不可靠。甚至有個很常見的現象：你越告訴AI不要做什么，它反而越容易去做。

而且我們現在用的都是通用AI，在所有數據上訓練，還無法把AI蒸餾（distill，提煉/專精）成只做數學的專用系統，就像人類研究生可以專攻一個研究方向那樣。我們目前只能做少量微調（fine-tune），遠達不到想要的效果。

但我最希望看到的，是一種真正穩健、能把AI融入我們工作流（workflows）的方式。現在我們都是用各種臨時辦法使用AI：寫論文卡住了，打開瀏覽器，點開聊天工具，用一下AI。有人試過把AI變成代理（智能體agent），讓它控制電腦——說實話出于很多原因這并不是個好主意。它還沒有真正成為一名“共同作者”。

和人類合作者工作時，你們可以在黑板前討論、寫公式、交流。和AI聊天有點類似，但還沒有那種渾然一體的協作感。數百年來，我們已經打磨出和人類合作的最佳方式，但和AI合作的最佳方式我們還沒完全摸索出來。

如果讓您說，目前工作流程推進中最缺的是什么？

這是個好問題。可能是某種無形的東西。有點像疫情期間我們全都轉向線上會議。你可以說線上會議完全夠用，只是聊天而已，在屏幕前和面對面有什么區別？但面對面交流確實有一些無形的東西：眼神交流、肢體語言。

和人類交流時，你們說的話、在黑板上寫的公式，只是對話的一部分，還有很多其他信息在傳遞，而這些在和AI互動時無法被捕捉。

我理解。另一點是和其他人的相互協作，互動感比AI強得多。

沒錯。AI公司傾向于展示“一鍵完成”式的成品：按一下按鈕，AI就給出完整解決方案，而你本人沒有參與解題過程。這樣一來，如果你要向別人解釋這個方案，你根本解釋不了；你想修改它，也只能回頭再讓AI改，每次修改效果都會變差一點。

所以理想情況下，我們需要更互動的體驗：你走一步，AI走下一步，你給出反饋，它進行修正。在這個互動過程中，你才能理解證明是如何形成的。人類寫出證明、解決問題后，可以解釋思考過程、嘗試過的思路、受到哪些文獻啟發。但AI生成這些證明產物（proof artifacts）時，有時不會附帶任何來源記錄，只給出一個答案。

而我們后來意識到，這只是我們想要的一部分。我們不只要答案，我們還想要過程。一旦我們找到把AI整合進來的方法——也許關鍵就像用鹽：少量提味，不能整罐倒進去，用在合適的時候，不用在不合適的時候。

我覺得很棒。而且科研本身通常也不是立刻得到答案，往往是一個漫長的過程，在已有基礎上不斷迭代，有時甚至不一定能得到最終答案，對吧？

是的。人類其實非常不擅長精確設定目標。而AI的特點是，它太擅長完成目標了，有點像神話里的精靈，會非常字面地實現你的愿望。你說要優化某個指標、解決某個問題，它就會耗費大量算力和精力，嚴格按你的要求去做。

結果你常常會發現，比如我讓AI在某種形式化證明助手語言里形式化證明，不惜一切代價給出證明，它就會走捷徑：自創公理、修改定義，用各種方式嚴格滿足你字面上的要求，卻違背本意。

我們正在學習，給AI下達任務，尤其是需要高度精確說明（specifications）的任務時，必須把一切描述清楚，確保沒有漏洞，清晰想明白自己真正想要什么。就拿證明來說，我們不只要答案，還要理解：它和現有文獻有什么聯系、能解決哪些其他問題、如何向他人解釋這個結果。

以前我們不需要過多考慮精確目標，因為讓人類做事時，他們通常不僅會完成你明確要求的部分，還會做好你隱含希望的所有事。比如你讓人倒杯茶，對方不會直接把茶潑在你身上，而是會連杯子、托盤一起準備好。即便你沒有明確要求，對方也理解背后的語境。AI有時能理解語境，有時則不能。所以我們必須更擅長明確目標，才能最好地使用AI。

這個視角很有意思：AI只專注于回答問題，卻不確保把所有事情都弄對。也許這正是目前限制它發展的核心問題。

可以這么說。這其實是整個機器學習（machine learning）的理念。過去并非如此，傳統AI并不那么基于目標，早期AI試圖構建模仿人類思維的推理系統（reasoning systems），但進展艱難，只能完成非常基礎的任務。

后來有人嘗試了相反的思路：只指定一個目標，不計較方式是否笨拙、是否符合邏輯，只管盡可能優化衡量目標距離的指標。一開始效果并不好，但隨著算力、數據和規模不斷提升，效果越來越好，突然跨過一個閾值，就變得相當出色。

但問題是，它有時過于“優秀”，只會嚴格優化你設定的指標。有很多機器學習的例子：你讓AI打贏一個電腦游戲，它總會找到exploits（漏洞/作弊方式），利用代碼里的bug，違背游戲精神，但卻嚴格完成了你要求的任務。

我的最后一個問題是：您認為人們在科學中使用AI時，最常見的誤區是什么？

對大多數人來說，現代AI就是聊天機器人，會跟你說“您的觀察很棒”這類讓你心情好的話。有些科學家確實用聊天機器人輔助思考，但AI for Science最高效的應用其實完全不同。

通常是和驗證結合在一起，比如我經常用它做數值計算（numeric computation）、畫圖、檢驗某個論證。科學家使用AI的方式和公眾很不一樣，比如我們不會用它生成很多好看的圖片，那對科研用處不大。

遺憾的是，人們把AI籠統地當成一項單一技術，可它實際上并不是一項技術，而是數百種相關技術的集合。最受關注的那些，往往不是科學界最常用的。也許我們應該有更細致的命名，不要把所有東西都叫AI。

現在其實已經有generative models（生成模型）、LLMs（大語言模型）、algorithms（算法）等區分了，但公眾通常只關注“AI”這個統稱，不關心它們的區別、用途和運行原理。但我認為運行原理才是最重要的，因為它從根本上決定了AI在做什么、準確度有多高——對科研來說這至關重要。

是的。神經網絡（neural networks）是已經有20年歷史的技術，雖然不像現在的大語言模型那么吸引人，但科學家已經用了很多年，效果非常好。它沒有文本界面，只是用來在數據中尋找規律，用神經網絡做數據科學（data science）效果出色，但過程非常普通、枯燥，就是數值計算，完全不像和科幻機器人對話那樣酷炫。

好的，我們的采訪到此結束。再次非常感謝您的到來，這是第二次采訪，非常愉快。

我也很榮幸。

好的，謝謝。

參考資料

https://sair.foundation/event/ai-for-science-kickoff-2026/

https://www.youtube.com/watch?v=Z5GKnb4H_bM

https://sair.foundation

https://flive.ifeng.com/live/1016492.html

小樂數學科普近期文章

·開放 · 友好 · 多元 · 普適 · 守拙·

讓數學

更加

易學易練

易教易研

易賞易玩

易見易得

易傳易及

歡迎評論、點贊、在看、在聽

收藏、分享、轉載、投稿

查看原始文章出處

點擊zzllrr小樂

公眾號主頁

右上角

置頂加星★

數學科普不迷路！

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.