網易首頁 > 網易號 > 正文申請入駐

AI讓弦理論研究提速100倍！哈佛史上最年輕華人教授加盟OpenAI

2026-06-04 16:14:08　來源: AI進化論花生

北京舉報

分享至

前幾天，海外的AI圈和基礎科學的學術圈有個傳聞挺熱鬧的：尹希，哈佛史上最年輕的華人正教授，弦理論這門基礎科學里最難啃方向的頂尖學者，據爆料離開哈佛去了OpenAI。當然，到目前為止OpenAI、哈佛和他本人都還沒正式回應，也有人說他只是停薪留職去那邊待一陣。

先說尹希是誰。他1983年生，12歲進中科大少年班，2006年拿到哈佛物理博士，2015年31歲晉升正教授，是哈佛史上最年輕的華人正教授之一。研究方向是弦理論和量子引力，物理學里最抽象、最難出成果的硬骨頭，拿過斯隆研究獎和基礎物理學突破獎的新視野獎，長期被同行看作有希望沖諾獎的苗子。就這么一個人，現在公開把寶押在AI上。

然后順著這個傳聞，我找到了個更有依據更有趣的信息。今年4月，哈佛校報寫過一篇長文，講AI怎么攪動理論物理。尹希在里面說，AI給他的提速「至少100倍」，幾周里寫出的代碼，他自己寫要花10年。他還說，不相信有任何一項人類智力能力是AI無法復制的。他最后還說：我自己有沒有親手得出那個解，是次要的，只要結果能被驗證。

一個站在基礎科學最頂端的人，如此相信AI和使用AI，我覺得還真挺特別的。所以借此我也很想看看，現在AI到底是怎么鉆進實驗室、幫人類做科學研究的？

帶著這份好奇，我翻了2026上半年一批論文，發現AI在高校實驗室里的滲透還真挺不錯了。它開始干一些人類自己都不太擅長、甚至干不了的事：讀懂基因組里沒人看得懂的暗區，在三天里造出上千萬條蛋白數據，生成幾千個「平行版本的2023年夏天」去找那個本可能更熱的極端值。

這比AI寫代碼更值得關注。寫代碼是把存量知識自動化，做科學是去碰人類還不知道的東西。AI for Science（AI4S）這兩年本就熱鬧，也為了滿足自己的好奇心，我想把這半年各個學科里真實發生的事一件件講清楚，最后再回到尹希那句話，說說我作為一個天天指揮AI干活的人，到底怎么看「我有沒有親手得出解是次要的」這種判斷。

AI4S的三條主線

讀了幾十篇之后，我發現表面上五花八門的成果，底下其實是三條線在反復出現。

第一條，每個學科都在造自己的「基礎模型」。就是那種一個模型干很多件事的玩意兒，跟GPT一個套路，只不過吃的不是文字，是基因序列、是分子結構、是天氣場、是腦片子。

第二條，干濕閉環開始真落地。所謂干，指電腦里算；濕，指實驗室里真做實驗。以前AI算完一個方案，得人類去手動驗證。現在AI直接驅動機器人做實驗，自己提假設、自己跑、自己看結果再調整。

第三條，不過呢，也有些排斥AI的學者提供了些潑冷水的聲音，我們也會大致聊聊。

記住這三條，下面分學科看就不會亂。

生命科學：讀懂基因暗區，三天造千萬數據

生命科學這半年最破圈的，是Google DeepMind的AlphaGenome（Nature，2026年1月）。

你可能聽過一個數字：人類基因組里只有約2%是編碼蛋白質的，剩下98%長期被叫做「暗區」。但偏偏大多數跟疾病相關的突變，就藏在這98%里。問題是這片區域太難讀了，它不直接造蛋白，而是像開關一樣調控別的基因什么時候開、開多大。

過去研究它，得拼好幾個專用模型：看基因怎么被剪接拼接用一個，看DNA什么時候打開用一個，看它在細胞核里怎么折疊又是一個。一個任務配一把專用鑰匙。AlphaGenome干的事，是把這些全塞進一個模型。它一次能讀進100萬個堿基對的DNA序列，以單個堿基的精度，同時預測十來種調控信號。

效果到底行不行？在26項變異效應預測的評估里，它有25項追平或超過此前各自領域最強的專用模型。這意思是，一個通才打贏了一屋子專才。

但我得替它把話說圓。這些大多還是計算預測跟實測數據比相關性，在一個常用基準上，預測值跟真實實驗結果對得上六成多，剩下三成多還對不上。這說明它對單個突變的解釋力還有限，離「醫生拿著它直接判斷這個突變到底致不致病」還有距離。它是把暗區的地圖畫得更全了，不等于已經能臨床用。

另一個我覺得特別戳中要害的，是哈佛團隊的Sequence Display（Nature Biotechnology，2026年4月）。

AI做蛋白工程這事，瓶頸從來不是模型不夠聰明，而是沒數據喂。蛋白的「序列長這樣、活性有多強」這種配對數據，過去靠人一個個測，慢得要死。Sequence Display想了個巧辦法：給每個蛋白掛一個「活性條形碼」，活性越高，條形碼被編輯得越多，最后靠測序按活性分桶。

結果是單次實驗產出超過1000萬個數據點，從產數據到訓完模型，總共三天。它已經在小型基因編輯酶、tRNA合成酶這些蛋白上驗證過，還真找出了能識別非天然氨基酸的合成酶變體。我喜歡這個工作，是因為它沒去卷模型，而是去卷數據這個真瓶頸，反過來給那些蛋白大模型造訓練集。當然，它讀的活性是用條形碼間接讀的，不是直接測酶的反應速度，目前也只在四類蛋白上驗過，能不能推廣到更復雜的酶和抗體，還得看。

順帶說一句，造蛋白這塊還有個有意思的趨勢。英偉達和牛津在ICLR 2026上的一個工作（Proteína-Complexa），把大模型里那套「想得越久、答得越好」搬進了蛋白結合體設計，單樣本生成只要15.6秒，在它自己選的14個靶點上全拿最佳。還有一篇綜述（arXiv 2602.03779）把這些年生成式AI設計酶的成績單攤開：有個被重設計的蛋白酶活性提升26倍、耐熱溫度抬高40度。十多年來從頭設計的酶一直催化效率低到沒法用，現在第一次摸到了工業上能用的門檻。這些目前主要還是計算成功率，真做實驗驗證偏少，但方向已經很清楚。

化學材料：讓機器人自己跑實驗，但成功率低得反直覺

化學這塊，我挑了一個特別誠實、也特別打臉的工作來講：A-Lab（Ceder組，arXiv 2604.11957）。

這是第一個能在嚴格無氧環境下，全自動合成怕空氣材料的自驅動實驗室。它在手套箱里自動合成加表征了352個鹵化物鋰尖晶石樣品，覆蓋19種金屬。更妙的是，它把大模型顯式拆成兩個角色：一個專門找異常樣本、提假設，另一個找規律、往外推。這樣你能追溯它每一步「為什么這么決定」。

聽起來很科幻對吧？但結果反直覺的地方在這兒：所謂「成功」的樣本比例，也就是導電性達標、純度高的那種，從最初75個樣本的1.33%，跑到最后75個樣本，**也只提升到5.33%**。

就算用上最前沿的agent做閉環優化，命中率還是停在個位數百分比。作者自己也承認，找異常那個agent主要在已經探索過的區域里精修，真正往外擴展靠的是找規律，兩者協同的增益有限。我覺得這事的價值，恰恰在于它沒吹，它證明的是「這條路能跑通」，而不是「我們發現了一堆好材料」。

不過話說回來，5%的命中率，跟一個有經驗的材料學家用直覺去篩，到底是快還是慢、好還是差，論文沒比，我們也別急著替它下結論。它了不起的地方是把整個流程自動轉起來了，不是說這條路已經贏了人。

材料這邊還有一條「基礎模型」的線值得提。大阪大學的工作（arXiv 2603.03223），把通用原子模擬模型能算的元素，從此前的89種撐到了97種，專門補齊了镅、鋦、锎這類極重的放射性元素，這些東西實驗極難測、傳統計算又極貴，過去基本是盲區。劍橋的MACE-POLAR-1（arXiv 2602.19411）則在1億個分子結構上訓練，讓模型在帶電、弱相互作用這些原本算不準的地方，精度逼近一種很貴的精確算法，蛋白和藥物分子結合的精度改善約4倍。這倆都是沖著「一個模型管一大片體系」去的。

（另外有一項工作用大模型agent去優化一類多孔材料的合成，宣稱結晶度大幅提升，但具體數字我沒核實到，這里就不寫死了。）

物理：神經網絡幫量子計算「省硬件」

物理這塊我最想講哈佛的一個工作（arXiv 2604.08358），因為它直接關系到「我們到底什么時候能造出能用的量子計算機」。

量子計算最大的麻煩是錯誤率高，得靠糾錯。糾錯的核心是個叫解碼器的東西，實時判斷哪里出了錯。傳統的算法解碼器有個天花板。這篇用神經網絡做了個解碼器，把出錯率壓到了一個夸張的水平，相當于連續運算一百億步才出一次錯，已經摸到實用量子計算機的門檻。

更要命的是它帶來的省錢效應。它發現量子糾錯有個「瀑布」現象，錯誤抑制比教科書公式陡得多。利用上這個，要達到同樣的目標，用神經網絡解碼器需要的量子比特規模明顯更小。換算下來，造一臺量子計算機用的物理量子比特能少約40%。少四成硬件，這是真金白銀。而且它判斷一次只要約40微秒，已經快到能跟上實際機器的節奏。

要潑的冷水也在：這些都是模擬數據，不是真機實測；而且這種神經解碼器在理論上沒法保證不出某類小錯誤，可能存在一個「錯誤地板」，目前只是沒觀測到。

物理還有兩個我覺得很費曼味的小工作。一個是賓州州立的（arXiv 2603.15853），用AI解量子方程時，發現大家長期默認的「讓能量最低」這個目標，會被神經網絡太強的能力坑害，算出來的能量假性偏低，物理上根本不可能。換個目標函數，從很差的起點出發，10次里9次能穩定收斂，而老辦法只有2次。這是個典型的「目標定錯了」的故事，提醒人別迷信默認設置。另一個是用Transformer預測核聚變裝置里等離子體的行為（arXiv 2602.19110），整體吻合度很高、算一次只要0.1秒，但作者老老實實指出有兩個關鍵參數明顯更差，因為喂給模型的信號里壓根不含相關信息。不是模型不行，是信息不夠。

天文氣候：用AI生成幾千個「平行世界」

天文氣候這塊，有個工作我看完直接拍桌子，勞倫斯伯克利和英偉達做的（arXiv 2604.09754）。

傳統氣象預報想估算極端天氣，靠的是跑少量幾個版本再做數學外推。歐洲那套主流系統，一次就跑50個版本。這篇用AI天氣模型，生成了7424個2023年夏季的情景，等于造了7424個「平行版本的那個夏天」。

結果是：全球約三分之二的陸地上，AI算出的極端高溫還在傳統方法能覆蓋的范圍內。但剩下三分之一的陸地，AI算出的極端事件完全超出了傳統外推的范圍。其中7.3%的陸地，那個高溫就算用傳統數學外推也屬于「極不可能」，主要落在格陵蘭、俄羅斯東部和北部、阿拉斯加，以及中國東部、華北的部分地區。

我覺得這事最反直覺的點在于：大模型在這里的科學價值，不是「預報得更準」，而是「廉價生成幾千個平行現實」，把傳統方法壓根夠不著的極端情況翻出來。這直接服務于公共安全預警分級，你得先知道最壞能壞到哪，才知道防到什么程度。當然它是事后情景模擬不是真實預報，模型本身也有偏差，作者就指出它在某些地區反而算冷了。

天氣這塊的「基礎模型」敘事也很熱。英偉達一篇工作（arXiv 2601.18111，叫ATLAS）證明了一件挺去魅的事：做頂尖的天氣預報，根本不需要那些天文級定制的特殊網格，一個通用Transformer就夠了，大多數變量上還穩定超過歐洲那套產品，算一步快到3.3秒。另一篇（HealDA，arXiv 2601.17636）則戳中了AI氣象的軟肋：過去AI只換掉了「預報」這一環，而把觀測數據整理成預報起點這一步，還吊在傳統方法上，這一步吃掉全球預報算力的約四成。HealDA用一個簡單網絡，單張H100顯卡一秒就出結果，對比歐洲那套要約1小時、1800個CPU節點，而預報精度只損失不到一天的時效。

腦科學：放射科也走通了GPT式路線

腦科學我講兩個。

一個是BrainIAC（哈佛系，Nature Neuroscience，2026年2月）。它用近4.9萬張腦部MRI做訓練，全程自學、不用人工標注，一個模型干了7件事：估計腦齡、預測癡呆風險、檢測腦腫瘤的基因突變、預測腦癌生存期等等，整體跑贏了3個傳統的專用AI。

這事的意義是，醫學影像AI過去是「一個病訓一個模型」，BrainIAC證明放射科也能走GPT那條路：先在海量沒標注的片子上自學通用本領，再用很少的標注微調出各種診斷能力。而且越是數據稀缺、任務越難，它相對專用模型的優勢越大。代碼和模型都開放了。它具體的準確率數字Nature正文在墻后我沒拿到，這里就不編百分比了。

另一個更哲學，讓我想了很久（Nature Machine Intelligence，2026年2月）。15名腦子里植入了電極的患者聽語音時，研究者記錄他們聽覺皮層的反應，再去比對一個語音識別AI內部各層的活動。結果是腦區和AI模型的層幾乎一一對應，從聲音、到音節、到詞、到意思，人腦和語音AI走的是同一條遞進的處理階梯。

過去我們說「AI能預測腦活動」，那是弱對應，可能只是碰巧。這篇把它推到了強對應：連內部一層層的結構都平行了。它暗示生物和人工系統，在「把聲音變成意義」這件事上，可能用了相似的策略。

這個方向值得盯，但我得提醒一句：層級對應，也可能只是因為「把聲音變成意義」這件事本來就只有這一條階梯可走，未必是兩套系統真的想到一塊去了。再加上樣本只有15人，用的也是特定的AI，這是相關性證據，不等于人腦真就用這套機制。免責聲明放前面，我還是想說，這個方向比任何一篇刷榜論文都更讓我好奇。

也有清醒的聲音：AI能生成，還不能替你負責

這半年也有幾個反共識的發現，我覺得反而讓人更踏實。有研究拿兩家不同廠商的前沿模型去生成科研新假設，發現輸出相似度高得驚人，你問3家還是問10家，結果幾乎一樣，創新的多樣性被預訓練和對齊壓扁了。另一邊，一個只有35億參數的小模型，微調后控制原子級顯微鏡，命令準確率干到99.3%，反而超過了OpenAI的o4-mini，因為大模型輸出帶概率性，在納米尺度一出錯就是不可逆的實驗失敗，精密科學里確定性的小模型反而更靠譜。還有篇綜述算了筆賬：現在有系統能2.3小時產一篇論文，但生成能力一直在跑贏驗證能力，AI產得越來越快，卻沒法證明自己對、有意義。這些聲音不掃興，它們一致指向同一句話：AI可以把生成做到無限快，但驗證和負責這一端，目前還得人來。

把這半年看完，作為一個天天指揮AI做產品的人，我想說說自己的判斷。

我做App的時候，AI是我的工具。它寫代碼寫得比我快，但出了bug，是我對著報錯改、是我決定這功能要不要、是我去App Store擔責。AI再強，它都站在「我」這個判斷主體的下游。

科學這事，本來也該是這樣。但我看到的趨勢是，AI正在從科研的工具，往科研的流程本身挪。自驅動實驗室自己提假設、自己跑、自己改；AI科學家從選題到寫論文一條龍。挪到一定程度，那個負責判斷的主體就模糊了：到底是誰在做科學？

我的看法是，這條邊界不能模糊。而且巧的是，這半年最扎實的工作恰恰都沒模糊它。A-Lab老老實實報5.33%的成功率；那個小模型靠確定性贏過大模型；路線圖綜述直接說瓶頸是「為真實性負責」。它們共同指向一句話：AI可以無限擴張「生成」，但「驗證」和「負責」這一端，目前還非人類不可，短期也看不到松動。

所以回到尹希那句話。他說自己有沒有親手得出解是次要的，只要結果能被驗證，我其實挺認同。解越來越多地交給AI去生成，這是大好事，它意味著人類能問的問題、能碰的邊界，一下子被推遠了。剩下還得人站著的崗，是「驗證」和「負責」這一端。但我一點都不覺得這是壞消息。反過來看，這恰恰是把人從「測一千萬條數據」「算幾千個平行宇宙」這種力氣活里解放出來，讓我們專心去干那件最像人的事：判斷哪個問題值得問，以及為答案負責。

我得說句實話：這一堆基礎模型、自驅動實驗室，到2026年中真正進了科學家日常的還不多，大部分論文還停在概念驗證。但方向我是真信。過去要十年的事現在幾周做完，這種提速一旦鋪開，基礎科學會以我們還沒適應的節奏往前沖。可控核聚變、室溫超導、阿爾茨海默的藥這些卡了幾十年的硬骨頭，第一次有了被批量啃動的可能。

所以比起擔心，我更多是興奮和期待。AI鉆進實驗室這件事，我賭它是這十年里對人類最重要的變化之一。如果加盟傳聞屬實，尹希把整個職業生涯押上去，我挺理解他。換我站在他那個位置，看到AI能把十年壓成幾周，可能也會做一樣的選擇。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.