![]()
前幾天,海外的AI圈和基礎科學的學術圈有個傳聞挺熱鬧的:尹希,哈佛史上最年輕的華人正教授,弦理論這門基礎科學里最難啃方向的頂尖學者,據爆料離開哈佛去了OpenAI。當然,到目前為止OpenAI、哈佛和他本人都還沒正式回應,也有人說他只是停薪留職去那邊待一陣。
![]()
先說尹希是誰。他1983年生,12歲進中科大少年班,2006年拿到哈佛物理博士,2015年31歲晉升正教授,是哈佛史上最年輕的華人正教授之一。研究方向是弦理論和量子引力,物理學里最抽象、最難出成果的硬骨頭,拿過斯隆研究獎和基礎物理學突破獎的新視野獎,長期被同行看作有希望沖諾獎的苗子。就這么一個人,現在公開把寶押在AI上。
然后順著這個傳聞,我找到了個更有依據更有趣的信息。今年4月,哈佛校報寫過一篇長文,講AI怎么攪動理論物理。尹希在里面說,AI給他的提速「至少100倍」,幾周里寫出的代碼,他自己寫要花10年。他還說,不相信有任何一項人類智力能力是AI無法復制的。他最后還說:我自己有沒有親手得出那個解,是次要的,只要結果能被驗證。
一個站在基礎科學最頂端的人,如此相信AI和使用AI,我覺得還真挺特別的。所以借此我也很想看看,現在AI到底是怎么鉆進實驗室、幫人類做科學研究的?
帶著這份好奇,我翻了2026上半年一批論文,發現AI在高校實驗室里的滲透還真挺不錯了。它開始干一些人類自己都不太擅長、甚至干不了的事:讀懂基因組里沒人看得懂的暗區,在三天里造出上千萬條蛋白數據,生成幾千個「平行版本的2023年夏天」去找那個本可能更熱的極端值。
這比AI寫代碼更值得關注。寫代碼是把存量知識自動化,做科學是去碰人類還不知道的東西。AI for Science(AI4S)這兩年本就熱鬧,也為了滿足自己的好奇心,我想把這半年各個學科里真實發生的事一件件講清楚,最后再回到尹希那句話,說說我作為一個天天指揮AI干活的人,到底怎么看「我有沒有親手得出解是次要的」這種判斷。
AI4S的三條主線
讀了幾十篇之后,我發現表面上五花八門的成果,底下其實是三條線在反復出現。
第一條,每個學科都在造自己的「基礎模型」。就是那種一個模型干很多件事的玩意兒,跟GPT一個套路,只不過吃的不是文字,是基因序列、是分子結構、是天氣場、是腦片子。
第二條,干濕閉環開始真落地。所謂干,指電腦里算;濕,指實驗室里真做實驗。以前AI算完一個方案,得人類去手動驗證。現在AI直接驅動機器人做實驗,自己提假設、自己跑、自己看結果再調整。
第三條,不過呢,也有些排斥AI的學者提供了些潑冷水的聲音,我們也會大致聊聊。
記住這三條,下面分學科看就不會亂。
生命科學:讀懂基因暗區,三天造千萬數據
![]()
生命科學這半年最破圈的,是Google DeepMind的AlphaGenome(Nature,2026年1月)。
你可能聽過一個數字:人類基因組里只有約2%是編碼蛋白質的,剩下98%長期被叫做「暗區」。但偏偏大多數跟疾病相關的突變,就藏在這98%里。問題是這片區域太難讀了,它不直接造蛋白,而是像開關一樣調控別的基因什么時候開、開多大。
過去研究它,得拼好幾個專用模型:看基因怎么被剪接拼接用一個,看DNA什么時候打開用一個,看它在細胞核里怎么折疊又是一個。一個任務配一把專用鑰匙。AlphaGenome干的事,是把這些全塞進一個模型。它一次能讀進100萬個堿基對的DNA序列,以單個堿基的精度,同時預測十來種調控信號。
效果到底行不行?在26項變異效應預測的評估里,它有25項追平或超過此前各自領域最強的專用模型。這意思是,一個通才打贏了一屋子專才。
但我得替它把話說圓。這些大多還是計算預測跟實測數據比相關性,在一個常用基準上,預測值跟真實實驗結果對得上六成多,剩下三成多還對不上。這說明它對單個突變的解釋力還有限,離「醫生拿著它直接判斷這個突變到底致不致病」還有距離。它是把暗區的地圖畫得更全了,不等于已經能臨床用。
另一個我覺得特別戳中要害的,是哈佛團隊的Sequence Display(Nature Biotechnology,2026年4月)。
AI做蛋白工程這事,瓶頸從來不是模型不夠聰明,而是沒數據喂。蛋白的「序列長這樣、活性有多強」這種配對數據,過去靠人一個個測,慢得要死。Sequence Display想了個巧辦法:給每個蛋白掛一個「活性條形碼」,活性越高,條形碼被編輯得越多,最后靠測序按活性分桶。
結果是單次實驗產出超過1000萬個數據點,從產數據到訓完模型,總共三天。它已經在小型基因編輯酶、tRNA合成酶這些蛋白上驗證過,還真找出了能識別非天然氨基酸的合成酶變體。我喜歡這個工作,是因為它沒去卷模型,而是去卷數據這個真瓶頸,反過來給那些蛋白大模型造訓練集。當然,它讀的活性是用條形碼間接讀的,不是直接測酶的反應速度,目前也只在四類蛋白上驗過,能不能推廣到更復雜的酶和抗體,還得看。
順帶說一句,造蛋白這塊還有個有意思的趨勢。英偉達和牛津在ICLR 2026上的一個工作(Proteína-Complexa),把大模型里那套「想得越久、答得越好」搬進了蛋白結合體設計,單樣本生成只要15.6秒,在它自己選的14個靶點上全拿最佳。還有一篇綜述(arXiv 2602.03779)把這些年生成式AI設計酶的成績單攤開:有個被重設計的蛋白酶活性提升26倍、耐熱溫度抬高40度。十多年來從頭設計的酶一直催化效率低到沒法用,現在第一次摸到了工業上能用的門檻。這些目前主要還是計算成功率,真做實驗驗證偏少,但方向已經很清楚。
化學材料:讓機器人自己跑實驗,但成功率低得反直覺
![]()
化學這塊,我挑了一個特別誠實、也特別打臉的工作來講:A-Lab(Ceder組,arXiv 2604.11957)。
這是第一個能在嚴格無氧環境下,全自動合成怕空氣材料的自驅動實驗室。它在手套箱里自動合成加表征了352個鹵化物鋰尖晶石樣品,覆蓋19種金屬。更妙的是,它把大模型顯式拆成兩個角色:一個專門找異常樣本、提假設,另一個找規律、往外推。這樣你能追溯它每一步「為什么這么決定」。
聽起來很科幻對吧?但結果反直覺的地方在這兒:所謂「成功」的樣本比例,也就是導電性達標、純度高的那種,從最初75個樣本的1.33%,跑到最后75個樣本,**也只提升到5.33%**。
就算用上最前沿的agent做閉環優化,命中率還是停在個位數百分比。作者自己也承認,找異常那個agent主要在已經探索過的區域里精修,真正往外擴展靠的是找規律,兩者協同的增益有限。我覺得這事的價值,恰恰在于它沒吹,它證明的是「這條路能跑通」,而不是「我們發現了一堆好材料」。
不過話說回來,5%的命中率,跟一個有經驗的材料學家用直覺去篩,到底是快還是慢、好還是差,論文沒比,我們也別急著替它下結論。它了不起的地方是把整個流程自動轉起來了,不是說這條路已經贏了人。
材料這邊還有一條「基礎模型」的線值得提。大阪大學的工作(arXiv 2603.03223),把通用原子模擬模型能算的元素,從此前的89種撐到了97種,專門補齊了镅、鋦、锎這類極重的放射性元素,這些東西實驗極難測、傳統計算又極貴,過去基本是盲區。劍橋的MACE-POLAR-1(arXiv 2602.19411)則在1億個分子結構上訓練,讓模型在帶電、弱相互作用這些原本算不準的地方,精度逼近一種很貴的精確算法,蛋白和藥物分子結合的精度改善約4倍。這倆都是沖著「一個模型管一大片體系」去的。
(另外有一項工作用大模型agent去優化一類多孔材料的合成,宣稱結晶度大幅提升,但具體數字我沒核實到,這里就不寫死了。)
物理:神經網絡幫量子計算「省硬件」
![]()
物理這塊我最想講哈佛的一個工作(arXiv 2604.08358),因為它直接關系到「我們到底什么時候能造出能用的量子計算機」。
量子計算最大的麻煩是錯誤率高,得靠糾錯。糾錯的核心是個叫解碼器的東西,實時判斷哪里出了錯。傳統的算法解碼器有個天花板。這篇用神經網絡做了個解碼器,把出錯率壓到了一個夸張的水平,相當于連續運算一百億步才出一次錯,已經摸到實用量子計算機的門檻。
更要命的是它帶來的省錢效應。它發現量子糾錯有個「瀑布」現象,錯誤抑制比教科書公式陡得多。利用上這個,要達到同樣的目標,用神經網絡解碼器需要的量子比特規模明顯更小。換算下來,造一臺量子計算機用的物理量子比特能少約40%。少四成硬件,這是真金白銀。而且它判斷一次只要約40微秒,已經快到能跟上實際機器的節奏。
要潑的冷水也在:這些都是模擬數據,不是真機實測;而且這種神經解碼器在理論上沒法保證不出某類小錯誤,可能存在一個「錯誤地板」,目前只是沒觀測到。
物理還有兩個我覺得很費曼味的小工作。一個是賓州州立的(arXiv 2603.15853),用AI解量子方程時,發現大家長期默認的「讓能量最低」這個目標,會被神經網絡太強的能力坑害,算出來的能量假性偏低,物理上根本不可能。換個目標函數,從很差的起點出發,10次里9次能穩定收斂,而老辦法只有2次。這是個典型的「目標定錯了」的故事,提醒人別迷信默認設置。另一個是用Transformer預測核聚變裝置里等離子體的行為(arXiv 2602.19110),整體吻合度很高、算一次只要0.1秒,但作者老老實實指出有兩個關鍵參數明顯更差,因為喂給模型的信號里壓根不含相關信息。不是模型不行,是信息不夠。
天文氣候:用AI生成幾千個「平行世界」
![]()
天文氣候這塊,有個工作我看完直接拍桌子,勞倫斯伯克利和英偉達做的(arXiv 2604.09754)。
傳統氣象預報想估算極端天氣,靠的是跑少量幾個版本再做數學外推。歐洲那套主流系統,一次就跑50個版本。這篇用AI天氣模型,生成了7424個2023年夏季的情景,等于造了7424個「平行版本的那個夏天」。
結果是:全球約三分之二的陸地上,AI算出的極端高溫還在傳統方法能覆蓋的范圍內。但剩下三分之一的陸地,AI算出的極端事件完全超出了傳統外推的范圍。其中7.3%的陸地,那個高溫就算用傳統數學外推也屬于「極不可能」,主要落在格陵蘭、俄羅斯東部和北部、阿拉斯加,以及中國東部、華北的部分地區。
我覺得這事最反直覺的點在于:大模型在這里的科學價值,不是「預報得更準」,而是「廉價生成幾千個平行現實」,把傳統方法壓根夠不著的極端情況翻出來。這直接服務于公共安全預警分級,你得先知道最壞能壞到哪,才知道防到什么程度。當然它是事后情景模擬不是真實預報,模型本身也有偏差,作者就指出它在某些地區反而算冷了。
天氣這塊的「基礎模型」敘事也很熱。英偉達一篇工作(arXiv 2601.18111,叫ATLAS)證明了一件挺去魅的事:做頂尖的天氣預報,根本不需要那些天文級定制的特殊網格,一個通用Transformer就夠了,大多數變量上還穩定超過歐洲那套產品,算一步快到3.3秒。另一篇(HealDA,arXiv 2601.17636)則戳中了AI氣象的軟肋:過去AI只換掉了「預報」這一環,而把觀測數據整理成預報起點這一步,還吊在傳統方法上,這一步吃掉全球預報算力的約四成。HealDA用一個簡單網絡,單張H100顯卡一秒就出結果,對比歐洲那套要約1小時、1800個CPU節點,而預報精度只損失不到一天的時效。
腦科學:放射科也走通了GPT式路線
![]()
腦科學我講兩個。
一個是BrainIAC(哈佛系,Nature Neuroscience,2026年2月)。它用近4.9萬張腦部MRI做訓練,全程自學、不用人工標注,一個模型干了7件事:估計腦齡、預測癡呆風險、檢測腦腫瘤的基因突變、預測腦癌生存期等等,整體跑贏了3個傳統的專用AI。
這事的意義是,醫學影像AI過去是「一個病訓一個模型」,BrainIAC證明放射科也能走GPT那條路:先在海量沒標注的片子上自學通用本領,再用很少的標注微調出各種診斷能力。而且越是數據稀缺、任務越難,它相對專用模型的優勢越大。代碼和模型都開放了。它具體的準確率數字Nature正文在墻后我沒拿到,這里就不編百分比了。
另一個更哲學,讓我想了很久(Nature Machine Intelligence,2026年2月)。15名腦子里植入了電極的患者聽語音時,研究者記錄他們聽覺皮層的反應,再去比對一個語音識別AI內部各層的活動。結果是腦區和AI模型的層幾乎一一對應,從聲音、到音節、到詞、到意思,人腦和語音AI走的是同一條遞進的處理階梯。
過去我們說「AI能預測腦活動」,那是弱對應,可能只是碰巧。這篇把它推到了強對應:連內部一層層的結構都平行了。它暗示生物和人工系統,在「把聲音變成意義」這件事上,可能用了相似的策略。
這個方向值得盯,但我得提醒一句:層級對應,也可能只是因為「把聲音變成意義」這件事本來就只有這一條階梯可走,未必是兩套系統真的想到一塊去了。再加上樣本只有15人,用的也是特定的AI,這是相關性證據,不等于人腦真就用這套機制。免責聲明放前面,我還是想說,這個方向比任何一篇刷榜論文都更讓我好奇。
也有清醒的聲音:AI能生成,還不能替你負責
![]()
這半年也有幾個反共識的發現,我覺得反而讓人更踏實。有研究拿兩家不同廠商的前沿模型去生成科研新假設,發現輸出相似度高得驚人,你問3家還是問10家,結果幾乎一樣,創新的多樣性被預訓練和對齊壓扁了。另一邊,一個只有35億參數的小模型,微調后控制原子級顯微鏡,命令準確率干到99.3%,反而超過了OpenAI的o4-mini,因為大模型輸出帶概率性,在納米尺度一出錯就是不可逆的實驗失敗,精密科學里確定性的小模型反而更靠譜。還有篇綜述算了筆賬:現在有系統能2.3小時產一篇論文,但生成能力一直在跑贏驗證能力,AI產得越來越快,卻沒法證明自己對、有意義。這些聲音不掃興,它們一致指向同一句話:AI可以把生成做到無限快,但驗證和負責這一端,目前還得人來。
![]()
把這半年看完,作為一個天天指揮AI做產品的人,我想說說自己的判斷。
我做App的時候,AI是我的工具。它寫代碼寫得比我快,但出了bug,是我對著報錯改、是我決定這功能要不要、是我去App Store擔責。AI再強,它都站在「我」這個判斷主體的下游。
科學這事,本來也該是這樣。但我看到的趨勢是,AI正在從科研的工具,往科研的流程本身挪。自驅動實驗室自己提假設、自己跑、自己改;AI科學家從選題到寫論文一條龍。挪到一定程度,那個負責判斷的主體就模糊了:到底是誰在做科學?
我的看法是,這條邊界不能模糊。而且巧的是,這半年最扎實的工作恰恰都沒模糊它。A-Lab老老實實報5.33%的成功率;那個小模型靠確定性贏過大模型;路線圖綜述直接說瓶頸是「為真實性負責」。它們共同指向一句話:AI可以無限擴張「生成」,但「驗證」和「負責」這一端,目前還非人類不可,短期也看不到松動。
所以回到尹希那句話。他說自己有沒有親手得出解是次要的,只要結果能被驗證,我其實挺認同。解越來越多地交給AI去生成,這是大好事,它意味著人類能問的問題、能碰的邊界,一下子被推遠了。剩下還得人站著的崗,是「驗證」和「負責」這一端。但我一點都不覺得這是壞消息。反過來看,這恰恰是把人從「測一千萬條數據」「算幾千個平行宇宙」這種力氣活里解放出來,讓我們專心去干那件最像人的事:判斷哪個問題值得問,以及為答案負責。
我得說句實話:這一堆基礎模型、自驅動實驗室,到2026年中真正進了科學家日常的還不多,大部分論文還停在概念驗證。但方向我是真信。過去要十年的事現在幾周做完,這種提速一旦鋪開,基礎科學會以我們還沒適應的節奏往前沖。可控核聚變、室溫超導、阿爾茨海默的藥這些卡了幾十年的硬骨頭,第一次有了被批量啃動的可能。
所以比起擔心,我更多是興奮和期待。AI鉆進實驗室這件事,我賭它是這十年里對人類最重要的變化之一。如果加盟傳聞屬實,尹希把整個職業生涯押上去,我挺理解他。換我站在他那個位置,看到AI能把十年壓成幾周,可能也會做一樣的選擇。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.