无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

Claude把病毒起源算錯90年,都是網頁惹的禍?

0
分享至


新智元報道


【新智元導讀】頂級AI編碼一日千里,到了生物學領域卻頻頻翻車,并非模型不夠聰明,而是科學數據庫至今只為人類點鼠標而生。

最強的模型,栽在了最不該栽的地方:數數上?

近日,Anthropic發了一篇題為《為生物學智能體鋪路(Paving the way for agents in biology)》的科學博客,其中一組數字讓人后背發涼。


https://www.anthropic.com/research/agents-in-biology

研究者讓當前最強的幾個科研智能體(Claude、GPT、Biomni、Edison Analysis)做一件聽起來毫無難度的事:從NCBI Virus數據庫里,準確數出符合條件的病毒序列有多少條。

結果,沒有一個能穩定答對。

更離譜的是,同一道題、同一個模型、同一段提示詞,問三次,答案能差出幾十倍。

Claude Sonnet 4檢索一條埃博拉病毒序列查詢,第一次返回106條,第二次15條,第三次5條。而正確答案是266條。

是AI搞生物學真的不行嗎?

這背后藏著一個扎心的真相,在科學領域,智能體真正的短板并非推理,而是它壓根沒有一條穩定、可復現、機器能走的路,去把數據準確地取出來。

無專用檢索層時,各家系統的平均準確率從16.9%一路散到91.3%,即使是新模型有進步,但殘留的錯誤依舊致命:因為這類任務的及格線,實際上是100%。

少一條記錄,可能就讓一個診斷試劑看起來覆蓋了所有流行毒株,或者讓一場疫情的起點被推算錯好幾周。

那么,問題到底出在哪?

為馬車修的城

跑不動汽車

Anthropic給了一個特別形象的比喻:用智能體去跑生物數據庫,就像開車穿越一座汽車出現之前建好的老城。

街道也許優雅、講究,但全是為馬車設計的窄巷急彎。零散的數據庫、千奇百怪的文件格式、一次性的檢索腳本,都是這座老城的一部分。你可以給它加點交通標志、辟幾個停車場、拓寬一兩條路,但底層的城市布局,從一開始就不是為汽車準備的。

軟件的世界正相反。它是一座為車而建的新城:平整的柏油路、清晰的車道、標準化的信號燈。版本控制、文檔齊全的API、包管理器,一整套讓你從起點高速直達終點的系統,天生就為「車」(也就是智能體)鋪好。

所以代碼智能體一日千里,生物智能體卻原地打轉。

軟件領域給出的是結構化的數字工作流和可靠接口,一個GitHub issue,生成補丁、跑通測試、當場驗證。生物領域給出的是脆弱、異質、依賴具體流程的基礎設施,幾乎沒有簡單、可驗證又有意義的獎勵信號。

具體到NCBI Virus,麻煩更加明顯。它本質上是一個網頁門戶。你在網頁上勾選條件:宿主是人類、采樣地在非洲、序列長度大于某個值、排除實驗室傳代樣本,網站后臺才把這些條件翻譯成對底層多個數據庫(GenBank、RefSeq、INSDC體系)的查詢,再把結果篩出來給你。


NCBI Virus門戶首頁:檢索病毒序列得先在網頁上選選項、敲關鍵詞、點篩選,整套交互為人類設計,機器難以直接復用。

它的大量過濾邏輯,是寫在網頁這一層的,沒有對外開放成一個干凈的程序接口。

對于人類病毒學家,這只是瀏覽器里點幾下的事。對于機器(智能體),這簡直就是災難。因為智能體能直接調用的,是底層那幾個原始API(REST、Datasets、E-utilities),而這些API并不暴露和網頁一模一樣的過濾語義。

舉個具體的例子:

網頁上「采樣地在非洲」是一個勾選框,背后可能要把幾十個國家的元數據字段對齊,還要處理那些字段寫法不統一的記錄;「含表面糖蛋白」這種條件,光靠序列本身判斷不了,得再去GenBank把每條記錄的基因/蛋白注釋拉回來比對。

這些隱性步驟,網頁幫你做了,但原始API不幫你做。

于是智能體只能自己「猜」著把這套邏輯重新拼一遍。拼漏了就少計算(漏掉非洲某國的序列),拼錯了就多計算(過濾條件理解偏了)。

這正是Sonnet 4同題三答106、15、5的根因:它每次重建的過濾邏輯都不完全一樣。

gget virus要解決的,恰恰就是這件事:把網頁界面里那套藏著的過濾行為,重新實現成一個穩定、可復現、機器能直接調用的程序化系統,讓智能體不必每次再去猜一遍。

數錯一條序列

疫情起點偏移幾周

如果你覺得「數錯幾條序列」無傷大雅,下面這個現場會改變你的看法。

2026年5月,剛果(金)爆發邦地布焦型埃博拉疫情。5月14日,金沙薩的INRB分析了13份血樣,次日確認其中8例。到5月29日,WHO報告確診與疑似病例已超1000例,死亡逾200人。

研究者面前擺著三個生死攸關的問題:這次的病毒和以往差多大?現有診斷還測得出來嗎?現有療法還管不管用?

回答這些,都要把新基因組和NCBI Virus里的歷史埃博拉基因組逐一比對。而這套分析的第一步,恰恰就是手動點網頁、手動復現一長串復雜過濾條件,再祈禱拉出來的數據集是完整、正確的。

研究者用前面那條埃博拉查詢,讓Sonnet 4拉數據、建系統發育樹,去推算「最近共同祖先時間(TMRCA)」。這是推斷一場疫情何時起源的關鍵量。

人工精校的數據集,給出的TMRCA是2014年1月,和既往報告一致。

而Sonnet 4跑出來的三套數據,兩套明顯存在殘缺。其中一套把推算出的起源時間從2014年拉回到了1922年,憑空多算出九十多年。剩下那套看著像模像樣,卻漏掉了幾內亞的序列,把起源時間悄悄挪到了2014年4月,時間線就此被改寫。


扎伊爾型埃博拉系統發育樹:左上為人工精校數據,Run 1至3為Sonnet 4檢索結果。紅色虛線標注TMRCA,灰色代表缺失或錯誤的國家信息。

抗體療法分析也一樣。研究者想看看maftivimab、MBP134這兩款埃博拉抗體療法瞄準的位點,歷史上有沒有出現過突變,借此判斷療法還能不能跟上病毒進化。結果Sonnet 4三次跑出三種完全不同的突變圖景。


扎伊爾型埃博拉糖蛋白突變分布,紅色越深頻率越高,球體為maftivimab、MBP134抗體結合位點。最左為人工精校數據,Sonnet 4三次檢索(Run 1至3)結果各不相同。

失敗模式很清楚:拉大結果集時中途停手就漏數;過濾條件用錯,就超數。流感A、HIV-1等記錄海量的病毒,偏差最大。過濾條件一旦超過三四個并行,性能直接崩。

錯得理直氣壯,是科研里最可怕的一種錯誤。

給老城挖一條機器專用隧道

那么,怎么修?

Anthropic和NCBI的研究者合作,造了一個叫gget virus的東西。

它不是又一個花哨的「AI插件」,而是一個確定性檢索層。本質上,它把NCBI Virus網頁界面里那套過濾行為,翻譯成了可復現的程序化系統。

技術上,它統籌REST、Datasets、E-utilities幾個底層系統,自動判斷哪些過濾能走API、哪些得本地校驗。它處理批量取數,讓大結果集被完整拉下來,而不是中途被截斷。

它從INSDC體系(NCBI、ENA、DDBJ)下載病毒核苷酸序列和鏈接元數據,輸出FASTA、CSV、JSONL這些人和機器都讀得懂的格式,還附帶詳細日志,告訴你這個結果到底是怎么算出來的。對高頻查詢,它把數據傳輸量壓縮了超過98%。

效果立竿見影。

接入gget virus后,所有被測系統準確率全部沖到90.0%以上,GPT-5.5飆到99.7%。運行之間的隨機抖動幾乎消失,穩定性升到0.92到1.00。

最妙的是,模型之間的差距也被大幅抹平了。


VirBench基準上各智能體的檢索準確率:接入gget virus(深色)后全部沖過90%,最右為gget virus單獨運行。

把這句話翻譯一下:加上確定性工具層之后,你用哪個模型,不那么重要了。

這才是真正值得注意的地方。

可靠的數據集構建,本不該取決于你買不買得起最新最貴的模型,也不該取決于你恰好知道哪個模型最適配哪個數據庫。便宜的模型配上對的工具,照樣穩。

還有一個有趣的細節。在360次運行里,GPT-5.5曾在沒被任何提示的情況下,自己找到并用上了gget virus。而那一次,是它在那道題上唯一答對的一次。

工具的價值,模型自己用腳投了票。

真正的勝負手

從模型轉向地基

將視野拉遠一些,這件事遠不止關于病毒。

同樣的摩擦,出現在每一個「為人類、而非為智能體設計」的環境里。

幾個月前Karpathy講AI時代的軟件,吐槽自己vibe coding做個小網頁應用,真要上線(登錄、支付、部署),一周時間全耗在瀏覽器里點來點去。他的總結是:「寫代碼是最簡單的部分?!?/p>


Karpathy演講幻燈片「Docs for people」:Vercel、Clerk等服務的配置文檔全是為人類設計的「點這里、填那里」,LLM無法直接調用。

生物學家聽完Karpathy的吐槽后,也許頗能夠共鳴:這種痛苦,他們可能已經忍了很多年。

gget virus并非個例,同樣在搭建這種「上下文引擎」的,還有ToolUniverse、Robin、Biomni等一批生物醫學智能體。

難題在于:確定性到底該放在哪一層,又該怎么搭。

當然,也有人會問:模型進步這么快,萬一哪天智能體強到能自己穿越混亂門戶、對齊ID、正確翻頁、出錯自愈,gget virus這類「腳手架」會不會瞬間歸零?

有可能。但Anthropic的答案是:就算智能體做得到,也不代表每次都該讓它從頭重新發明一遍。

一個能自己趟過這套混亂取數流程的模型,可能太貴、太慢、太難審計、太難信任,撐不起日??蒲?。

更何況,哪怕腳手架終將過時,給生物數據庫的教訓依然成立:從現在起,就得把智能體當成規?;脩簦瑥囊婚_始就為大規模調用而建。

這場競賽的表面,是模型誰更聰明。往下一層,比的是誰的地基更適合機器奔跑。

我們要模型在生成假設、設計實驗時天馬行空。但它腳下那層:基因標識符、數據schema、檢索邏輯、坐標系統、元數據約定,必須要「無聊」得絕對可靠。

模型曲線還在往上走。

但這一輪真正的勝負手,或許不在云端的大模型,而在底下那層沒人愿意修、卻決定成敗的數據基礎設施上。

參考資料:

https://www.anthropic.com/research/agents-in-biology

編輯:元宇


特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
意大利富婆遭搶劫,開2噸越野車碾壓劫匪,過度報復殺人被判18年

意大利富婆遭搶劫,開2噸越野車碾壓劫匪,過度報復殺人被判18年

譯言
2026-06-12 09:09:04
老淚縱橫!泰王哭到雙眼紅腫,沉重父愛看得人好心酸

老淚縱橫!泰王哭到雙眼紅腫,沉重父愛看得人好心酸

凡知
2026-06-14 00:15:14
全球90%都是日本產?竟無一國成功復刻,一旦斷供我國該如何應對

全球90%都是日本產?竟無一國成功復刻,一旦斷供我國該如何應對

金錯刀
2026-06-12 18:22:07
讓女明星排隊道歉,是內娛的恥辱

讓女明星排隊道歉,是內娛的恥辱

她刊
2026-06-12 20:21:20
登貝萊:對姆巴佩的批評太過分了

登貝萊:對姆巴佩的批評太過分了

熱血體育社
2026-06-13 00:01:47
阿斯:FIFA難移除亞特蘭大球場奔馳星標,將限制轉播航拍

阿斯:FIFA難移除亞特蘭大球場奔馳星標,將限制轉播航拍

懂球帝
2026-06-13 15:20:41
阿奴諾比補籃入選紐約體育史前五

阿奴諾比補籃入選紐約體育史前五

體壇周報
2026-06-14 01:26:23
“她是自愿的,很享受!”男子拍下視頻當證據,二審法院這樣判

“她是自愿的,很享受!”男子拍下視頻當證據,二審法院這樣判

一絲不茍的法律人
2026-06-13 18:48:01
大反轉:美取消波音大豆訂單,188家中企在列

大反轉:美取消波音大豆訂單,188家中企在列

一網打盡全球焦點
2026-06-10 10:01:39
美國一醫生把13歲女孩心臟瓣膜裝反,治不好便動員父母捐獻其器官,轉院換上正確瓣膜后,女孩“奇跡般康復”;女孩父母索賠約1700萬美元

美國一醫生把13歲女孩心臟瓣膜裝反,治不好便動員父母捐獻其器官,轉院換上正確瓣膜后,女孩“奇跡般康復”;女孩父母索賠約1700萬美元

大風新聞
2026-06-11 20:30:06
開封3歲男童失聯新進展!救援隊透可疑細節,家屬疑慮,恐要成真

開封3歲男童失聯新進展!救援隊透可疑細節,家屬疑慮,恐要成真

奇思妙想草葉君
2026-06-13 22:42:59
口交、肛交等進入式性服務是賣淫行為嗎?最高院定調了!

口交、肛交等進入式性服務是賣淫行為嗎?最高院定調了!

黯泉
2026-06-02 11:54:54
寧愿降級也要換賽道!中山大學轉專業名單火了,三大專業成重災區

寧愿降級也要換賽道!中山大學轉專業名單火了,三大專業成重災區

林林先生
2026-06-11 13:09:52
女子花680元辦山姆會員卡,收到臨期菜 :距離過期僅剩不到24小時;客服:不想要臨期可以備注

女子花680元辦山姆會員卡,收到臨期菜 :距離過期僅剩不到24小時;客服:不想要臨期可以備注

都市快報橙柿互動
2026-06-13 18:48:30
正式退出,官宣離隊,王俊杰:主帥對我意見大,沒能扮演重要角色

正式退出,官宣離隊,王俊杰:主帥對我意見大,沒能扮演重要角色

童叔不飆車
2026-06-14 00:55:00
醫生發現:吃一個西紅柿,就等于喝了一大口碳酸飲料,真的假的?

醫生發現:吃一個西紅柿,就等于喝了一大口碳酸飲料,真的假的?

路醫生健康科普
2026-06-13 15:45:43
離職不“死機”:他用前司賬號,給自己發了4個月的“奶茶福利”

離職不“死機”:他用前司賬號,給自己發了4個月的“奶茶福利”

新京報
2026-06-12 15:17:07
春光乍泄!古力娜扎跳舞肩帶突然斷裂大面積暴露,擔心的事發生了

春光乍泄!古力娜扎跳舞肩帶突然斷裂大面積暴露,擔心的事發生了

蹲坑看世界
2026-06-13 21:06:31
餓死人就開戰?菲律賓司令放狠話:中國若不撤出仁愛礁,必有一戰

餓死人就開戰?菲律賓司令放狠話:中國若不撤出仁愛礁,必有一戰

聚焦瞬間
2026-06-13 22:03:38
完了,我竟然開始心疼上海大學的周某某了

完了,我竟然開始心疼上海大學的周某某了

老張侃詩詞
2026-06-13 09:30:06
2026-06-14 01:43:00
新智元 incentive-icons
新智元
AI產業主平臺領航智能+時代
15460文章數 66924關注度
往期回顧 全部

科技要聞

SpaceX上市首日破2萬億美元,馬斯克再封神

頭條要聞

寶媽考編排名第一卻被低分者遞補 維權后崗位直接取消

頭條要聞

寶媽考編排名第一卻被低分者遞補 維權后崗位直接取消

體育要聞

美國4比1巴拉圭:這統治力真是美國隊?!

娛樂要聞

鄧超曬孫儷親手織的帽子,笑瘋全網!

財經要聞

梁文鋒向左,楊植麟向右

汽車要聞

深藍S07華為乾崑激光版增程車型上市 限時15.49萬元起

態度原創

本地
藝術
游戲
數碼
教育

本地新聞

AK劉彰邂逅河北南大港濕地

藝術要聞

廣州再建一座“小蠻腰”?190米,頂著個球,2027年見!

LPL淘汰賽:就差一點,今天無奇跡!BLG五局戰勝WE,決賽見

數碼要聞

綠聯推出DXP 6800/8800 Ultra NAS:雙萬兆雙雷電4,PCIe擴展

教育要聞

基礎不好建議避開的超恐怖院校。

無障礙瀏覽 進入關懷版