无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

代碼Agent已遙遙領(lǐng)先,生物Agent為什么還是個(gè)廢物?Anthropic找到了根本原因

0
分享至


來源:AI寒武紀(jì)

AI做生物研究,準(zhǔn)確率低到不能用:Anthropic找到了解法

用AI來處理生物數(shù)據(jù),就像開著現(xiàn)代汽車穿越一座中世紀(jì)老城。街道是按照行人走路設(shè)計(jì)的,彎彎繞繞,路標(biāo)也是給人看的,沒有高速,沒有標(biāo)準(zhǔn)接口。車再好,也跑不起來。

Anthropic剛剛發(fā)了一篇文章,核心觀點(diǎn)就一句話:生物數(shù)據(jù)基礎(chǔ)設(shè)施還沒有為AI Agent做好準(zhǔn)備,我們需要重新建設(shè)。

為什么代碼Agent跑得快,生物Agent跑不動?

做過軟件開發(fā)的人應(yīng)該有體感:現(xiàn)在的AI寫代碼已經(jīng)相當(dāng)能打,解決GitHub Issue、跑通測試用例,整個(gè)流程順暢得像開高速公路。

但生物研究不是這樣。

軟件工程有版本控制、有規(guī)范的API文檔、有包管理器,整個(gè)環(huán)境天然適合機(jī)器操作。生物數(shù)據(jù)則完全相反:數(shù)據(jù)庫五花八門,每個(gè)庫有自己的標(biāo)識符規(guī)則、自己的文件格式、自己的過濾邏輯,還有大量隱性知識藏在研究員腦子里,從來沒有被寫下來。

Andrej Karpathy最近給了一次關(guān)于AI時(shí)代軟件開發(fā)的演講,他吐槽自己用AI寫了一個(gè)小應(yīng)用,代碼部分很快搞定,但一到身份驗(yàn)證、支付接口、部署,就陷入了在各種網(wǎng)頁儀表盤里不停點(diǎn)擊的噩夢。文檔告訴他:去這個(gè)URL,找這個(gè)下拉菜單,點(diǎn)一下。他的結(jié)論是:不應(yīng)該有人需要做這些事。應(yīng)該為Agent而建。

Karpathy遭遇的這件事,生物研究者早就經(jīng)歷了很久。

病毒數(shù)據(jù)庫:一個(gè)典型的噩夢場景

生物研究里有一類非常基礎(chǔ)的工作:從數(shù)據(jù)庫里取序列數(shù)據(jù)。

NCBI Virus是病毒學(xué)家最常用的序列數(shù)據(jù)庫,收錄了來自GenBank、RefSeq以及國際INSDC生態(tài)系統(tǒng)的病毒序列記錄。疫苗設(shè)計(jì)、診斷試劑開發(fā)、蛋白質(zhì)模型訓(xùn)練數(shù)據(jù)構(gòu)建,通常都從這里開始。

問題在于,NCBI Virus的很多過濾邏輯只存在于它的網(wǎng)頁界面里。如果一個(gè)研究員想取出所有2025年發(fā)布的、含有表面糖蛋白的SARS-CoV-2序列,在網(wǎng)頁上點(diǎn)幾下就行。但如果想用程序自動完成,可能需要寫幾百行代碼,把REST接口、Datasets接口、E-utilities接口拼在一起,一頁一頁地翻取數(shù)據(jù),下載幾百GB的內(nèi)容,再在本地做過濾,把絕大部分?jǐn)?shù)據(jù)扔掉。

在病毒學(xué)實(shí)驗(yàn)室里,如何在NCBI Virus上構(gòu)建研究數(shù)據(jù)集的操作指南,經(jīng)常以一長串復(fù)雜篩選條件的形式,在研究員之間口耳相傳。這正是Karpathy抱怨的那種工作方式。

為什么這一點(diǎn)很重要?一個(gè)現(xiàn)實(shí)中的例子。

2026年5月,剛果民主共和國暴發(fā)了由本迪布焦病毒引起的埃博拉疫情。INRB金沙薩在5月14日分析了13份血液樣本,次日確認(rèn)其中8份為陽性,疫情宣告暴發(fā)。到5月29日,世衛(wèi)組織已報(bào)告逾1000例確診和疑似病例,死亡超200人。研究人員還測序了首批近完整的疫情基因組,證實(shí)這是一次新的病毒溢出事件。

面對這批新基因組,公共衛(wèi)生官員需要回答三個(gè)緊迫問題:這次疫情的病毒與歷史上的埃博拉病毒有多大差異?現(xiàn)有診斷方法還能檢測到它嗎?現(xiàn)有療法還能保護(hù)患者嗎?

回答這三個(gè)問題,都需要把新基因組與NCBI Virus上的歷史基因組進(jìn)行比對。但整個(gè)流程的第一步,依然是手動在網(wǎng)頁界面里點(diǎn)來點(diǎn)去,手動復(fù)現(xiàn)各種復(fù)雜篩選條件,并祈禱結(jié)果是完整且正確的。

讓Agent來干:16.9%到91.3%,都不夠用

那么,當(dāng)前最好的AI Agent在這件事上到底表現(xiàn)如何。

他們構(gòu)建了一個(gè)名為VirBench的基準(zhǔn)測試,包含120個(gè)真實(shí)的病毒序列查詢?nèi)蝿?wù),覆蓋40種病原體,每道題都有人工驗(yàn)證過的正確答案。這些查詢反映了病毒監(jiān)測、診斷試劑設(shè)計(jì)和蛋白質(zhì)模型訓(xùn)練數(shù)據(jù)構(gòu)建中真實(shí)存在的任務(wù)。

參與測試的模型包括Claude、Biomni、Edison Analysis和GPT系列。

一個(gè)典型的查詢是這樣的:從NCBI提取TaxID為3052462(扎伊爾埃博拉病毒)的病毒序列,條件是宿主為人類、樣本采集地為非洲、采集時(shí)間在2014年1月1日到2014年6月20日之間、最小序列長度15200個(gè)堿基、最多1900個(gè)模糊字符(N),并排除實(shí)驗(yàn)室傳代樣本。

測試結(jié)果:當(dāng)Agent完全靠自己解決這些查詢時(shí),Claude Sonnet 4、Claude Opus 4.7、Biomni、Edison Analysis、GPT-5.2-pro和GPT-5.5的平均準(zhǔn)確率在16.9%到91.3%之間。

這個(gè)范圍聽起來有高有低,但關(guān)鍵在于:在生物數(shù)據(jù)構(gòu)建任務(wù)里,標(biāo)準(zhǔn)實(shí)際上是100%。一條序列的遺漏或錯(cuò)誤,可能會讓診斷試劑的覆蓋范圍評估失真,也可能讓疫情暴發(fā)的推算起點(diǎn)提前或推后好幾周。

更麻煩的是,同一個(gè)模型、同一個(gè)問題,每次回答都不一樣。以上面那道埃博拉病毒查詢?yōu)槔琒onnet 4第一次返回了106條序列(正確答案是266條),第二次返回15條,第三次返回5條。提示詞完全相同。

錯(cuò)誤的序列數(shù)據(jù),能把疫情起源推到1922年

這種不穩(wěn)定性的后果,遠(yuǎn)不止數(shù)字不對那么簡單。

用Agent取回的序列分別構(gòu)建系統(tǒng)發(fā)育樹,這是病毒學(xué)中用來重建疫情中各病毒樣本親緣關(guān)系的標(biāo)準(zhǔn)分析方法。其中一個(gè)關(guān)鍵指標(biāo)是最近共同祖先時(shí)間(TMRCA),也就是推算這次疫情的病毒起源于什么時(shí)候,這直接影響到對疫情發(fā)生時(shí)間和地點(diǎn)的判斷。

用人工在NCBI網(wǎng)頁上手動檢索的序列集構(gòu)建的系統(tǒng)發(fā)育樹,給出的TMRCA是2014年1月,與此前關(guān)于2014年埃博拉疫情的研究結(jié)果一致(95%最高后驗(yàn)密度區(qū)間為2014年1月27日至3月14日)。

而Sonnet 4三次取回的序列集里,有兩次構(gòu)建出來的系統(tǒng)發(fā)育樹明顯殘缺。其中一次算出來的TMRCA是1922年。剩下的數(shù)據(jù)集表面上看起來沒什么問題,但缺失了來自幾內(nèi)亞的序列,導(dǎo)致TMRCA被推后到了2014年4月,疫情推算的起始時(shí)間因此發(fā)生了偏移。


在治療方案分析上,類似的問題同樣存在。研究團(tuán)隊(duì)還檢索了埃博拉病毒糖蛋白序列,用來分析maftivimab和MBP134這兩種抗體藥物(均為世衛(wèi)組織優(yōu)先推薦的扎伊爾埃博拉病毒治療候選藥物)的靶點(diǎn)表位在相關(guān)序列中是否出現(xiàn)過突變。這類分析幫助研究人員判斷隨著病毒演化,現(xiàn)有療法是否還能保護(hù)患者。

Sonnet 4的第一次運(yùn)行接近了人工檢索的結(jié)果,但第二次遺漏了大多數(shù)突變位點(diǎn),第三次又突出顯示了一組不同的位點(diǎn),三次給出了三種不同的結(jié)論。


兩組分析指向了同一個(gè)根本原因:不是模型不聰明,而是它們?nèi)鄙僖粋€(gè)可靠的、確定性的方式來訪問數(shù)據(jù)庫,也無法驗(yàn)證結(jié)果并保證可復(fù)現(xiàn)。答案看起來合理,實(shí)際上可能是錯(cuò)的,而且每次都不一樣,這對科學(xué)工作流而言尤其危險(xiǎn),因?yàn)樾蛄袡z索通常是一條長長的下游分析鏈條的起點(diǎn)。

失誤的具體模式也很清晰:大型數(shù)據(jù)集(流感A、HIV-1、SARS-CoV-2等序列數(shù)量多的病毒)更容易出問題,因?yàn)榉撊?shù)據(jù)時(shí)停在了中途,或者在本地過濾時(shí)用錯(cuò)了條件;元數(shù)據(jù)字段含義依賴上下文和領(lǐng)域慣例時(shí),Agent也容易出錯(cuò);同時(shí)疊加三四個(gè)以上的過濾條件,準(zhǔn)確率就明顯下滑。

加一層確定性工具,準(zhǔn)確率直奔100%

解法是什么?Anthtropic的團(tuán)隊(duì)和NCBI的研究人員合作,開發(fā)了一個(gè)叫做gget virus的工具。

gget virus的核心邏輯是:把NCBI Virus網(wǎng)頁界面上那套復(fù)雜的檢索行為,翻譯成一個(gè)準(zhǔn)確、可復(fù)現(xiàn)的程序接口。

這件事做起來比想象中難。NCBI Virus是架在多個(gè)底層資源上的入口,這些資源由美國、歐洲、日本協(xié)同維護(hù)的國際序列數(shù)據(jù)庫組成。一個(gè)看似簡單的查詢,往往需要從好幾個(gè)地方拼湊信息。

gget virus因此要協(xié)調(diào)REST、Datasets和E-utilities三套API,判斷哪些過濾條件可以直接通過這些API施加,哪些必須在本地處理,因?yàn)榫W(wǎng)頁界面暴露的某些過濾行為在任何單一程序接口上都找不到對應(yīng)。它還要處理分批次拉取大型結(jié)果集的問題,以確保數(shù)據(jù)量龐大的病毒序列能被完整取回而不是任意截?cái)唷.?dāng)某項(xiàng)過濾條件依賴存儲在獨(dú)立數(shù)據(jù)庫中的額外信息時(shí),gget virus會先取回那些記錄,用它們完成過濾,并在最終輸出中保留相關(guān)的GenBank信息。最后,它返回人機(jī)均可讀的標(biāo)準(zhǔn)化輸出,并附上詳細(xì)日志,記錄最終結(jié)果是如何產(chǎn)生的。

給Agent接上gget virus之后,所有模型的準(zhǔn)確率都升至90%以上,其中GPT-5.5達(dá)到了99.7%。同一個(gè)問題多次運(yùn)行的結(jié)果差異基本消失,各模型之間的性能差距也大幅收窄。


這最后一點(diǎn)值得多說兩句。加了確定性檢索層之后,選哪個(gè)模型變得不那么重要了。這意味著,可靠的數(shù)據(jù)集構(gòu)建不應(yīng)該依賴于你能否拿到最新最貴的模型,也不應(yīng)該依賴于你對哪個(gè)模型最擅長處理哪個(gè)數(shù)據(jù)庫有多深的了解。反而是更便宜的模型配上合適的工具,就能既降低結(jié)果波動,又讓更多人用得起。

更大的問題:基礎(chǔ)設(shè)施要為Agent而建

gget virus是一個(gè)具體的解決方案,但它指向的是一個(gè)更普遍的問題。

Anthtropic的判斷是:生物Agent的瓶頸,不只是模型的推理能力,而是缺乏覆蓋面廣的、確定性的生物數(shù)據(jù)執(zhí)行層。科學(xué)家可以表達(dá)清楚自己的意圖,比如找出所有含有某個(gè)結(jié)構(gòu)域的人類激酶并提取它們的結(jié)構(gòu),但Agent往往缺少一個(gè)可靠的途徑去訪問存放這些信息的數(shù)據(jù)庫。

這也不是生物領(lǐng)域獨(dú)有的問題。凡是把Agent插入一個(gè)為人類設(shè)計(jì)的環(huán)境里,都會遇到類似的摩擦。目前已有一些工作嘗試在這一方向上推進(jìn),包括ToolUniverse、Edison Scientific的Robin、Biomni以及相關(guān)的生物醫(yī)學(xué)Agent系統(tǒng)。這些系統(tǒng)通常依賴模型適配層,把Agent和生物數(shù)據(jù)源連接起來。

但有一個(gè)更長遠(yuǎn)的問題值得想清楚。如果把模型的能力曲線往前外推,很容易想象出這樣一個(gè)未來:Agent變得足夠強(qiáng),能自己搞定混亂的數(shù)據(jù)庫門戶,能自己對齊標(biāo)識符,能自己處理分頁,能自己從錯(cuò)誤中恢復(fù)。到那時(shí),gget virus這類工具或許就不再必要了。

然而,即便Agent最終能做到,也不意味著每一次任務(wù)都應(yīng)該讓Agent臨時(shí)發(fā)揮著做,并且每次都要重新摸索一遍。能夠硬闖一個(gè)混亂的生物信息學(xué)工作流的模型,對于日常科學(xué)任務(wù)來說,仍然可能太貴、太慢、太難審計(jì)、太難信任。就算Agent將來讓今天的適配層變得多余,對生物數(shù)據(jù)庫的設(shè)計(jì)者而言,這個(gè)教訓(xùn)依然成立:在考慮用戶的時(shí)候,要把Agent納入視野,要為規(guī)模化使用而建。

現(xiàn)在,用Agent做生物研究,模型推理不是最大的障礙。基礎(chǔ)設(shè)施才是。

參考:

https://www.anthropic.com/research/agents-in-biology

閱讀最新前沿科技趨勢報(bào)告,請?jiān)L問21世紀(jì)關(guān)鍵技術(shù)研究院的“未來知識庫”


未來知識庫是 “21世紀(jì)關(guān)鍵技術(shù)研究院”建 立的在線知識庫平臺,收藏的資料范圍包括人工智能、腦科學(xué)、互聯(lián)網(wǎng)、超級智能,數(shù)智大腦、能源、軍事、經(jīng)濟(jì)、人類風(fēng)險(xiǎn)等等領(lǐng)域的前沿進(jìn)展與未來趨勢。目前擁有超過8000篇重要資料。每周更新不少于100篇世界范圍最新研究資料。 歡迎掃描二維碼或訪問https://wx.zsxq.com/group/454854145828進(jìn)入。


截止到2月28日 ”未來知識庫”精選的百部前沿科技趨勢報(bào)告

(加入未來知識庫,全部資料免費(fèi)閱讀和下載)

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
中足聯(lián)官宣重磅罰單!52歲于根偉禁賽5場罰5萬 辱罵+率隊(duì)圍堵裁判

中足聯(lián)官宣重磅罰單!52歲于根偉禁賽5場罰5萬 辱罵+率隊(duì)圍堵裁判

我愛英超
2026-07-02 22:05:30
早上7點(diǎn) 世界杯14億大戰(zhàn)!C羅深陷20年魔咒 必有1巨星出局

早上7點(diǎn) 世界杯14億大戰(zhàn)!C羅深陷20年魔咒 必有1巨星出局

葉青足球世界
2026-07-02 17:12:02
一路走好!1天時(shí)間4位名人被曝去世,最大78歲,最小才30歲

一路走好!1天時(shí)間4位名人被曝去世,最大78歲,最小才30歲

借你一生
2026-07-02 10:26:03
成田機(jī)場的一張廣告牌,讓日本攝影師恍惚:“瞬間以為回到了中國”

成田機(jī)場的一張廣告牌,讓日本攝影師恍惚:“瞬間以為回到了中國”

東京在線
2026-07-02 16:57:07
里子面子都丟了!管不住下半身的任素汐,一場演唱會撕下她的體面

里子面子都丟了!管不住下半身的任素汐,一場演唱會撕下她的體面

往史過眼云煙
2026-07-02 09:55:26
首都保衛(wèi)戰(zhàn)打響后,普京發(fā)表全國講話,俄羅斯對美西方發(fā)出通牒

首都保衛(wèi)戰(zhàn)打響后,普京發(fā)表全國講話,俄羅斯對美西方發(fā)出通牒

策前論
2026-07-02 17:21:49
“一個(gè)月600塊你要餓死他?”大學(xué)男生吃飯被偷拍,看的人心疼!

“一個(gè)月600塊你要餓死他?”大學(xué)男生吃飯被偷拍,看的人心疼!

林林先生
2026-07-01 12:30:03
從699分到愛心接力:少年向上 社會向善丨中聽

從699分到愛心接力:少年向上 社會向善丨中聽

大象新聞
2026-07-01 16:30:12
六代機(jī),就這么明晃晃的官宣了!

六代機(jī),就這么明晃晃的官宣了!

新動察
2026-07-02 08:25:58
韓紅一句“走個(gè)面兒”引全網(wǎng)聲討,這屆觀眾不伺候了

韓紅一句“走個(gè)面兒”引全網(wǎng)聲討,這屆觀眾不伺候了

可達(dá)鴨面面觀
2026-07-02 19:44:03
曝38歲德國主帥下課 足協(xié)開會3小時(shí)要求他辭職 愿付700萬歐補(bǔ)償金

曝38歲德國主帥下課 足協(xié)開會3小時(shí)要求他辭職 愿付700萬歐補(bǔ)償金

我愛英超
2026-07-02 21:40:07
80%變0!里奇·保羅曝光詹姆斯離湖心路

80%變0!里奇·保羅曝光詹姆斯離湖心路

籃壇第一線
2026-07-02 00:47:17
地鐵吐血女孩半月內(nèi)多次收到病危通知單,當(dāng)事人:自己的生命已經(jīng)進(jìn)入倒計(jì)時(shí),但還是希望能夠有人關(guān)注到自己手里仍在運(yùn)行的公益項(xiàng)目

地鐵吐血女孩半月內(nèi)多次收到病危通知單,當(dāng)事人:自己的生命已經(jīng)進(jìn)入倒計(jì)時(shí),但還是希望能夠有人關(guān)注到自己手里仍在運(yùn)行的公益項(xiàng)目

瀟湘晨報(bào)
2026-07-02 16:32:20
賈玲直言自己又活過來了,大方承認(rèn)體重反彈了,坦言不再逼自己極端自律,活得太通透了

賈玲直言自己又活過來了,大方承認(rèn)體重反彈了,坦言不再逼自己極端自律,活得太通透了

背包旅行
2026-07-02 11:45:23
西安賽格墜樓熱搜刷屏:我看到謀生的嚴(yán)總,走上絕路時(shí)的無助

西安賽格墜樓熱搜刷屏:我看到謀生的嚴(yán)總,走上絕路時(shí)的無助

李晚書
2026-07-02 18:44:26
故意剝奪伊朗隊(duì)勝利!伊朗裔美國專家起訴國際足聯(lián),索賠10億美元

故意剝奪伊朗隊(duì)勝利!伊朗裔美國專家起訴國際足聯(lián),索賠10億美元

全景體育V
2026-07-02 21:38:20
成都一女子不洗手抱孫子,兒媳怒斥不衛(wèi)生,兒子一拳打面中,母親揚(yáng)言要兒子坐牢,兒子卻說:她活該!6年后現(xiàn)狀曝光...

成都一女子不洗手抱孫子,兒媳怒斥不衛(wèi)生,兒子一拳打面中,母親揚(yáng)言要兒子坐牢,兒子卻說:她活該!6年后現(xiàn)狀曝光...

背包旅行
2026-07-02 14:33:11
中國臺灣演員陳昊森承認(rèn)與湖北女演員蘭西雅相戀,目前已交往超過半年,兩人曾合作電影

中國臺灣演員陳昊森承認(rèn)與湖北女演員蘭西雅相戀,目前已交往超過半年,兩人曾合作電影

極目新聞
2026-07-02 22:47:55
加息,突變!美國重磅數(shù)據(jù)出爐!美股、黃金、比特幣全線拉升

加息,突變!美國重磅數(shù)據(jù)出爐!美股、黃金、比特幣全線拉升

證券時(shí)報(bào)
2026-07-02 21:53:03
扎哈羅娃:馮德萊恩是個(gè)“出色的騙子”

扎哈羅娃:馮德萊恩是個(gè)“出色的騙子”

參考消息
2026-07-02 14:14:08
2026-07-03 02:28:49
人工智能學(xué)家 incentive-icons
人工智能學(xué)家
人工智能領(lǐng)域權(quán)威媒體
4864文章數(shù) 37483關(guān)注度
往期回顧 全部

科技要聞

馬斯克不承認(rèn),但SpaceX就該造AI手機(jī)

頭條要聞

商戶在西安賽格商場墜亡 好友:他曾變賣門店發(fā)工資

頭條要聞

商戶在西安賽格商場墜亡 好友:他曾變賣門店發(fā)工資

體育要聞

韓國人,為什么恨透了洪明甫?

娛樂要聞

眾星祝福祖國,曾沛慈原形畢露?

財(cái)經(jīng)要聞

千億茶市場無贏家:瀾滄巨虧 八馬停"蹄"

汽車要聞

有純電有增程 還有二代VLA支持 小鵬MONA L03預(yù)售價(jià)14.38萬起

態(tài)度原創(chuàng)

游戲
健康
親子
手機(jī)
公開課

國產(chǎn)外設(shè)廠"宣布"放棄實(shí)體手柄!數(shù)字化徹底解決漂移

這4類消化病患者 吃粘食管住嘴

親子要聞

從新生兒到學(xué)齡期全覆蓋:兒童被子成長型選型的策略與實(shí)用方法

手機(jī)要聞

Android 17缺的原生應(yīng)用鎖功能,谷歌仍在持續(xù)打磨

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版