无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

「生物信息學」評測,Claude 反超人類專家

0
分享至

RESEARCH

今天 Anthropic 放出了一項評估數據,對于新的生物信息學評測集 BioMysteryBench


人類能搞定的,Claude 也能搞定;在人類搞不定的,Mythos 也能搞定

哎...人類一敗涂地


評估生物有三難

科學沒有標準化考試這一說,AI 在科研上的能力也很難像 SWE-bench 評估編程那樣有一套被業界公認的 benchmark。原文給出三個具體的難點

其一,是同一個生物問題往往有很多種合理解法

原文用二甲雙胍舉例:要研究為什么有的二型糖尿病人吃二甲雙胍有效、有的沒效,可以做全基因組關聯(GWAS)找遺傳變異,也可以做腸道菌群測序找代謝通路。兩條路都對,選哪條往往只取決于實驗室手頭的資源和研究者的口味

其二,單個研究決定本身就是主觀的

對于生物數據來說,它的噪聲又足夠大,決定上的微小差異會得出截然相反的結論。還是二甲雙胍,2011 年一篇論文報告了一個能預測藥效的遺傳變異,2012 年糖尿病預防項目重做了一遍,結論變成「沒有」,同年另一項 meta 分析把五個隊列匯總,結論又改成「有但比 2011 年那篇報得弱」

其三,...很多生物問題人類自己也回答不出

這又有什么辦法呢?攤手

二甲雙胍這個藥 1957 年就上市了,主要作用機制至今沒定論

而恰恰是這類「人類還沒解開」的問題,最值得測 AI 能不能解

測試題怎么出

為了保證測試的「非主觀」,測試數據本身是要有的客觀結論的

舉個例子,領域專家提交的一個評估題,其答案必須能從數據的可控屬性反推出來,而不是依賴經驗判斷。比如「這個晶體結構屬于哪個物種」就有客觀答案;「這個 RNA-seq 樣本的人類患者感染了什么病毒」也能用一套獨立的 PCR 實驗做交叉驗證

每道題在收錄前還要附一個 validation notebook,作者必須能從原始數據復現答案,證明信號在數據里確實存在。原文用了一個高中代數的類比:驗證一個答案比從零推導一個答案容易得多

測試時,Claude 被放在一個容器里,能用 pip 和 conda 裝額外工具,能訪問 NCBI、Ensembl 這類生信數據庫下載參考基因組,但解題路徑完全自由。評分只看最終答案對不對,不看走的是哪條路

題目主要來自 DNA/RNA 測序的原始數據,覆蓋 WGS(全基因組測序)、scRNA-seq(單細胞 RNA 測序)、甲基化、ChIP-seq、宏基因組、Hi-C,外加一部分蛋白組學和代謝組學

例題里藏什么

原文給出五道樣題,靠猜走不通(我甚至完全看不懂hhhh)

→ 這套單細胞 RNA-seq 數據采自人體的哪個器官

→ 實驗組相對對照組,敲掉的是哪個基因,從 RNA-seq 數據反推

→ 給一組全基因組測序樣本,找出樣本 X 的母親樣本和父親樣本

→ 幾個 bigWig 文件里,哪些是 ChIP 實驗、哪些是 input 對照

→ 給一組 H3K27ac ChIP-seq 峰,反推這是什么細胞類型

每道題人類專家組(最多 5 人)獨立答一遍。只要至少有一個專家答對,這道題就歸入「人類可解」類別。最后 99 道里有 76 道是人類可解,剩下 23 道全員翻車(另有 4 道因為題目本身有問題被剔除)

能解的題已經追平

人類可解的 76 道,每個 Claude 模型獨立做 5 次,取平均。結果是從 Haiku 4.5 的 36.8%,到 Sonnet 4.6 的 71.8%,再到 Opus 4.6 的 77.4%、Opus 4.7 的 78.9%,Mythos 拿到 82.6%


BioMysteryBench 人類可解題(76 道),五代 Claude 模型平均準確率,Mythos 82.6% 最高

在解題的過程中,還發現了一些有趣的策略,原文給了兩個對照組

第一組里,Claude 的解法和人類專家幾乎一模一樣

原文的解釋是,要么人類專家本身就找到了接近最優的方法,要么這種方法在預訓練數據里被反復見過


Claude 跟人類專家走同一條路徑的兩個案例之一


同一組的第二個案例

第二組里,Claude 走了完全不同的路

人類專家用算法或數據庫去注釋樣本屬性,Claude 直接看一眼數據,靠模式識別認出來這是什么序列


Claude 走完全不同路徑的兩個案例之一,靠模式識別直接讀出序列特征


同一組的第二個案例

原文用了一個歷史類比:第一個真核生物啟動子被發現,是因為某位科學家注意到「TATA」這個序列在基因上游反復出現。這種憑直覺抓特征的能力,在傳統機器學習模型上很難訓練出來。語言模型有可能在更大尺度上做這件事

解不出的題被破了

剩下 23 道題,是 5 位專家全部答錯或放棄的


人類難題(23 道)的模型準確率,Mythos 29.6%,Opus 4.7 27.0%,Sonnet 4.6 19.1%

Claude Sonnet 4.6 之后的模型,能解出這一組里相當一部分。Sonnet 4.6 拿 19.1%、Opus 4.6 拿 23.5%、Opus 4.7 拿 27.0%,Claude Mythos 解題率最高,達到 29.6%

Claude 靠什么破題

Brianna 團隊從 Opus 4.6 的 transcript 里識別出兩套主要解法

第一套是直接調內部知識庫。一道題如果讓人類專家做,可能要去做一次 meta 分析,把幾篇論文、幾個數據庫手動拼起來。Opus 直接從內部知識里調出機制和本體(ontology),再結合實時分析,一步到位。原文給了三個具體例子,都屬于這一類


Claude 直接調內部知識解人類專家解不出的題,第一例


第二例


第三例

但內部知識也有反噬的時候。原文專門給了一道反例:在「人類可解」組里有一道題,Opus 因為先驗知識太強,反而做錯了答案


唯一一道反例:Claude 因先驗知識過強反而做錯

第二套是不確定時多方法收斂。Opus 4.6 在不確定的題上會同時跑多種解法,最后選多種方法都指向同一個答案的那個。原文給了三個例子。這種打法不算 AI 獨有,人類科研里也用,但 Opus 在題目難度上去之后會更頻繁地切到這種模式


不確定時多方法收斂,第一例


第二例


第三例

準做對還是蒙對

Brianna 團隊讓 Mythos 自己分析了一遍數據。Mythos 提出的問題是:每道題做 5 次,5 次全對和 5 次只對 1 次,意義完全不同。前者是穩定能力,后者多半是僥幸路徑碰巧走通


Fig 3:每道題做 5 次,按解對次數分布。左:人類可解題;右:人類難題

Mythos 給出的具體分布是這樣:

→ 在人類可解題上,Opus 4.6 解出來的題,86% 是 5 次中至少 4 次都對(穩定)

→ 同樣是 Opus 4.6,在人類難題上這個比例掉到 44%;只 1 到 2 次對的脆弱路徑占比從 9% 漲到 44%

→ Sonnet 4.6 的退化更明顯:穩定 75% 掉到 22%,脆弱 9% 漲到 56%

→ Opus 4.7 和 Mythos 把前沿往前推了一點,Mythos 在人類可解題上 94% 的勝場是穩定的

原文坦承,所謂 23 道人類難題里 Mythos 拿下的近 30%,相當一部分屬于這種脆弱路徑。準確率數字往下走的那一截真實存在,但下面那一層「可靠性差距」是更值得看的故事

Brianna 評價 Mythos 這次自我分析「站得住腳,但稍顯平淡」,補了細節,沒提出真正新的科學問題。她認為模型已經在長出研究品味(research taste)的種子,但離自己提出深刻洞見還有距離

另一家測,結論一致

在 Report 定稿前幾天,Genentech 和 Roche 聯合發布了 CompBioBench,100 道計算生物學題,設計原則和 BioMysteryBench 高度類似:合成數據加元數據擾動構造客觀答案、需要多步推理、需要工具調用、需要寫代碼

CompBioBench 上 Claude Opus 4.6 的整體準確率 81%,最難子集 69%。兩個獨立 benchmark,結論指向同一件事:前沿模型在生信任務上已經從「能用」過渡到「真的有用」

BioMysteryBench 的預覽版數據集已經放在 Hugging Face 上,感興趣的可以自己看看

參考材料:

→ 原文:anthropic.com/research/Evaluating-Claude-For-Bioinformatics-With-BioMysteryBench

→ 數據集:huggingface.co/datasets/Anthropic/BioMysteryBench-preview

→ CompBioBench 論文:biorxiv.org/content/10.64898/2026.04.06.716850v1

→ 生命科學落地:claude.com/lifesciences

→ 投稿郵箱:scienceblog@anthropic.com

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
女生長的太漂亮是什么體驗?網友:母以子貴,父以女榮

女生長的太漂亮是什么體驗?網友:母以子貴,父以女榮

另子維愛讀史
2026-03-10 22:56:08
13歲學生體檢誤診艾滋遭學校勸退!隨后多次復查為陰性,醫院致歉!

13歲學生體檢誤診艾滋遭學校勸退!隨后多次復查為陰性,醫院致歉!

閃電新聞
2026-06-12 20:47:48
CCTV5直播!世界杯13日賽程:2支東道主出戰,美國VS巴拉圭引關注

CCTV5直播!世界杯13日賽程:2支東道主出戰,美國VS巴拉圭引關注

何老師呀
2026-06-12 18:47:57
“你兒子專注力廢了”,小學男生每天聽故事,過來人點出真相

“你兒子專注力廢了”,小學男生每天聽故事,過來人點出真相

澤澤先生
2026-06-06 21:14:40
青島鬼樓奇案:德國富商蓋洋樓死于非命,20年后,解放軍查出真相

青島鬼樓奇案:德國富商蓋洋樓死于非命,20年后,解放軍查出真相

歷來都很現實
2025-02-23 02:50:42
穆帥考察居萊爾 將打造皇馬新陣

穆帥考察居萊爾 將打造皇馬新陣

體壇周報
2026-06-12 23:35:47
全線大漲,近10萬人爆倉!

全線大漲,近10萬人爆倉!

每日經濟新聞
2026-06-12 09:20:05
若金價暴跌81%至800美元:央行巨虧3.92萬億將引發多大全球沖擊?

若金價暴跌81%至800美元:央行巨虧3.92萬億將引發多大全球沖擊?

三農老歷
2026-06-12 01:32:43
中信建投:關注半導體前驅體量價齊升大趨勢

中信建投:關注半導體前驅體量價齊升大趨勢

界面新聞
2026-06-12 07:46:48
富家小姐的身子丫鬟的命?24歲女孩盛裝出嫁,簡陋小院配豪華婚服

富家小姐的身子丫鬟的命?24歲女孩盛裝出嫁,簡陋小院配豪華婚服

搗蛋窩
2026-05-11 21:35:50
被網友“掛抹布”的方式驚呆了!一個比一個機智,我怎么早沒發現

被網友“掛抹布”的方式驚呆了!一個比一個機智,我怎么早沒發現

家居設計師蘇哥
2026-06-12 13:21:19
四個號,一家親:國際足聯把飯喂到嘴邊,國足用四個“零蛋”證明

四個號,一家親:國際足聯把飯喂到嘴邊,國足用四個“零蛋”證明

民間胡扯老哥
2026-06-11 10:34:23
美國懵了,世界杯開始了,觀眾沒了?

美國懵了,世界杯開始了,觀眾沒了?

宋鴻兵
2026-06-12 20:02:47
長鑫科技,IPO注冊申請獲通過,上半年凈利潤預計同比增長2244.03%至2544.19%

長鑫科技,IPO注冊申請獲通過,上半年凈利潤預計同比增長2244.03%至2544.19%

每日經濟新聞
2026-06-12 19:41:05
伊朗議員:美再襲伊朗實為施壓,美須接受伊朗已不同往日

伊朗議員:美再襲伊朗實為施壓,美須接受伊朗已不同往日

澎湃新聞
2026-06-12 23:26:12
25歲女子確診紅斑狼瘡,堅持保胎后多器官衰竭進ICU,丈夫痛哭

25歲女子確診紅斑狼瘡,堅持保胎后多器官衰竭進ICU,丈夫痛哭

極目新聞
2026-06-12 17:30:53
曼聯推銷拉什福德,不向巴薩妥協!無法逐出更衣室否則其免費走人

曼聯推銷拉什福德,不向巴薩妥協!無法逐出更衣室否則其免費走人

羅米的曼聯博客
2026-06-12 10:11:30
羅馬諾實錘!阿森納遭截胡,拜仁 5000 萬目標已非常接近

羅馬諾實錘!阿森納遭截胡,拜仁 5000 萬目標已非常接近

一隅非生
2026-06-12 05:49:38
為什么今年沒人提“消費降級”了?

為什么今年沒人提“消費降級”了?

黯泉
2026-05-20 17:47:21
世界杯誰將奪冠?曼聯名宿給出答案,葡萄牙無望,一隊有望成黑馬

世界杯誰將奪冠?曼聯名宿給出答案,葡萄牙無望,一隊有望成黑馬

兵哥籃球故事
2026-06-12 14:29:27
2026-06-13 02:28:49
賽博禪心
賽博禪心
拜AI古佛,修賽博禪心
466文章數 53關注度
往期回顧 全部

科技要聞

剛剛,人類歷史上首位萬億美元富豪誕生!

頭條要聞

美加墨世界杯第二場比賽就現空座 英媒:尷尬

頭條要聞

美加墨世界杯第二場比賽就現空座 英媒:尷尬

體育要聞

歐洲恐韓?肉德維德?

娛樂要聞

一天4個瓜,肖戰熱巴最意外

財經要聞

萬億美元順差背后,透露這些信號

汽車要聞

標配激光雷達/雙動力可選 昊鉑S600限時售17.99萬起

態度原創

健康
教育
藝術
親子
軍事航空

老人、小孩、孕婦,吃粽子有啥風險

教育要聞

家長成了“瘋女人”,被女兒作業搞崩潰,網友:太真實

藝術要聞

砸了640億,再賠160億!沙特“The Line”項目徹底涼了?

親子要聞

給孩子報個幼兒園還要工資流水?難道這就是傳說中的“因財施教”

軍事要聞

伊朗媒體:已故最高領袖葬禮推遲舉行

無障礙瀏覽 進入關懷版