網易首頁 > 網易號 > 正文申請入駐

「生物信息學」評測，Claude 反超人類專家

2026-04-30 17:29:25　來源: 賽博禪心

北京舉報

分享至

RESEARCH

今天 Anthropic 放出了一項評估數據，對于新的生物信息學評測集 BioMysteryBench：

人類能搞定的，Claude 也能搞定；在人類搞不定的，Mythos 也能搞定

哎...人類一敗涂地

評估生物有三難

科學沒有標準化考試這一說，AI 在科研上的能力也很難像 SWE-bench 評估編程那樣有一套被業界公認的 benchmark。原文給出三個具體的難點

其一，是同一個生物問題往往有很多種合理解法

原文用二甲雙胍舉例：要研究為什么有的二型糖尿病人吃二甲雙胍有效、有的沒效，可以做全基因組關聯（GWAS）找遺傳變異，也可以做腸道菌群測序找代謝通路。兩條路都對，選哪條往往只取決于實驗室手頭的資源和研究者的口味

其二，單個研究決定本身就是主觀的

對于生物數據來說，它的噪聲又足夠大，決定上的微小差異會得出截然相反的結論。還是二甲雙胍，2011 年一篇論文報告了一個能預測藥效的遺傳變異，2012 年糖尿病預防項目重做了一遍，結論變成「沒有」，同年另一項 meta 分析把五個隊列匯總，結論又改成「有但比 2011 年那篇報得弱」

其三，...很多生物問題人類自己也回答不出

這又有什么辦法呢？攤手

二甲雙胍這個藥 1957 年就上市了，主要作用機制至今沒定論

而恰恰是這類「人類還沒解開」的問題，最值得測 AI 能不能解

測試題怎么出

為了保證測試的「非主觀」，測試數據本身是要有的客觀結論的

舉個例子，領域專家提交的一個評估題，其答案必須能從數據的可控屬性反推出來，而不是依賴經驗判斷。比如「這個晶體結構屬于哪個物種」就有客觀答案；「這個 RNA-seq 樣本的人類患者感染了什么病毒」也能用一套獨立的 PCR 實驗做交叉驗證

每道題在收錄前還要附一個 validation notebook，作者必須能從原始數據復現答案，證明信號在數據里確實存在。原文用了一個高中代數的類比：驗證一個答案比從零推導一個答案容易得多

測試時，Claude 被放在一個容器里，能用 pip 和 conda 裝額外工具，能訪問 NCBI、Ensembl 這類生信數據庫下載參考基因組，但解題路徑完全自由。評分只看最終答案對不對，不看走的是哪條路

題目主要來自 DNA/RNA 測序的原始數據，覆蓋 WGS（全基因組測序）、scRNA-seq（單細胞 RNA 測序）、甲基化、ChIP-seq、宏基因組、Hi-C，外加一部分蛋白組學和代謝組學

例題里藏什么

原文給出五道樣題，靠猜走不通（我甚至完全看不懂hhhh）

→ 這套單細胞 RNA-seq 數據采自人體的哪個器官

→ 實驗組相對對照組，敲掉的是哪個基因，從 RNA-seq 數據反推

→ 給一組全基因組測序樣本，找出樣本 X 的母親樣本和父親樣本

→ 幾個 bigWig 文件里，哪些是 ChIP 實驗、哪些是 input 對照

→ 給一組 H3K27ac ChIP-seq 峰，反推這是什么細胞類型

每道題人類專家組（最多 5 人）獨立答一遍。只要至少有一個專家答對，這道題就歸入「人類可解」類別。最后 99 道里有 76 道是人類可解，剩下 23 道全員翻車（另有 4 道因為題目本身有問題被剔除）

能解的題已經追平

人類可解的 76 道，每個 Claude 模型獨立做 5 次，取平均。結果是從 Haiku 4.5 的 36.8%，到 Sonnet 4.6 的 71.8%，再到 Opus 4.6 的 77.4%、Opus 4.7 的 78.9%，Mythos 拿到 82.6%

BioMysteryBench 人類可解題（76 道），五代 Claude 模型平均準確率，Mythos 82.6% 最高

在解題的過程中，還發現了一些有趣的策略，原文給了兩個對照組

第一組里，Claude 的解法和人類專家幾乎一模一樣

原文的解釋是，要么人類專家本身就找到了接近最優的方法，要么這種方法在預訓練數據里被反復見過

Claude 跟人類專家走同一條路徑的兩個案例之一

同一組的第二個案例

第二組里，Claude 走了完全不同的路

人類專家用算法或數據庫去注釋樣本屬性，Claude 直接看一眼數據，靠模式識別認出來這是什么序列

Claude 走完全不同路徑的兩個案例之一，靠模式識別直接讀出序列特征

同一組的第二個案例

原文用了一個歷史類比：第一個真核生物啟動子被發現，是因為某位科學家注意到「TATA」這個序列在基因上游反復出現。這種憑直覺抓特征的能力，在傳統機器學習模型上很難訓練出來。語言模型有可能在更大尺度上做這件事

解不出的題被破了

剩下 23 道題，是 5 位專家全部答錯或放棄的

人類難題（23 道）的模型準確率，Mythos 29.6%，Opus 4.7 27.0%，Sonnet 4.6 19.1%

Claude Sonnet 4.6 之后的模型，能解出這一組里相當一部分。Sonnet 4.6 拿 19.1%、Opus 4.6 拿 23.5%、Opus 4.7 拿 27.0%，Claude Mythos 解題率最高，達到 29.6%

Claude 靠什么破題

Brianna 團隊從 Opus 4.6 的 transcript 里識別出兩套主要解法

第一套是直接調內部知識庫。一道題如果讓人類專家做，可能要去做一次 meta 分析，把幾篇論文、幾個數據庫手動拼起來。Opus 直接從內部知識里調出機制和本體（ontology），再結合實時分析，一步到位。原文給了三個具體例子，都屬于這一類

Claude 直接調內部知識解人類專家解不出的題，第一例

第二例

第三例

但內部知識也有反噬的時候。原文專門給了一道反例：在「人類可解」組里有一道題，Opus 因為先驗知識太強，反而做錯了答案

唯一一道反例：Claude 因先驗知識過強反而做錯

第二套是不確定時多方法收斂。Opus 4.6 在不確定的題上會同時跑多種解法，最后選多種方法都指向同一個答案的那個。原文給了三個例子。這種打法不算 AI 獨有，人類科研里也用，但 Opus 在題目難度上去之后會更頻繁地切到這種模式

不確定時多方法收斂，第一例

第二例

第三例

準做對還是蒙對

Brianna 團隊讓 Mythos 自己分析了一遍數據。Mythos 提出的問題是：每道題做 5 次，5 次全對和 5 次只對 1 次，意義完全不同。前者是穩定能力，后者多半是僥幸路徑碰巧走通

Fig 3：每道題做 5 次，按解對次數分布。左：人類可解題；右：人類難題

Mythos 給出的具體分布是這樣：

→ 在人類可解題上，Opus 4.6 解出來的題，86% 是 5 次中至少 4 次都對（穩定）

→ 同樣是 Opus 4.6，在人類難題上這個比例掉到 44%；只 1 到 2 次對的脆弱路徑占比從 9% 漲到 44%

→ Sonnet 4.6 的退化更明顯：穩定 75% 掉到 22%，脆弱 9% 漲到 56%

→ Opus 4.7 和 Mythos 把前沿往前推了一點，Mythos 在人類可解題上 94% 的勝場是穩定的

原文坦承，所謂 23 道人類難題里 Mythos 拿下的近 30%，相當一部分屬于這種脆弱路徑。準確率數字往下走的那一截真實存在，但下面那一層「可靠性差距」是更值得看的故事

Brianna 評價 Mythos 這次自我分析「站得住腳，但稍顯平淡」，補了細節，沒提出真正新的科學問題。她認為模型已經在長出研究品味（research taste）的種子，但離自己提出深刻洞見還有距離

另一家測，結論一致

在 Report 定稿前幾天，Genentech 和 Roche 聯合發布了 CompBioBench，100 道計算生物學題，設計原則和 BioMysteryBench 高度類似：合成數據加元數據擾動構造客觀答案、需要多步推理、需要工具調用、需要寫代碼

CompBioBench 上 Claude Opus 4.6 的整體準確率 81%，最難子集 69%。兩個獨立 benchmark，結論指向同一件事：前沿模型在生信任務上已經從「能用」過渡到「真的有用」

BioMysteryBench 的預覽版數據集已經放在 Hugging Face 上，感興趣的可以自己看看

參考材料：

→ 原文：anthropic.com/research/Evaluating-Claude-For-Bioinformatics-With-BioMysteryBench

→ 數據集：huggingface.co/datasets/Anthropic/BioMysteryBench-preview

→ CompBioBench 論文：biorxiv.org/content/10.64898/2026.04.06.716850v1

→ 生命科學落地：claude.com/lifesciences

→ 投稿郵箱：scienceblog@anthropic.com

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

人類給自己換了3000年“零件”，終于在2026年成為一門科學

36氪 2026-06-12 17:49:39
0 跟貼 0
解讀胚胎評分技術：革新技術進步和倫理爭議｜2026十大突破性技術

DeepTech深科技 2026-01-25 20:00:42
0 跟貼 0

吃一顆藥年輕十歲？這位哈佛科學家打算在XPrize大賽上證明它

DeepTech深科技 2026-06-11 17:19:20
17 跟貼 17

62 歲導師與弟子暢談學術理想，力爭五年集齊 CNS、沖刺諾獎，導師直言：別做白日夢了

生物學霸 2026-06-12 17:17:50
2 跟貼 2
上海交大新研究登上Cell頭條：發現癌癥免疫治療新靶點

生物世界 2026-06-12 19:11:25
2 跟貼 2

北京大學最新Cell：杜鵬團隊構建首個靈長類胚胎樣系統，對靈長類胚胎發生過程連續建模

生物世界 2026-06-12 12:22:03
0 跟貼 0

Nature 雙發！不只是能量工廠，線粒體還是細胞間關鍵信使（有獎直播）

生物學霸 2026-06-12 17:18:38
0 跟貼 0
二甲雙胍越吃越不管用？不是抗藥，真相沒人告訴你

陳薇醫生 2026-06-09 01:51:43
0 跟貼 0

長期吃二甲雙胍，警惕五大致命誤區！

心內科王醫生 2026-06-10 20:35:44
0 跟貼 0
復旦大學研究：二甲雙胍或縮短老年人體的壽命？看看真實結果

爆炸營養彭鑫蕊 2026-06-12 16:37:14
7 跟貼 7
北大聯手讓AI跨界「造物」，業界最強復合纖維誕生！

新智元 2026-06-12 10:10:54
1 跟貼 1
專家也被自己的實驗征服了

海洋追劇 2026-06-08 16:24:12
1 跟貼 1
河北灤南開展 “健康科普行萬場健康知識講座”活動

新浪財經 2026-06-13 00:51:20
0 跟貼 0
新能源科學與工程就業前景怎么樣？

陳晟老師課堂 2026-06-09 06:02:53
1 跟貼 1
不是什么都能用科學解釋

寶寶愛剪輯 2026-06-12 17:25:28
1 跟貼 1
出發！百老匯親子科學劇物理秀系列篇《化學秀》震撼登陸西安！

文化藝術報 2026-06-12 21:06:56
0 跟貼 0
防災減災 | 地震發生時，如何科學避險逃生？

新浪財經 2026-06-13 01:44:35
0 跟貼 0
貓和狗到底誰更聰明呢？為此女子做了一個實驗，不料兩個各顯神通

帶娃翻車老父親 2026-06-13 00:54:57
0 跟貼 0
傳播焦慮第一人又來了，聊聊你是否有【成功的基因】

全嘻嘻 2026-06-10 18:00:00
39 跟貼 39
D3K2哪個牌子的效果好？2026五個D3K2產品測評，科學助力補鈣

彌勒市融媒體中心 2026-06-12 23:44:43
0 跟貼 0
科學控糖，向糖尿病說NO！

新浪財經 2026-06-13 02:12:21
0 跟貼 0
無辜者淪為731部隊實驗標本多無助？檔案解秘：解剖臺像案板

興趣知識 2026-06-12 12:40:07
0 跟貼 0
這不是有害物種走私，而是敵對勢力生物戰

羅富強說 2026-06-09 17:07:23
9 跟貼 9
皇馬官方宣布穆里尼奧出任主教練

央視新聞客戶端 2026-06-12 02:39:10
2444 跟貼 2444
量子糾纏，看完終于理解了

陽光男孩彬彬 2026-06-08 10:00:25
16 跟貼 16
Claude Fable 5「發瘋」！高數算網絡攻擊，問癌癥直接封號？

新智元 2026-06-12 16:09:38
3 跟貼 3
一張切片獲取大視野、高分辨率、全轉錄組數據，Atera 打破空間原位「不可能三角」

生物學霸 2026-05-06 17:18:46
0 跟貼 0
“智能體最后的考試”，Fable 5竟然不敵GPT 5.5

量子位 2026-06-12 12:10:09
1 跟貼 1
高鐵行李架現白色寵物蛇列車長僅用塑料袋徒手拿捏

極目新聞 2026-06-12 10:06:52
1033 跟貼 1033
美擬撤走北約歐洲防務三分之一戰機

界面新聞 2026-06-12 13:06:43
1660 跟貼 1660
剛剛，人類歷史上首位萬億美元富豪誕生！

每日經濟新聞 2026-06-12 22:32:06
956 跟貼 956
為什么喝涼水都長胖？權威研究：這種腸道菌群在“作祟”

新浪財經 2026-06-11 19:45:29
9 跟貼 9
"中醫匠人"賣課號稱"行走的CT" 自稱學技術可掙錢改命

新京報 2026-06-12 11:56:14
1261 跟貼 1261
核磁共振儀為何嚴禁金屬靠近？

胖爺科技 2026-06-11 18:16:58
4 跟貼 4
Kimi最強編程模型來了：Token消耗直降30%，過度思考有救了，附一手實測

智東西 2026-06-13 01:07:25
0 跟貼 0
它不是白化病！這種罕見基因突變，讓獅子白如月光

生靈觀察喵 2026-06-11 16:27:34
1 跟貼 1
寶馬7系用車體驗在商場買到喜歡的機甲模型體驗后排的舒享功能

SuperStreet超級街 2026-06-09 09:15:13
0 跟貼 0
我國第四代自主超導量子計算機上線

每日經濟新聞 2026-05-09 18:44:48
0 跟貼 0
人類基因組計劃的真相瞞不住了！精神障礙的“致病基因”存在嗎？

精準心理學何日輝 2026-06-09 18:39:02
5 跟貼 5
遠古海洋中最奇異的生物，怪誕蟲和塔利怪物會不會是外星生命？

萌寵小鐵蛋 2026-06-12 00:00:00
0 跟貼 0

賽博禪心

拜AI古佛，修賽博禪心

466文章數 53關注度

往期回顧全部

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

健康

教育

藝術

親子

軍事航空

手機 / 數碼

房產 / 家居

「生物信息學」評測，Claude 反超人類專家

剛剛，人類歷史上首位萬億美元富豪誕生！

美加墨世界杯第二場比賽就現空座 英媒：尷尬

美加墨世界杯第二場比賽就現空座 英媒：尷尬

歐洲恐韓？肉德維德？

一天4個瓜，肖戰熱巴最意外

萬億美元順差背后，透露這些信號

標配激光雷達/雙動力可選 昊鉑S600限時售17.99萬起

態度原創

老人、小孩、孕婦，吃粽子有啥風險

家長成了“瘋女人”，被女兒作業搞崩潰，網友：太真實

砸了640億，再賠160億！沙特“The Line”項目徹底涼了？

給孩子報個幼兒園還要工資流水？難道這就是傳說中的“因財施教”

伊朗媒體：已故最高領袖葬禮推遲舉行

美加墨世界杯第二場比賽就現空座英媒：尷尬

美加墨世界杯第二場比賽就現空座英媒：尷尬

標配激光雷達/雙動力可選昊鉑S600限時售17.99萬起