網易首頁 > 網易號 > 正文申請入駐

紅杉 xbench：AI 去藥企做實習，遙遙領先了人類

2026-05-19 09:16:21　來源: 賽博禪心

北京舉報

分享至

RESEARCH

xbench，就是紅杉自己弄的那個中立評測lab，剛剛又整了個新活：讓 AI 做藥企的數據分析，跟人類實習生比個高低，然后遙遙領先的贏了

前兩天，紅杉的朋友跟我說了這事兒，今天一早詳細信息也放了出來：

故事大概是這樣：

紅杉的 AI 評測平臺 xbench，聯合 Phylo 和 Humanlaya Data Lab，找來斯坦福、哈佛、北大和頭部藥企的 100 位資深專家，花了 1000 多個小時，搭了 全球首個面向真實生物醫藥研究場景的過程級評估框架：BiomniBench，讓 AI 從頭到尾做一遍藥企的真實數據分析，結果是：

最強 AI 組合拿到 73.34 分（滿分 100），超過了人類實習生 40-50 分的平均線

誒...這里的「最強 AI 組合」是什么？讓我賣個關子，稍后揭曉

真實世界沒有選擇題

這里補充一個背景：在藥企，科學家的日常工作是啥？

答：對著臟的一塌糊涂數據一通分析，然后得到一個滿意的結果

比如：給你一組免疫治療患者的單細胞測序數據和臨床信息，你要判斷某個 biomarker（生物標志物）是否值得進入下一輪實驗驗證。數據清洗、樣本篩選、統計方法、多重檢驗校正、生物學解釋...每一步都可能出錯

雖然可能出錯，但出錯了也不一定會報錯

比如，如果把外周血細胞也算進了腫瘤組織的分析，代碼能跑通，圖也畫得漂亮，但結論...大概率就錯了

一位藥企一線科學家說過：「在生物學里，一個看似正確的結論可能建立在完全錯誤的分析過程之上，而等你發現的時候，藥已經做失敗了」

在過去的 AI 評測中，很多的東西是測結果的，這樣的 bench 也好搭建，但這次 xbench 這次做的 BiomniBench，測的是「模型會不會真的做研究」，從數據清洗、到方法選擇、到統計檢驗、到生物學解釋，每一步都測

或者說，這個叫：process-level evaluation，過程級評測

做藥的都懂：跑通了不等于對了

左邊只看答案，右邊看全過程

100 道真題怎么來的

BiomniBench 第一個落地的模塊叫 BiomniBench-DA，聚焦數據分析

這一模塊包括 100 道題，都來自 Nature、Cell、Science 的公開數據，由原論文作者或 5 年以上經驗的專家重新設計，覆蓋腫瘤、代謝與內分泌、免疫、神經、心血管 5 大疾病領域，17 類分析任務

在測試的過程中，要求 AI 答題時給出完整分析軌跡，包括：讀了什么數據，做了哪些清洗，為什么選某個方法，統計結果怎么樣，怎么解釋。然后 LLM 裁判按專家寫好的評分標準，從六個維度打分：數據處理、方法選擇、統計嚴謹性、生物學解釋、科學推理、來源可靠性

當然，評分標準允許多條合理路徑的。在很多生物學問題，t 檢驗和 Wilcoxon 都行，關鍵是你得說清楚為什么選這條，就是...「言之有理即可」

5 大疾病領域 × 17 類任務

誰是最強 AI 實習生

好，回到剛才賣的那個關子

最強配置是 Claude Code + Opus 4.7，73.34 分。排在后面的是 Claude Code + Opus 4.6，69.83 分。第三名 Codex CLI + GPT-5.4，68.69 分。前三名里兩個是 Claude Code 的配置

人類呢？人類實習生平均 40-50 分，比 AI 低到不知道哪里去了

速度和成本...應該就不用說了吧：

AI 完成一個任務平均 4.9 到 25 分鐘，花 0.92 到 4.58 美元；

人類做同樣的事通常要數小時到數十小時，耗費 3 個饅頭

貴的不一定好，但好的確實貴

藥企來說，這個進步還是很有價值的：大量探索性分析可以前置、并行化，然后丟給 AI，早期試錯成本大幅降低

對了，這次的研究還帶來個小收獲，Agent 框架，對結果的影響極大：同一個 GPT-5.4，放在 Codex CLI 里 68.69 分，放在 Terminus-2 里只有 55.19 分

在藥企數據分析這個場景下，Agent 框架的影響，跟模型本身差不多

同一個腦子，換組工具

另外一個有趣的是：AI 也偏科

細胞組成分析拿到 91 分，突變分析 88 分，邊界清晰的任務是 AI 的專長。GWAS-eQTL 分析只有 45 分，通路富集 64 分，需要判斷統計方法和理解生物學上下文的任務，AI 就稍顯乏力了

然后，從評估維度看，所有模型在「生物學解釋」上都有明顯凹陷。AI 能算，但不太能解釋。短期內「AI 算 + 人類解釋」可能是最安全的協作模式

偏科這事，人和 AI 都一樣

這實習生，能轉正嗎？

先說結論：對于數據的初步分析，可以用了

但如果分析錯了需要進去，那還不行

以及，xbench 后續會開源部分題目供內部測試使用，也會繼續推出覆蓋更多行業場景的 benchmark

相關資料

Paper（bioRxiv）

https://www.biorxiv.org/content/10.64898/2026.05.12.724604v1

HuggingFace Dataset

https://huggingface.co/datasets/phylobio/BiomniBench-DA

xbench 是紅杉中國推出的 AI 基準測試工具，采用雙軌評估體系，同時追蹤模型的理論能力上限與 Agent 的實際落地價值，并通過持續維護和動態更新測試內容確保時效性

網址：xbench.org

聯系：team@xbench.org

Phylo 源自開源項目 Biomni，由斯坦福科學家團隊于 2025 年創立，專注于生物醫學智能體的應用研究。2026 年 2 月推出 Biomni Lab，致力于讓每一位生物醫學科學家都能借助 AI Agent 加速科學發現

網址：biomni.phylo.bio

聯系：contact@phylo.bio

Humanlaya AI 成立于 2025 年，通過定義真實、高經濟價值的可驗證任務，推動大模型能力邊界的拓展與經濟價值的落地

網址：humanlaya.com

聯系：inquiries@humanlaya.com

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.