RESEARCH
xbench,就是紅杉自己弄的那個中立評測lab,剛剛又整了個新活:讓 AI 做藥企的數據分析,跟人類實習生比個高低,然后遙遙領先的贏了
前兩天,紅杉的朋友跟我說了這事兒,今天一早詳細信息也放了出來:
故事大概是這樣:
紅杉的 AI 評測平臺 xbench,聯合 Phylo 和 Humanlaya Data Lab,找來斯坦福、哈佛、北大和頭部藥企的 100 位資深專家,花了 1000 多個小時,搭了 全球首個面向真實生物醫藥研究場景的過程級評估框架:BiomniBench,讓 AI 從頭到尾做一遍藥企的真實數據分析,結果是:
最強 AI 組合拿到 73.34 分(滿分 100),超過了人類實習生 40-50 分的平均線
誒...這里的「最強 AI 組合」是什么?讓我賣個關子,稍后揭曉
真實世界沒有選擇題
這里補充一個背景:在藥企,科學家的日常工作是啥?
答:對著臟的一塌糊涂數據一通分析,然后得到一個滿意的結果
比如:給你一組免疫治療患者的單細胞測序數據和臨床信息,你要判斷某個 biomarker(生物標志物)是否值得進入下一輪實驗驗證。數據清洗、樣本篩選、統計方法、多重檢驗校正、生物學解釋...每一步都可能出錯
雖然可能出錯,但出錯了也不一定會報錯
比如,如果把外周血細胞也算進了腫瘤組織的分析,代碼能跑通,圖也畫得漂亮,但結論...大概率就錯了
一位藥企一線科學家說過:「在生物學里,一個看似正確的結論可能建立在完全錯誤的分析過程之上,而等你發現的時候,藥已經做失敗了」
在過去的 AI 評測中,很多的東西是測結果的,這樣的 bench 也好搭建,但這次 xbench 這次做的 BiomniBench,測的是「模型會不會真的做研究」,從數據清洗、到方法選擇、到統計檢驗、到生物學解釋,每一步都測
或者說,這個叫:process-level evaluation,過程級評測
![]()
做藥的都懂:跑通了不等于對了
![]()
左邊只看答案,右邊看全過程
100 道真題怎么來的
BiomniBench 第一個落地的模塊叫 BiomniBench-DA,聚焦數據分析
這一模塊包括 100 道題,都來自 Nature、Cell、Science 的公開數據,由原論文作者或 5 年以上經驗的專家重新設計,覆蓋腫瘤、代謝與內分泌、免疫、神經、心血管 5 大疾病領域,17 類分析任務
在測試的過程中,要求 AI 答題時給出完整分析軌跡,包括:讀了什么數據,做了哪些清洗,為什么選某個方法,統計結果怎么樣,怎么解釋。然后 LLM 裁判按專家寫好的評分標準,從六個維度打分:數據處理、方法選擇、統計嚴謹性、生物學解釋、科學推理、來源可靠性
當然,評分標準允許多條合理路徑的。在很多生物學問題,t 檢驗和 Wilcoxon 都行,關鍵是你得說清楚為什么選這條,就是...「言之有理即可」
![]()
5 大疾病領域 × 17 類任務
誰是最強 AI 實習生
好,回到剛才賣的那個關子
最強配置是 Claude Code + Opus 4.7,73.34 分。排在后面的是 Claude Code + Opus 4.6,69.83 分。第三名 Codex CLI + GPT-5.4,68.69 分。前三名里兩個是 Claude Code 的配置
![]()
人類呢?人類實習生 平均 40-50 分,比 AI 低到不知道哪里去了
速度和成本...應該就不用說了吧:
AI 完成一個任務平均 4.9 到 25 分鐘,花 0.92 到 4.58 美元;
人類做同樣的事通常要數小時到數十小時,耗費 3 個饅頭
![]()
貴的不一定好,但好的確實貴
藥企來說,這個進步還是很有價值的:大量探索性分析可以前置、并行化,然后丟給 AI,早期試錯成本大幅降低
對了,這次的研究還帶來個小收獲,Agent 框架,對結果的影響極大:同一個 GPT-5.4,放在 Codex CLI 里 68.69 分,放在 Terminus-2 里只有 55.19 分
在藥企數據分析這個場景下,Agent 框架的影響,跟模型本身差不多
![]()
同一個腦子,換組工具
另外一個有趣的是:AI 也偏科
細胞組成分析拿到 91 分,突變分析 88 分,邊界清晰的任務是 AI 的專長。GWAS-eQTL 分析只有 45 分,通路富集 64 分,需要判斷統計方法和理解生物學上下文的任務,AI 就稍顯乏力了
然后,從評估維度看,所有模型在「生物學解釋」上都有明顯凹陷。AI 能算,但不太能解釋。短期內「AI 算 + 人類解釋」可能是最安全的協作模式
![]()
偏科這事,人和 AI 都一樣
這實習生,能轉正嗎?
先說結論:對于數據的初步分析,可以用了
但如果分析錯了需要進去,那還不行
以及,xbench 后續會開源部分題目供內部測試使用,也會繼續推出覆蓋更多行業場景的 benchmark
相關資料
Paper(bioRxiv)
https://www.biorxiv.org/content/10.64898/2026.05.12.724604v1
HuggingFace Dataset
https://huggingface.co/datasets/phylobio/BiomniBench-DA
xbench 是紅杉中國推出的 AI 基準測試工具,采用雙軌評估體系,同時追蹤模型的理論能力上限與 Agent 的實際落地價值,并通過持續維護和動態更新測試內容確保時效性
網址:xbench.org
聯系:team@xbench.org
Phylo 源自開源項目 Biomni,由斯坦福科學家團隊于 2025 年創立,專注于生物醫學智能體的應用研究。2026 年 2 月推出 Biomni Lab,致力于讓每一位生物醫學科學家都能借助 AI Agent 加速科學發現
網址:biomni.phylo.bio
聯系:contact@phylo.bio
Humanlaya AI 成立于 2025 年,通過定義真實、高經濟價值的可驗證任務,推動大模型能力邊界的拓展與經濟價值的落地
網址:humanlaya.com
聯系:inquiries@humanlaya.com
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.