无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

紅杉 xbench:AI 去藥企做實習,遙遙領先了人類

0
分享至

RESEARCH

xbench,就是紅杉自己弄的那個中立評測lab,剛剛又整了個新活:讓 AI 做藥企的數據分析,跟人類實習生比個高低,然后遙遙領先的贏了

前兩天,紅杉的朋友跟我說了這事兒,今天一早詳細信息也放了出來:

故事大概是這樣:

紅杉的 AI 評測平臺 xbench,聯合 Phylo 和 Humanlaya Data Lab,找來斯坦福、哈佛、北大和頭部藥企的 100 位資深專家,花了 1000 多個小時,搭了 全球首個面向真實生物醫藥研究場景的過程級評估框架:BiomniBench,讓 AI 從頭到尾做一遍藥企的真實數據分析,結果是:

最強 AI 組合拿到 73.34 分(滿分 100),超過了人類實習生 40-50 分的平均線

誒...這里的「最強 AI 組合」是什么?讓我賣個關子,稍后揭曉

真實世界沒有選擇題

這里補充一個背景:在藥企,科學家的日常工作是啥?

答:對著臟的一塌糊涂數據一通分析,然后得到一個滿意的結果

比如:給你一組免疫治療患者的單細胞測序數據和臨床信息,你要判斷某個 biomarker(生物標志物)是否值得進入下一輪實驗驗證。數據清洗、樣本篩選、統計方法、多重檢驗校正、生物學解釋...每一步都可能出錯

雖然可能出錯,但出錯了也不一定會報錯

比如,如果把外周血細胞也算進了腫瘤組織的分析,代碼能跑通,圖也畫得漂亮,但結論...大概率就錯了

一位藥企一線科學家說過:「在生物學里,一個看似正確的結論可能建立在完全錯誤的分析過程之上,而等你發現的時候,藥已經做失敗了」

在過去的 AI 評測中,很多的東西是測結果的,這樣的 bench 也好搭建,但這次 xbench 這次做的 BiomniBench,測的是「模型會不會真的做研究」,從數據清洗、到方法選擇、到統計檢驗、到生物學解釋,每一步都測

或者說,這個叫:process-level evaluation,過程級評測


做藥的都懂:跑通了不等于對了


左邊只看答案,右邊看全過程

100 道真題怎么來的

BiomniBench 第一個落地的模塊叫 BiomniBench-DA,聚焦數據分析

這一模塊包括 100 道題,都來自 Nature、Cell、Science 的公開數據,由原論文作者或 5 年以上經驗的專家重新設計,覆蓋腫瘤、代謝與內分泌、免疫、神經、心血管 5 大疾病領域,17 類分析任務

在測試的過程中,要求 AI 答題時給出完整分析軌跡,包括:讀了什么數據,做了哪些清洗,為什么選某個方法,統計結果怎么樣,怎么解釋。然后 LLM 裁判按專家寫好的評分標準,從六個維度打分:數據處理、方法選擇、統計嚴謹性、生物學解釋、科學推理、來源可靠性

當然,評分標準允許多條合理路徑的。在很多生物學問題,t 檢驗和 Wilcoxon 都行,關鍵是你得說清楚為什么選這條,就是...「言之有理即可


5 大疾病領域 × 17 類任務

誰是最強 AI 實習生

好,回到剛才賣的那個關子

最強配置是 Claude Code + Opus 4.7,73.34 分。排在后面的是 Claude Code + Opus 4.6,69.83 分。第三名 Codex CLI + GPT-5.4,68.69 分。前三名里兩個是 Claude Code 的配置


人類呢?人類實習生 平均 40-50 分,比 AI 低到不知道哪里去了

速度和成本...應該就不用說了吧:

AI 完成一個任務平均 4.9 到 25 分鐘,花 0.92 到 4.58 美元;

人類做同樣的事通常要數小時到數十小時,耗費 3 個饅頭


貴的不一定好,但好的確實貴

藥企來說,這個進步還是很有價值的:大量探索性分析可以前置、并行化,然后丟給 AI,早期試錯成本大幅降低

對了,這次的研究還帶來個小收獲,Agent 框架,對結果的影響極大:同一個 GPT-5.4,放在 Codex CLI 里 68.69 分,放在 Terminus-2 里只有 55.19 分

在藥企數據分析這個場景下,Agent 框架的影響,跟模型本身差不多


同一個腦子,換組工具

另外一個有趣的是:AI 也偏科

細胞組成分析拿到 91 分,突變分析 88 分,邊界清晰的任務是 AI 的專長。GWAS-eQTL 分析只有 45 分,通路富集 64 分,需要判斷統計方法和理解生物學上下文的任務,AI 就稍顯乏力了

然后,從評估維度看,所有模型在「生物學解釋」上都有明顯凹陷。AI 能算,但不太能解釋。短期內「AI 算 + 人類解釋」可能是最安全的協作模式


偏科這事,人和 AI 都一樣

這實習生,能轉正嗎?

先說結論:對于數據的初步分析,可以用了

但如果分析錯了需要進去,那還不行

以及,xbench 后續會開源部分題目供內部測試使用,也會繼續推出覆蓋更多行業場景的 benchmark

相關資料

Paper(bioRxiv)

https://www.biorxiv.org/content/10.64898/2026.05.12.724604v1

HuggingFace Dataset

https://huggingface.co/datasets/phylobio/BiomniBench-DA

xbench 是紅杉中國推出的 AI 基準測試工具,采用雙軌評估體系,同時追蹤模型的理論能力上限與 Agent 的實際落地價值,并通過持續維護和動態更新測試內容確保時效性

網址:xbench.org

聯系:team@xbench.org

Phylo 源自開源項目 Biomni,由斯坦福科學家團隊于 2025 年創立,專注于生物醫學智能體的應用研究。2026 年 2 月推出 Biomni Lab,致力于讓每一位生物醫學科學家都能借助 AI Agent 加速科學發現

網址:biomni.phylo.bio

聯系:contact@phylo.bio

Humanlaya AI 成立于 2025 年,通過定義真實、高經濟價值的可驗證任務,推動大模型能力邊界的拓展與經濟價值的落地

網址:humanlaya.com

聯系:inquiries@humanlaya.com

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
姐妹,咱倆都是一樣的成熟,怎么看著你比我大呀?

姐妹,咱倆都是一樣的成熟,怎么看著你比我大呀?

飛娛日記
2026-05-02 08:41:31
帶隊一年雙冠,私生活毀掉一切:中國籃壇最可惜的天才

帶隊一年雙冠,私生活毀掉一切:中國籃壇最可惜的天才

酷侃體壇
2026-05-29 10:01:58
法官問為何不交物業費,業主反問:不交稅違法,不交費違法嗎

法官問為何不交物業費,業主反問:不交稅違法,不交費違法嗎

蜉蝣說
2026-02-03 16:31:54
夏天吃魚,這3種魚再貴也要買,比鯽魚鮮,比鱸魚有營養,好吃

夏天吃魚,這3種魚再貴也要買,比鯽魚鮮,比鱸魚有營養,好吃

阿龍美食記
2026-06-11 18:59:35
全國倒查整治持續升級,退休干部也被追責,人情辦事時代落幕了嗎

全國倒查整治持續升級,退休干部也被追責,人情辦事時代落幕了嗎

復轉這些年
2026-06-12 18:23:32
根本不提吳艷妮!日媒沸騰了,福部真子自稱發揮糟糕仍創亞洲第一

根本不提吳艷妮!日媒沸騰了,福部真子自稱發揮糟糕仍創亞洲第一

楊華評論
2026-06-12 20:33:42
18名印度人因缺少返程機票及相關證明文件 在曼谷機場被拒絕登機前往老撾

18名印度人因缺少返程機票及相關證明文件 在曼谷機場被拒絕登機前往老撾

曼谷陳大叔
2026-06-11 16:50:19
世界杯D組美國VS巴拉圭!美國硬仗實力一般,巴拉圭有望制造驚喜

世界杯D組美國VS巴拉圭!美國硬仗實力一般,巴拉圭有望制造驚喜

體育吐槽
2026-06-12 16:23:35
中學生深夜看色情網站 上千部隱晦內容已吸引上億次觀看!

中學生深夜看色情網站 上千部隱晦內容已吸引上億次觀看!

閃電新聞
2026-06-12 07:10:35
馬科斯怎么都料不到!在仁愛礁坐灘27年的破船,卻意外助力中國了

馬科斯怎么都料不到!在仁愛礁坐灘27年的破船,卻意外助力中國了

共工之錨
2026-06-10 00:41:05
重慶一男子帶茅臺乘高鐵被安檢攔下,3分鐘內豪飲整瓶,妻子回應:丈夫酒量尚可,喝完有點微醺,下車后又與朋友繼續喝酒

重慶一男子帶茅臺乘高鐵被安檢攔下,3分鐘內豪飲整瓶,妻子回應:丈夫酒量尚可,喝完有點微醺,下車后又與朋友繼續喝酒

瀟湘晨報
2026-06-12 16:20:20
LABUBU世界杯聯名款火了:限購2個上架就售罄,有平臺已售上萬件

LABUBU世界杯聯名款火了:限購2個上架就售罄,有平臺已售上萬件

新京報
2026-06-12 20:57:41
這組全是許晴年輕舊照!

這組全是許晴年輕舊照!

草莓解說體育
2026-06-05 14:04:24
一份擺在美國情報部門案頭的報告:中國到底在等什么

一份擺在美國情報部門案頭的報告:中國到底在等什么

民間胡扯老哥
2026-06-08 07:20:06
向太曝劉亦菲陳金飛真實關系:成也干爹敗也干爹

向太曝劉亦菲陳金飛真實關系:成也干爹敗也干爹

悠悠說世界
2026-06-10 09:20:39
竇驍擁抱劉浩存的這段戲,在全網火了,張藝謀的話終于有人信了!

竇驍擁抱劉浩存的這段戲,在全網火了,張藝謀的話終于有人信了!

動物奇奇怪怪
2026-06-12 16:14:16
為什么那么多酒店都倒閉了?網友:高鐵+騰訊會議,干掉了90%酒店

為什么那么多酒店都倒閉了?網友:高鐵+騰訊會議,干掉了90%酒店

夜深愛雜談
2026-06-12 19:56:05
港星廖啟智結發妻子突然病逝,終年65歲,網友感嘆:家人天上團聚

港星廖啟智結發妻子突然病逝,終年65歲,網友感嘆:家人天上團聚

蜜桔娛樂
2026-06-12 17:12:39
李剛仁身價又漲了 馬競又加價了!洪明甫太有魄力 一語維護孫興慜

李剛仁身價又漲了 馬競又加價了!洪明甫太有魄力 一語維護孫興慜

刀鋒體育
2026-06-12 17:32:11
阿根廷左路塌了!主力左后衛傷缺首戰,3大備選誰能頂得上?

阿根廷左路塌了!主力左后衛傷缺首戰,3大備選誰能頂得上?

春日筆記
2026-06-13 01:51:46
2026-06-13 03:48:49
賽博禪心
賽博禪心
拜AI古佛,修賽博禪心
466文章數 53關注度
往期回顧 全部

科技要聞

剛剛,人類歷史上首位萬億美元富豪誕生!

頭條要聞

美加墨世界杯第二場比賽就現空座 英媒:尷尬

頭條要聞

美加墨世界杯第二場比賽就現空座 英媒:尷尬

體育要聞

歐洲恐韓?肉德維德?

娛樂要聞

一天4個瓜,肖戰熱巴最意外

財經要聞

萬億美元順差背后,透露這些信號

汽車要聞

標配激光雷達/雙動力可選 昊鉑S600限時售17.99萬起

態度原創

親子
游戲
時尚
家居
軍事航空

親子要聞

給孩子報個幼兒園還要工資流水?難道這就是傳說中的“因財施教”

索尼PS國區運營神了!玩梗《黑袍》:我會玩你的游戲

夏天別總穿一身白或一身黑!試試一半彩色、一半基礎色,高級亮眼

家居要聞

空間微調 移形換境

軍事要聞

伊朗媒體:已故最高領袖葬禮推遲舉行

無障礙瀏覽 進入關懷版