无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

加州大學圣克魯茲分校與NVIDIA聯手打造"AI醫研員"考場

0
分享至


這項由加州大學圣克魯茲分校與NVIDIA研究團隊聯合開展的研究,以預印本形式發布于2026年6月,論文編號為arXiv:2606.01961,感興趣的讀者可通過該編號在arXiv平臺查閱完整原文。

**一段關于"AI醫研員"的故事**

假設你是一位資深醫院管理者,你決定雇用一個全新的"AI員工"來完成繁瑣的醫學影像研究工作。這位員工收到任務后,需要自己看懂需求、準備好工具、測試方案是否可行、完整執行分析,最后把報告整齊地交到你手上。聽起來相當理想——但這位AI員工真的能做到嗎?會在哪個環節掉鏈子?

這正是這篇論文試圖回答的核心問題。研究團隊構建了一個名為**AUTOMEDBENCH**的測試平臺,專門用來評估當前最先進的AI系統能否像真正的醫學研究員一樣,從頭到尾獨立完成一整套醫學AI研究任務。

這個問題之所以重要,是因為我們身處一個AI能力飛速進化的時代。近年來,大語言模型(也就是ChatGPT這類AI的底層技術)已經從單純的"答題機器"進化成能夠寫代碼、調用工具、長時間保持思路連貫的"任務執行者"。學術界將這種新形態稱為"自動研究"或AutoResearch——讓AI不只是回答問題,而是真正參與科研流程。

醫學影像領域恰好是測試這種能力的極好場地。不同于一般的問答任務,醫學研究要求AI同時具備領域知識和工程執行力。一個典型的任務可能要求AI理解臨床目標、處理不同格式的醫學圖像、選擇合適的模型、解決依賴沖突、驗證中間結果、運行大批量推斷,最后以嚴格的格式提交報告——每一步都可能出錯,而且一旦出錯往往會連鎖影響后續所有步驟。

在這篇論文之前,大多數醫學AI評估系統只關心最終答案對不對,就像只看期末考試的分數,完全不管學生是怎么復習、怎么解題的。這種"只看結果"的方式有一個致命的盲點:當AI得了低分,你根本不知道問題出在哪里——是它沒看懂題?是工具沒裝好?是中途計算出錯?還是最后交卷時格式寫錯了?AUTOMEDBENCH就是為了打破這個盲點而生的。

**一、一套"全程監控"的醫學AI研究考場**

AUTOMEDBENCH的設計理念可以用一個生活場景來理解:這就像一場被全程錄像的烹飪比賽,而不只是最后試吃成品。評委不僅品嘗菜肴,還會仔細觀看選手從看食譜、備菜、試味、調整到擺盤上桌的每一個動作,并給每個環節單獨打分。

具體來說,這個測試平臺把每個AI的研究任務分解為五個固定階段,形成一個統一的研究工作流。第一階段是**計劃(Plan)**,AI需要理解任務目標、選擇合適的研究方法,并寫下一份完整的執行計劃;這個階段考驗的是AI的"領域知識",占總工作流評分的25%。第二階段是**搭建(Setup)**,AI要安裝所需的軟件、加載預訓練模型或API、確認數據路徑都正確;這個階段占15%,考驗的是基礎工程能力。第三階段是**驗證(Validate)**,AI需要先拿一兩個案例跑通整個流程,檢查中間結果是否合理,如果有問題要在這里修正;這個階段權重最高,占35%,因為研究團隊認為"在大批量運行之前發現并修復問題"是整個流程中最關鍵也最容易被跳過的一步。第四階段是**推斷(Inference)**,AI對所有測試數據運行完整的分析并生成預測結果;這個階段占15%。第五階段是**提交(Submit)**,AI需要核對提交格式是否符合要求,然后把最終結果交給評估系統;這個階段占10%。

除了工作流分數(稱為"主動性評分"或Agentic Score),系統還會把AI提交的結果與隱藏的標準答案進行對比,計算出一個"任務分數"(Task Score)。最終的總分是兩者各占一半的平均值。這種設計意味著一個AI就算把流程走得漂漂亮亮,如果最終產出的醫學結果質量很差,總分仍然不會好看;反過來,即便僥幸拿到不錯的結果,如果過程一塌糊涂,總分也會被拉低。

**二、考題從哪里來:24道橫跨五大醫學領域的真實難題**

測試平臺一共包含24個真實的醫學AI研究任務,來自20多個公開的醫學挑戰賽和數據集,涵蓋五大研究方向。

在**醫學圖像分割**領域,AI需要在CT或MRI圖像中精確標注出特定的器官或病灶區域——比如從腹部CT中識別出腎臟和腫瘤的邊界,或者從胎兒MRI中分割出大腦的不同組織層。這類任務包含8個具體考題,數據集從2019年的KiTS19(腎腫瘤)到2025年最新發布的PanTS(胰腺),跨度相當大。評判標準是"宏觀Dice系數",簡單說就是AI標注的區域和真實區域有多大的重疊比例,數值越接近1越好。

在**圖像增強**領域,AI需要改善醫學圖像質量。比如把低劑量CT(為減少輻射而降低圖像質量)還原成清晰圖像,或者對低分辨率MRI進行超分辨率重建。這里用的評判標準叫SSIM,衡量的是增強后圖像與理想參考圖像的結構相似度。

在**視覺問答(VQA)**領域,AI需要看著醫學圖像回答問題——比如"這張X光片里有沒有氣胸?"或者"這張病理圖像顯示的是哪種細胞類型?"評判標準是回答的準確率。測試集包含5個任務,從2018年的經典放射VQA數據集,到2025年新出的醫學視頻多幀推理數據集,難度層次分明。

在**報告生成**領域,AI需要根據醫學圖像撰寫完整的臨床報告,就像放射科醫生讀片后寫的那種文字描述。這類任務的評判最為復雜,綜合使用了BLEU、METEOR、ROUGE-L等文本相似度指標,以及F1RadGraph這個專門衡量放射學實體和關系識別準確度的指標,取七個維度的平均分作為最終任務分數。

在**病灶檢測**領域,AI需要在圖像中找出病變的位置并畫出邊界框,比如在胸部X光中標出異常區域,或者在牙科全景片中標出牙齒疾病。評判標準是mAP@0.5,也就是在IoU(兩個邊界框的重疊比例)達到50%以上時的平均精度均值。

每個任務還有兩種難度版本,稱為"LITE"和"STANDARD"。兩個版本使用完全相同的數據、評判標準和時間限制,唯一的區別是任務說明書的詳細程度不同。LITE版本就像一份詳盡的食譜,告訴AI用哪個模型、裝哪些包、怎么驗證中間結果;STANDARD版本則更像只給了一道菜名和大致方向,讓AI自己決定用什么方法、解決什么依賴、設計什么驗證方案。24個任務乘以兩個難度,總共是48個考場設置。

**三、考試規則與防作弊機制**

AUTOMEDBENCH的公平性設計相當嚴格,像是一場有監考員的正式考試,而不是隨意的測試。

每個AI在獨立的計算容器(可以理解為一個隔離的"考場小隔間")中運行,有GPU算力、可以訪問網絡、能看到公開的輸入數據,擁有一塊專屬的工作區。但AI嚴格禁止看到隱藏的標準答案——答案被鎖在另一個完全隔離的"評卷室"容器里,只有AI提交完結果后才會被用來評分。AI也不能訪問其他AI的工作區,不能查看評分標準,更不能在運行過程中訓練或微調模型(只能使用預訓練模型)。一旦發現違規,該次運行的所有階段分數直接歸零。

研究團隊對六個前沿AI系統進行了測試,包括來自Anthropic的Claude Opus 4.6、來自OpenAI的GPT-5.4、來自Google DeepMind的Gemini 3.1 Pro,以及三個開源模型:GLM-5(智譜AI與清華大學)、MiniMax-M2.5和Qwen3.5-397B(阿里巴巴)。這些模型都是2026年2月到3月間發布的最新版本,代表了當前最頂尖的AI能力水平。

為了保證統計可靠性,大多數任務每個AI運行10次,五個較復雜的分割任務則運行20次,最終總共積累了數千條運行記錄。每一次運行都記錄了完整的對話歷史、工具調用、代碼執行結果,平均每次運行包含33輪對話交互,這意味著AI需要在一個較長的時間跨度內保持前后一致的思路和判斷。

運行結束后,研究團隊還會對每次運行進行"事后驗尸"式的錯誤分析,給每次失敗的運行打上錯誤標簽。這些標簽分為五類:E1"理解錯誤"(搞錯了要做什么)、E2"數據/模型搭建錯誤"(工具沒裝好)、E3"驗證/恢復錯誤"(發現問題但沒處理)、E4"實現/執行錯誤"(代碼跑著跑著崩了)、E5"交付/提交錯誤"(結果有了但格式錯了)。這些錯誤標簽不影響分數計算,只用于診斷分析,就像醫生的病歷記錄一樣。

**四、成績單出爐:誰最厲害,差距有多大**

六個AI系統的總體排名呈現出清晰的梯隊。Claude Opus 4.6以66.5分位居第一,GLM-5以61.6分緊隨其后,Gemini 3.1 Pro得到59.0分排第三,GPT-5.4得到55.3分,MiniMax-M2.5和Qwen3.5-397B則分別以51.6和51.2分墊底。最高分和最低分之間相差15.3分,說明當前各大頂級AI系統之間確實存在顯著差距,但還沒有拉開到不可比較的程度。

然而,當研究團隊把分數按五大醫學任務類型分開看時,情況就更加有趣了。以病灶檢測為例,Claude Opus 4.6得了85.7分,排名最末的MiniMax-M2.5也有80.0分——整體偏高而且差距不大。報告生成則完全相反,Claude Opus 4.6的55.8分已經是最高,而MiniMax-M2.5只有可憐的28.9分。VQA任務則顛覆了總體排名:GLM-5以64.0分領跑,而總分第一的Claude Opus 4.6只排到第五,GPT-5.4更是只有14.9的任務分,表現異常糟糕。這表明不同AI系統各有擅長的方向,總分榜遮掩了大量值得關注的細節。

還有一個現象貫穿所有AI:工作流評分普遍高于任務質量評分。也就是說,AI們往往能把每個研究階段都"走過一遍",顯得流程完整,但最終交出來的醫學分析結果質量卻明顯不如流程分數那么好看。這就像一個廚師能按食譜的每個步驟操作,但做出來的菜并不好吃一樣——流程規范不等于結果優質。

**五、流程解剖:AI在哪個環節最容易翻車**

把五個工作流階段的分數單獨拎出來看,會發現一個非常一致的規律:搭建(S2)階段是最強的,驗證(S3)階段是最弱的。

"搭建強"意味著當前的AI系統非常擅長安裝軟件、加載模型、配置環境——這些相對標準化的技術步驟對AI來說不算難事。但"驗證弱"就耐人尋味了。驗證階段要求AI用一兩個案例試跑,檢查輸出結果是否合理,發現問題后要主動調試修正——這種"先小規模試試看,再大規模跑"的嚴謹習慣,對于人類研究員來說是基本素養,但對當前AI來說卻偏偏是最難做到的。

更多scaffolding(更詳細的任務說明)并不會穩定地幫助AI做得更好。比較LITE和STANDARD兩個難度版本的工作流分數,會發現規律相當復雜:GLM-5在LITE版本下比STANDARD版本高了8.3%,Qwen3.5也提升了8.0%;但GPT-5.4在LITE版本下反而比STANDARD版本低了16.3%,Claude Opus 4.6也略微下降了0.9%。這個發現揭示了一個微妙的道理:對某些AI來說,更多的指令可能會把它限制在一個脆弱的固定路徑上,或者導致不必要的步驟,反而降低效率。這對未來開發AI研究助手的人來說是一個重要提醒——不能想當然地認為"說得越詳細AI就做得越好"。

在成本與效果的關系上,數據也打破了一個直覺:花更多錢并不意味著得更高分。從單次運行的平均費用來看,Claude Opus 4.6平均每次消耗約19.77美元,Qwen3.5只需1.83美元——相差超過10倍。但分數差距遠沒有成本差距那么懸殊。不同任務類型的相關性也大相徑庭:分割任務的成本與分數相關系數r=0.75,說明花錢確實有幫助;但VQA任務的相關系數只有r=-0.06,幾乎沒有任何關系。這意味著在大多數任務類型上,有效利用計算資源(比如用在驗證和調試上)比單純燒更多算力更重要。

**六、錯誤解剖:AI究竟是怎么失敗的**

研究團隊對所有運行記錄進行錯誤標注后,發現了一個關鍵規律:絕大多數失敗是"工程性"的,而不是"知識性"的。

在所有被標注的錯誤代碼中,E5"提交錯誤"(提交格式不對、文件名錯誤、結果不完整等)占了38.1%,E3"驗證錯誤"(發現問題但沒處理,或根本沒做驗證就直接大批量跑)占了37.7%,這兩類加起來占了所有錯誤的四分之三以上。E4"執行錯誤"(代碼崩了、張量形狀不匹配等)占12.6%,E2"搭建錯誤"占10.6%,而E1"理解錯誤"(搞錯了任務要求)只占區區0.9%。

這個分布說明了什么?它說明當前最先進的AI系統基本上能看懂醫學研究任務的要求,大方向不會錯,但在執行細節上頻繁翻車——尤其是在"檢驗自己做的對不對"這個環節,以及"把結果以正確格式打包交出去"這個最后一步。這就像一個學生考試時知道所有知識點,但總是因為看漏題目細節或者沒檢查答題卡而失分。

更重要的是,錯誤代碼與分數之間的關系相當嚴峻:一次運行里如果有一個錯誤代碼,平均總分比零錯誤運行低48%;有兩個或更多錯誤代碼的運行則持續在低分區間徘徊,很難翻身。這意味著錯誤會產生明顯的連鎖反應,一旦某個環節出問題,后續階段的補救能力非常有限。

排名靠前的AI系統不僅錯誤更少,還更善于在出錯后恢復。研究團隊專門統計了"觸發兩個或更多錯誤代碼后仍能完成全部流程并提交評分結果"的比率,稱之為恢復率。Claude Opus 4.6的恢復率是34.6%,GLM-5是22.2%,其余四個AI的恢復率則分別只有6.1%、3.8%和兩個0%。這意味著強大的AI系統不光更少出錯,在出錯時也更能像經驗豐富的研究員那樣鎮定地排查問題、調整策略,最終完成任務。

**七、這場考試告訴了我們什么**

歸根結底,AUTOMEDBENCH這場測試傳遞了幾個核心信息,對于理解當前AI的真實能力邊界非常有價值。

當前最頂尖的AI系統已經能夠相當熟練地"走完"一個醫學研究工作流的每個步驟——搭建環境、運行模型、提交結果,這些對它們來說不再是障礙。但"走完流程"和"做出高質量的醫學分析"之間,仍然存在一道不小的鴻溝。工作流分數普遍高于任務質量分數,說明AI更擅長"演示流程"而非"產出價值"。

驗證能力是最明顯的短板。跨越這道鴻溝的關鍵,不僅僅是讓AI擁有更多醫學知識,而是讓它學會在中間環節主動質疑自己——"我跑出來的結果合理嗎?腫瘤分割的結果怎么只有7個體素,正常嗎?"這種"元認知"能力,也就是對自己工作成果的批判性檢驗,是當前AI最明顯的短板之一。

錯誤的積累效應不容忽視。一個錯誤往往會引發后續的連鎖失敗,而大多數AI在遭遇多重錯誤時恢復能力有限。排名第一的Claude Opus 4.6憑借較高的恢復率脫穎而出,這表明未來改進AI研究能力的重要方向,不只是提升初始表現,還要提升"亡羊補牢"的能力。

高額成本并不自動等于高質量輸出,而評分的關鍵維度是工作流質量與最終結果的雙重組合,缺一不可。這對于未來部署AI研究助手的機構來說,是一個需要仔細權衡的實際問題。

這項研究還有一個務實的貢獻:整套評估框架、容器化環境和評估代碼都以開源方式發布,任何研究團隊都可以在同樣的標準下測試新的AI系統,或者在這個框架上添加新的醫學任務。隨著越來越多的醫學AI研究任務被納入這個平臺,我們對AI"醫研員"能力的理解也會越來越清晰。

醫學AI的自動化研究不是一個遙遠的幻想,而是一個正在發生的現實。目前它還需要人類的監督和把關,特別是在驗證中間結果和確保輸出質量方面。但隨著AI恢復能力的提升和驗證機制的完善,這個差距正在縮小。AUTOMEDBENCH提供的不只是一份成績單,更是一張精確的能力地圖,告訴我們現在的AI在哪里,以及還需要走多遠。對原論文感興趣的讀者可以通過arXiv編號2606.01961查閱完整內容。

**Q&A**

Q1:AUTOMEDBENCH測試平臺和傳統醫學AI評測有什么不同?

A:傳統醫學AI評測通常只看最終答案對不對,就像只看期末考試的分數。AUTOMEDBENCH不同,它把整個研究過程分成計劃、搭建、驗證、推斷、提交五個階段,每個階段都單獨打分,同時還記錄AI在哪里出錯、為什么失敗。這樣就能區分AI是"不懂醫學知識"還是"懂但執行出了問題",診斷信息更精準。

Q2:AUTOMEDBENCH驗證階段為什么權重最高,占35%?

A:驗證階段(S3)要求AI在大批量運行之前,先拿少量案例試跑,檢查結果是否合理。研究團隊認為這是最關鍵也最容易被跳過的步驟——如果這里發現了問題但沒處理,錯誤會在后續大批量推斷中放大,導致整批結果作廢。現有AI普遍在這個階段表現最差,說明"自我檢驗"能力是當前AI最明顯的弱點。

Q3:在AUTOMEDBENCH上多花錢用更貴的AI模型,會得到更好的醫學研究結果嗎?

A:不一定。數據顯示,最貴的模型Claude Opus 4.6平均每次運行花費約19.77美元,最便宜的Qwen3.5只需1.83美元,成本相差十倍以上,但分數差距遠沒那么大。而且在VQA任務上,成本與分數幾乎沒有相關性。研究表明,能否有效利用計算資源進行驗證和調試,比單純燒更多算力更能決定最終結果質量。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
中東那個惡霸終于死了,不是被打死的,是被特朗普的談判拖死的!

中東那個惡霸終于死了,不是被打死的,是被特朗普的談判拖死的!

阿曇你好
2026-06-14 15:40:06
不配踢世界杯!看完澳大利亞2-0戰勝土耳其的比賽,球迷這樣說

不配踢世界杯!看完澳大利亞2-0戰勝土耳其的比賽,球迷這樣說

小樓侃體育
2026-06-14 15:04:34
好恐怖的天倫之樂!女子曬家庭聚會,面和心不和被演繹得淋漓盡致

好恐怖的天倫之樂!女子曬家庭聚會,面和心不和被演繹得淋漓盡致

林林先生
2026-06-13 10:25:06
DeepSeek研究員控訴字節工地周末半夜2點施工擾民,隨后社媒賬號被封

DeepSeek研究員控訴字節工地周末半夜2點施工擾民,隨后社媒賬號被封

回旋鏢
2026-06-14 12:52:08
處事“一絲不掛”!一公司發布女子晉升秘書通知流出,引全網狂歡

處事“一絲不掛”!一公司發布女子晉升秘書通知流出,引全網狂歡

火山詩話
2026-06-14 08:19:08
黃仁勛回憶:當年沒錢讀碩士,是AMD資助的!付我薪水,還給我付錢上斯坦福!

黃仁勛回憶:當年沒錢讀碩士,是AMD資助的!付我薪水,還給我付錢上斯坦福!

大白聊IT
2026-06-11 22:20:56
爺爺和爸爸同一天離世,留下50萬元貸款,銀行將2歲的孫子告上法庭……

爺爺和爸爸同一天離世,留下50萬元貸款,銀行將2歲的孫子告上法庭……

大風新聞
2026-06-14 15:31:12
1-0,蘇格蘭守住3分,世界杯C組出線形勢亂了 巴西第三失去主動權

1-0,蘇格蘭守住3分,世界杯C組出線形勢亂了 巴西第三失去主動權

替補席看球
2026-06-14 11:07:11
炸裂!比爾·蓋茨自爆出軌20多次,一度被愛潑斯坦勒索

炸裂!比爾·蓋茨自爆出軌20多次,一度被愛潑斯坦勒索

新民周刊
2026-06-14 13:05:15
女子騎電動自行車闖紅燈撞半掛車受傷,擔全責起訴獲賠1.99萬,對方反訴索賠5493元被駁回

女子騎電動自行車闖紅燈撞半掛車受傷,擔全責起訴獲賠1.99萬,對方反訴索賠5493元被駁回

紅星新聞
2026-06-13 11:34:09
日媒:日本航空自衛隊將更名“航空宇宙自衛隊”

日媒:日本航空自衛隊將更名“航空宇宙自衛隊”

參考消息
2026-06-14 15:29:05
Jessica中國機場被臭到干嘔?當場急捂口鼻快閃,她解釋反遭轟

Jessica中國機場被臭到干嘔?當場急捂口鼻快閃,她解釋反遭轟

星野娛樂天地
2026-06-14 13:46:31
中國智享MPV世家憑實力引爆市場!將買車用車的價值都拉滿了

中國智享MPV世家憑實力引爆市場!將買車用車的價值都拉滿了

功夫AUTO
2026-06-13 15:29:26
文班亞馬在令人心碎的總決賽失利后向NBA傳遞了令人恐懼的信息

文班亞馬在令人心碎的總決賽失利后向NBA傳遞了令人恐懼的信息

夜白侃球
2026-06-14 13:40:42
河南省委書記:針對鄭州新密市一紙廠3名員工在制漿池清淤時窒息死亡事件,要嚴肅追責

河南省委書記:針對鄭州新密市一紙廠3名員工在制漿池清淤時窒息死亡事件,要嚴肅追責

上觀新聞
2026-06-14 09:06:34
16萬人口“小國”闖世界杯,陣中還有一位華裔球星

16萬人口“小國”闖世界杯,陣中還有一位華裔球星

瀟湘晨報
2026-06-14 17:34:16
美媒曾曝中國轟炸計劃:日本敢走錯半步,將被萬枚導彈雨包大餃子

美媒曾曝中國轟炸計劃:日本敢走錯半步,將被萬枚導彈雨包大餃子

龍隱天下
2026-06-12 13:36:23
科比老婆法國被偶遇,兩個小女兒都長得像科比,瓦妮莎瘦了很漂亮

科比老婆法國被偶遇,兩個小女兒都長得像科比,瓦妮莎瘦了很漂亮

麥芽是個小趴菜
2026-06-14 14:41:47
原諒林丹10年,謝杏芳定居西班牙夫妻分居,10歲兒子才是未來依靠

原諒林丹10年,謝杏芳定居西班牙夫妻分居,10歲兒子才是未來依靠

攬星河的筆記
2026-06-13 16:35:03
砍掉網紅“孤獨樹”,村民梁亞利:麥田被踩沒人賠,要保護莊稼

砍掉網紅“孤獨樹”,村民梁亞利:麥田被踩沒人賠,要保護莊稼

上觀新聞
2026-06-14 18:08:35
2026-06-14 20:24:49
科技行者 incentive-icons
科技行者
科技正在如何變革商業世界
8771文章數 565關注度
往期回顧 全部

科技要聞

Anthropic最強模型被禁,傳亞馬遜通風報信

頭條要聞

村民砍掉"孤獨樹":砍樹前一天跟紅裙女子發生沖突

頭條要聞

村民砍掉"孤獨樹":砍樹前一天跟紅裙女子發生沖突

體育要聞

8年8隊奪冠,鄧肯那句話,現在還給了馬刺

娛樂要聞

鄧超攜子觀戰NBA,等等帥氣十足

財經要聞

金價跌至900元關口,大媽又來抄底了!

汽車要聞

綜合續航超1600km/零百加速4秒級 2027款星途ES預售18.99萬起

態度原創

時尚
健康
旅游
家居
房產

伊姐周六熱推:電視劇《南部檔案》;電視劇《意外調查組》......

老人、小孩、孕婦,吃粽子有啥風險

旅游要聞

泮水雅集,夜醉明府城

家居要聞

空間微調 移形換境

房產要聞

海南最賺錢行業曝光!最快4年半,海口全款買三房!

無障礙瀏覽 進入關懷版