![]()
這項由上海交通大學與上海人工智能實驗室聯合完成的研究,以預印本形式發布于2026年6月,論文編號為arXiv:2606.05112,感興趣的讀者可通過該編號在arXiv平臺查閱完整論文。
醫生這個職業,遠比"知道答案"復雜得多。當一位病人推開診室的門,醫生要做的事情是:先問清楚癥狀出現多久了,再根據回答決定做哪些檢查,等檢查結果出來之后再調整判斷,隨時準備應對病情的變化,還要用病人聽得懂的語言解釋清楚發生了什么。這是一場動態的對話,而不是一道選擇題。
偏偏目前絕大多數關于AI能不能當醫生的測試,都只是在讓AI做選擇題。研究人員會把一個醫學問題擺在AI面前,問它:這個病人最可能得的是什么病?然后看看AI的答案對不對。如果只用這種方式來判斷AI的醫學水平,那得到的結論就像是——一個能把菜譜背得滾瓜爛熟的人,廚藝一定很好。但實際上,背菜譜和炒出一道好菜,完全是兩回事。
正是為了戳破這個泡沫,上海交通大學的研究團隊搭建了一套全新的考核體系,名叫MedSP1000。他們把這套系統想象成醫學院里一種經典的考試方式——標準化病人測試。
一、醫學院里那種讓學生膽戰心驚的考試
在真實的醫學教育中,要測驗一個醫學生的臨床能力,光靠筆試是不夠的。于是醫學院發明了一種叫做"標準化病人"的考核方式,英文縮寫SP。做法是:找一些經過專業訓練的人,讓他們扮演病人,按照固定的劇本來表演癥狀、回答問題。醫學生要跟這位"演員病人"進行真實的對話,問病史、做檢查、下判斷、給方案。全程有考官在旁邊拿著一份細致的評分表,記錄醫學生在每一個環節上做了什么、漏掉了什么、順序對不對。
這種考試有個正式的名字,叫做客觀結構化臨床考試,也就是OSCE。它之所以被世界各地的醫學院廣泛使用,是因為它能考出那些筆試永遠考不到的東西——比如你問問題的順序合不合理、你有沒有在該解釋的時候對病人解釋清楚、你有沒有在關鍵時刻做出正確的緊急處置。
研究團隊意識到,這套體系天然適合用來考核AI。于是他們從MedEdPORTAL上下載了大量素材。MedEdPORTAL是美國醫學院協會旗下的一個開放平臺,上面存放著由醫學教育者編寫、經過同行審查的教學材料,其中就包括大量的標準化病人案例。這些案例原本是給醫學生練手用的,配有完整的病人劇本、考核評分表、臨床進展描述,質量有保障,覆蓋面也極廣。
研究團隊從1073篇文章出發,經過篩選和處理,最終構建出了包含1638個可交互場景的評測數據集,總共提煉出24602條評分條目。這些場景橫跨17個臨床科室,從急診科到兒科,從婦產科到精神科,從麻醉科到腫瘤科,可以說把醫院里的大部分場景都囊括其中了。他們把這個數據集命名為MedSP1000。
二、把一份教學材料變成一場真實模擬的工程
原始的教學材料是五花八門的文件格式,有PDF、有Word文檔、有PPT,內容也是混在一起的,病人的劇本、考官的評分表、教學目標統統塞在一起。要把這些材料變成能讓AI真正"上場考試"的東西,需要大量的工程工作。
研究團隊開發了一條三階段的處理流水線。第一步是把所有文件統一轉成Markdown格式,就像把各種方言翻譯成同一種標準語言,方便后續處理。第二步是最關鍵的:把每個場景的材料拆分成四份,分別交給四個不同的"角色"。第一份給AI醫生,只包含病人剛來時的基本情況和主訴,不能包含任何答案或提示;第二份給扮演病人的AI,包含完整的病人劇本;第三份給環境控制器,包含化驗結果、影像報告、病情進展的規則;第四份給評分系統,包含完整的評分標準。第三步是一個自我檢查環節,讓系統回頭審查有沒有把不該給AI醫生看的信息混進了它的材料包里。
這個拆分過程有兩條鐵律:第一,絕對不能信息泄露,AI醫生絕不能提前看到它本來需要通過問診和檢查才能獲得的信息;第二,絕對忠于原文,不能往材料里加任何原本沒有的內容,包括化驗數值、診斷結論、治療方案,全部必須來自原始教學材料。
為了確保這套構建流程的質量,研究團隊專門邀請了12位臨床醫生參與驗證。這些醫生來自上海交通大學附屬的多家醫院,平均有8年的醫學培訓經歷。他們對100個自動構建的場景進行了人工審查,每個場景由兩位醫生獨立評分,從文件理解準確性、輸出結構完整性、臨床內容忠實度、模擬可行性四個維度打分,滿分5分。最終四個維度的平均分分別是4.66、4.85、4.80和4.81,兩位評分者之間的分歧平均只有0.41分,說明構建質量得到了臨床專業人員的認可。
三、考試現場:三個AI角色同臺運轉
考試的運行方式是這樣的:AI醫生被放進一個封閉的場景里,它首先收到的只是一張"情境初始化卡",里面寫著它扮演的角色是誰、身處什么科室、病人主訴是什么。接下來,AI醫生要跟兩個模擬系統展開對話。
一個是病人AI,它按照劇本扮演病人,回答AI醫生提出的問題,比如描述癥狀、提供既往病史。另一個是環境控制器,負責處理非對話類的醫療行為。當AI醫生說"我要給病人查一個血常規",環境控制器就會根據材料包里預先規定的內容,返回相應的化驗結果。如果AI醫生要求的檢查在原始材料中沒有對應的結果,環境控制器不會編造數據,而是標注為"不支持"。
整個場景被劃分為若干個臨床狀態節點。AI醫生在當前狀態完成了它認為該做的事情之后,發出一個"結束當前狀態"的信號,環境控制器就會判斷是否應該推進到下一個狀態。比如,初始評估完成之后,可能進入病情惡化階段;手術干預之后,可能進入術后監測階段。如果原始材料描述了下一個狀態,就繼續;如果沒有,考試結束。
等整個交互流程結束,評分AI登場。它拿到完整的對話記錄,對照24602條評分條目,逐一判斷AI醫生在整個過程中有沒有完成每一條要求。評分結果是二值的:完成或未完成。
評分維度來自美國畢業后醫學教育認證委員會(ACGME)定義的六項核心能力,分別是:病人照護、醫學知識、系統性實踐、人際溝通能力、基于實踐的學習與改進、以及職業素養。研究團隊的核心評估指標是"評分條目完成率",即AI醫生在一場考試中完成了多少比例的評分條目。
四、成績揭曉:最強模型也只答對六成
研究團隊把七個代表性的大語言模型都送進了這套考試系統。這七個模型分成三類:一類是頂級的閉源商業模型,包括GPT-5.5、Claude-Opus-4.7和Gemini-3.1-Pro;一類是開源的通用大模型,包括DeepSeek-V4-Pro和Qwen-3.5;還有一類是專門針對醫療領域進行過專項訓練的醫療專用模型,包括MedGemma和Baichuan-M3。
成績出來之后,研究團隊發現了兩件令人意外的事情。
第一件:即便是最強的模型,成績也遠稱不上優秀。GPT-5.5以60.4%的完成率拿到了第一名,這意味著即使是當前最先進的AI,在面對這套模擬醫療考試時,仍然有將近四成的評分條目沒能完成。Claude-Opus-4.7以57.4%緊隨其后,Gemini-3.1-Pro得到54.7%,DeepSeek-V4-Pro是56.6%,Qwen-3.5是51.5%。
第二件,也是更讓人吃驚的:專門為醫療領域定制的模型,成績反而是墊底的。MedGemma只完成了39.5%,Baichuan-M3也只有40.0%。這兩個醫療專用模型比最弱的通用模型Qwen-3.5還低了超過11個百分點,比GPT-5.5更是低了整整20個百分點以上。
這兩個發現合在一起,說明的是同一件事:現有的AI,無論是通用的還是醫療專用的,在需要動態決策的真實臨床交互中,都還遠遠沒有達到可以獨立作業的水平。那些在標準醫學問答測試上得分很高的AI,在這套考試面前暴露了它們真實的短板。
五、六項能力各有強弱,有一項幾乎全軍覆沒
把成績按照六項核心能力拆開來看,會發現一個穩定的規律:所有模型在這六項能力上的排名幾乎是一樣的。
病人照護和職業素養是相對最強的兩個維度。醫學知識、系統性實踐和人際溝通居中。而"基于實踐的學習與改進"這一項,是所有模型的共同軟肋,沒有任何一個模型在這個維度上的完成率超過30%,兩個醫療專用模型甚至低于20%。
這個維度考核的是什么?簡單來說,是自我反思、識別錯誤、承認自己知識邊界的能力。在臨床上,這意味著醫生要在恰當的時候說"這件事我不確定,需要查一下"或者"我之前的判斷可能有誤,需要重新評估"。這類行為對AI來說特別難觸發,因為當前的AI訓練方式主要鼓勵模型給出明確的答案,而不是主動承認不確定性。
從科室維度來看,急診科、內科、外科和重癥科的完成率相對較高,平均在60%上下;而全科醫學、老年醫學和婦產科則明顯偏低,平均在52%以下。研究團隊的解釋是:急診和外科有更明確的操作流程,AI比較容易按圖索驥;而全科醫學和老年醫學需要同時整合多個系統的信息、處理復雜的社會心理因素,這種綜合性更高的場景對AI來說更困難。
六、更多算力不等于更好表現
研究團隊還做了一個額外的測試:既然GPT-5.5是最強的,那如果給它更多計算資源,讓它用更復雜的策略來回答,能不能進一步提升成績?他們在100個人工驗證過的場景上做了這個實驗。
第一種策略叫"最優N選取":讓GPT-5.5把同一個場景獨立運行5次,然后把5次運行中在每個決策點上出現最多次的選擇作為最終答案,類似于讓5個醫生獨立會診然后投票表決。第二種策略叫"多學科團隊會診":讓GPT-5.5同時扮演5個不同專科的醫生,5個虛擬專家獨立發表意見之后,再由一個綜合角色匯總做出最終決定,模擬真實醫院里的多學科會診。
結果卻讓人有些沮喪。單次直接回答的完成率是67.1%,"最優5選取"的完成率是67.8%,"多學科團隊"的完成率是68.0%。三者之間的差距連1個百分點都不到,在統計意義上無法區分。多花了5倍的計算資源,基本上什么都沒改變。
更有意思的是,當研究團隊把成績拆開到六個維度來看,"多學科團隊"在人際溝通這一項上確實有所提升,從0.57升到了0.61。但在其他維度上,這個策略的表現反而普遍比單次直接回答要差。研究團隊認為,多個AI專家同時討論時,系統更容易產生過度自信,在還沒有收集足夠信息的情況下就急著結束會診。
在第三個案例研究里,研究團隊詳細記錄了一個讓人哭笑不得的失敗案例:一個2歲孩子因為意識狀態改變被送進兒科重癥監護室。在模擬的第7輪交互中,五個虛擬專科醫生里有三個(神經科、血液腫瘤科、神經外科)投票認為孩子已經穩定,可以結束考試;另外兩個(急診科和重癥科)堅持認為基本的復蘇操作還沒完成,不應該結束。最終3比2多數票勝出,系統提前結束了考試。于是,液體復蘇、床旁血糖、靜脈血氣、納洛酮這些兩位持異議的虛擬醫生明確點名要求的基礎處置全都沒有完成,統統被計為"未達成"。這個案例清晰地展示了多代理協作機制本身可能制造新的失敗。
七、兩個典型失敗案例的細節
研究團隊還提供了另外兩個詳細的案例研究,讓我們能看清楚AI在哪里失手。
第一個是急性缺血性卒中的處理。GPT-5.5在這個場景里的表現相當不錯:它在規定時間內完成了初步評估,確認了癥狀出現到就診的時間窗口,做了手指末梢血糖檢測,開了合適的化驗和影像,進行了神經功能評分,最終在正確的條件下決定使用溶栓藥物。25條評分條目里,它完成了23條。
漏掉的兩條是什么?第一,指南規定在收縮壓高于185時應該先靜脈注射10毫克拉貝洛爾(一種降壓藥),但AI醫生給的是20毫克;第二,在開始溶栓之前,AI醫生沒有明確向家屬解釋治療的風險、獲益和替代方案。這兩條都發生在AI醫生總體處置正確的框架之內,是更精細的"規程執行層面"的失誤,而這恰恰是那種只問"診斷對不對"的測試永遠無法發現的錯誤。
第二個是產前營養咨詢案例。一位早孕期的孕婦(在案例里叫麗薩)來咨詢飲食問題,因為她家里有吃野生鱒魚的習慣,可能存在汞暴露風險。GPT-5.5在收集信息方面表現得相當認真:它把開放式的飲食問題轉化為量化追問,精確地問出了她吃哪種罐頭金槍魚、每周幾次、旗魚和橙連魚多久吃一次、自己釣的鱒魚多大份量。這些信息都收集到了,滿分5條的病人照護維度得了3條,人際溝通滿分7條只得了2條。
漏掉了什么?它沒有說出每周推薦的安全魚類攝入量是多少份;沒有解釋烹飪方式會影響污染物的暴露程度;沒有提及攝入適量魚類對心血管的保護證據;最關鍵的是,當病人問"那罐頭金槍魚每周能吃幾罐算'適量'?"和"怎么查我們釣魚的那條河有沒有魚類安全預警?"這兩個非常具體的問題時,AI醫生沒有給出回答就結束了會診。它把信息收集得非常全,但在需要把信息轉化為具體可操作建議的時刻,它停下來了。
八、醫療專用AI為何反而不如通用AI
這個發現需要單獨解釋一下,因為它違反了很多人的直覺。
醫療專用模型在醫學選擇題上的表現通常是很強的,它們經過了大量醫學文獻和醫學問答數據的專項訓練。但這種訓練方式有一個副作用:它讓模型過度適應了"短文本輸入、標準答案輸出"這種格式。當考試變成了需要主動追問、主動行動、在多輪對話中逐步推進的動態場景,這種過度適配就變成了累贅。
與此同時,醫療專用模型的上下文窗口通常比通用模型小得多。Baichuan-M3的最大上下文窗口是41000個詞,MedGemma是128000個詞,而四個通用大模型的上下文窗口都達到了100萬詞。在MedSP1000的模擬場景中,最長的交互記錄會達到大約40000個詞,這恰好是Baichuan-M3的極限。研究團隊在數據中觀察到:當交互記錄接近這個上限時,Baichuan-M3的完成率確實出現了明顯下滑,說明它開始"記不住"早期交互中的信息了。
而通用大模型的優勢,不只是更大的上下文,還包括更強的指令跟隨能力和更豐富的通用知識基礎。在醫療AI的開發上,這個研究提供了一個明確的信號:單純堆砌醫學知識是不夠的,能否在多輪復雜交互中持續推理和行動,同樣至關重要。
歸根結底,這項研究說的是:我們之前在AI醫療能力上的樂觀估計,很可能建立在一套不夠嚴格的考試體系之上。當考試方式從"問答題"升級為"情景模擬",當評分從只看最終答案升級為全程追蹤行為過程,當前最強的AI也只能答對六成。而那些最擅長醫學選擇題的醫療專用AI,在這場更像真實臨床的考試中,反而跌到了最后一名。
對于普通人來說,這意味著什么?短期內,AI作為輔助工具、作為幫助醫生查閱資料或整理信息的助手,已經有相當的價值。但如果有人告訴你某個AI的醫學水平超過了人類醫生,值得更審慎地追問:這個結論是通過什么樣的測試得到的?是選擇題,還是這種更接近真實臨床的動態模擬?
有興趣深入了解這套評測體系的讀者,可以通過arXiv編號2606.05112查閱完整論文,數據集本身也已公開發布在Hugging Face平臺上,代碼則開源在GitHub的MAGIC-AI4Med/MedSP1000倉庫中。
Q&A
Q1:MedSP1000測試和普通醫學AI測試有什么區別?
A:普通醫學AI測試通常是單輪問答,給AI一道題看它答對沒有。MedSP1000則是多輪動態模擬,讓AI扮演醫生跟虛擬病人對話,要主動問診、開檢查、判斷病情、給處置,全程評分,考的是整個過程而不只是最終答案,更接近真實臨床場景。
Q2:為什么專門針對醫療訓練的AI在MedSP1000上反而得分更低?
A:主要有兩個原因。一是醫療專用模型大多在"醫學問答"類數據上訓練,過度適應了短文本、給標準答案的模式,面對需要多輪推理和主動決策的動態場景就不擅長了。二是這類模型的上下文窗口通常比通用大模型小很多,在長交互過程中容易"忘記"早期信息。
Q3:測試中表現最差的臨床能力維度是哪個,為什么AI很難做好?
A:所有模型在"基于實踐的學習與改進"這個維度上表現最差,沒有任何模型超過30%。這個維度考的是自我反思、識別錯誤、主動承認知識邊界的能力。當前AI的訓練目標主要是給出明確答案,而不是主動說"我不確定"或"我可能判斷有誤",所以這類行為很難被觸發。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.