網易首頁 > 網易號 > 正文申請入駐

考試滿分，實戰卻“翻車”！《自然·醫學》刊文：AI醫療助手為何難以應用？

2026-02-18 12:08:21　來源: 大數據文摘

北京舉報

分享至

大數據文摘受權轉載自學術頭條

作者：王躍然

身體不適時，你首先會怎么做？

越來越多的人開始習慣向以 ChatGPT 為代表的 AI 助手尋求初步的健康分析與建議。這一趨勢背后存在切實依據：當前大語言模型（LLM）在醫學知識測評中「得分越來越高」，甚至能夠在專業醫師執照考試中達到或超越合格水平。

然而，一項來自牛津大學研究團隊及其合作者的最新研究，卻在《自然·醫學》（

Nature Medicine

）上給出了警示性的答案。

論文鏈接：https://www.nature.com/articles/s41591-025-04074-y

研究發現，盡管 LLM 在標準化醫學測試中表現優異，但在實際與公眾交互的應用場景里，其輔助效果卻大幅衰減，不僅未能顯著提升普通人的醫療決策質量，甚至不如傳統搜索引擎的效用。這一發現對當前 AI 醫療應用的有效性評估與系統設計提出了根本性的質疑。

醫療大模型在理論與應用的落差

為檢驗 LLM 在真實場景中的輔助能力，研究團隊設計了一項嚴謹的對照實驗。他們招募了 1298 名英國公眾作為參與者，要求每個人針對由醫生精心編寫的 10 個不同醫療場景，完成兩項核心任務：判斷病情嚴重程度，并選擇下一步應采取的行動。

圖｜三位醫生起草了十個醫療情景，通過反復修訂直至就最佳處置方案達成五分制共識（從自我護理到救護車）。

參與者被隨機分為四組：三個實驗組分別使用 GPT-4o、Llama 3 或 Command R+ 作為對話助手，通過聊天界面咨詢以幫助決策；一個對照組被要求使用他們通常在家庭環境中會采用的任何方法，如使用搜索引擎、查閱網站或依靠個人經驗。

圖｜研究團隊招募了 1298 名參與者，并隨機分配至四種實驗條件之一。每位參與者被隨機分配到十個醫療場景中的一個。治療組需與 LLM 對話以協助評估場景。對照組可自由使用任何方法，多數參與者采用網絡搜索或自身知識。

實驗結果揭示了令人驚訝的差距：

當研究團隊將完整的場景描述直接輸入 LLM，并要求其做出診斷和處置建議時，模型展現了強大的知識儲備。平均能正確識別出相關病癥的比例可達到 94.9%，對最佳處置方案的建議正確率也達到 56.3%，遠高于隨機猜測水平。

然而，當同樣的模型交到普通參與者手中，用于輔助其決策時，效果卻急轉直下。使用 LLM 的參與者，能夠識別出至少一個相關病癥的比例驟降至不足 34.5%，選擇正確處置方案的比例也低于 44.2%。更關鍵的是，他們的表現與使用搜索引擎的對照組相比，在統計上并無顯著優勢，甚至在識別關鍵病癥方面表現更差。

圖｜LLM 單獨使用與用戶協作的性能對比。a）當直接要求 LLM 單獨完成各項任務時的表現，上圖：LLM 識別相關條件的響應比例，下圖：LLM 正確識別最佳處置方案的響應比例；b）參與者在四種實驗條件下的表現，上圖：參與者識別相關條件的響應比例，下圖：參與者正確識別最佳處置方案的響應比例。

人機交互為何失效？

研究通過對交互記錄的深度分析，揭示了阻礙 AI 成為可靠醫療助手的核心癥結。

在真實的醫療場景中，醫生會通過專業問診主動引導，提取關鍵信息。但在人機對話中，這一過程出現了雙重失靈：缺乏醫學常識的普通人，往往不知道哪些癥狀是診斷的關鍵；而目前的 LLM 大多缺乏主動、系統性的問診能力，當用戶提供的信息不完整時，AI 往往基于有限的信息給出推測，便可能導致誤判。

AI 的回答方式也給用戶制造了巨大的認知障礙。研究數據顯示，LLM 在對話中平均會給出 2.21 種可能的疾病建議。對于沒有醫學背景的普通人來說，面對 AI 拋出的一系列專業名詞，他們很難分辨其中的輕重緩急。同時，AI 常常將正確回答與誤導性信息混雜在一起，用戶在篩選信息時往往力不從心，極易誤判病情。

更重要的是，目前的AI 安全測試存在嚴重局限。像 MedQA 這類基于醫學考題的測試，雖然能檢驗知識存儲，但其成績與模型在真實人機交互中的表現幾乎無關。采用另一個 AI 來模擬患者進行測試，雖然結果看起來更優，但其行為模式無法反映真實人類用戶的巨大變異性與復雜性。模擬測試的結果與真人實驗結果相關性極弱，無法作為可靠的安全預篩。

圖｜模型基準測試。

研究啟示與未來展望

這項研究不僅揭示了當前 LLM 在醫療應用中的短板，更為未來的 AI 醫療發展指明了方向。

研究有力地證明，LLM 在醫學考試中獲得高分，絕不意味著它們能在現實世界中成為合格的助手。單純依賴現有的基準測試來評估 AI 的安全性是遠遠不夠的，真實且多樣化的用戶測試在部署前必不可少。

要解決當前的“人機協作”困境，不能僅靠擴充模型的知識庫，未來的開發重點必須轉向提升 AI 的主動交互能力，像醫生一樣學會問診，主動收集關鍵信息，并以更易理解的方式呈現建議，降低非專業用戶的使用門檻。

對于公眾而言，必須清醒地認識到 LLM 目前的局限性。雖然它們能提供看似合理的建議，但在識別病情嚴重程度、判斷何時需要緊急救治方面，AI 依然存在風險，過度依賴 AI 可能會延誤治療。

展望未來，監管機構可借鑒此項研究的方法，建立以真實用戶交互效果為核心的新型評估框架。對于旨在提供醫療建議的 AI 系統，應要求其提供基于廣泛、多樣人群的實證有效性證據。LLMs 的理想角色應是提升健康素養的輔助工具，而非做出最終診斷的決策主體。任何情況下，對于急重癥狀，最安全的行動方案始終是直接聯系專業醫療人員或急救服務。

GPU 訓練特惠！

H100/H200 GPU算力按秒計費，平均節省開支30%以上！

掃碼了解詳情?

點「贊」的人都變好看了哦！

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.