網易首頁 > 網易號 > 正文 申請入駐

考試滿分,實戰卻“翻車”!《自然·醫學》刊文:AI醫療助手為何難以應用?

0
分享至

大數據文摘受權轉載自學術頭條

作者:王躍然

身體不適時,你首先會怎么做?

越來越多的人開始習慣向以 ChatGPT 為代表的 AI 助手尋求初步的健康分析與建議。這一趨勢背后存在切實依據:當前大語言模型(LLM)在醫學知識測評中「得分越來越高」,甚至能夠在專業醫師執照考試中達到或超越合格水平。

然而,一項來自牛津大學研究團隊及其合作者的最新研究,卻在《自然·醫學》(

Nature Medicine
)上給出了警示性的答案。


論文鏈接:https://www.nature.com/articles/s41591-025-04074-y

研究發現,盡管 LLM 在標準化醫學測試中表現優異,但在實際與公眾交互的應用場景里,其輔助效果卻大幅衰減,不僅未能顯著提升普通人的醫療決策質量,甚至不如傳統搜索引擎的效用。這一發現對當前 AI 醫療應用的有效性評估與系統設計提出了根本性的質疑。

醫療大模型在理論與應用的落差

為檢驗 LLM 在真實場景中的輔助能力,研究團隊設計了一項嚴謹的對照實驗。他們招募了 1298 名英國公眾作為參與者,要求每個人針對由醫生精心編寫的 10 個不同醫療場景,完成兩項核心任務:判斷病情嚴重程度,并選擇下一步應采取的行動。


圖|三位醫生起草了十個醫療情景,通過反復修訂直至就最佳處置方案達成五分制共識(從自我護理到救護車)。

參與者被隨機分為四組:三個實驗組分別使用 GPT-4o、Llama 3 或 Command R+ 作為對話助手,通過聊天界面咨詢以幫助決策;一個對照組被要求使用他們通常在家庭環境中會采用的任何方法,如使用搜索引擎、查閱網站或依靠個人經驗。


圖|研究團隊招募了 1298 名參與者,并隨機分配至四種實驗條件之一。每位參與者被隨機分配到十個醫療場景中的一個。治療組需與 LLM 對話以協助評估場景。對照組可自由使用任何方法,多數參與者采用網絡搜索或自身知識。

實驗結果揭示了令人驚訝的差距:

當研究團隊將完整的場景描述直接輸入 LLM,并要求其做出診斷和處置建議時,模型展現了強大的知識儲備。平均能正確識別出相關病癥的比例可達到 94.9%,對最佳處置方案的建議正確率也達到 56.3%,遠高于隨機猜測水平。

然而,當同樣的模型交到普通參與者手中,用于輔助其決策時,效果卻急轉直下。使用 LLM 的參與者,能夠識別出至少一個相關病癥的比例驟降至不足 34.5%,選擇正確處置方案的比例也低于 44.2%。更關鍵的是,他們的表現與使用搜索引擎的對照組相比,在統計上并無顯著優勢,甚至在識別關鍵病癥方面表現更差。


圖|LLM 單獨使用與用戶協作的性能對比。a)當直接要求 LLM 單獨完成各項任務時的表現,上圖:LLM 識別相關條件的響應比例,下圖:LLM 正確識別最佳處置方案的響應比例;b)參與者在四種實驗條件下的表現,上圖:參與者識別相關條件的響應比例,下圖:參與者正確識別最佳處置方案的響應比例。

人機交互為何失效?

研究通過對交互記錄的深度分析,揭示了阻礙 AI 成為可靠醫療助手的核心癥結。

在真實的醫療場景中,醫生會通過專業問診主動引導,提取關鍵信息。但在人機對話中,這一過程出現了雙重失靈:缺乏醫學常識的普通人,往往不知道哪些癥狀是診斷的關鍵;而目前的 LLM 大多缺乏主動、系統性的問診能力,當用戶提供的信息不完整時,AI 往往基于有限的信息給出推測,便可能導致誤判。

AI 的回答方式也給用戶制造了巨大的認知障礙。研究數據顯示,LLM 在對話中平均會給出 2.21 種可能的疾病建議。對于沒有醫學背景的普通人來說,面對 AI 拋出的一系列專業名詞,他們很難分辨其中的輕重緩急。同時,AI 常常將正確回答與誤導性信息混雜在一起,用戶在篩選信息時往往力不從心,極易誤判病情。

更重要的是,目前的AI 安全測試存在嚴重局限。像 MedQA 這類基于醫學考題的測試,雖然能檢驗知識存儲,但其成績與模型在真實人機交互中的表現幾乎無關。采用另一個 AI 來模擬患者進行測試,雖然結果看起來更優,但其行為模式無法反映真實人類用戶的巨大變異性與復雜性。模擬測試的結果與真人實驗結果相關性極弱,無法作為可靠的安全預篩。


圖|模型基準測試。

研究啟示與未來展望

這項研究不僅揭示了當前 LLM 在醫療應用中的短板,更為未來的 AI 醫療發展指明了方向。

研究有力地證明,LLM 在醫學考試中獲得高分,絕不意味著它們能在現實世界中成為合格的助手。單純依賴現有的基準測試來評估 AI 的安全性是遠遠不夠的,真實且多樣化的用戶測試在部署前必不可少。

要解決當前的“人機協作”困境,不能僅靠擴充模型的知識庫,未來的開發重點必須轉向提升 AI 的主動交互能力,像醫生一樣學會問診,主動收集關鍵信息,并以更易理解的方式呈現建議,降低非專業用戶的使用門檻。

對于公眾而言,必須清醒地認識到 LLM 目前的局限性。雖然它們能提供看似合理的建議,但在識別病情嚴重程度、判斷何時需要緊急救治方面,AI 依然存在風險,過度依賴 AI 可能會延誤治療。

展望未來,監管機構可借鑒此項研究的方法,建立以真實用戶交互效果為核心的新型評估框架。對于旨在提供醫療建議的 AI 系統,應要求其提供基于廣泛、多樣人群的實證有效性證據。LLMs 的理想角色應是提升健康素養的輔助工具,而非做出最終診斷的決策主體。任何情況下,對于急重癥狀,最安全的行動方案始終是直接聯系專業醫療人員或急救服務。

GPU 訓練特惠!

H100/H200 GPU算力按秒計費,平均節省開支30%以上!

掃碼了解詳情?

點「贊」的人都變好看了哦!

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
7輪0球0助攻 國足希望之星狀態斷崖式下滑 恐遭申花國足雙線棄用

7輪0球0助攻 國足希望之星狀態斷崖式下滑 恐遭申花國足雙線棄用

零度眼看球
2026-04-23 06:48:45
高市早苗如此挑釁中國,離不開兩名中國敗類的影響和出謀劃策!

高市早苗如此挑釁中國,離不開兩名中國敗類的影響和出謀劃策!

阿胡
2025-12-26 13:24:43
老了才明白:父母一旦超過80歲,立刻停止幾種行為,否則晚景凄涼

老了才明白:父母一旦超過80歲,立刻停止幾種行為,否則晚景凄涼

荊醫生科普
2026-04-23 15:04:02
周美青曝馬英九真實狀況,蕭旭岑清白有保證了,邱毅解密事件真相

周美青曝馬英九真實狀況,蕭旭岑清白有保證了,邱毅解密事件真相

蘭妮搞笑分享
2026-04-23 18:25:12
普京終于動真格了,俄軍發動大規模轟炸,烏軍高層或遭慘重傷亡!

普京終于動真格了,俄軍發動大規模轟炸,烏軍高層或遭慘重傷亡!

漫步獨行俠
2026-04-23 08:49:10
伊朗外交部:談判重心已從核問題轉為徹底停戰

伊朗外交部:談判重心已從核問題轉為徹底停戰

財聯社
2026-04-24 02:33:07
張敬軒落實出演兩場英皇演唱會!感激粉絲包容與忍耐

張敬軒落實出演兩場英皇演唱會!感激粉絲包容與忍耐

TVB資訊臺
2026-04-23 21:31:49
太慘了!燃油車再迎大降價:最大跌幅50%,豪華車帶頭“跳水”

太慘了!燃油車再迎大降價:最大跌幅50%,豪華車帶頭“跳水”

沙雕小琳琳
2026-04-23 02:29:16
別再尬演“萬人迷”!滿臉褶子疙瘩、鼻孔朝天,這皮囊能迷倒誰?

別再尬演“萬人迷”!滿臉褶子疙瘩、鼻孔朝天,這皮囊能迷倒誰?

雨月海星
2026-04-18 05:25:40
奧沙利文換桿如換衣,50歲還敢賭

奧沙利文換桿如換衣,50歲還敢賭

競技風云錄
2026-04-23 01:56:57
印媒關注:美以伊沖突期間,中國經濟增速為何不降反升?

印媒關注:美以伊沖突期間,中國經濟增速為何不降反升?

中國網
2026-04-23 13:20:12
一個消息震動中東,阿聯酋突然爆出大數字,美以這下捅了馬蜂窩

一個消息震動中東,阿聯酋突然爆出大數字,美以這下捅了馬蜂窩

流史歲月
2026-04-22 10:18:10
即將沖上28℃!升溫后這幾天還有雨雨雨→

即將沖上28℃!升溫后這幾天還有雨雨雨→

上觀新聞
2026-04-23 18:49:10
CBA最新動態!廣東男籃vs福建男籃,賽前帶來廣東男籃徐杰、胡明軒、拉科塞維奇以及福建男籃最新消息

CBA最新動態!廣東男籃vs福建男籃,賽前帶來廣東男籃徐杰、胡明軒、拉科塞維奇以及福建男籃最新消息

凱豐侃球
2026-04-24 00:17:24
中國最經典的10篇古文,值得一讀再讀

中國最經典的10篇古文,值得一讀再讀

尚曦讀史
2025-11-25 09:16:09
窗戶紙捅破,生死局開啟?日本商界急得團團轉,對華提出一個請求

窗戶紙捅破,生死局開啟?日本商界急得團團轉,對華提出一個請求

歸史
2026-04-22 20:37:52
如果一個家庭長期沒酒局、沒社交,也少走親戚,只能說明一個問題

如果一個家庭長期沒酒局、沒社交,也少走親戚,只能說明一個問題

大熊歡樂坊
2026-04-19 12:07:22
美特使:已向特朗普提議意大利取代伊朗參加世界杯

美特使:已向特朗普提議意大利取代伊朗參加世界杯

體壇周報
2026-04-23 09:51:15
臺灣女歌手40歲離世!自己定墓園和壽衣,3200萬遺產全給姐姐

臺灣女歌手40歲離世!自己定墓園和壽衣,3200萬遺產全給姐姐

她時尚丫
2026-04-23 21:59:18
日本在“失去的30年”經濟低迷下,為何能維持98%以上的就業率?

日本在“失去的30年”經濟低迷下,為何能維持98%以上的就業率?

西樓知趣雜談
2026-04-11 10:28:55
2026-04-24 04:00:49
大數據文摘 incentive-icons
大數據文摘
專注大數據,每日有分享!
6852文章數 94541關注度
往期回顧 全部

科技要聞

馬斯克喊出"史上最大產品",但量產難預測

頭條要聞

以色列:只要美國同意 將刺殺伊朗最高領袖

頭條要聞

以色列:只要美國同意 將刺殺伊朗最高領袖

體育要聞

給文班剃頭的馬刺DJ,成為NBA最佳第六人

娛樂要聞

王大陸因涉黑討債被判 女友也一同獲刑

財經要聞

普華永道賠償10億 恒大股東見到"回頭錢"

汽車要聞

預售30.29萬起 嵐圖泰山X8配896線激光雷達

態度原創

旅游
藝術
教育
健康
公開課

旅游要聞

來廣州,分享10億元“中國旅游日”專屬優惠福利

藝術要聞

吉達塔蓋到第100層,“它是沙特唯一能按期完成的大項目”

教育要聞

推薦一款高考志愿卡,五大功能助你解決志愿疑難

干細胞如何讓燒燙傷皮膚"再生"?

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版