網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

當大模型面對“不完整的信息”：為何通用AI目前難以撼動臨床推理的基石

2026-04-16 13:05:01　來源: 急診夜鷹

廣東舉報

分享至

先說結論，在醫(yī)療這類專業(yè)領域，診斷還得靠醫(yī)生，或者找專業(yè)的AI尋求幫助。

作為一位長期耕耘于臨床推理教學領域的教師，我時常被年輕醫(yī)生和醫(yī)學生問：“老師，AI診斷這么準，我們未來會被取代嗎？”

近期發(fā)表在《JAMA Network Open》上由哈佛大學醫(yī)學院等團隊完成的研究，為我們提供了極具價值的冷靜思考素材。

這項研究測試了Cha tGPT、Gemini、DeepSeek等21款主流通用大模型，深入剖析了它們在臨床推理過程中的表現(xiàn)。作為一名教學者，我讀罷全文，最深的感觸反而是對人類臨床推理起始環(huán)節(jié)價值的再確認。

該研究顯示，當病例所有信息（包括化驗單、影像結果）輸入完畢后，模型得出最終正確診斷的概率超過90%。

這個數(shù)據(jù)無疑令人印象深刻，從這個維度上說，AI真的會超越很多醫(yī)生。然而，當視線聚焦于鑒別診斷的形成階段時，尤其是早期推理步驟，所有通用大模型的表現(xiàn)都堪稱“災難”——在80%以上的病例中，通用AI未能提出合適的鑒別診斷列表。

這一矛盾的現(xiàn)象，恰恰揭示了當前通用AI在醫(yī)學應用中的核心軟肋：擅長在確定性的、完整的數(shù)據(jù)集中尋找答案，卻難以在不確定的、開放的臨床迷霧中構建問題列表。

通用大模型為何在此折戟？原因在于它們處理的是“字面信息”，而人類醫(yī)生處理的是“語境信息”與“感知信息”。

第一，信息獲取的被動性與主觀性陷阱。AI必須依賴人類輸入的文本。
當患者說“我胸口痛”，人類醫(yī)生會通過眼神觀察、語氣感知、肢體語言解讀，在腦海里自動過濾出這是“瀕死感的壓榨感”還是“一閃而過的刺痛”。這種基于非語言線索的信度評估，是大模型無法跨越的物理屏障。通用AI可能會將“胸痛”機械地關聯(lián)到心絞痛、胃食管反流甚至焦慮癥，而經驗豐富的醫(yī)生在觸摸到患者濕冷皮膚的瞬間，鑒別診斷的優(yōu)先級就已悄然浮現(xiàn)。

第二，體格檢查的數(shù)據(jù)閉環(huán)缺失。
臨床推理并非線性的“病史采集-體格檢查-診斷”單向推進，而是一個不斷假設-驗證-再假設的循環(huán)。醫(yī)生的雙手在腹部觸診時感受到的壓痛反跳痛，聽診器在肺部下捕捉到的細濕啰音，這些動態(tài)反饋會實時修正大腦中的貝葉斯概率模型。

而通用大模型無法像人類醫(yī)生那樣，在叩診發(fā)現(xiàn)移動性濁音后，立刻調整思路去追問飲酒史。這種動態(tài)交互式推理能力的匱乏，導致通用大模型生成的鑒別診斷列表往往是基于癥狀引申的教科書式的羅列，而非基于特定患者畫像的精準刻畫。

第三，診斷檢查的“效費比”失控風險。
正如您所擔心的，鑒別診斷的拉胯會直接導致后續(xù)檢查的針對性喪失。在教學中，我們強調“最小侵入、最大獲益”的高價值醫(yī)療原則。若通用AI無法將鑒別范圍從廣泛的“腹痛待查”收斂至“急性胰腺炎或十二指腸穿孔”，它開具的檢查清單就會趨于寬泛——CT平掃加增強、全套腫瘤標志物、甚至不必要的內鏡。

該研究結論也為臨床教學提供了極佳的佐證：AI的強大在于處理“已知的未知”，而醫(yī)生的核心價值在于探索“未知的未知”。

因此，對于普通人而言，使用通用AI進行咨詢確有其便利性，但它更像是一個索引工具而非決策工具。

用戶輸入癥狀，AI反饋可能的方向和就醫(yī)建議，這有助于提高疾病認知與健康管理素養(yǎng)，但不能替代醫(yī)生的臨床思維。

有意思的是，該研究也為我們審視國內的AI健康應用提供了參照。

通用大模型在“鑒別診斷”上的乏力，很大程度上源于信息輸入環(huán)節(jié)的被動與粗糙。而像螞蟻阿福這類深耕垂直領域的AI應用，恰恰在設計邏輯上嘗試彌補這一短板。

一方面，它試圖在交互中逼近“主動追問”的醫(yī)生思維。根據(jù)其公開的技術資料，阿福的“AI診室”基于多輪問答技術，并非被動等待用戶扔來一句話，而是會像實習醫(yī)生采集病史那樣，根據(jù)癥狀描述進行多維度追問。例如用戶說頭痛，它會追問部位、性質、持續(xù)時間及伴隨癥狀。

這種結構化的引導式問診，雖然仍無法替代體格檢查的視觸叩聽，但在一定程度上改善了通用大模型僅憑“字面意思”盲目推理的缺陷，將模糊的主觀不適轉化為相對清晰的鑒別診斷要素。對于缺乏醫(yī)學常識的普通大眾而言，這無疑降低了誤判的風險。

另一方面，它展現(xiàn)了垂直模型在“數(shù)據(jù)對齊”上的優(yōu)勢。阿福能打通主流智能穿戴設備數(shù)據(jù)，并解讀體檢報告。這意味著它在面對個體時，掌握的不僅是當下的主訴，還有連續(xù)的血壓趨勢、血糖波動、既往病史背景。當信息維度從單一的文本指令擴展為多維度的健康檔案時，AI推理的基石才會穩(wěn)固一些。

比如，同樣是咳嗽，結合了用戶健康檔案中的“過敏性鼻炎史”與單純的文字提問，AI給出的分析方向會更具針對性。甚至在其輔助基層村醫(yī)的實踐中，當村醫(yī)面對復雜病情“沒有頭緒”時，這類垂直AI能成為增強基層診療力量的某種延伸。

作為臨床教師，我也在思考我的教學，臨床教師的責任不再是教學生如何記住AI也能背出的知識點，而是教會他們如何在信息不全、證據(jù)矛盾時，精準補充采集信息，敏銳地構建假設，針對性選擇檢查檢驗手段，同時總是給予患者以心靈安慰。

AI終將成為聽診器、X線等劃時代診療手段之后的又一個重要工具，無論是通用大模型還是垂直健康助手，它們最大的價值在于讓醫(yī)生從繁雜的信息檢索和文書工作中抽身，從而更專注于床邊那個獨一無二的人。

它越是強大，人類醫(yī)生那充滿人文洞察與邏輯跳躍的推理藝術，便越是彌足珍貴。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.