網易首頁 > 網易號 > 正文申請入駐

AI診斷真實病例準確率超醫生，哈佛稱醫學評估標準或應重新改寫

2026-05-04 19:28:16　來源: DeepTech深科技

河南舉報

分享至

隨著能力的提升，AI 在某個醫療基準數據集上獲得 SOTA 已不足為奇。但現在，研究人員證明 AI 在真實病例場景下表現出與醫生相當或更高的準確率。這意味著，AI 不是在訓練過的場景下背誦標準答案，而是在臨床實戰中給出診斷推理。

近日，哈佛醫學院、斯坦福大學等研究團隊在 Science 發布了一項迄今最大規模 AI 醫療對比研究[1]，并首次用真實的患者病歷來檢驗 AI 的推理能力，真實場景意味著可能存在病歷混亂、信息不全的情況。

研究人員讓 OpenAI 的 o1 模型與幾百名醫生在六種不同場景中進行診斷比對。結果表明，AI 在多項臨床推理任務中的準確率與醫生持平甚至更高，包括急診決策、診斷以及為患者制定下一步的治療方案。

該研究結果預示著一個重要的轉折點：隨著模型能力越來越強，傳統的醫學評估基準和人工設計的測試案例可能正面臨失效�！斑^去可用多項選擇題來評估模型的能力，現在它們的得分已長期接近 100%，對于進一步追蹤進展并無太大意義�！痹撜撐墓餐谝蛔髡�、哈佛醫學院研究員 Peter Brodeur 說。

研究人員強調，AI 或許能給出更準確的的文本建議、避免一些不必要的檢查，以及減少漏診和誤診，但并不意味著 AI 已經能夠獨立行醫，特別是在生死悠關的急診情景。并且，醫生在處理影像、聽診、面部表情等方面具有不可替代的優勢。研究團隊還呼吁，需盡早開展前瞻性試驗，以在真實的患者護理環境中評估相關技術。

圖丨相關論文（來源：Science）

研究團隊設計了不同方面的實驗，來考察 AI 的臨床推理能力。在第一組實驗中，研究人員使用了 The New England Journal of Medicine（NEJM）自 20 世紀 50 年代開始作為“金牌標準”的臨床病理會議病例。

在 2012 年至 2024 年期間的 143 個臨床病例中，o1-preview 覆蓋了 78.3% 的正確病因，其給出的首個診斷即是正確答案的比例占 52%。如果將“非常接近”的診斷也看作正確答案，該比例則進一步提升至 97.9%。

研究人員還將 GPT-4 與 o1-preview 進行了性能對比。結果顯示，GPT-4 在同一批病例上的準確率是 72.9%，而 o1-preview 在 70 個重疊病例中，24.3% 的病例表現優于 GPT-4，僅 7.1% 的病例表現落后。

值得關注的是，在 136 例診斷檢查選擇測試中，o1-preview 選擇檢查項目的正確率是 87.5%。評審醫生認為，AI 提出的檢查建議中有 11% 具備臨床價值，僅 1.5% 的建議無幫助。

（來源：Science）

在臨床推理的書寫質量評估中，差距進一步凸顯。研究團隊采用 20 個來自 NEJM Healer 課程的教學病例，該項能力采用經過驗證的 R-IDEA 量表評分。

o1-preview 在 80 次評分中 78 次獲得滿分，與之對比的是，GPT-4 僅獲得 47 次滿分，而主治醫師和住院醫師得到滿分的次數分別是 28 次和 16 次。在高風險誤診項識別上，o1-preview 的中位命中率是 92%。但需要了解的是，盡管其在數值上比人類更高，但與醫生并未達到統計學顯著差異的水平。

（來源：Science）

管理決策能力的測試結果同樣值得關注。研究團隊使用了五個基于真實病例開發的臨床場景，并在每個場景下設置了一系列治療決策問題。結果顯示，o1-preview 的中位得分是 89%，GPT-4 為 42%，將 GPT-4 作為輔助工具的醫生則獲得 41% 的中位得分，而使用傳統資源制定方案的醫生得分僅 34%。

圖丨 o1-preview、GPT-4 與臨床醫師在診斷推理能力方面的比較（來源：Science）

此外，為防止模型“刷題”，研究人員還使用了 6 個從未公開發布的標志性診斷病例進行實驗。結果發現，盡管 o1-preview 獲得了 97% 的中位得分，但與 GPT-4 的 92% 以及人類醫師的 74% 相比，統計學的優勢并不顯著。這也從側面上說明，大模型能力的提升并非在所有任務上都保持同一幅度。

在最接近真實臨床環境實驗中，研究人員以波士頓一家醫院急診室的 76 名患者作為研究對象，并設置了三個臨床決策節點從早期分診、接診后以及決定收入病房。

標準電子病歷涵蓋了生命體征數據、人口統計信息以及對患者就診原因的簡要描述等信息。與此前研究不同，研究人員提供給模型的信息未進行預處理，而是直接來源于真實的電子病歷。模型基于這些數據，生成相關診斷結果，并提出下一步治療建議。

結果顯示，在分診階段醫生的正確率僅 50% 至 55%，而 AI 在 67% 的病例中做出了接近醫生或更準確的診斷。研究人員發現，在需要快速決策且信息有限的緊急情況下，AI 的優勢更加突出。當提供更多細節信息，人類專家的準確率提升至 70% 至 79%；而 OpenAI 的 o1 模型的診斷準確率則提升至近 82%。

值得一提的是，整個實驗的過程采取的是嚴格的盲法設計，兩位評審醫生在判斷答案來源是人還是 AI 時，猜對的比例分別僅 15.2% 和 3.1%，大多數情況下他們無法區分回答是來自 AI 還是人類。

（來源：Science）

需要了解的是，急診室的核心決策通常是分診、處理和即時管理，而非僅取決于診斷的正確性。因此，這項研究并不意味著 AI 將全面替代急診醫生。

此外，這項研究仍存在局限性，例如實驗中僅測試了 AI 與人類在解讀可通過文本傳遞的患者數據方面的表現，并未測試患者痛苦程度和外貌等信號方面的解讀能力。與此同時，研究所覆蓋的臨床推理場景也有限，病例主要集中在內科和急診領域，未來仍需進一步驗證在外科、�？频雀鼜V泛領域的適用性。

今年 3 月，美國醫學協會發布的一項研究顯示 [2]，現在已有近 20% 的美國醫生正在使用 AI 作為輔助診斷的工具。在英國，16% 的醫生每天使用 AI。據英國皇家內科醫師學會今年 1 月發布的一項調查 [3]，在臨床決策中醫生將 AI 作為輔助診斷是最常見的一種用途。

盡管 AI 在相關方面表現出色，但 AI 并不是萬能的。不容忽視的是，一方面，AI 有可能帶來出錯和承擔責任風險。另一方面，也需要警惕的是，醫生可能在無意中接受了 AI 給出的建議，而非自己的獨立思考。此外，AI 在診斷老年患者或非英語母語患者方面仍存在相關挑戰。

因此，綜合來看，當前 AI 的核心角色仍然是輔助醫生決策而非獨立診療，它可以幫助整合海量文獻、指南與歷史病例，在信息處理的速度與廣度方面具有獨特優勢，有利于快速給出醫生容易遺漏的重要信息或輔助判斷。但是，在非結構化臨床情境的感知、倫理權衡及醫患共情等場景下，醫生具有不可替代的作用。

因此，人機協同或是一種理想的模式：AI 提供精準、實時的數據支持，而醫生則把握整體判斷與人文溫度。未來，更重要的或許不是比較人和 AI 誰的能力更強，而是誰先學會與機器高效協作。

參考資料：

1. 相關論文：https://www.science.org/doi/10.1126/science.adz4433

2.https://www.ama-assn.org/system/files/physician-ai-sentiment-report.pdf

3.https://www.rcp.ac.uk/policy-and-campaigns/policy-documents/snapshot-of-uk-physicians-artificial-intelligence-in-healthcare/

4.https://hms.harvard.edu/news/study-suggests-ai-good-enough-diagnosing-complex-medical-cases-warrant-clinical-testing

5.https://www.theguardian.com/technology/2026/apr/30/ai-outperforms-doctors-in-harvard-trial-of-emergency-triage-diagnoses

排版：劉雅坤

注：封面/首圖由 AI 輔助生成

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.