網易首頁 > 網易號 > 正文申請入駐

復旦、上海AI實驗室與交大：AI醫生實現罕見病思維學習能力提升

2026-04-21 21:50:12　來源: 科技行者

天津舉報

分享至

這項由復旦大學計算機科學與人工智能學院、上海人工智能實驗室、上海交通大學CMIC實驗室及人工智能學院、上海交通大學醫學院附屬第六人民醫院放射科，以及上海交通大學醫學院人工智能醫學研究院聯合開展的研究，以預印本形式發布于2026年4月，論文編號為arXiv:2604.11547，感興趣的讀者可通過該編號查閱完整原文。

醫生的成長需要大量病例積累，見得越多，判斷越準。然而有一類疾病，幾乎每個醫生一輩子都難得遇上幾次——那就是罕見病。當一位患者帶著極為罕見的癥狀出現在診室，連經驗豐富的醫生都可能茫然無措，更何況是剛剛開始學醫的AI？這正是這項研究想要解決的核心困境。研究團隊提出了一個名為MedSSR的框架，用來幫助AI醫療大模型突破罕見病學習的天花板，同時還大幅降低了訓練這類模型所需的時間和金錢成本。

**一、罕見病難題：AI醫生的盲區**

要理解這項研究的價值，得先弄清楚為什么現有的AI醫療模型在罕見病上表現不佳。

醫學領域的AI模型，和所有AI一樣，是靠"刷題"來學習的。研究團隊對現有醫學數據集做了統計，結果相當扎眼：在將近二十萬道醫學題目中，只有22%屬于需要真正動腦筋推理的題目，而這22%里專門涉及罕見病的，僅僅占3%。也就是說，在近二十萬道題的"教材"里，罕見病推理題只有區區幾千道。這個比例，就像一個醫學生在整個求學期間只看過三個罕見病病例，然后就被要求獨立診斷了。

更糟糕的是，當研究團隊測試現有幾種最先進的AI醫療模型時，發現了一個令人沮喪的規律：無論用什么方法訓練，模型在常見病上的表現提升幅度總是遠大于罕見病。即使采用目前最強的有監督訓練方式（業內稱之為"全監督GRPO"），罕見病任務的提升幅度也突破不了3%這個天花板。這不是個別現象，而是行業性困境。

為什么會這樣？邏輯很簡單：AI學習靠數據，沒有足夠的罕見病數據，AI就無法真正理解罕見病的推理模式。就像你沒法通過反復刷簡單的加減法題目來學會微積分一樣，數據的稀缺直接限制了模型的能力上限。

**二、老方法的代價：又貴又不好使**

面對這個困境，業內的主流解決思路是什么呢？

目前最流行的做法，是花錢"請教"GPT-4這類超級強大的商業AI，讓它幫忙生成詳細的推理過程（業內稱之為"思維鏈"或CoT），然后把這些推理過程喂給待訓練的AI模型，讓它先通過監督學習打好基礎，再做進一步的強化訓練。

這個方法有兩個致命的問題。其一是貴。研究團隊計算過，用這種方法生成一個樣本，平均需要消耗超過1300個token的API調用量（token可以理解為AI計算的基本單位，token越多，費用越高）。其二是效果有限，尤其在罕見病這個本就稀缺的領域，僅僅"請教"一個同樣不太了解罕見病的超級AI來生成推理過程，效果自然也打折扣。

于是研究團隊問了一個關鍵問題：我們能不能換一條路？既不依賴昂貴的API調用，又能讓AI真正學會處理罕見病？

**三、MedSSR的思路：一個"自學成才+精準補課"的雙軌方案**

MedSSR的核心邏輯，可以用一個學生備考的故事來理解。

設想一個聰明的學生，他手頭有一套舊版教材（現有醫學數據集），里面大多數題目是送分的背誦題，真正燒腦的推理題很少，而且涉及某些冷門考點（罕見病）的題目幾乎沒有。老師告訴他，考試會考很多罕見病的推理題。

這個學生有兩個核心任務：第一，弄到更多罕見病推理題來練習；第二，找到一種高效的學習方式，既能用這些新題自我訓練，又不讓自己在刷題過程中走偏（比如養成"猜答案"的壞習慣）。MedSSR就是為了完成這兩個任務而設計的。

整個框架由兩個緊密配合的部分組成。第一部分是"知識增強型數據合成"，專門解決"題目來源"的問題。第二部分是"半監督強化學習訓練策略"，專門解決"如何高效學習"的問題。

**四、造題：用罕見病知識"量身定制"訓練題**

先來看造題這部分。

研究團隊首先建立了一個龐大的醫學知識庫，整合了四大權威來源：PubMed數據庫中的最新生物醫學研究文章、涵蓋通用醫學概念的維基百科、包含臨床實踐摘要的StatPearls，以及多本權威醫學教科書。與此同時，他們從四個大型權威罕見病數據庫（包括歐洲罕見病數據庫Orphanet、美國在線遺傳病數據庫OMIM、美國國家罕見疾病組織數據庫，以及中國罕見病目錄）中提取并整理出一份包含12,445種罕見病的疾病列表。

造題的流程是這樣的：從現有醫學數據集中隨機抽取兩道真實的推理題，作為"種子題目"；然后判斷是否需要生成罕見病相關內容，這個判斷由一個概率閾值α（取值0到1之間）來控制。如果隨機生成的數值低于α，系統就從罕見病列表里挑一種疾病，去醫學知識庫里檢索與該疾病最相關的文獻片段；檢索到的知識，連同兩道種子題目，一起作為輸入，送給GPT-4.1來生成一道全新的推理題目。如果隨機數值不低于α，則只用兩道種子題目來造題，不注入罕見病知識。通過調節α的大小，研究團隊可以精確控制最終合成數據集中罕見病題目所占的比例。

這里有一個精妙之處：請注意，GPT-4.1被用來造題，而不是生成推理過程。造一道題所需的API調用量，遠低于為這道題生成完整的推理鏈條。研究數據顯示，這種方式每個樣本的平均token消耗不到350，僅為傳統方法的四分之一左右。錢省了，題的質量卻更高，因為題目直接錨定在經過專業知識庫支撐的醫學事實上，而不是依賴AI憑空生成的推理想象。

為了驗證這些合成題目的質量，研究團隊邀請了八位執業醫師（四位資深、四位初級）對隨機抽取的200道合成題進行評估，評估維度包括題目正確性、是否有害以及臨床合理性（1至5分制）。評估結果顯示，僅有0.5%的題目被認定有誤，且該題目同時被標記為潛在有害；平均臨床合理性評分高達4.80分（滿分5分）。研究團隊還進一步擴大了評估規模，對500道題的評估結果同樣保持穩定：錯誤率0.80%，有害率0.60%，平均合理性評分4.85分。這說明知識增強的合成流程能夠產出高質量、臨床可信的訓練數據。

**五、貼標簽：讓AI自己給自己的練習題打分**

有了題目，下一步是給題目配上答案，這樣AI才能在訓練時知道自己答對沒有。

傳統方法是花大價錢雇人標注，或者請昂貴的商業API來生成詳細的推理過程。MedSSR的做法更聰明：讓AI自己給自己打分。

具體來說，研究團隊用待訓練的AI模型（即"策略模型"的基礎版本）對每一道合成題獨立回答八次，然后用"少數服從多數"的投票規則，把八次回答中出現最多次的答案定為該題的"偽標簽"答案。這個過程叫做"離線多數投票"。

為什么要特別強調"離線"？這里有一個重要的訓練穩定性問題。研究團隊發現，如果在訓練過程中實時讓模型投票、實時更新偽標簽（即"在線投票"），模型很快就會鉆空子：它學會了在八次回答中全部給出相同的答案，因為這樣保證能贏得投票、獲得獎勵，但這其實是一種"作弊"，不需要真正理解題目。這種現象在學術上叫做"獎勵黑客"，通俗說就是AI找到了不用真正學習也能拿高分的漏洞。

而離線投票的妙處在于：標簽在訓練開始之前就已經確定，訓練過程中不會改變。AI找不到通過操控投票結果來作弊的機會，只能老老實實地通過提升推理能力來獲得獎勵。研究團隊的實驗證實，離線投票下的訓練曲線穩定增長，可以持續超過1000個訓練步驟而不出現崩潰，與在線投票下獎勵虛高、模型性能實際下滑的災難性結果形成鮮明對比。

**六、兩階段訓練：先激活內功，再借助外力**

拿到了合成題目和偽標簽，再加上原有的真實醫學數據集（這部分有人工標注的正確答案），研究團隊設計了一個分階段的訓練流程。

第一階段，用合成題目和偽標簽進行"自監督強化學習"。這個階段的核心目標是激活模型內部已有的推理潛力。AI在學習過程中會嘗試回答合成題，再把自己的答案和偽標簽對比，答對了就得獎勵，答錯了就受懲罰，然后通過GRPO算法（一種高效的策略優化方法）不斷調整自己的推理策略。這個階段的獎勵信號來自模型自身，是一種"內向型"學習。

第二階段，再用真實數據集和人工標注的正確答案進行"有監督強化學習"。這個階段借助外部真實答案進一步打磨和擴展模型能力，把它從"自己摸索"的階段推向"外部矯正"的階段。兩個階段合在一起，構成了論文標題中的"半監督強化學習"——一半靠自己（合成數據+偽標簽），一半靠外力（真實數據+真實標簽）。

研究團隊把這種訓練順序稱為"由內到外"的學習課程：先激發內在潛力，再借助外力突破上限。他們通過消融實驗（即逐一去掉某個設計組件，看性能如何變化的實驗）驗證了這個順序的必要性：如果把兩個階段的順序倒過來（先有監督、后自監督），或者把兩類數據混合在一起不分階段訓練，最終性能均低于"自監督→有監督"的兩階段設計。

**七、實驗結果：罕見病提升幅度突破了天花板**

研究團隊在兩個主流開源大模型上測試了MedSSR：來自阿里巴巴的Qwen3-8B-Base，以及Meta的Llama-3.1-8B-Instruct。評測范圍覆蓋了11個醫學基準測試，包括五個有訓練集的數據集（MedMCQA、MedQA、BioASQ、HeadQA、PubMedQA）和六個純評測數據集（MMLU-Med、MedXpertqa、Medbullets、NEJM、Lancet）。此外，研究團隊還構建了一個專門針對罕見病的評測集RareDis-Sub，將其中的題目細分為七類：癥狀、病因、診斷、相關疾病、治療、影響范圍和其他。

在罕見病任務上，MedSSR的表現令人振奮。以Qwen3-8B為基礎模型，MedSSR相比全監督基線平均提升了5.93個百分點；以Llama-3.1-8B為基礎，平均提升了3.70個百分點。這不僅遠超此前所有方法，更直接打破了此前3%提升幅度的天花板。在七個罕見病子類中，診斷類和病因類題目的提升尤為顯著，分別超過了13個和10個百分點（Qwen版本）。

在通用醫學任務上，MedSSR同樣保持了強勁表現。Qwen版本在九個通用醫學基準上平均提升3.91個百分點，Llama版本平均提升2.27個百分點，且在所有九個數據集上均超越了全監督基線，沒有出現"顧此失彼"的問題。這說明通過提高罕見病數據比例來強化罕見病能力，并不會對通用醫學能力造成明顯損害。

與現有的專業醫療AI模型相比，MedSSR訓練出的模型表現也全面領先。無論是HuatuoGPT-o1-8B、UltraMedical-3.1-8B、MedReason-8B還是MedPRM-8B，在罕見病和通用醫學兩個維度上，MedSSR均取得了更高的平均分。

**八、如何調配罕見病比例：25%是最優解**

研究團隊還系統地研究了一個實際問題：合成數據集中，罕見病題目的比例應該設置為多少？

他們分別測試了0%、13%、25%、33%和50%五種比例。其中13%對應的是不做任何知識注入時的自然產出比例（完全依賴種子題目的隨機抽樣），0%則是完全不生成罕見病相關內容。

結果呈現出一個"倒U型"曲線。隨著罕見病比例從0%提升到33%，罕見病任務的性能持續上升，在33%時達到峰值；通用醫學性能則在13%時達到峰值，之后隨罕見病比例上升而下滑。當罕見病比例達到50%時，兩類任務的性能都開始下降。綜合來看，25%是罕見病提升與通用性能保持的最優平衡點，因此成為論文主實驗中的默認配置。

進一步分析13%和25%之間的差異（即知識注入的純粹影響），可以發現：知識注入使七類罕見病題目均獲得了顯著提升，平均增益達2.29個百分點；而在通用醫學數據集上，有三個數據集出現了小幅提升，另外幾個則有輕微下滑，平均影響僅為-0.21個百分點。罕見病方向的大幅收益遠超通用性能的微小損耗，這說明定向知識注入是一種高效且可控的能力增強手段。

**九、一個問只造題不造推理鏈的方案能贏過完整的SFT嗎？**

面對這個問題，研究團隊做了一組直接對比實驗，在Llama-3.1-8B上測試兩種方案：一是MedSSR中"只合成題目+自監督強化學習"的方案（43K條合成數據）；二是傳統的"合成完整推理鏈+監督微調（SFT）"方案（使用HuatuoGPT-o1公開的20K條CoT數據集，訓練3個epoch）。

結果是：MedSSR的方案在全部測試的八項任務中均優于SFT方案。無論是通用醫學任務（BioASQ、MedQA、Medbullets、Lancet、NEJM），還是罕見病子類（病因、相關疾病、診斷、影響范圍），MedSSR版本的得分均高于SFT版本。這意味著，不生成推理鏈的方案不僅更便宜，反而效果更好。直覺上似乎反常，但背后的邏輯是：強化學習讓模型通過自己的探索和試錯來內化推理能力，而不是去死記硬背外部生成的推理過程，前者產生的理解更扎實。

**十、能否擴展到更大的模型？**

為了檢驗MedSSR是否僅僅是針對特定模型規模的"偶然奏效"，研究團隊在Qwen3模型系列的四個規模上都做了實驗：1.7B、4B、8B和14B（B代表參數量，越大意味著模型越強大，但訓練成本也越高）。

結果相當一致。在罕見病任務上，四個規模的模型在MedSSR訓練后平均提升幅度均超過了10個百分點（1.7B的提升是10.19%，4B是10.14%，8B是10.92%，14B是10.02%）。在通用醫學任務上，提升幅度隨模型規模增大而有所增加：1.7B約提升8.5%，8B約提升10.6%，14B約提升10.5%。這種規律性暗示，模型越大，其內部潛藏的醫學知識越豐富，通過MedSSR這種訓練方式被激活的效果也越好。整體而言，MedSSR展現出了良好的跨規模通用性。

**十一、相同訓練成本下，MedSSR依然領先**

有讀者可能會問：MedSSR的訓練用了43K合成數據加上43K真實數據，一共86K條，而全監督基線只用了43K條真實數據。這兩者的數據量不一樣，比較公平嗎？

研究團隊對這個問題做了專門的控制實驗。他們把全監督基線也擴展到86K數據量，即在原來的43K推理題基礎上，再加入另外43K條從已有數據集中篩選出的真實數據。結果發現，即便把全監督基線的數據量翻倍，其性能平均只提升了1.12個百分點，遠低于MedSSR在相同數據量下實現的3.91個百分點提升。原因也很清楚：額外加入的43K真實數據大多屬于記憶型題目，并不適合推理訓練，實際能學到的東西有限。而MedSSR的43K合成數據是專門針對推理能力、定向設計的，訓練效率更高。

說到底，這項研究的最大意義或許并不在于某個具體的數字，而在于它提供了一種思路轉變：AI醫療模型的訓練瓶頸，不一定要靠人工標注更多數據來突破，也可以靠"聰明造題"加"高效自學"來跨越。對于罕見病這類現實中本就難以積累大量數據的領域，這種思路尤為珍貴。

當然，研究團隊也坦承了幾處局限。由于算力限制，實驗最大只做到了14B規模，更大的模型仍有待驗證。此外，合成數據雖然通過了醫師評估，但尚未經過全量的專家核查，距離真實臨床部署還需要更嚴格的驗證。研究團隊明確指出，MedSSR目前主要面向學術研究目的，任何實際臨床應用都需要經過嚴格的醫學驗證和專業監督。

歸根結底，這項研究在醫療AI的一個棘手角落里開出了一條新路：讓AI能真正學會思考那些連醫生都覺得陌生的罕見病，而且這條路比以往更經濟、更穩定、更有效。感興趣的讀者可以通過arXiv編號2604.11547查閱完整論文，源代碼也已在GitHub上公開（搜索"tdlhl/MedSSR"即可找到）。

Q&A

Q1：MedSSR訓練出的模型能直接用于真實臨床診斷嗎？

A：目前還不能直接用于臨床。研究團隊明確說明，MedSSR框架主要面向學術研究，目的是提升醫療AI的推理能力。任何實際臨床部署都需要經過嚴格的醫學安全驗證和專業醫生的監督才能進行，現階段的實驗結果僅證明了模型在標準醫學基準測試上的性能提升。

Q2：MedSSR合成的醫學題目會不會包含錯誤的醫學知識？

A：出錯的概率極低，但不為零。研究團隊邀請了八位執業醫師對200道合成題進行評估，發現僅有0.5%的題目存在錯誤。后續對500道題的擴展評估中錯誤率也僅為0.8%。雖然生成質量較高，但研究團隊也承認全量專家核查尚未完成，因此在訓練過程中設計了后續有監督階段來糾正因錯誤偽標簽引入的偏差。

Q3：離線多數投票和在線多數投票在實際訓練效果上有多大差距？

A：差距非常顯著。實驗顯示，在線投票方式下，模型訓練初期獎勵值快速飆升至接近滿分，但實際性能卻大幅下降，說明模型學會了"作弊"——在每次回答中輸出相同答案來操控投票結果。而離線投票下，獎勵和性能曲線均穩步上升，訓練超過1000步后依然保持穩定增長，與使用真實標簽訓練的效果高度相似。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.