隨著人工智能在醫學領域的深入應用,病理AI模型已能輔助醫生識別腫瘤類型、預測患者預后甚至判斷基因突變狀態。然而,不同的病理模型架構各異、訓練數據來源不一,導致它們在具體任務上的表現參差不齊:有的擅長診斷,有的長于預后,還有的在預測基因表達方面表現突出。由于數據隱私和模型架構差異,將這些模型集中重新訓練幾乎不可行,如何整合它們的優勢、避免“模型選擇困難”,成為精準腫瘤學面臨的一大挑戰。
2026年4月16日,上海交通大學生物信息學與生物統計系俞章盛教授研究團隊在《自然·通訊》上發表題為《Meta-encoder: a unified integration framework for multiple pathological foundation models in cancer detection》的研究論文。該團隊提出名為“Meta-Encoder”的統一框架,通過四種融合策略將多個病理學基礎模型的特征進行整合,無需重新訓練即可顯著提升多種癌癥檢測任務的性能。
![]()
研究團隊選取了五個最具代表性的病理基礎模型——三個處理圖像切片的模型(CHIEF、GigaPath、UNI)和兩個處理全切片圖像的模型(TITAN、PRISM)。Meta-Encoder框架設計了四種融合策略:簡單拼接、自注意力、交叉注意力和對比損失。在TCGA數據庫的乳腺癌和非小細胞肺癌亞型分型任務中,簡單拼接策略的表現與最佳單一模型持平,自注意力策略則在數據充足時略優,且預測概率校準更準確。對于生存預測任務,Meta-Encoder同樣能夠自動匹配最佳模型表現,并將顯著風險分層的比例從53.3%提升至63.3%。
在更復雜的任務中,Meta-Encoder展現出顯著優勢。針對結直腸癌九類腫瘤微環境組分的區分任務,融合策略均達到與最佳單一模型相當的水平,解決了不同任務需反復選模型的痛點。在預測TP53、PIK3CA、RAS、BRAF等關鍵腫瘤標志物以及微衛星不穩定性狀態的多標簽任務中,自注意力和交叉注意力策略持續優于單一模型。特別是在外部驗證集SurGen-CRC上,自注意力策略將最佳單一模型的AUC從0.6560提升至0.7367;在90%特異性的臨床分診標準下,靈敏度從35.95%大幅提高到60.81%,意味著每篩查一萬名患者可多發現約373名適合免疫治療的候選人。
![]()
對于從病理圖像預測15種蛋白標志物細胞計數的多重蛋白定量任務,自注意力策略將中位Spearman相關性相對提升1.80%,SHAP分析顯示該策略能動態識別不同蛋白的最優特征來源。最具挑戰性的是高維空間基因表達預測——從病理切片預測50至321個基因的表達水平。在HEST-Benchmark、CRC-inhouse和Her2ST三個數據集中,自注意力策略將Pearson相關系數分別絕對提升0.059、0.021和0.015,相對提升高達26.07%、8.65%和8.43%。在基于全切片圖像的體基因表達預測任務中,該策略同樣帶來10%至26%的相對提升。相比需要大規模預訓練的GPFM融合方法,Meta-Encoder在蛋白定量和基因表達任務中分別實現了2%和13%以上的相對提升,且計算開銷極低——自注意力策略僅增加約260MB顯存,而對比損失策略則需增加超過10GB。研究團隊據此推薦自注意力策略作為復雜任務的首選方案。
READING
BioPeers
歡迎關注本公眾號,所有內容歡迎點贊,推薦??,評論,轉發~
如有錯誤、遺漏、侵權或商務合作請私信小編~~
歡迎大家投稿課題組 研究進展 、招聘及招生宣傳~
所有文章只為科普、科研服務,無商業目的~
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.