![]()
作者:論文團隊
編輯丨ScienceAI
在靶點篩選、合成致死判斷與免疫治療響應預測等治療發現場景中,AI 智能體需要串聯多個組學數據源、調用多種機器學習模型并檢索文獻來完成多步分析。但現有智能體普遍面臨兩個問題:一是大模型在長鏈分析中會逐步丟失用戶指定的生物學上下文(如把「初始型 CD4+ αβ T 細胞」模糊成「CD4+ T 細胞」),導致下游分析在錯誤粒度上進行卻不觸發任何報警;二是面對多源證據沖突時缺乏調和機制 —— 工具輸出、文獻檢索與大模型參數化知識給出矛盾結論時,系統無法做出可追溯的取舍。
為此,哈佛醫學院隋芃瑋 / 高尚華 / Marinka Zitnik 團隊提出 MEDEA,一個在分析流程每一步都嵌入驗證機制的組學 AI 智能體。MEDEA 在靶點發現、合成致死推理、免疫治療響應預測三個場景上完成了 5,679 次完整分析,比單獨使用大模型的準確率最高提升 45.9%,且消融實驗表明性能提升的主要來源不是骨干模型的能力差異,而是驗證模塊的有無。
![]()
論文地址:https://medea.openscientist.ai
開源地址:https://github.com/mims-harvard/Medea
方法設計
MEDEA 接受自然語言描述的研究目標,使用 20 個專業工具執行多步分析,核心設計原則是在流程每一步嵌入驗證,而非僅在最終輸出時判斷對錯。
系統由四個協同模塊組成。研究規劃模塊將自然語言目標轉化為分步研究計劃后,進行上下文驗證(每個步驟中的細胞類型、疾病等生物學實體是否與所選工具兼容)和完整性驗證(計劃的技術可行性與邏輯一致性)。例如,當用戶要求分析肝星狀細胞的靶點,但所選單細胞基礎模型的預訓練數據不包含該細胞類型時,上下文驗證會檢測到不兼容,引導智能體從可用的近似細胞類型中選擇替代方案并記錄替代理由。
![]()
分析執行模塊在代碼執行前后各加一層驗證:執行前檢查語法與接口兼容性,執行后審計數據來源與輸出和計劃的一致性。即使代碼運行成功,如果輸出偏離研究計劃預期,也會被標記并觸發修正。
文獻推理模塊在檢索完成后,先對每篇論文在物種、疾病、細胞類型等維度做相關性篩選,過濾不相關文獻后再進行證據綜合,避免「檢索到什么就用什么」的問題。
多輪討論模塊以三個模型組成的評審團,對工具分析、文獻推理、骨干模型三條證據通路的輸出做加權投票與多輪辯論。證據收斂時給出結論,分裂或不足時選擇校準棄權 —— 即不回答。
工具空間中有 4 個機器學習模型(PINNACLE、TranscriptFormer、COMPASS、OpenScholar),它們是被智能體調用的工具而非骨干模型。智能體根據疾病上下文動態選擇調用哪個模型。受限工具實驗表明,PINNACLE 在類風濕關節炎等疾病上更優,TranscriptFormer 在肝母細胞瘤等場景上更優,反映了蛋白質互作網絡拓撲與基因表達動態兩類信號的互補性。
MEDEA 在三個開放式治療發現任務上跑了 5,679 次完整組學分析,覆蓋精準靶點發現(2,400 次,涵蓋 5 種疾病,29 個細胞類型)、合成致死推理(2,385 次,7 個癌細胞系)、以及患者級別的免疫治療響應預測(894 次,298 名膀胱癌患者)。
![]()
![]()
細胞類型特異性靶點發現
2,400 次分析,覆蓋類風濕關節炎、1 型糖尿病、干燥綜合征、肝母細胞瘤、濾泡性淋巴瘤五種疾病及 29 種細胞類型。MEDEA 比單獨使用大模型的準確率最高提升 45.9%。
該場景的核心挑戰在于細胞類型粒度。大模型在多步分析中會逐步模糊細胞類型 —— 將用戶指定的「初始型 CD4+ αβ T 細胞」簡化為「CD4+ T 細胞」。在類風濕關節炎中,初始型與效應記憶型 CD4+ αβ T 細胞的致病角色截然不同,混淆會導致靶點推薦指向錯誤的生物學邏輯。加入上下文驗證后,MEDEA 在髓樣樹突細胞上的準確率提升 28.9%,在初始型 CD4+ αβ T 細胞上提升 21.7%—— 這些恰恰是上下文粒度直接決定靶點推薦質量的細胞類型。
![]()
消融實驗揭示了一個結構性矛盾。大模型單獨使用時幾乎從不放棄回答(棄權率僅 1.8%),但跨五種疾病的平均錯誤率高達 69.2%—— 在 1 型糖尿病上甚至達到 80%。文獻檢索配置方向相反:77.6% 的分析選擇放棄回答,因為細胞類型特異性的靶點文獻確實太過稀缺。大模型的參數化知識覆蓋面廣但可靠性低,文獻證據可靠性高但覆蓋面窄,任何單一通路都無法同時滿足兩者,只有多條通路互相校驗才能兼顧。 完整 MEDEA 達到最高準確率和最低失敗率。
![]()
合成致死推理:糾錯、補漏、止損
2,385 次分析,覆蓋 MCF7、MCF10A、MDAMB231、CAL27、CAL33、A549、A427 七個癌細胞系。MEDEA 比骨干大模型最高提升 21.7%(MCF7)。
MEDEA 在該場景下展現出三種行為模式。在至少 323 個大模型答錯的案例中給出了正確判斷(糾錯);在 175 個大模型棄權的案例中給出了正確答案(補漏);在 141 個大模型犯錯的案例中選擇棄權而非跟著錯(止損)。在藥物發現場景中,止損可能比糾錯更有價值 —— 一個錯誤的合成致死預測可能觸發昂貴的實驗跟進,而一個校準的棄權只會讓研究者多花時間尋找其他證據。
![]()
系統整合了 DepMap 基因共依賴分數與通路富集分析,對基因對聯合抑制是否會選擇性殺死癌細胞做出可追溯的判斷。
免疫治療響應預測
894 次患者級別分析,基于 IMvigor210 膀胱癌隊列的 298 名患者。MEDEA 比大模型最高提升 23.9%。在高腫瘤突變負荷且非炎癥型微環境這一最困難的亞組中,MEDEA 修正了底層機器學習模型 50.9% 的誤分類。
![]()
論文中的一個患者案例清晰展示了多源證據沖突時的決策過程。一名腫瘤突變負荷為 19.0 的男性患者,GPT-4o 和 Claude 3.7 Sonnet 均基于高突變負荷預測「響應」。MEDEA 調用 COMPASS 分析腫瘤轉錄組后發現 T 細胞耗竭嚴重(評分 0.5067)、B 細胞浸潤極低(0.0260),微環境整體呈功能失調;而文獻檢索恰恰支持「高突變負荷→好響應」的關聯 —— 兩條證據直接矛盾。經多輪討論調和后,MEDEA 判定微環境功能障礙信號優先于突變負荷的統計關聯,預測「不響應」。患者實際結局為疾病進展。整個決策鏈路可追溯。
![]()
驗證機制的貢獻大于骨干模型的選擇
消融實驗中最核心的發現:MEDEA 的性能提升并非來自更強的骨干大模型。 無論使用 GPT-4o 還是 Claude 3.7 Sonnet 作為骨干,加入驗證模塊后性能顯著提升,去掉后顯著下降。這意味著當前組學智能體的性能瓶頸可能不在推理能力,而在過程可靠性。
MEDEA 的輸出不是一個標簽或分數,而是一份包含完整推理鏈路的分析報告 —— 研究計劃、每步工具調用與輸出、文獻檢索與相關性評分、證據調和的決策過程。對于需要向團隊解釋「為什么推薦這個靶點」或「為什么判斷該患者不響應」的場景,這種可審計的輸出形態具有直接的實際價值。
代碼、評測基準和全部工具配置均已開源,模塊化設計支持選擇性集成。論文同時指出局限性:評測基準依賴已有單細胞圖譜和特定患者隊列,部分評測依賴大模型評審,工具本身編碼了細胞類型粒度等假設,評審團式共識模塊存在關聯錯誤風險。
在藥物發現中,一個自信的錯誤答案往往比一句誠實的「我不確定」代價更高。MEDEA 的校準棄權 —— 在證據不足時選擇不回答 —— 或許是這項工作中最具實際價值的設計。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.