網易首頁 > 網易號 > 正文申請入駐

哈佛、MIT Broad研究所發布MEDEA：組學智能體缺的是自知之明

2026-03-23 14:13:45　來源: ScienceAI

河北舉報

分享至

作者：論文團隊

編輯丨ScienceAI

在靶點篩選、合成致死判斷與免疫治療響應預測等治療發現場景中，AI 智能體需要串聯多個組學數據源、調用多種機器學習模型并檢索文獻來完成多步分析。但現有智能體普遍面臨兩個問題：一是大模型在長鏈分析中會逐步丟失用戶指定的生物學上下文（如把「初始型 CD4+ αβ T 細胞」模糊成「CD4+ T 細胞」），導致下游分析在錯誤粒度上進行卻不觸發任何報警；二是面對多源證據沖突時缺乏調和機制 —— 工具輸出、文獻檢索與大模型參數化知識給出矛盾結論時，系統無法做出可追溯的取舍。

為此，哈佛醫學院隋芃瑋 / 高尚華 / Marinka Zitnik 團隊提出 MEDEA，一個在分析流程每一步都嵌入驗證機制的組學 AI 智能體。MEDEA 在靶點發現、合成致死推理、免疫治療響應預測三個場景上完成了 5,679 次完整分析，比單獨使用大模型的準確率最高提升 45.9%，且消融實驗表明性能提升的主要來源不是骨干模型的能力差異，而是驗證模塊的有無。

論文地址：https://medea.openscientist.ai

開源地址：https://github.com/mims-harvard/Medea

方法設計

MEDEA 接受自然語言描述的研究目標，使用 20 個專業工具執行多步分析，核心設計原則是在流程每一步嵌入驗證，而非僅在最終輸出時判斷對錯。

系統由四個協同模塊組成。研究規劃模塊將自然語言目標轉化為分步研究計劃后，進行上下文驗證（每個步驟中的細胞類型、疾病等生物學實體是否與所選工具兼容）和完整性驗證（計劃的技術可行性與邏輯一致性）。例如，當用戶要求分析肝星狀細胞的靶點，但所選單細胞基礎模型的預訓練數據不包含該細胞類型時，上下文驗證會檢測到不兼容，引導智能體從可用的近似細胞類型中選擇替代方案并記錄替代理由。

分析執行模塊在代碼執行前后各加一層驗證：執行前檢查語法與接口兼容性，執行后審計數據來源與輸出和計劃的一致性。即使代碼運行成功，如果輸出偏離研究計劃預期，也會被標記并觸發修正。

文獻推理模塊在檢索完成后，先對每篇論文在物種、疾病、細胞類型等維度做相關性篩選，過濾不相關文獻后再進行證據綜合，避免「檢索到什么就用什么」的問題。

多輪討論模塊以三個模型組成的評審團，對工具分析、文獻推理、骨干模型三條證據通路的輸出做加權投票與多輪辯論。證據收斂時給出結論，分裂或不足時選擇校準棄權 —— 即不回答。

工具空間中有 4 個機器學習模型（PINNACLE、TranscriptFormer、COMPASS、OpenScholar），它們是被智能體調用的工具而非骨干模型。智能體根據疾病上下文動態選擇調用哪個模型。受限工具實驗表明，PINNACLE 在類風濕關節炎等疾病上更優，TranscriptFormer 在肝母細胞瘤等場景上更優，反映了蛋白質互作網絡拓撲與基因表達動態兩類信號的互補性。

MEDEA 在三個開放式治療發現任務上跑了 5,679 次完整組學分析，覆蓋精準靶點發現（2,400 次，涵蓋 5 種疾病，29 個細胞類型）、合成致死推理（2,385 次，7 個癌細胞系）、以及患者級別的免疫治療響應預測（894 次，298 名膀胱癌患者）。

細胞類型特異性靶點發現

2,400 次分析，覆蓋類風濕關節炎、1 型糖尿病、干燥綜合征、肝母細胞瘤、濾泡性淋巴瘤五種疾病及 29 種細胞類型。MEDEA 比單獨使用大模型的準確率最高提升 45.9%。

該場景的核心挑戰在于細胞類型粒度。大模型在多步分析中會逐步模糊細胞類型 —— 將用戶指定的「初始型 CD4+ αβ T 細胞」簡化為「CD4+ T 細胞」。在類風濕關節炎中，初始型與效應記憶型 CD4+ αβ T 細胞的致病角色截然不同，混淆會導致靶點推薦指向錯誤的生物學邏輯。加入上下文驗證后，MEDEA 在髓樣樹突細胞上的準確率提升 28.9%，在初始型 CD4+ αβ T 細胞上提升 21.7%—— 這些恰恰是上下文粒度直接決定靶點推薦質量的細胞類型。

消融實驗揭示了一個結構性矛盾。大模型單獨使用時幾乎從不放棄回答（棄權率僅 1.8%），但跨五種疾病的平均錯誤率高達 69.2%—— 在 1 型糖尿病上甚至達到 80%。文獻檢索配置方向相反：77.6% 的分析選擇放棄回答，因為細胞類型特異性的靶點文獻確實太過稀缺。大模型的參數化知識覆蓋面廣但可靠性低，文獻證據可靠性高但覆蓋面窄，任何單一通路都無法同時滿足兩者，只有多條通路互相校驗才能兼顧。完整 MEDEA 達到最高準確率和最低失敗率。

合成致死推理：糾錯、補漏、止損

2,385 次分析，覆蓋 MCF7、MCF10A、MDAMB231、CAL27、CAL33、A549、A427 七個癌細胞系。MEDEA 比骨干大模型最高提升 21.7%（MCF7）。

MEDEA 在該場景下展現出三種行為模式。在至少 323 個大模型答錯的案例中給出了正確判斷（糾錯）；在 175 個大模型棄權的案例中給出了正確答案（補漏）；在 141 個大模型犯錯的案例中選擇棄權而非跟著錯（止損）。在藥物發現場景中，止損可能比糾錯更有價值 —— 一個錯誤的合成致死預測可能觸發昂貴的實驗跟進，而一個校準的棄權只會讓研究者多花時間尋找其他證據。

系統整合了 DepMap 基因共依賴分數與通路富集分析，對基因對聯合抑制是否會選擇性殺死癌細胞做出可追溯的判斷。

免疫治療響應預測

894 次患者級別分析，基于 IMvigor210 膀胱癌隊列的 298 名患者。MEDEA 比大模型最高提升 23.9%。在高腫瘤突變負荷且非炎癥型微環境這一最困難的亞組中，MEDEA 修正了底層機器學習模型 50.9% 的誤分類。

論文中的一個患者案例清晰展示了多源證據沖突時的決策過程。一名腫瘤突變負荷為 19.0 的男性患者，GPT-4o 和 Claude 3.7 Sonnet 均基于高突變負荷預測「響應」。MEDEA 調用 COMPASS 分析腫瘤轉錄組后發現 T 細胞耗竭嚴重（評分 0.5067）、B 細胞浸潤極低（0.0260），微環境整體呈功能失調；而文獻檢索恰恰支持「高突變負荷→好響應」的關聯 —— 兩條證據直接矛盾。經多輪討論調和后，MEDEA 判定微環境功能障礙信號優先于突變負荷的統計關聯，預測「不響應」。患者實際結局為疾病進展。整個決策鏈路可追溯。

驗證機制的貢獻大于骨干模型的選擇

消融實驗中最核心的發現：MEDEA 的性能提升并非來自更強的骨干大模型。無論使用 GPT-4o 還是 Claude 3.7 Sonnet 作為骨干，加入驗證模塊后性能顯著提升，去掉后顯著下降。這意味著當前組學智能體的性能瓶頸可能不在推理能力，而在過程可靠性。

MEDEA 的輸出不是一個標簽或分數，而是一份包含完整推理鏈路的分析報告 —— 研究計劃、每步工具調用與輸出、文獻檢索與相關性評分、證據調和的決策過程。對于需要向團隊解釋「為什么推薦這個靶點」或「為什么判斷該患者不響應」的場景，這種可審計的輸出形態具有直接的實際價值。

代碼、評測基準和全部工具配置均已開源，模塊化設計支持選擇性集成。論文同時指出局限性：評測基準依賴已有單細胞圖譜和特定患者隊列，部分評測依賴大模型評審，工具本身編碼了細胞類型粒度等假設，評審團式共識模塊存在關聯錯誤風險。

在藥物發現中，一個自信的錯誤答案往往比一句誠實的「我不確定」代價更高。MEDEA 的校準棄權 —— 在證據不足時選擇不回答 —— 或許是這項工作中最具實際價值的設計。

聲明：包含AI生成內容

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.