網易首頁 > 網易號 > 正文申請入駐

7B打敗o3、GPT-5！醫學AI智能體讓模型學會“看哪里、怎么看”

2026-05-28 15:57:49　來源: 量子位

北京舉報

分享至

上海創智學院 LeapQuest 團隊投稿量子位 | 公眾號 QbitAI

醫學AI會寫解釋，但不代表它真的“看到”了關鍵證據。

過去的醫學多模態模型，大多是把一張影像或一段視頻編碼成視覺特征，然后讓大模型生成答案與解釋。

但問題在于——一個微小病灶、一個邊界變化、一段幾秒鐘的手術動作，往往就決定了答案是否成立。

而模型“被動接收”視覺上下文時，很容易看錯區域、漏看病灶。

為應對這一問題，上海創智學院LeapQuest團隊聯合浙江大學、上海交通大學、復旦大學，一口氣拿出了兩篇ICML 2026接收論文，首次把Think with Images/Think with Videos范式應用在醫學AI領域：

模型不再只是看完圖像或視頻后生成解釋，而是在推理鏈中主動調用視覺工具，重新觀察關鍵區域或關鍵時刻，并用新證據修正判斷。

這意味著，視覺不再只是輸入，視覺證據本身成了模型思考過程的一部分。

兩篇工作的核心關鍵詞如下：

兩篇工作不是孤立模型升級，而是共同提出醫學AI的新范式：

讓視覺證據進入模型的中間思考過程，把“解釋”從事后語言生成推進為推理過程中的證據查證。

Ophiuchus：面向醫學圖像的tool-augmented Think with Images

MedScope：面向臨床長視頻的Think with Videos

不是更會“寫解釋”，而是開始會“用視覺證據思考”

醫學AI過去最常見的工作方式，是把一張影像或一段視頻編碼成視覺特征，然后讓大模型生成答案與解釋。

問題在于，解釋看起來完整，并不代表模型真的看到了關鍵證據。尤其在醫學場景里，一個微小病灶、一個邊界變化、一段幾秒鐘的手術動作，往往就決定了答案是否成立。

Ophiuchus和MedScope共同把這個問題向前推進了一步：多模態模型不再只是“被動接收視覺上下文”，而是在推理過程中主動決定是否需要更多證據應該看哪里應該回看哪一段，并把工具返回的觀察結果納入后續推理。

這就是醫學AI領域首次被系統化提出的 “think with images/think with videos” 范式：視覺不再只是輸入，視覺證據本身成為模型思考過程的一部分。

Think with Images

Think with Images：讓模型在圖像診斷中“重新看一眼”

Ophiuchus的切入點非常直接：現有醫學多模態大模型雖然能寫出逐步推理，但遇到需要細粒度視覺證據的任務時，仍然容易“看錯區域、漏看病灶、誤把正常結構當異常”。

這不是單純語言能力不足，而是視覺交互機制不足

因此，Ophiuchus將大模型改造成一個能與醫學圖像工具協同的視覺智能體。

它可以根據當前推理狀態，決定是否調用外部視覺工具：用SAM2做精細分割，用BiomedParse根據文字提示定位醫學結構，用Zoom-in放大關鍵區域。

工具調用后的輸出不是孤立結果，而會以observation的形式回到推理鏈，驅動下一步判斷。

更關鍵的是，Ophiuchus并不是把工具“外掛”在模型外面，而是讓工具成為推理鏈的一部分

模型要學會何時調用工具、選擇哪個工具、如何解釋工具輸出，以及當工具結果不可靠時如何修正策略。

這使得模型從“會調用工具”走向“會用工具思考”。

Ophiuchus 技術框架

Ophiuchus的價值不只是讓醫學大模型多了幾個視覺工具，而是讓模型學會在診斷過程中主動“看哪里、怎么看、看完如何修正”。

從閉源SOTA到醫學Agent：Ophiuchus用結果證明“看得更細”才是關鍵

在同樣外部工具配置下，Ophiuchus-7B在8個VQA benchmark上取得68.0的平均分，高于OpenAI-o3的62.2Gemini 2.5 Pro的61.8GPT-5的59.9。

在工具使用準確性評估中，Ophiuchus達到97.9%的平均工具調用準確率。

這些結果背后的含義，比“某個榜單第一”更重要：

當問題真正依賴局部結構、病灶邊界和細胞級證據時，模型大小或語言推理并不是唯一瓶頸。

醫學AI需要一種能讓視覺證據不斷進入推理過程的機制

Think with Videos：從“看圖思考”走向“回看關鍵時刻”

如果說Ophiuchus解決的是醫學圖像中的局部證據問題，那么MedScope則把這一范式推進到更難的長視頻場景。

長臨床視頻的挑戰在于：關鍵證據不僅細，而且稀疏；不僅要看對內容，還要看對時間

一個手術動作、一個內鏡視野變化、一個器械進入與離開的瞬間，可能只持續幾秒，卻決定模型是否真的理解了臨床過程。

MedScope 提出的 “think with videos” 不是讓模型把整段視頻一次性壓縮成上下文，而是模擬臨床醫生的觀察方式：

先快速建立全局理解，再回到可疑時間窗，用crop_video截取片段，用get_frame獲取關鍵幀，最后把這些局部觀察結果整合進答案。

Textual CoT與 Visual CoT的差別

這使MedScope的推理過程天然具備可審查性：模型為什么回答這個結果，不只看它“說了什么”，還可以看它“回看了哪一段視頻、找到了哪些幀、這些證據是否支持結論”。

MedScope 框架

ClinVideoSuite與GA-GRPO：讓視頻模型學會“找證據”，而不只是“猜答案”

為了讓模型真正學會這種行為，MedScope構建了ClinVideoSuite：包含635K時間戳密集 caption、254K證據關聯QA、34K視覺CoT軌跡，以及用于強化學習的交互式訓練環境。

數據不是簡單問答，而是強調問題必須依賴局部時間窗中的視覺證據

訓練上，MedScope 采用三階段路線

第一階段進行臨床推理warm-up，學習醫學語義和長程視頻理解；

第二階段用visual-CoT cold-start SFT教會模型何時需要更多證據、如何調用工具；

第三階段用GA-GRPO強化時序對齊的工具使用，通過grounding-aware reward和evidence-modulated advantage，讓模型更偏向檢索真正支持結論的視覺片段。

ClinVideoSuite數據合成管線

在SVU-31K、ClinVideo-Eval等評測中，MedScope在多粒度視頻理解、細粒度時序推理和grounded VQA上取得開源模型中的SOTA

論文還顯示，去掉evidence reward會顯著降低定位質量，例如R@0.5從40.1下降到33.2mIoU從4.3下降到38.8，說明答案級監督不足以教會模型可靠地選擇證據。

真正的范式變化：視覺從“輸入”變成“思維過程”

把兩篇工作放在一起看，最重要的不是Ophiuchus處理圖像、MedScope處理視頻，而是它們共同定義了一種新的醫學多模態智能范式

模型的推理過程不再只是語言token的展開，而是語言、工具、圖像區域、視頻片段和證據反饋之間的閉環交互

醫學AI的下一個關鍵能力，不是生成更長的解釋，而是在給出解釋前主動尋找、驗證并引用視覺證據。

Ophiuchus和MedScope把這一點從方法論變成了可訓練、可評測、可擴展的技術路線。

為什么這可能成為醫學AI Agent的關鍵拐點

醫學任務與通用視覺問答最大的不同，是每一個結論都需要證據鏈

放射科醫生會放大病灶邊緣，病理醫生會尋找細胞形態，外科醫生會回看關鍵操作，內鏡醫生會追蹤病灶在時間中的出現與消失。

也就是說，臨床視覺推理天然就是交互式、證據驅動和可復核的。

“Think with Images/Videos”的意義，正是讓醫學AI向這種真實臨床認知方式靠近。

它不再滿足于一次性預測，而是在模型內部建立“假設-查證-修正-回答”的循環。

這為臨床可信AI提供了三類重要能力：更少幻覺、更強可解釋性、更適合復雜流程

醫學AI開始真正“邊看邊想”

從Ophiuchus到MedScope，可以看到醫學多模態大模型正在發生一次底層范式轉向

從看圖、看視頻，到在推理過程中持續地看；從輸出答案，到主動尋找證據；從語言鏈條，到視覺證據參與的多模態思維鏈

這也解釋了為什么“think with images/videos”值得被單獨提出。

它不是一個更花哨的工具調用框架，而是在醫學AI里重新定義了“推理”的邊界：推理不只是語言生成，而是圍繞證據進行的動態視覺探索

當模型能夠在思考中主動回看影像、放大病灶、截取視頻、驗證證據，醫學AI才真正從“會回答問題”走向“會進行臨床視覺推理”。

LeapQuest［起躍界問］是上海創智學院面向下一代醫學AI Agent、視覺推理與多模態大模型的青年交叉研究團隊，聚焦Visual Reasoning、Agentic RL、Clinical Tools，推動模型從“生成答案”走向基于證據的觀察、驗證與行動。

項目GitHub：
MedScope｜Think with Videos：https://github.com/SII-WenjieLisjtu/MedScope
Ophiuchus｜Think with Images：https://github.com/SII-zyj/Ophiuchus

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.