網易首頁 > 網易號 > 正文 申請入駐

全球首個醫療視頻理解大模型開源!6k+組精標測試集/英雄榜上線

0
分享至

田晏林 發自 凹非寺
量子位 | 公眾號 QbitAI

手術視頻的“黑盒”,被一腳踢爆了!

就在這兩天,GitHub和Hugging Face社區上線了一枚醫療大模型領域的“核彈”。

全球規模最大、性能最強的醫療視頻理解大模型——uAI Nexus MedVLM(中文名:元智醫療視頻理解大模型)開源!

最驚人的是,這玩意兒是真的能看懂手術。

論文已經被CVPR 2026收錄,團隊還同步甩出了一套由6245個視頻-指令對構成的標準測試集。

啥概念?醫療視頻理解,終于有了一把“公共標尺”。

而如此兼具規模與精度的醫療視頻數據開源,在業內尚屬首次。

小編第一時間沖到Hugging Face,把模型拉下來實測了一波。

到底有多能打?

先交代一下uAI Nexus MedVLM的硬指標:

  • 匯聚超53萬條視頻-指令數據;
  • 支持4B/7B參數規模,單卡就能部署(對,一張卡就能跑);
  • 整合8個專業醫學數據集,覆蓋內鏡、腹腔鏡、開放手術、機器人手術、護理操作……幾乎你能想到的手術場景,它全包了。

實測效果咋樣?

Demo的體驗設計非常友好:界面核心模塊清晰;支持上傳手術視頻文件。



你可以上傳自己的醫療視頻,也可以用預置示例直接測試。

我嘗試用示例的腹腔鏡膽囊切除術視頻,測試了三個臨床核心維度,并對比了通用大模型(GPT-5.4、Gemini-3.1、某國產大模型)和uAI Nexus MedVLM的輸出差異。

定量實測的數據太殘暴了!手術安全評估:準確率89.7%。

啥概念?GPT-5.4只有16.4%,Gemini-3.1是24.2%,某國產大模型是30.9%。

也就是說,uAI Nexus MedVLM的準確率是GPT-5.4的近5.5倍,是Gemini-3.1的3.7倍,是國產大模型的近3倍。

時空動作定位:uAI Nexus MedVLM的mIoU是Gemini-3.1的3.2倍,是國產大模型的3.7倍,是GPT-5.4的47倍,

視頻報告生成(5分制):uAI Nexus MedVLM 拿到4.24分,GPT-5.4只有3.98分,某國產大模型只有3.5分,Gemini-3.1只有3.7分。

而通過MedGRPO強化學習優化后,相比基座模型,uAI Nexus MedVLM的器械定位能力提升14%;手術步驟識別能力暴漲52%;手術描述質量提升16%~25%。



uAI Nexus MedVLM覆蓋內鏡腔鏡手術、開放式手術、機器人手術、護理操作等多類臨床場景,涵蓋了8個手術數據集中的8個任務:

視頻摘要(VS)、關鍵安全視野評估(CVS)、下一步操作預測(NAP)、技能評估(SA)、時間動作定位(TAG)、密集視頻描述(DVC)、區域級描述(RC)和時空基礎化(STG)。

每項任務的表現都超越了GPT和Gemini。

再看定性實測的結果,把一段被標記了綠色框的手術視頻發給大模型,讓它描述。

輸入問題:你是一名專攻微創手術的外科分析專家。這段視頻展示了腹腔鏡膽囊切除術的內鏡畫面。請描述0.0秒時,邊界框內物體的狀態,以及在0.0~29.0秒時間段內的操作。



標準答案是:鉗持續夾持并將膽囊向手術視野的左上方牽拉,提供反向牽引和暴露。

GPT-5.4這邊呢,它只能給出籠統的描述,未能識別出具體器械。

Gemini-3.1則將工具錯誤識別為“電凝鉤”,描述成了不正確的操作。

某國產大模型:則無法識別出正確的手術操作步驟。

只有uAI Nexus MedVLM,給出了接近標準答案的描述:

位于左上方的抓鉗持續向上并朝中央牽引膽囊,保持張力并為鉤子暴露分離平面。

隨后,我看了下示例給出的8個任務表現,一個比一個令人震撼。

為避免真實手術場景帶來的觀感不適,我們選取了一段溫和的示例視頻,內容是護士給患者監測身體指標。

視頻涵蓋了護士查看血壓計、查看體溫計、護理記錄、洗手、測量血壓、測量體溫、脈搏測量、呼吸測量等工作。



現在,我們隨機考察8個任務中的一個,比如「時間動作定位」。

輸入問題:脈搏測量動作發生在什么時間?

標準答案是:46.0-61.8seconds。

模型給出的預測是:43.0-65.0seconds。前后誤差不超過4秒,且正確答案就在預測范圍內。

為什么手術視頻是AI最難啃的骨頭?

在AI醫療領域,將AI用于影像輔助診斷、病歷書寫、質控管理等場景早已不是新鮮事,在不少醫院已經落地。

但有一個方向,至今仍是公認的“無人區”,那就是手術視頻理解。

之前沒人敢碰,為啥?三重地獄級難度,和靜態影像完全不是一個量級:

第一關:數據極難獲取。臨床手術視頻涉及患者隱私與醫學倫理,獲取本身就困難重重。

即便拿到了原始視頻,你讓專業醫生逐幀標注?成本高到可以勸退99%的團隊。

第二關:沒有統一評測標準。這是行業里一個很尷尬的現實:各家用自己的數據集、自己的指標,模型效果根本沒法橫向比較。

你說你強,他說他強,誰說了都不算,嚴重阻礙整個賽道的發展。



第三關:任務本身極端復雜。手術視頻的難就難在對空間、時序、語義的理解要高度專業。

比如,它需要精準識別毫米級的器械位置和解剖結構。稍微偏一點,可能就認錯了。

而且膽囊得先分離再切除,不能反過來。AI如果看不懂時序,就根本無法理解手術進程。

各種約束疊加,再頂級的模型也只能歇菜。

但現在,這個無人區被uAI Nexus MedVLM一腳踩穿

它不只是“炫技”,是真的能救命。

好了,說點實際的。這模型具體能干嘛?

術前:分析主刀老師上萬臺手術視頻,挖掘臨床規律、輔助優化方案。

想象你是一位剛站上手術臺的臨床醫生,即將做一臺膽結石微創手術。

以前你只能靠記憶和經驗;現在AI把成千上萬臺頂級專家的手術經驗沉淀下來,相當于有了最強的大腦,來輔助你完成這臺手術。



術中:在分離膽囊管、顯露安全視野等關鍵步驟,實時給出指引;對違規操作、動作偏差進行毫秒級預警,成為你的“第三只眼”

術后:自動完成總結與結構化記錄,這通常會占用醫生大量時間,但現在,一鍵生成標準化報告。這臺手術的經驗,也能成為下一位醫生的“決策依據”。

手術質控、術中安全、報告自動化、醫學教學……uAI Nexus MedVLM的價值,遠不止于技術突破。

在中國,優質醫療資源集中在三甲醫院,基層醫院醫生成長周期長、手術經驗積累慢。

而uAI Nexus MedVLM可以把頂級專家的手術經驗“沉淀”下來,基層醫院的醫生也能獲得“專家級”的術中輔助。

這或許才是AI真正理解手術視頻的意義所在。

全球開發者,新機遇來了

這次發布,最值得關注的不僅是uAI Nexus MedVLM本身。

開發這一模型的背后玩家聯影智能(聯影集團旗下一家專注于AI醫療的創新公司),首次向全球開源大規模高質量醫療視頻標注數據和模型,并提供了一個更具可比性的評測基準。

這意味著什么?終于有了一個手術視頻理解垂直領域的“全球公共測評體系”了。

以前,各家模型各說各話,效果沒法比。

現在,拉出來在同一個數據集上跑一跑,誰強誰弱,一目了然。

而這,還只是開始。

這支研發團隊不想唱獨角戲,上線了醫療視頻理解大模型榜單,面向全世界開發者發出挑戰。



這是一個綜合基準測試,用于評估視頻語言模型在醫療和外科視頻理解方面的表現。

開發者可提交自有模型結果,由系統基于標準自動評分,形成動態更新的統一排行榜。

當全球開發者都能下載模型、使用數據集、上傳自己的成果時,看誰能把對醫療視頻理解的能力邊界,再往前推一步了。

這個過程中,醫生上傳的罕見病例、復雜手術視頻,尤其是現有模型表現不足的案例,都會成為極為珍貴的真實數據,持續驅動技術迭代。

醫療視頻AI正在迎來面向全球開發者的黃金時代。

未來,uAI Nexus MedVLM將與具身智能融合,完善感知-推理-執行的能力閉環。從手術室拓展到更多臨床場景,推動醫療全流程智能化。

數據開放、模型共享、全球協同……這條路,才剛剛開始。

開發者們,是時候上車了~

彩蛋:鏈接在此,請自取

1.在線Demo:
https://huggingface.co/spaces/UII-AI/MedGRPO-Demo

2.推理代碼:
https://github.com/UII-AI/MedGRPO-Code

3.MedVidBench數據集:
https://huggingface.co/datasets/UII-AI/MedVidBench

4.公開榜單:
https://huggingface.co/spaces/UII-AI/MedVidBench-Leaderboard

5.論文:
https://arxiv.org/abs/2512.06581

6. 項目介紹:
https://uii-ai.github.io/MedGRPO/

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
7499元,新機官宣:4月24日,全渠道首銷!

7499元,新機官宣:4月24日,全渠道首銷!

科技堡壘
2026-04-24 09:54:10
亨德利:艾倫這種打法拿不了冠軍!艾倫回懟:他的固執付出了代價

亨德利:艾倫這種打法拿不了冠軍!艾倫回懟:他的固執付出了代價

求球不落諦
2026-04-26 11:10:51
擴散周知!5月1日嚴查煙草,家里有人抽煙的快看看!

擴散周知!5月1日嚴查煙草,家里有人抽煙的快看看!

王姐懶人家常菜
2026-04-26 15:32:03
廣東隊將會賺得盆滿缽滿!

廣東隊將會賺得盆滿缽滿!

體育哲人
2026-04-26 08:30:08
19歲小伙連吃幾天小龍蝦,劇烈頭痛、行走困難!確診為“橫紋肌溶解癥”

19歲小伙連吃幾天小龍蝦,劇烈頭痛、行走困難!確診為“橫紋肌溶解癥”

環球網資訊
2026-04-26 07:43:11
八部門重磅新規落地!禁止支付與信貸捆綁,白條、月付等面臨重大調整,用戶終于不用擔心“被動開通貸款”

八部門重磅新規落地!禁止支付與信貸捆綁,白條、月付等面臨重大調整,用戶終于不用擔心“被動開通貸款”

每日經濟新聞
2026-04-26 16:29:02
中甲大洗牌!廣州豹閃電雙殺亞泰,南通支云不敗金身火得發燙!

中甲大洗牌!廣州豹閃電雙殺亞泰,南通支云不敗金身火得發燙!

阿晞體育
2026-04-26 22:37:15
浪姐二公淘汰爆了熱搜!齊思昀表情被審判!謝娜手肘硬撞示意

浪姐二公淘汰爆了熱搜!齊思昀表情被審判!謝娜手肘硬撞示意

一盅情懷
2026-04-26 19:31:01
“把孩子當力工培養呢?”一份中學生高碳水午餐,讓家長被群嘲

“把孩子當力工培養呢?”一份中學生高碳水午餐,讓家長被群嘲

妍妍教育日記
2026-04-21 09:05:03
1995年,在香港高檔餐廳里,34歲的洪晃與63歲的父親洪君彥的合影

1995年,在香港高檔餐廳里,34歲的洪晃與63歲的父親洪君彥的合影

娛樂洞察點點
2026-04-25 21:55:38
此論調不可?。赫麄€北約打不過俄羅斯?把德國逼下場會讓俄軍絕望

此論調不可?。赫麄€北約打不過俄羅斯?把德國逼下場會讓俄軍絕望

寰球經緯所
2026-04-24 15:00:27
睡遍好萊塢的種馬影帝:性欲成癮每天與情人交歡,私生子多達25人

睡遍好萊塢的種馬影帝:性欲成癮每天與情人交歡,私生子多達25人

錢小刀娛樂
2026-04-15 21:30:57
為啥納指創新高了,納指基金卻沒新高?

為啥納指創新高了,納指基金卻沒新高?

平點金基
2026-04-26 18:19:26
“明天下雨,面試能改天嗎”:角色定位不清,是成年人最大的災難

“明天下雨,面試能改天嗎”:角色定位不清,是成年人最大的災難

精讀君
2026-04-24 09:00:18
0-1!李金羽太難了!鐵人3連敗+4輪不勝,新鵬城贏球緊咬申花泰山

0-1!李金羽太難了!鐵人3連敗+4輪不勝,新鵬城贏球緊咬申花泰山

阿晞體育
2026-04-26 22:42:18
CBA官宣最具進步球員獎:徐昕換隊爆發當選 5數據創生涯新高

CBA官宣最具進步球員獎:徐昕換隊爆發當選 5數據創生涯新高

醉臥浮生
2026-04-26 19:06:40
僅播4集就口碑大爆,評分高達9.5,這才是黑馬古裝劇該有的樣子

僅播4集就口碑大爆,評分高達9.5,這才是黑馬古裝劇該有的樣子

糊咖娛樂
2026-04-25 16:58:09
挪威人午餐只吃一片三明治?跟拍同事飯盒一個月,我驚了!

挪威人午餐只吃一片三明治?跟拍同事飯盒一個月,我驚了!

老好人的憤怒
2026-03-24 23:24:57
大便要排隊,強奸卻隨時:一名日本女戰俘的1944年日記

大便要排隊,強奸卻隨時:一名日本女戰俘的1944年日記

英子談
2026-04-26 15:56:57
中超大黑馬8場不?。号琶?,鄭智又搞砸了:5場不勝太差勁

中超大黑馬8場不?。号琶?,鄭智又搞砸了:5場不勝太差勁

足球狗說
2026-04-26 20:56:31
2026-04-26 23:11:00
量子位 incentive-icons
量子位
追蹤人工智能動態
12536文章數 176458關注度
往期回顧 全部

科技要聞

漲價浪潮下,DeepSeek推動AI“價格戰”

頭條要聞

以色列政壇重大變局 內塔尼亞胡迎來勁敵

頭條要聞

以色列政壇重大變局 內塔尼亞胡迎來勁敵

體育要聞

森林狼3比1掘金:逆境中殺出了多孫穆?!

娛樂要聞

僅次《指環王》的美劇,有第二季

財經要聞

事關新就業群體,中辦、國辦發文

汽車要聞

預售19.38萬元起 哈弗猛龍PLUS七座版亮相

態度原創

游戲
本地
教育
公開課
軍事航空

3D區女神淪陷!蒂法胸口被加布料 玩家直呼失望

本地新聞

云游中國|逛世界風箏都 留學生探秘中國傳統文化

教育要聞

加速社會與數字斷連:為了“上岸”身不由己

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

伊朗總統:不會在壓力、威脅下進行談判

無障礙瀏覽 進入關懷版