金磊 發自 杭州
量子位 | 公眾號 QbitAI
很反差。
明明是一場AI的發布會,臺下卻坐滿了醫學界的大佬們:
有北大、清華的,有浙江、上海的,甚至醫學頂刊BMJ集團的主編都來圍觀了……
![]()
為啥會這樣?
因為阿里健康正式發布了一個新的醫學AI產品——氫離子,主打的就是靠譜的醫學AI助手。
或許你還會有疑問,現在通用大模型、醫療AI不是蠻多的么,阿里健康干嘛還要再另起爐灶啊?
好問題。
阿里健康CTO王祥志在現場舉的例子,就直擊了這個問題的七寸。
他用專業的Prompt來約束通用大模型:
你必須要查詢專業的文獻,告訴我氟澤雷塞的使用注意事項,當病人出現漏服到底怎么辦的時候?
結果,通用大模型一本正經地給出了錯誤的補服建議……
![]()
在容錯率極低的醫學場景下,這絕對是個Big Problem。
除此之外,在“用”這件事上,也有問題。
目前中國50%的醫生,會通過4個以上的APP來解決他們的問題,包括查詢用藥、查詢臨床指南,查詢中英文文獻還要再去不同的論文網站……
![]()
所以,氫離子要做的事情就一目了然了。
不僅是要更聰明,最重點的是,要讓中國500萬醫生用得夠可靠、夠方便。
把靠譜的證據擺到500萬醫生面前
首先需要厘清一個核心概念。
氫離子不是醫生用來給患者看病的那種AI,它是專門解決中國500萬醫生查證據慢、找文獻難、讀英文累、不同工具來回切換,以及通用AI容易說胡話等痛點的。
為此,氫離子甩出了三板斧,精準直擊痛點。
循證智能問答,每句話都有跡可循
醫生可以用自然語言來提問,例如:
糖尿病腎病SGLT2抑制劑最新指南。
![]()
甚至醫生們還可以通過語音、圖片、病例文本等方式表達需求,系統會再根據問題拆解意圖、檢索證據、組織答案:
![]()
但更重要的是,答案可不只是完整回答那么簡單。
氫離子強調,每個答案背后都會有指南、文獻、說明書等醫學證據支撐,并且可以定位到原文中的具體段落:
![]()
醫生點擊對應引用,就能看到證據來自哪篇文獻、哪一部分原文,以及原文如何支持這個結論。
這點對醫學AI非常關鍵。
因為醫生真正需要的,正是一個能把證據鏈擺清楚的助手。
AI給出結論之后,醫生必須能回頭檢查:這個結論依據的是指南、RCT研究、真實世界研究,還是某種較弱證據?它適用的人群是誰?樣本量多大?是否和眼前患者相似?
如此一來,在查得快,且找得準的基礎上,才能把核對證據的權利完完整整地交還給醫生。
精準文獻搜索,獨家牽手國際頂刊
阿里健康正式宣布與英國BMJ集團達成期刊內容獨家合作。作為全球最具影響力的醫學期刊之一,BMJ集團旗下70本醫學期刊過去十年間發表的所有內容和多媒體資源,將獨家授權提供給氫離子。
![]()
這意味著,氫離子成為了國內唯一一個在站內就能直接閱讀BMJ集團海量頂級文獻的醫學AI助手。
據了解,在此之前,氫離子已經與中華醫學會、人民衛生出版社、中國抗癌協會等國內權威機構打通了數據。
![]()
一句話搜遍國內外頂刊,氫離子在證據源的豐富度與權威性上,已然筑起了區別于其它AI的護城河。
AI文獻速讀和醫學翻譯
對醫生來說,找到論文只是第一步,讀懂才是更費時間的部分。
一篇SCI論文,尤其是臨床研究論文,醫生往往需要花不少時間拆解,包括研究目的是什么、納入了哪些人群、干預措施和對照組是什么、對真實臨床有什么參考價值等等。
在過去,醫生們可能需要1到2小時才能提取一篇文獻的核心內容;但有了氫離子,這個時間被壓縮到了3到5分鐘!
![]()
同時,氫離子還提供醫學術語翻譯和中英對照閱讀,正如王祥志在現場提到的:
團隊面對面訪談中,有超過80%的醫生表示閱讀英文醫學內容時需要借助各種翻譯工具,尤其是專業術語和生僻表達。
為什么氫離子不會說胡話?
能讀懂長難句、能做總結翻譯,這在今天的大模型圈似乎已經是基操。
但真正讓能臺下數百位嚴苛的醫學專家點頭認可的,是氫離子在底層邏輯上對醫學嚴謹性的死磕。
通用大模型之所以會說胡話,是因為它的本質是基于概率的文字接龍;但王祥志認為,在容錯率極低的醫療行業,AI必須被戴上緊箍咒,懂得敬畏邊界。
為此,氫離子給出了一套完全不同于通用大模型的公式:
醫學證據 + 循證醫學 + AI = 更可靠的醫學AI助手。
![]()
AI被放在了最后,而循證醫學的框架被前置到了算法的每一個毛細血管中。
具體而言,氫離子打造了一套全鏈路的四層循證AI架構。
![]()
第一層,是證據理解層。
畢竟醫學文獻不是普通網頁,它里面有研究對象、干預措施、對照組、結局指標、樣本規模、研究類型、證據等級等一整套結構。
氫離子會基于PICO框架和GRADE標準,對文獻和指南進行結構化理解。
(注:PICO是循證醫學里常用的問題拆解框架,分別對應Patient/Population、Intervention、Comparison、Outcome,也就是研究人群、干預措施、對照方式和結局指標;GRADE則常用于評價證據質量和推薦強度。)
用更通俗的話說,氫離子是先讓AI讀懂這條證據到底在研究誰、用了什么方法、和誰比較、得出了什么結果,以及這條證據到底有多強。
這一步決定了后面所有回答的底座。
第二層,是精準檢索層。
醫生提問往往非常復雜,尤其是帶有真實病例背景的問題。模型不能只做關鍵詞匹配,更要理解這個問題對應的醫學結構。
比如,一個患者的年齡、疾病階段、合并癥、用藥史、不良反應,都可能影響證據是否適用。氫離子在檢索階段引入PICO語義匹配,就是為了把醫生的問題和醫學證據之間建立更細的連接。
一言蔽之,這類檢索是為了找到真正適用的證據。
第三層,是模型微調和強化。
通用大模型訓練的是廣泛語言能力,而醫學AI要額外學會什么叫準確、忠實循證、安全有用。
這意味著模型要學會在證據范圍內組織答案,遇到證據不足、指南不一致、適用人群有限的情況,也要把邊界說清楚。
這也是氫離子反復強調“助手”二字的原因。
它不替醫生做決定,相反,是把可追溯的證據、證據等級、適用范圍和可能限制整理給醫生。
因此,最終診斷和治療責任,仍然在醫生手里。
第四層,是專家評審層。
氫離子宣布成立醫學AI專家委員會,邀請300多位中國臨床專家共同參與醫學AI評價標準和數據集建設。
這一體系包括學術方向把關、評測標準制定,以及一線醫生對AI回答的持續驗證和反饋。
這套機制的意義在于,醫學AI不能只在技術榜單上自證優秀。
醫療是一個高度依賴專業共識和臨床驗證的領域,一個回答到底有沒有用,不能只看模型分數,更要看臨床醫生是否認可、證據鏈是否扎實、邊界是否清晰、是否經得起真實問題反復檢驗。
從這個角度看,氫離子的四層架構更像一個質量控制系統——
先理解證據,再精準檢索,再訓練模型按循證邏輯回答,最后交給專家體系持續校驗。
這也是醫學AI和普通AI產品最大的分野。
中國醫學AI,開始定義標準了
縱觀整場發布會,最大的感受不只是阿里健康發了一個新APP,也不只是與BMJ集團達成獨家合作。
重點應該在于一個變化——
醫學AI正在從能不能回答問題,進入到答案如何被驗證的階段。
過去,很多醫療AI產品更像是檢索工具、問答工具、輔助寫作工具。它們確實提高了效率,但也常常讓醫生陷入新的不確定,AI說得很像對的,但我怎么知道它真的對。
氫離子的答案是,把AI拉回循證醫學框架里。
它不把模型本身包裝成權威,而是把權威交還給證據、指南、文獻和專家評審;AI在其中扮演的角色,是連接、總結、翻譯、定位和推理。
這種定位比較克制,也更符合醫學場景。
在圓桌論壇中,北京大學人民醫院血液科副主任醫師劉競談到一個很現實的問題:
當AI推薦和現行指南不一致時,醫生應該相信誰?
她的回答不是二選一,而是既不固守可能已經過時的指南,也不盲目依賴AI推薦。指南是臨床行醫的基本框架,AI則可以補充最新證據、特殊人群和復雜病例中的信息缺口。
這其實說出了醫學AI最合理的位置:應當是醫生和快速增長的醫學證據之間的連接器。
![]()
從生產力角度看,它能把醫生從大量重復性的資料檢索和初步閱讀中解放出來。
醫生最寶貴的能力,不是記住每篇論文,也不是手動翻遍所有數據庫,而是在證據、人群、病情、風險、患者意愿之間做綜合判斷。AI越能把底層證據整理清楚,醫生越能把時間花在真正復雜的臨床邏輯和人文溝通上。
從醫療資源角度看,它也有機會縮小不同地區醫生之間的信息差。
在大城市三甲醫院,醫生更容易接觸國際會議、前沿文獻和高水平學術交流;但在基層或資源相對有限的地區,醫生獲取頂級醫學證據的路徑往往更長。氫離子希望解決的,正是這種證據可及性問題。
當然,這件事不能說得太滿。
一個醫學AI工具能否真正改變醫生工作方式,還要看長期使用效果,看證據覆蓋是否持續完善,看回答質量是否經得起更多真實臨床問題檢驗,也看它能否在醫生群體中建立足夠信任。
但至少可以確定的是,醫學AI的競爭重點已經變了——
誰能更好地回答“證據從哪來、是否可信、如何驗證、適用邊界是什么”,誰才更接近醫生真正需要的AI。
畢竟,對醫生來說,一個AI助手最重要的能力,從來不是說得多漂亮。
而是每一句話,都有跡可循。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.