一家估值超5000億美元的幣圈富豪公司,秀出了性能碾壓谷歌的AI醫療大模型。
近日,以發行全球最大穩定幣USDT聞名的Tether推出了AI醫療大模型QVAC MedPsy,并在多項醫學推理與診斷基準測試中展現出令人意外的強大性能:
這款僅1.7B參數的輕量級模型,擊敗了規模大16倍的谷歌MedGemma-27B;且4B版本使用的token比主流模型少3.2倍,在降低計算成本的同時保持了較高的輸出質量。
這一結果,直接挑戰了AI醫療領域長期存在的“模型規模越大,效果越好”的共識,在官方技術通稿中,Tether AI團隊強調,該模型更接近一種“輕量級高密度推理系統”。
![]()
不少開發者社區也對其“低參數、高性能”的組合方式給予了積極評價,認為其可能代表醫療大模型的一條新路徑。
值得關注的是,Tether旗下AI團隊在2024年才啟動招募,成立時間極短。從其官網披露的技術說明與開源鏈路來看,QVAC MedPsy的訓練并非完全從零開始構建,而是在多個基礎模型之上進行組合式訓練與優化。
![]()
進一步追溯其論文與技術報告可以發現,在封閉式醫學基準測試與HealthBench評估框架中,Tether團隊實際采用了來自中國公司的開源醫療大模型——百川智能的Baichuan-M3-235B作為自己的“教師模型”。
![]()
中國大模型的持久統治力
在Tether團隊的內部模型篩選中,Baichuan-M3同臺競技的對手包括OpenAI的GPT-OSS-120B以及量化巨頭旗下Ubiquant AI推出的Fleming-R1-32B。
而Baichuan-M3-235B在幾乎所有核心評測指標上都展現出明顯優勢,尤其是在高復雜度醫學問題上的表現,拉開了顯著差距。
其中,最值得關注的是醫學推理基準MedXpertQA。
這是目前業內公認難度最高的醫學多選評測之一,相比傳統基于USMLE題庫的MedQA,它更強調復雜臨床推理、多學科診斷與長鏈路決策能力,某種程度上,更接近頂級醫院MDT(多學科會診)場景下的真實醫學判斷。
在這一基準上,Baichuan-M3相比競品取得了高達10.98分的領先優勢。對于醫療AI而言,這已經不是簡單的“精度提升”,而是意味著模型在復雜病情理解、診療邏輯組織以及醫學知識調用能力上,出現了代際差異。
不僅如此,在經典大模型評測MMLU-Pro Health上,Baichuan-M3同樣展現出顯著領先,分別取得了+5.05 / +2.73的優勢表現。
事實上,早在2026年1月首次發布時,Baichuan-M3就已經在全球權威醫療AI評測基準 HealthBench上擊敗GPT-5.2,并刷新當時最高紀錄。更難得的是,在AI行業已經進入“月更時代”的背景下,這一優勢并未隨著時間迅速衰減。
具體來看,Baichuan-M3-235B相較GPT-OSS-120B領先約6至12分,相較Fleming-R1-32B領先約10至12分,并且在HealthBench全部七個維度上都維持了持續性的優勢。
![]()
Tether團隊對Baichuan-M3模型的評價
這種持續領先的背后,是百川在醫療強化學習體系上的長期投入。
從2025年M2開始,百川便將原本依賴患者模擬器與靜態Rubric的半動態反饋機制,升級為能夠隨模型能力共同演化的全動態Verifier System。隨著監督信號不斷細化、難化,模型得以持續突破能力上限,最終讓M3在復雜醫學推理與醫療溝通能力上實現躍遷。
與此同時,M3還首次具備了原生“端到端”嚴肅問診能力。它能夠像真實醫生一樣主動追問、逐層逼近病因,把關鍵病史和風險信號一步步問出來,再基于完整信息進行深度醫學推理。
這也是為什么,Tether團隊并不是Baichuan-M系列模型唯一的支持者。Baichuan-M系列模型在開源社區累計獲得超過150萬次下載,同時受益于百川推出的「海納百川」計劃,M3 Plus API已向服務醫務工作者的機構免費開放,目前已有大量團隊基于該模型構建醫療應用。
甚至在今年3月OpenAI發布GPT-5.4后,仍有不少開發者在社區中呼吁,希望GPT系列與Baichuan-M3在HealthBench上展開正面對決,并質疑GPT在醫療健康領域的真實能力,是否已經被中國醫療大模型反超。
![]()
正如百川智能創始人、 CEO王小川在媒體采訪中表達的:“(AI醫療)護城河核心肯定在于模型能力的絕對領先,在醫療這一嚴肅領域,只有領先一代的技術水平才能建立行業信任 。”
![]()
重構專業醫療的“數字基建”
當大模型浪潮席卷各行各業時,真正能切入醫療AI的公司并不多,百川智能算是其中最早的一批。
早在2023年,百川智能成立后迅速躋身國內大模型賽道的前列。到了2025年,百川智能明確了“為人類造醫生、為生命建模型”的核心路徑,其發布的模型幾乎全部圍繞醫療場景和推理能力增強展開。
同年10月,百川推出首個循證增強醫療大模型Baichuan-M2 Plus,在幻覺率控制上明顯優于通用大模型,降低至Deepseek的三分之一,可信度接近資深臨床醫生水準。
年底,百川智能發布醫療Agent平臺PAPA(PlayBook Animated Proactive Agent),能夠從提醒用藥到動態調整健康計劃,實現月度乃至年度的患者康復進程管理,真正將AI嵌入臨床閉環。
隨后登場的醫療大模型Baichuan-M3更一鳴驚人。在全球權威醫療評測 HealthBench 中以 65.1分 登頂,首次全面超越 GPT-5.2,并刷新了醫療幻覺率最低記錄。
2026年以來,醫療健康已成為AI最受重視的落地領域之一。OpenAI推出“個人超級健康助手”ChatGPT Health,谷歌發布最新開源醫療模型MedGemma 1.5,Anthropic也掏出Claude for Healthcare來搶占醫療市場。
不同于通用大模型“先做能力、再找場景”的路徑,百川智能選擇深耕醫療垂類,圍繞臨床真實需求打磨產品,持續突破低幻覺率、端到端問診和復雜臨床推理等核心能力。
百川智能構建的“深度問診”能力,讓模型在有限對話輪次中,將臨床所需問題問全、問準,其表現甚至顯著高于人類醫生基線。
首創的“證據錨定”技術,不僅提供引文來源,還將每一句醫學結論精確映射到原始論文的對應段落,使AI的醫學判斷可核驗、可追責、可教學,極大增強了臨床可信度。
這也讓百川智能在醫療AI行業進入深水區后,逐漸形成差異化優勢——不僅有強大模型能力,更熟悉醫院工作流,更貼近真實臨床場景。
在政策支持、醫院數智化升級與大模型能力突破的多重推動下,醫療AI正在進入真正的產業化周期。而提前完成垂類深耕、建立技術與場景閉環的百川智能,顯然已經站在了更有利的位置。
此外,據智藥局獲悉,百川智能即將發布AI醫療應用產品與新一代大模型,其應用表現與技術成果值得高度期待。
—The End—
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.