科大訊飛的醫(yī)療大模型團(tuán)隊(duì)選在常規(guī)工作日放出V3.5版本,沒有發(fā)布會(huì),沒有預(yù)熱海報(bào),只有一份技術(shù)報(bào)告和兩組評(píng)測成績。
按官方披露,這顆純國產(chǎn)架構(gòu)的醫(yī)療模型在IDC和MedBench兩項(xiàng)評(píng)測里都拿了第一。IDC是國際醫(yī)療對(duì)話理解評(píng)測,考的是模型能不能聽懂醫(yī)生和患者的真實(shí)對(duì)話。MedBench則是國內(nèi)醫(yī)療大模型競技場,涵蓋了臨床知識(shí)、診斷推理、治療方案等多個(gè)維度。兩個(gè)榜單方向不同,但訊飛都排到了榜首。
![]()
真正讓業(yè)內(nèi)側(cè)目的是病歷采納率這個(gè)指標(biāo)。91%——就是說模型生成的病歷草稿,醫(yī)生基本不用大改,可以直接歸檔。做過醫(yī)療信息化的都清楚,病歷書寫占用了醫(yī)生大量時(shí)間,如果一個(gè)模型真能把采納率拉到九成以上,節(jié)省的不只是打字時(shí)間,而是整個(gè)診療流程的流轉(zhuǎn)效率。
注意一個(gè)細(xì)節(jié):訊飛這次對(duì)標(biāo)的是GPT-5.5,而且限定在醫(yī)療這個(gè)垂直領(lǐng)域。不是比寫詩,不是比解數(shù)學(xué)題,就是比看病歷、寫診斷、理解醫(yī)患對(duì)話。在垂直場景里用專有數(shù)據(jù)做精調(diào),跑贏通用大模型,這條路徑已經(jīng)被驗(yàn)證過不止一次,但在醫(yī)療領(lǐng)域拿到91%這個(gè)數(shù)字,還是讓人琢磨——通用模型和行業(yè)模型之間的差距,可能比我們想的要大。
當(dāng)然,評(píng)測榜單的局限性也得說。跑分高不等于臨床好用,病歷采納率91%是在什么規(guī)模、什么病種、什么級(jí)別的醫(yī)院測出來的,這些細(xì)節(jié)目前還沒有公開。如果測試集集中在三甲醫(yī)院的標(biāo)準(zhǔn)化病歷,那和基層醫(yī)院的實(shí)際情況會(huì)有落差。技術(shù)報(bào)告里提到的落地路徑,要看接下來能在多少家真實(shí)醫(yī)院跑通。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.