國際疾病分類編碼(ICD)是醫療數字化的基礎設施。醫生看完病歷手寫代碼,耗時且易錯。英語世界的自動編碼研究已經很多,俄語區卻幾乎空白。
問題在于數據。俄語病歷結構松散、縮寫混亂、語法復雜,現有模型直接遷移效果很差。更麻煩的是標注——需要既懂醫學又懂編碼的專家,成本極高。
![]()
新數據集RuCCoD試圖破局。它收錄了5.4萬份俄文出院小結,覆蓋住院和門診場景,并配備人工校驗的ICD-10代碼。這是目前俄語領域規模最大的同類資源。
![]()
實驗結果顯示,基于該數據訓練的模型在宏平均F1上達到0.42,較基線提升明顯,但離臨床可用還有距離。主要瓶頸在于罕見病編碼和復合診斷的拆解。
![]()
研究者開源了數據和代碼。這對俄語區醫療AI是必要的第一步——先解決"有沒有",再談"好不好用"。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.