2019年,當英語世界的BERT模型刷屏時,瑞典語在互聯(lián)網(wǎng)上幾乎隱形。一位研究者決定動手解決這個問題——用國家圖書館300年的文本檔案,從零訓練一個瑞典語版本。
最大的障礙不是算力,而是數(shù)據(jù)。瑞典語網(wǎng)頁內容稀少,且充斥著機器翻譯的劣質文本。研究團隊轉向圖書館的數(shù)字化檔案:報紙、書籍、政府文件,時間跨度從18世紀到現(xiàn)代。這些材料從未被用于訓練AI模型。
![]()
處理過程充滿妥協(xié)。古瑞典語的拼寫和語法與現(xiàn)代差異巨大,研究者不得不在"保留歷史語言特征"和"讓模型學會現(xiàn)代用法"之間取舍。最終方案是混合訓練:70%現(xiàn)代文本,30%歷史檔案。
![]()
模型發(fā)布后,一個意外出現(xiàn)了。圖書館員開始用它做 OCR 糾錯——識別掃描古籍中的識別錯誤。這是設計時沒考慮的場景,但恰好利用了模型對歷史語言的"記憶"。
![]()
這個項目的真正價值或許不在技術本身。它證明了一件事:小語種不必永遠依賴英語模型的機器翻譯,本地機構完全可以用自己的文化資產(chǎn),造出可用的工具。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.