網易首頁 > 網易號 > 正文申請入駐

阿里甩出AI語音轉寫神器！準確率擊敗字節騰訊，連方言都能寫對

2026-04-20 19:19:28　來源: 智東西

北京舉報

分享至

智東西
作者王涵
編輯心緣

智東西4月20日報道，剛剛，阿里發布語音識別大模型Fun-ASR1.5，該模型是千問端到端語音識別大模型的新一代版本。

該模型可以識別30種語言，覆蓋中文七大方言體系及20余種地方口音，并強化了古詩詞誦讀的專項識別。Fun-ASR1.5可以分辨出語音中的抑揚頓挫，重點優化了標點預測和文本歸一化能力，可以應用于會議紀要、新聞采訪整理、法律筆錄等場景。

技術團隊介紹稱，與Seed-ASR和Tencent-ASR模型相比，Fun-ASR1.5在西班牙語、葡萄牙語和英語方面的識別準確率成績較為突出，均在96分以上。

▲Fun-ASR1.5在開源多語言測試集中獲得多項SOTA

中文方言方面，Fun-ASR1.5則在四川話、閩南話、長沙話、蘇州話等13種方言識別準確率上，超越Seed-ASR和Tencent-ASR模型。

▲Fun-ASR1.5在工業方言測試集中獲得多項SOTA

智東西第一時間體驗了其音頻轉寫功能。我們上傳了一段三星CES 2026“First Look”演講的錄音音頻。在原音頻中，背景環境聲音嘈雜，演講人使用英語演講但帶有韓語口音，且錄制聲音較小。

Fun-ASR1.5不僅將演講內容準確完整地轉寫了出來，還根據演講人的語氣和內容，對相關語句進行了大寫強調處理，提高了會議轉寫的效率。

▲智東西實測體驗音頻轉寫

目前用戶可以在魔搭社區體驗該模型，開發者可以通過阿里云百煉平臺調用API。

體驗地址：

https://modelscope.cn/studios/iic/FunAudio-ASR

API調用地址：

https://bailian.console.aliyun.com/cn-beijing?tab=model#/efm/model_experience_center/voice?modelId=fun-asr

一、能識別30種語言，跨語言切換無需預設

Fun-ASR1.5可精準識別歐洲、東亞、東南亞、南亞及中東主流語種，覆蓋中、英、日、韓、法、德、西、葡、俄、阿拉伯語等30種語言。

韓語：

https://oss.zhidx.com/0c1334bb064e4804fac98804e8864afd/69e4fc00/uploads/2026/04/69e60878d3303_69e60878cff43_69e60878cff14_%E9%9F%A9%E8%AF%AD.mp3

▲ASR結果：?? ? ??? ?? ? ?? ????, ?? ??? ??? ??? ??? ?? ?? ????.

馬來語：

https://oss.zhidx.com/df84f9c8e5b0a14b2d1ad18b2da036b5/69e4fc00/uploads/2026/04/69e6087aa2a56_69e6087a9effe_69e6087a9efbe_%E9%A9%AC%E6%9D%A5%E8%AF%AD.mp3

▲ASR結果：Kejayaan projek ini tidak dapat dipisahkan daripada usaha pasukan, terutamanya kerja keras siang malam oleh jabatan penyelidikan dan pembangunan.

西班牙語：

https://oss.zhidx.com/4ec3a38deaef8d34abd6e48199584b27/69e4fc00/uploads/2026/04/69e60884522aa_69e608844f3b1_69e608844f384_%E8%A5%BF%E7%8F%AD%E7%89%99%E8%AF%AD.mp3

▲ASR結果：La diversidad cultural es un tesoro invaluable para la sociedad humana, y debemos respetar y proteger todas las tradiciones culturales.

在跨語言切換（Code-Switching）場景下，Fun-ASR1.5可以做到無需預設語種標簽，就自動識別并切換，保證轉寫的準確性。比如，同一段對話里夾雜多種語言，模型也能準確識別，無需提前告訴它接下來要說哪種語言。

英語日語切換：

https://oss.zhidx.com/02e1ae3cb2276d7e9741c3c7ad9dd267/69e4fc00/uploads/2026/04/69e6088478b93_69e60884757af_69e6088475780_%E8%8B%B1%E8%AF%AD%E6%97%A5%E8%AF%AD%E5%88%87%E6%8D%A2.mp3

▲ASR結果：We’ve all had that experience of finally visiting a place we’ve dreamed about for years,only to find that it doesn’t quite live up to our expectations.There’s even a term for this in one of the most visited cities in the world,Paris Syndrome.何年も前から行きたかった場所をやっと訪れてみたら、思っていたほどではなかったという経験は誰しもあることだと思います。

技術團隊介紹稱，這種多語言能力，源于模型的架構和訓練創新。Fun-ASR1.5采取MoE（混合專家）架構，模型內部可以分工協作，聽到特定語言時僅激活相關部分進行處理，因而更為靈活高效。

同時，技術團隊在模型的訓練階段分級、分階段地使用精準數據，也可以使模型更能適配真實世界中的復雜語音場景。

二、錯字率下降56.2%，古詩詞準確率達97%

在中文本土化方面，基于數十萬小時真實方言語音數據訓練，技術團隊稱，Fun-ASR1.5的平均字錯誤率（CER）相比上一版本下降56.2%。

上海話：

https://oss.zhidx.com/4d98af0e967bd26bf6003b68544ccbe8/69e4fc00/uploads/2026/04/69e6087b09883_69e6087b06100_69e6087b060d2_%E4%B8%8A%E6%B5%B7%E8%AF%9D.mp3

▲ASR結果：現在發展了蠻快個現在伊拉用戶算大戶唻。

客家話：

https://oss.zhidx.com/bb79e377f42d86250ca3f0475a018be8/69e4fc00/uploads/2026/04/69e60879186b9_69e6087914434_69e60879143ff_%E5%AE%A2%E5%AE%B6%E8%AF%9D.mp3

ASR結果：呃，那些吃的不就這樣的土筍凍啊，我覺得不好吃。

閩南話：

https://oss.zhidx.com/204cdf65dd037809c3f95eb5636ea49c/69e4fc00/uploads/2026/04/69e6087ad2b6b_69e6087acf672_69e6087acf636_%E9%97%BD%E5%8D%97%E8%AF%9D.mp3

▲ASR識別結果：但是一個人若是兩三兩百箍一百外箍安無算貴吧，吼自助餐啊，啊你也有肉咯也有菜咯也有水果咯也有甜點咯，啥物計有咯。

粵語：

https://oss.zhidx.com/0e662ae422f6836cfa6309c2abcaf4a4/69e4fc00/uploads/2026/04/69e60884aeeea_69e60884a5c5e_69e60884a5c24_%E7%B2%A4%E8%AF%AD.mp3

▲ASR結果：誒，其實可能有時候覺得去超市都幾遠下噶。

此外，該模型不僅聽得懂，還能“寫得地道”，Fun-ASR1.5可原汁原味還原方言，如上海話的“儂”、蘇州話“倷”（均指“你”），為下游模型處理方言文字提供了準確的基礎語料。

不同于現代口語，文言語法特殊、典故生僻字繁多，具有不少挑戰。例如，文言語法簡練，省略主謂賓；押韻嚴格，節奏固定（如五言、七言律詩）；多用典故、異體字、古今異義詞；誦讀時存在拖腔、停頓、吟詠等非自然語流特征。

Fun-ASR1.5對中文古詩詞識別進行專項優化。研究團隊構建了先秦至近代的古詩詞語音-文本對齊語料庫，涵蓋《詩經》《楚辭》、李白杜甫詩集、蘇軾辛棄疾詞作等經典文本的真人誦讀錄音。

在內部評測集中，Fun-ASR1.5對古詩詞的字符級準確率達到97%，可應用于國學在線課程和有聲詩詞，助力文化傳承。

https://oss.zhidx.com/b0578e51ee3b8b5f98603c402f87b730/69e4fc00/uploads/2026/04/69e6087879bee_69e608787658a_69e6087876557_%E5%8F%A4%E8%AF%97%E8%AF%8D1.mp3

▲ASR結果：蓬山此去無多路，青鳥殷勤為探看。

https://oss.zhidx.com/691a0349d3fdd374a0eebc4a2233d31f/69e4fc00/uploads/2026/04/69e60878ae3f2_69e60878aac04_69e60878aabd4_%E5%8F%A4%E8%AF%97%E8%AF%8D2.mp3

▲ASR結果：子夏曰，博學而篤志，切問而近思，仁在其中矣。

三、能自動插入標點符號，口語表達一鍵規范

語音識別最終都要落腳于生成可直接使用的文本，Fun-ASR1.5在后處理環節也重點優化了標點預測和文本歸一化兩項能力，大幅降低了會議紀要、新聞采訪整理、法律筆錄等場景的后期人工校對和編輯成本，具體如下：

1、標點預測：更加智能模型基于上下文語義自動插入逗號、句號、問號、感嘆號等標點，使轉寫結果接近書面表達。例如：

輸入語音：“今天天氣怎么樣啊我想出去走走但又怕下雨”輸出文本：“今天天氣怎么樣啊？我想出去走走，但又怕下雨。”

2、文本歸一化（ITN）表現：進一步提升將口語中的非標準表達自動轉換為規范格式：

數字：“三千五百六十二” → “3562”

日期：“二零二六年三月二十九號” → “2026年3月29日”

金額：“五萬八千塊” → “58000元”

電話：“幺三八零零幺三八零零零” → “13800138000”

結語：AI語音模型正穩步落地應用

會議紀要、法律筆錄等場景，長期處于“半自動”應用狀態，核心痛點是AI識別結果需人工進行大量校對，不僅未能有效提升工作效率，還影響了實際工作推進。

阿里Fun-ASR1.5針對這一痛點進行定向優化，補齊了傳統語音識別的部分短板，也降低了各行業引入AI語音技術的門檻。

目前，科大訊飛、百度、字節等企業的語音模型均在持續迭代，AI語音大模型正從技術研發逐步向實際應用推進，語音識別作為AI與人交互的重要入口，其實用性直接關系到行業落地的實際效果。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.