網易首頁 > 網易號 > 正文 申請入駐

阿里甩出AI語音轉寫神器!準確率擊敗字節騰訊,連方言都能寫對

0
分享至


智東西
作者 王涵
編輯 心緣

智東西4月20日報道,剛剛,阿里發布語音識別大模型Fun-ASR1.5,該模型是千問端到端語音識別大模型的新一代版本。

該模型可以識別30種語言,覆蓋中文七大方言體系20余種地方口音,并強化了古詩詞誦讀的專項識別。Fun-ASR1.5可以分辨出語音中的抑揚頓挫,重點優化了標點預測和文本歸一化能力,可以應用于會議紀要、新聞采訪整理、法律筆錄等場景。

技術團隊介紹稱,與Seed-ASR和Tencent-ASR模型相比,Fun-ASR1.5在西班牙語、葡萄牙語和英語方面的識別準確率成績較為突出,均在96分以上。


▲Fun-ASR1.5在開源多語言測試集中獲得多項SOTA

中文方言方面,Fun-ASR1.5則在四川話、閩南話、長沙話、蘇州話等13種方言識別準確率上,超越Seed-ASR和Tencent-ASR模型。


▲Fun-ASR1.5在工業方言測試集中獲得多項SOTA

智東西第一時間體驗了其音頻轉寫功能。我們上傳了一段三星CES 2026“First Look”演講的錄音音頻。在原音頻中,背景環境聲音嘈雜,演講人使用英語演講但帶有韓語口音,且錄制聲音較小。

Fun-ASR1.5不僅將演講內容準確完整地轉寫了出來,還根據演講人的語氣和內容,對相關語句進行了大寫強調處理,提高了會議轉寫的效率。


▲智東西實測體驗音頻轉寫

目前用戶可以在魔搭社區體驗該模型,開發者可以通過阿里云百煉平臺調用API。

體驗地址:

https://modelscope.cn/studios/iic/FunAudio-ASR

API調用地址:

https://bailian.console.aliyun.com/cn-beijing?tab=model#/efm/model_experience_center/voice?modelId=fun-asr

一、能識別30種語言,跨語言切換無需預設

Fun-ASR1.5可精準識別歐洲、東亞、東南亞、南亞及中東主流語種,覆蓋中、英、日、韓、法、德、西、葡、俄、阿拉伯語等30種語言


韓語:

https://oss.zhidx.com/0c1334bb064e4804fac98804e8864afd/69e4fc00/uploads/2026/04/69e60878d3303_69e60878cff43_69e60878cff14_%E9%9F%A9%E8%AF%AD.mp3

▲ASR結果:?? ? ??? ?? ? ?? ????, ?? ??? ??? ??? ??? ?? ?? ????.

馬來語:

https://oss.zhidx.com/df84f9c8e5b0a14b2d1ad18b2da036b5/69e4fc00/uploads/2026/04/69e6087aa2a56_69e6087a9effe_69e6087a9efbe_%E9%A9%AC%E6%9D%A5%E8%AF%AD.mp3

▲ASR結果:Kejayaan projek ini tidak dapat dipisahkan daripada usaha pasukan, terutamanya kerja keras siang malam oleh jabatan penyelidikan dan pembangunan.

西班牙語:

https://oss.zhidx.com/4ec3a38deaef8d34abd6e48199584b27/69e4fc00/uploads/2026/04/69e60884522aa_69e608844f3b1_69e608844f384_%E8%A5%BF%E7%8F%AD%E7%89%99%E8%AF%AD.mp3

▲ASR結果:La diversidad cultural es un tesoro invaluable para la sociedad humana, y debemos respetar y proteger todas las tradiciones culturales.

在跨語言切換(Code-Switching)場景下,Fun-ASR1.5可以做到無需預設語種標簽,就自動識別并切換,保證轉寫的準確性。比如,同一段對話里夾雜多種語言,模型也能準確識別,無需提前告訴它接下來要說哪種語言。

英語日語切換:

https://oss.zhidx.com/02e1ae3cb2276d7e9741c3c7ad9dd267/69e4fc00/uploads/2026/04/69e6088478b93_69e60884757af_69e6088475780_%E8%8B%B1%E8%AF%AD%E6%97%A5%E8%AF%AD%E5%88%87%E6%8D%A2.mp3

▲ASR結果:We’ve all had that experience of finally visiting a place we’ve dreamed about for years,only to find that it doesn’t quite live up to our expectations.There’s even a term for this in one of the most visited cities in the world,Paris Syndrome.何年も前から行きたかった場所をやっと訪れてみたら、思っていたほどではなかったという経験は誰しもあることだと思います。

技術團隊介紹稱,這種多語言能力,源于模型的架構和訓練創新。Fun-ASR1.5采取MoE(混合專家)架構,模型內部可以分工協作,聽到特定語言時僅激活相關部分進行處理,因而更為靈活高效。

同時,技術團隊在模型的訓練階段分級、分階段地使用精準數據,也可以使模型更能適配真實世界中的復雜語音場景。

二、錯字率下降56.2%,古詩詞準確率達97%

在中文本土化方面,基于數十萬小時真實方言語音數據訓練,技術團隊稱,Fun-ASR1.5的平均字錯誤率(CER)相比上一版本下降56.2%


上海話:

https://oss.zhidx.com/4d98af0e967bd26bf6003b68544ccbe8/69e4fc00/uploads/2026/04/69e6087b09883_69e6087b06100_69e6087b060d2_%E4%B8%8A%E6%B5%B7%E8%AF%9D.mp3

▲ASR結果:現在發展了蠻快個現在伊拉用戶算大戶唻。

客家話:

https://oss.zhidx.com/bb79e377f42d86250ca3f0475a018be8/69e4fc00/uploads/2026/04/69e60879186b9_69e6087914434_69e60879143ff_%E5%AE%A2%E5%AE%B6%E8%AF%9D.mp3

ASR結果:呃,那些吃的不就這樣的土筍凍啊,我覺得不好吃。

閩南話:

https://oss.zhidx.com/204cdf65dd037809c3f95eb5636ea49c/69e4fc00/uploads/2026/04/69e6087ad2b6b_69e6087acf672_69e6087acf636_%E9%97%BD%E5%8D%97%E8%AF%9D.mp3

▲ASR識別結果:但是一個人若是兩三兩百箍一百外箍安無算貴吧,吼自助餐啊,啊你也有肉咯也有菜咯也有水果咯也有甜點咯,啥物計有咯。

粵語:

https://oss.zhidx.com/0e662ae422f6836cfa6309c2abcaf4a4/69e4fc00/uploads/2026/04/69e60884aeeea_69e60884a5c5e_69e60884a5c24_%E7%B2%A4%E8%AF%AD.mp3

▲ASR結果:誒,其實可能有時候覺得去超市都幾遠下噶。

此外,該模型不僅聽得懂,還能“寫得地道”,Fun-ASR1.5可原汁原味還原方言,如上海話的“儂”、蘇州話“倷”(均指“你”),為下游模型處理方言文字提供了準確的基礎語料。

不同于現代口語,文言語法特殊、典故生僻字繁多,具有不少挑戰。例如,文言語法簡練,省略主謂賓;押韻嚴格,節奏固定(如五言、七言律詩);多用典故、異體字、古今異義詞;誦讀時存在拖腔、停頓、吟詠等非自然語流特征。

Fun-ASR1.5對中文古詩詞識別進行專項優化。研究團隊構建了先秦至近代的古詩詞語音-文本對齊語料庫,涵蓋《詩經》《楚辭》、李白杜甫詩集、蘇軾辛棄疾詞作等經典文本的真人誦讀錄音。

在內部評測集中,Fun-ASR1.5對古詩詞的字符級準確率達到97%,可應用于國學在線課程和有聲詩詞,助力文化傳承。

https://oss.zhidx.com/b0578e51ee3b8b5f98603c402f87b730/69e4fc00/uploads/2026/04/69e6087879bee_69e608787658a_69e6087876557_%E5%8F%A4%E8%AF%97%E8%AF%8D1.mp3

▲ASR結果:蓬山此去無多路,青鳥殷勤為探看。

https://oss.zhidx.com/691a0349d3fdd374a0eebc4a2233d31f/69e4fc00/uploads/2026/04/69e60878ae3f2_69e60878aac04_69e60878aabd4_%E5%8F%A4%E8%AF%97%E8%AF%8D2.mp3

▲ASR結果:子夏曰,博學而篤志,切問而近思,仁在其中矣。

三、能自動插入標點符號,口語表達一鍵規范

語音識別最終都要落腳于生成可直接使用的文本,Fun-ASR1.5在后處理環節也重點優化了標點預測和文本歸一化兩項能力,大幅降低了會議紀要、新聞采訪整理、法律筆錄等場景的后期人工校對和編輯成本,具體如下:

1、標點預測:更加智能模型基于上下文語義自動插入逗號、句號、問號、感嘆號等標點,使轉寫結果接近書面表達。例如:

輸入語音:“今天天氣怎么樣啊我想出去走走但又怕下雨”輸出文本:“今天天氣怎么樣啊?我想出去走走,但又怕下雨。”

2、文本歸一化(ITN)表現:進一步提升將口語中的非標準表達自動轉換為規范格式:

數字:“三千五百六十二” → “3562”

日期:“二零二六年三月二十九號” → “2026年3月29日”

金額:“五萬八千塊” → “58000元”

電話:“幺三八零零幺三八零零零” → “13800138000”

結語:AI語音模型正穩步落地應用

會議紀要、法律筆錄等場景,長期處于“半自動”應用狀態,核心痛點是AI識別結果需人工進行大量校對,不僅未能有效提升工作效率,還影響了實際工作推進。

阿里Fun-ASR1.5針對這一痛點進行定向優化,補齊了傳統語音識別的部分短板,也降低了各行業引入AI語音技術的門檻。

目前,科大訊飛、百度、字節等企業的語音模型均在持續迭代,AI語音大模型正從技術研發逐步向實際應用推進,語音識別作為AI與人交互的重要入口,其實用性直接關系到行業落地的實際效果。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
十二屆山西省委第九輪巡視完成進駐(附巡視進駐一覽表)

十二屆山西省委第九輪巡視完成進駐(附巡視進駐一覽表)

黃河新聞網呂梁
2026-04-21 08:50:11
黎姿普吉島過復活節,大方穿泳裝秀身材,54歲的少女感藏不住

黎姿普吉島過復活節,大方穿泳裝秀身材,54歲的少女感藏不住

吃青菜長高
2026-04-18 06:59:11
3艘主力艦沉沒!黑海艦隊兩棲戰力徹底清零,俄軍補損之路被堵死

3艘主力艦沉沒!黑海艦隊兩棲戰力徹底清零,俄軍補損之路被堵死

諦聽骨語本尊
2026-04-20 19:28:40
巴基斯坦1.3萬中械部隊正式進駐沙特,新時代開啟

巴基斯坦1.3萬中械部隊正式進駐沙特,新時代開啟

遠方青木
2026-04-18 00:46:29
CBA積分榜徹底亂套!北京上演“血洗”、深圳輸球,遼粵對手出爐

CBA積分榜徹底亂套!北京上演“血洗”、深圳輸球,遼粵對手出爐

林子說事
2026-04-20 13:05:00
余承東:內存價格一直漲,要是扛不住了手機以后可能漲價

余承東:內存價格一直漲,要是扛不住了手機以后可能漲價

澎湃新聞
2026-04-20 16:38:26
“看站姿就不像當過兵的!”家長炫耀特種兵兒子,敗露后慘遭打臉

“看站姿就不像當過兵的!”家長炫耀特種兵兒子,敗露后慘遭打臉

妍妍教育日記
2026-04-02 12:29:05
英媒:中國又開始“彎道超車”,不攻克光刻機也能解決芯片難題?

英媒:中國又開始“彎道超車”,不攻克光刻機也能解決芯片難題?

混沌錄
2026-04-20 20:43:10
永不變的穆里尼奧!本菲卡贏下里斯本德比 狂人手勢再度爆紅網絡

永不變的穆里尼奧!本菲卡贏下里斯本德比 狂人手勢再度爆紅網絡

林子說事
2026-04-20 11:32:39
成都溫江發生交通事故致5傷,警方通報

成都溫江發生交通事故致5傷,警方通報

界面新聞
2026-04-20 22:35:59
拒掛國旗、訂單全給日韓,被停止合作封鎖航線的長榮,今咎由自取

拒掛國旗、訂單全給日韓,被停止合作封鎖航線的長榮,今咎由自取

阿傖說事
2026-04-21 06:27:09
《八千里路云和月》大結局:田家泰被暗殺!七哥真實身份曝光意外

《八千里路云和月》大結局:田家泰被暗殺!七哥真實身份曝光意外

肆季娛樂
2026-04-20 20:29:42
全票當選!官方:文班亞馬當選年度最佳防守球員

全票當選!官方:文班亞馬當選年度最佳防守球員

懂球帝
2026-04-21 06:39:03
明天大戰火箭!NBA在G2賽前官宣東契奇重磅消息

明天大戰火箭!NBA在G2賽前官宣東契奇重磅消息

硯底沉香
2026-04-21 06:48:58
雷軍在服務區被堵車里維權?小米徐潔云回應:現場是車友朋友們,雷總在車里記錄上一段的里程和能耗,那些捏造謠言惡意傳播的,可以等著了

雷軍在服務區被堵車里維權?小米徐潔云回應:現場是車友朋友們,雷總在車里記錄上一段的里程和能耗,那些捏造謠言惡意傳播的,可以等著了

魯中晨報
2026-04-20 07:32:08
36萬億美債還不起,特朗普決定“弄死”大債主,為此不惜自曝家丑

36萬億美債還不起,特朗普決定“弄死”大債主,為此不惜自曝家丑

杰絲聊古今
2026-04-19 20:21:05
那番絕境,大帝終究還要面對

那番絕境,大帝終究還要面對

虛聲
2026-04-20 08:08:29
伊朗向中國通報內幕!談判團差點被美軍“團滅”,連電話都不敢打

伊朗向中國通報內幕!談判團差點被美軍“團滅”,連電話都不敢打

風信子的花
2026-04-19 16:46:59
3月葡萄酒進口量兩位數增長;老白干推進品牌定位回歸

3月葡萄酒進口量兩位數增長;老白干推進品牌定位回歸

云酒頭條
2026-04-20 15:03:19
俄羅斯,遭大規模襲擊!

俄羅斯,遭大規模襲擊!

證券時報
2026-04-20 22:19:12
2026-04-21 09:32:49
智東西 incentive-icons
智東西
智東西,AI產業新媒體,專注報道人工智能的前沿技術發展,和技術應用帶來的千行百業產業變革。
11641文章數 117036關注度
往期回顧 全部

科技要聞

重磅官宣:庫克卸任,特努斯接任蘋果CEO

頭條要聞

牛彈琴:特朗普成美伊談判最大障礙 伊朗果然勃然大怒

頭條要聞

牛彈琴:特朗普成美伊談判最大障礙 伊朗果然勃然大怒

體育要聞

阿森納已拼盡全力,但你早干嘛去了...

娛樂要聞

《八千里路云和月》田家泰暗殺

財經要聞

減速機訂單已排到明年!

汽車要聞

把天門山搬進廠?開仰望U8沖上45度坡的那刻 我腿軟了

態度原創

房產
時尚
親子
本地
教育

房產要聞

大規模商改住!海口西海岸,這波項目要贏麻了!

“爆冷”又如何?陳法拉的人生本就是一場逆襲大戲

親子要聞

大體重孩子家長要關注孩子運動足部壓力是否正常

本地新聞

12噸巧克力有難,全網化身超級偵探添亂

教育要聞

26年強基計劃專業大調整,你是否準備報考強基計劃

無障礙瀏覽 進入關懷版