網易首頁 > 網易號 > 正文申請入駐

TTS也要真人感！首個字級內容、毫秒級停頓控制的語音合成系統

2026-05-12 19:36:35　來源: 新智元

北京舉報

分享至

新智元報道

編輯：LRST

【新智元導讀】語音合成這兩年發展迅速：把一段話順順當當地念完，已經不算難事；難的是該慢的時候慢，該頓的時候頓，該強調的時候真能把重點托出來。

語音合成這些年最明顯的進展，是越來越會模擬真人輸出語音。

自然度更高了，聲音更像真人了，零樣本克隆也越來越成熟了。可一旦要求模型別再只是平著往下讀，而是對一句話內部的節奏做有選擇的安排，問題就暴露出來了。很多系統能做到整體變快、整體變慢，也能給整段話套一個風格標簽，但真到關鍵位置，往往還是一起變，很難做到只改重點區域。

而產品場景里，用戶在意的常常就是只改重點區域。

驗證碼播報里，數字之間要不要刻意拉開；導航播報里，動作信息要不要被單獨頂出來；教學糾音里，兩個容易混淆的詞能不能被故意說出差別；劇情化表達里，結尾那個關鍵詞之前能不能多留半拍。這些需求都不是靠整句降速就能混過去的。

華南理工最新工作MAGIC-TTS首次把字級時長和邊界停連同時拉到 token 級，做成了局部可控的語音生成能力。

論文鏈接: https://arxiv.org/abs/2604.21164v1

代碼鏈接: https://github.com/yongaifadian1/MAGIC-TTS/tree/main

演示鏈接: https://yongaifadian1.github.io/MAGIC-TTS/

所以，這篇工作真正值得看的點在于它在把一件以前很難穩定實現的能力往前推：讓模型不只是會發聲，還開始會安排一句話內部的節奏，同時不犧牲合成質量和克隆語音的相似程度。

如果把MAGIC-TTS放回真實使用場景里看，它最先改動的，其實是三類任務。

第一類，是高辨識播報。

這一類任務的核心不是更自然，而是更不容易聽錯。論文里拿了驗證碼播報做例子。作者先給整句內容設置均勻時長，再刻意把中間分組的停頓拉開，最后進一步把數字本身也放慢。這樣做的結果不是簡單的整句慢下來，而是用戶先聽清分組，再聽清每個數字。換到產品里，這種處理顯然不只適用于驗證碼，還適用于訂單號、取件碼、地址、藥品名這類高辨識內容。

地鐵播報也是同一路數。作者沒有讓整句一起拖慢，而是把站點出現前的停連做得更明顯，同時把真正需要乘客注意的站名壓得更重一些。對這類高實時任務來說，節奏是否準確，很多時候比聲音是否足夠像真人更有價值。

第二類，是教學和糾錯。

論文里給出的案例是英文近音詞糾正。作者通過縮短前一個詞、拉長后一個詞，并在糾正關系出現前加入短暫停頓，讓兩者之間的差異不再糊成一團。這個例子最關鍵的地方，不是能合成英文，而是模型開始能利用節奏本身去幫助區分語義關系。

這類能力一旦成熟，對外語學習、兒童跟讀、口語訓練會很直接。因為教學場景需要的從來不是一臺平鋪直敘的朗讀器，而是一個能把差異做出來、把重點放出來的示范系統。

第三類，是表達型語音。

論文還展示了一個戲劇化場景：在句尾關鍵詞出現之前先留一小段空白，再把最后那個詞拉開。這個動作非常小，但聽感會一下從把句子讀完變成把情緒送出來。也就是說，局部節奏控制影響的不只是信息清晰度，還會開始影響敘事張力和表現力。

過去，這類處理通常被認為屬于真人配音、導演調度或者后期剪輯的領地。現在，TTS 也開始往這個方向摸了。

為什么這件事早就該有

卻一直很難真正落地

第一，整句控制和句內控制，根本不是一回事。讓一整段話慢一點，本質上還是全局調節；但讓某個詞多占幾十毫秒、讓某個邊界多留一段停頓，要求的是模型在局部位置精確地重新分配時間。

第二，停頓和字時長也不是同一種難度。停頓更接近邊界留白，內容時長則直接涉及 token 內部的聲學展開。前者像在內容之間插空，后者則是改內容本身怎么展開。真正難啃的是后者。

第三，局部控制越細，對訓練時的監督邊界越苛刻。假如在訓練中，一個 token 的起止位置本來就不穩，那么后面在推理時不管是要拉長它，還是要在它后面加停頓，都會變成一件漂浮不定的事。

所以，這類問題真正卡住行業的，往往不是有沒有想法，而是能不能把它做成一個不會穩定的，可以應用在真實場景的模型。

方法

從方法上看，MAGIC-TTS 真正抓住的，是三個更底層的環節

第一，是把一句話里的兩種時間因素拆開。

這篇工作沒有再把節奏當成一個模糊的整體感覺去學，而是明確地區分每一個詞要占多久和每一個詞之后要停多久。前者對應 token 本身的展開長度，后者對應邊界停頓。把這兩件事拆開，等于承認了一句自然語音的節奏，本來就不是一個總時長數字能夠概括的。

第二，是先把每個詞的邊界監督校準。

論文里一個很關鍵的工程步驟，是先用 Stable-ts 在總時長為3萬小時大規模語音上構造 token 級時序標簽進行持續預訓練，再用 Stable-ts 和 MFA 做交叉驗證，篩掉不可靠樣本。最終留下來的高置信度子集總時長 230.72 小時，進行精細指令微調。這個步驟決定了后面的控制是不是建在堅實的基礎上。如果邊界不準，所有精細調節都會被噪聲吞掉。

第三，是解決停頓控制會不會污染內容控制。

這篇工作的一個現實問題：模型為每個位置都編碼了內容控制殘差和停頓殘差，但關鍵是，不是每個位置都應該有停頓，對于自然語音，大多數時候句子內的字都是黏連在一起發聲，因此很多位置的停頓殘差天然就該是 0。

但是如果模型單純采用MLP去編碼停頓殘差，這會導致如果模型將這些不存在的停頓都編碼成有偏信號，整句里就會不斷積累無意義干擾，最后把更難學的內容時長控制的影響削弱。論文里的零值校正，本質上就是在處理這個問題：該沒有影響的時候，就盡量真的沒有影響。

與此同時，作者還專門做了缺失控制魯棒性訓練。原因很現實，用戶不可能每次都給整句配一套精細時序。如果一個系統只有在滿配控制條件下才表現好，那它就更像實驗演示，而不是實際能力。把默認合成和局部調節同時保住，才更接近真正可用的方向。

最值得看的證據，不只是會不會停，而是能不能穩穩地控字。

這篇論文的數據結果里，最重要的其實不是停頓，而是內容時長。

在顯式給出token級內容時長和停頓條件之后，每個字的內容時長 MAE(平均絕對誤差) 從36.88ms 降到了10.56 ms，相關性從0.588提升到0.918。停頓方面，MAE從18.92 ms 降到8.32ms，相關性從0.283提升到0.793。

為什么說內容時長更關鍵？因為會停一下相對容易理解，也更容易被實現成邊界層面的動作；但把這個 token 本身說得更長一點、又不把整句帶壞，難度明顯更高。也正因為如此，內容時長指標的大幅提升，比單純的停頓跟隨更能說明問題。

應用場景

如果這條路線跑通，最先吃到紅利的那幾類產品

最先受益的，還是那些聽錯一個字都麻煩的場景。

高辨識播報會是第一批，包括驗證碼、訂單號、地址、藥品名、導航、車載播報。比起聲音不擬人，這些地方最怕的是信息沒聽清。過去很多系統只能靠整句放慢來保底，但那往往會犧牲效率，且對于重點的突出效果不是那么好；如果節奏能局部編排，系統就能把該重點聽的地方單獨拉出來。

第二批會是教學糾音。兒童跟讀、外語學習、示范式朗讀，都更需要一個會示范差異的系統，而不是一個把文本順著念完的系統。誰能把停連、重音、對比關系更清楚地演示出來，誰在這一類產品里就更有優勢。

再往后，是表達型語音。數字人、劇情化配音、音頻內容生成、故事講述，這些方向對局部節奏的要求更高，但一旦能力成熟，帶來的產品觀感提升也會更明顯。

小結

MAGIC-TTS的核心價值在于把語音合成從「把話念自然」推進到「能精細安排句內節奏」，如何同時控制 token 級字時長和邊界停頓，讓現實應用場景中的重點內容被更清楚、更有表現力地說出來，是下一階段要重視的問題。

參考資料：

https://arxiv.org/abs/2604.21164

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.