網易首頁 > 網易號 > 正文 申請入駐

清華新作ControlAudio:聲音何時響、說啥話?都能按劇本可控生成

0
分享至



本文第一作者是江宇軒,清華大學博士生,研究方向為生成模型、文生音頻和多模態學習,指導老師為朱軍教授與竇維蓓教授。

文本到音頻(Text-to-Audio, TTA)生成技術近年來取得了顯著進展,從早期的簡單聲效合成逐步發展到基于擴散模型的高保真音頻生成,能夠較好地還原復雜的自然語言描述,為影視配音、游戲音效及多媒體內容創作提供了重要的技術支撐。

然而,現有 TTA 技術在精細化控制方面仍面臨挑戰:一方面,模型難以實現對聲音事件發生時間的精確控制;另一方面,生成的語音內容往往不夠清晰,缺乏可理解性。

針對這一問題,清華大學研究團隊提出了 ControlAudio,一種基于漸進式擴散建模的文生音頻方法。該方法通過系統性的數據構建流程與漸進式建模策略,在統一框架下實現了對時間結構與語音內容的聯合建模。

目前,該工作已被 ACL 2026 Main Conference 接收,并擬推薦為口頭報告。



  • 論文地址:https://arxiv.org/abs/2510.08878
  • 效果試聽:https://control-audio.github.io/Control-Audio

研究背景

文生音頻系統旨在合成與自然語言描述一致的音頻內容(如「鳥兒正在鳴叫」),在高保真生成方面已取得顯著進展,但在精細化控制維度仍存在明顯不足:

  • 精確的時間控制:如「鳥兒在 2 至 5 秒間鳴叫」;
  • 可理解語音生成:如「鳥兒在鳴叫,同時一名男子在說:『今天天氣真好』」。

然而,由于帶有精確時間標注和語音轉錄的信息難以大規模獲取,可控 TTA 系統在規模化訓練與生成能力上仍受到限制。同時,現有方法通常僅關注單一控制維度,尚未在統一框架下同時實現時間控制與可理解語音生成。

核心方法

本文提出 ControlAudio,一種漸進式擴散建模方法,通過逐步建模文本、時間與音素等不同粒度的條件信息,實現可控的 TTA 生成。整體方法包含三個核心部分:

  1. 數據構造與表征:通過人工標注與仿真生成相結合的方式構建多層級數據,并設計結構化提示詞(Structured Prompt),使預訓練文本編碼器能夠統一編碼文本、時間與音素信息;
  2. 模型訓練:采用漸進式訓練策略。首先在大規模文本 - 音頻數據上預訓練擴散模型,隨后逐步引入時間與語音內容信息進行建模,使模型逐步具備更細粒度的控制能力;
  3. 引導采樣:針對擴散模型「由粗到細」的生成特性,設計漸進式引導采樣策略,在推理過程中先生成整體時間結構,再逐步細化語音內容。



漸進式擴散建模

ControlAudio 將多條件建模拆解為一個由粗到細的漸進過程。

在訓練階段,模型分三步逐步引入控制信號:首先在大規模文本 - 音頻數據上預訓練,學習基礎的文本到音頻生成能力;隨后在包含時間標注的數據上進行微調,使模型能夠控制聲音事件的時間結構;最后進一步引入音素信息進行聯合訓練,實現對語音內容的建模。

在這一過程中,通過使用 Text、Text + Timing 以及 Text + Timing + Phoneme 等不同條件組合,逐步提升模型對細粒度控制信號的建模能力。



在推理階段,方法提出了漸進式引導采樣策略:在擴散早期,僅使用文本與時間條件進行引導,先生成整體的時間結構;在后期階段,再引入音素信息并提高引導強度,用于細化語音內容。該設計與擴散模型由粗到細的生成過程一致,從而在時間對齊與語音清晰度上取得更好的效果。

數據集構建

針對可控 TTA 所需的時間標注與語音內容數據稀缺問題,ControlAudio 構建了一個多來源的數據體系,將真實標注與仿真數據相結合。

首先,在真實數據方面,基于具有時間標注的 AudioSet-SL,篩選包含語音的片段,并通過分離與轉寫流程,獲得帶有時間戳與語音內容的信息,將原始的 ?text, audio? 擴展為 ?text, timing, phoneme, audio? 的細粒度數據。在此基礎上,進一步構建大規模仿真數據。

方法從真實數據中統計語音活動分布,并據此合成單人或多人語音片段,按照合理的時間結構進行排列,并與背景音頻混合生成復雜音頻場景。該流程額外擴展了超過 17 萬條訓練樣本,提升了數據規模與多樣性。

此外,在結構化提示詞的構建過程中,ControlAudio 引入基于鏈式推理(Chain-of-Thought, CoT)的自動生成流程,將自然語言描述解析為「事件 — 時間 — 語音內容」的結構化表示,為模型提供更加清晰的條件輸入。



實驗結果

為了驗證 ControlAudio 的有效性,團隊首先在時間可控音頻生成的 AudioCondition 測試集上進行評估。相比現有方法,在事件時間對齊指標上取得顯著提升,同時在 FAD、CLAP 等音頻質量指標上保持競爭力甚至更優表現。



在包含語音生成的評測任務中,ControlAudio 同樣展現出更強的語音可理解性與整體音頻質量,驗證了其在統一框架下同時建模時間結構與語音內容的能力。



在文生音頻任務中,ControlAudio 同樣取得了與當前主流方法相當甚至更優的生成質量,在引入時間與語音控制能力的同時,并未降低基礎的文本到音頻生成性能。



總結與展望

ControlAudio 從數據構建、模型訓練到采樣策略三個層面系統性地解決了文生音頻中的精細化控制問題,在統一框架下實現了文本、時間與語音內容的協同建模,并在多項任務上取得了優于現有方法的表現。

相比以往僅關注單一控制維度的工作,ControlAudio 展現了更強的通用性與擴展潛力。

隨著音頻與多模態生成模型的發展,越來越多系統開始探索 Speech、Audio、Music 的統一建模范式。研究團隊希望ControlAudio 所提出的「多粒度條件統一建模 + 漸進式生成」思路,能夠為通用音頻生成提供一種可擴展的技術路徑,推動模型從單一任務走向更復雜、多維度可控的內容生成。

樣本展示

Text Prompt:Music plays, followed by mechanisms, typing, beeps, and an alarm.

Timing Prompt:Music : 0.00s - 10.00s; Beeps : 1.00s - 1.20s 3.00s - 3.20s 4.90s - 5.10s 6.90s - 7.10s; Typing : 1.20s - 7.80s; Alarm : 7.85s - 8.50s.

Structured prompt:Music plays, followed by mechanisms, typing, beeps, and an alarm. @{Music. & <0.00,10.00>}@{Beeps. & <1.00,1.20><3.00,3.20><4.90,5.10><6.90,7.10>}@{Typing. & <1.20,7.80>}@{Alarm. & <7.85,8.50>}



Text Prompt:A man speaking over an intercom as a crowd of people talk followed by a dog barking.

Content Prompt:and contain them until that person can be taken into custody effectively and safely on the part of the other team of police sheriffs.

Structured prompt:A man speaking over an intercom as a crowd of people talk followed by a dog barking. @{Crowd talking ambience & <0.00,10.00>}@{Male speech, man speaking & <0.46,5.14>"And contain them until that person can be taken into custody effectively and safely."<5.64,8.22>"On the part of the other team of police sheriffs."}@{Dog barking & <9.26,9.46>}



Text Prompt:Females voice narrating a scene as music is playing and rain drops are falling.

Content Prompt:Daniel came out of the airport. He raised one arm to hail a taxi.

Structured prompt:Females voice narrating a scene as music is playing and rain drops are falling. @{Music & <0.00,10.00>}@{Female speech, woman narrating & <2.62,4.65>"Daniel came out of the airport."<5.37,8.26>"He raised one arm to hail a taxi."}@{Rain falling & <8.26,10.00>}



Text Prompt:Splashing water followed by a girl speaking then scraping and spitting.

Content Prompt:This is the last time you did that first thing. Same thing.

Structured prompt:Splashing water followed by a girl speaking then scraping and spitting. @{Splashing water & <0.00,1.38>}@{Female speech, girl speaking & <1.57,4.52>"This is the last time you did that first thing. Same thing."}@{Scraping & <4.66,6.81><7.10,8.00>}@{Spitting & <8.10,8.48>}



特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
津門虎4-2國安!比贏球更可怕的是于根偉賽后這番話,格局很大

津門虎4-2國安!比贏球更可怕的是于根偉賽后這番話,格局很大

林子說事
2026-04-26 03:13:31
一夜虧損上億!華晨宇云南拿地翻車,直播曝出真相,頂流也扛不住

一夜虧損上億!華晨宇云南拿地翻車,直播曝出真相,頂流也扛不住

TVB的四小花
2026-04-25 17:50:05
再見,曼聯!9000萬“大核”決定離隊!斥資2.4億簽下“新中軸”

再見,曼聯!9000萬“大核”決定離隊!斥資2.4億簽下“新中軸”

頭狼追球
2026-04-25 13:27:55
85年一上將被免去副總長,索性計劃回家養老,沒想到又被重用13年

85年一上將被免去副總長,索性計劃回家養老,沒想到又被重用13年

大運河時空
2026-04-25 14:25:03
親媽夜里偷偷來和兒子睡,兒子翻身抱住她的時候,媽媽心暖了

親媽夜里偷偷來和兒子睡,兒子翻身抱住她的時候,媽媽心暖了

大熊歡樂坊
2026-04-23 19:43:53
金莎備孕成功刷屏,原來3年前就凍了7枚胚胎!高齡懷孕不再憑運氣

金莎備孕成功刷屏,原來3年前就凍了7枚胚胎!高齡懷孕不再憑運氣

一盅情懷
2026-04-25 19:31:31
A股:散戶做好下車準備,主力意圖已經很明確,下周,要變天了?

A股:散戶做好下車準備,主力意圖已經很明確,下周,要變天了?

云鵬敘事
2026-04-26 00:00:07
CBA季后賽!廣廈笑納“上上簽”,上海恐陷“死亡半區”泥潭?

CBA季后賽!廣廈笑納“上上簽”,上海恐陷“死亡半區”泥潭?

生活新鮮市
2026-04-25 18:00:36
何穗嫁陳偉霆後激罕現身,自爆產後經歷二次手術從未有年齡焦慮

何穗嫁陳偉霆後激罕現身,自爆產後經歷二次手術從未有年齡焦慮

粵睇先生
2026-04-26 01:15:03
以牙還牙,中國打響反制第一槍,一舉切斷美歐命脈,美歐坐立難安

以牙還牙,中國打響反制第一槍,一舉切斷美歐命脈,美歐坐立難安

古史青云啊
2026-04-25 08:46:23
東體:在上海舉行的懷舊友誼賽原本還想要邀請瓜林和阿爾貝茨

東體:在上海舉行的懷舊友誼賽原本還想要邀請瓜林和阿爾貝茨

懂球帝
2026-04-25 18:30:45
7國南海搞軍演,轉頭求中國救急?中方一句話:不會拉你一把

7國南海搞軍演,轉頭求中國救急?中方一句話:不會拉你一把

老赳說歷史
2026-04-24 18:35:48
單身越久,死亡風險越高?中國科學家:每周2次性生活是安全線

單身越久,死亡風險越高?中國科學家:每周2次性生活是安全線

思思夜話
2026-04-23 11:30:19
鏈家悄悄上線新功能,買房賣房都坐不住了

鏈家悄悄上線新功能,買房賣房都坐不住了

大川東山再起
2026-04-25 23:06:28
女子撿到手機解不開密碼丟草叢,導致徹底無法找回!失主是高三體育生,稱訓練被耽誤、體考被迫改期,法院:賠6000元

女子撿到手機解不開密碼丟草叢,導致徹底無法找回!失主是高三體育生,稱訓練被耽誤、體考被迫改期,法院:賠6000元

大風新聞
2026-04-25 16:47:10
滿世界都在猜那第三個孩子的爸爸到底是誰,結果張柏芝直接說了

滿世界都在猜那第三個孩子的爸爸到底是誰,結果張柏芝直接說了

葉老四
2026-04-23 13:20:38
只有成熟氣質的阿姨,才能把旗袍穿出這種優雅又迷人的感覺吧

只有成熟氣質的阿姨,才能把旗袍穿出這種優雅又迷人的感覺吧

牛彈琴123456
2026-04-24 11:00:54
足壇兩大狠人!阿什拉夫與旺達傳緋聞,伊卡爾迪再成笑柄?

足壇兩大狠人!阿什拉夫與旺達傳緋聞,伊卡爾迪再成笑柄?

羅氏八卦
2026-04-25 18:00:03
我敢打賭99%的男人會選白衣服女孩做老婆,看腿型就知道

我敢打賭99%的男人會選白衣服女孩做老婆,看腿型就知道

匹夫來搞笑
2026-04-24 12:20:31
老球王戴維斯:我不想貶低丁俊暉,但誰都知道趙心童是更好的球員

老球王戴維斯:我不想貶低丁俊暉,但誰都知道趙心童是更好的球員

楊華評論
2026-04-24 03:04:33
2026-04-26 06:24:49
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
12852文章數 142636關注度
往期回顧 全部

科技要聞

DeepSeek V4發布!黃仁勛預言的"災難"降臨

頭條要聞

媒體:美軍在中東罕見高密度集結 伊朗開始調整戰術

頭條要聞

媒體:美軍在中東罕見高密度集結 伊朗開始調整戰術

體育要聞

那一刻開始,兩支球隊的命運悄然改變了

娛樂要聞

《我們的爸爸2》第一季完美爸爸翻車了

財經要聞

90%訂單消失,中東旺季沒了

汽車要聞

2026款樂道L90亮相北京車展 樂道L80正式官宣

態度原創

本地
旅游
親子
房產
公開課

本地新聞

云游中國|逛世界風箏都 留學生探秘中國傳統文化

旅游要聞

美猴王VS水蜜桃,連云港、無錫文旅“雙向奔赴”

親子要聞

總感覺她們兩是上輩子的情人!

房產要聞

新一輪教育大爆發來了!海口,開始瘋狂建學校!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版