![]()
本文第一作者是江宇軒,清華大學博士生,研究方向為生成模型、文生音頻和多模態學習,指導老師為朱軍教授與竇維蓓教授。
文本到音頻(Text-to-Audio, TTA)生成技術近年來取得了顯著進展,從早期的簡單聲效合成逐步發展到基于擴散模型的高保真音頻生成,能夠較好地還原復雜的自然語言描述,為影視配音、游戲音效及多媒體內容創作提供了重要的技術支撐。
然而,現有 TTA 技術在精細化控制方面仍面臨挑戰:一方面,模型難以實現對聲音事件發生時間的精確控制;另一方面,生成的語音內容往往不夠清晰,缺乏可理解性。
針對這一問題,清華大學研究團隊提出了 ControlAudio,一種基于漸進式擴散建模的文生音頻方法。該方法通過系統性的數據構建流程與漸進式建模策略,在統一框架下實現了對時間結構與語音內容的聯合建模。
目前,該工作已被 ACL 2026 Main Conference 接收,并擬推薦為口頭報告。
![]()
- 論文地址:https://arxiv.org/abs/2510.08878
- 效果試聽:https://control-audio.github.io/Control-Audio
研究背景
文生音頻系統旨在合成與自然語言描述一致的音頻內容(如「鳥兒正在鳴叫」),在高保真生成方面已取得顯著進展,但在精細化控制維度仍存在明顯不足:
- 精確的時間控制:如「鳥兒在 2 至 5 秒間鳴叫」;
- 可理解語音生成:如「鳥兒在鳴叫,同時一名男子在說:『今天天氣真好』」。
然而,由于帶有精確時間標注和語音轉錄的信息難以大規模獲取,可控 TTA 系統在規模化訓練與生成能力上仍受到限制。同時,現有方法通常僅關注單一控制維度,尚未在統一框架下同時實現時間控制與可理解語音生成。
核心方法
本文提出 ControlAudio,一種漸進式擴散建模方法,通過逐步建模文本、時間與音素等不同粒度的條件信息,實現可控的 TTA 生成。整體方法包含三個核心部分:
- 數據構造與表征:通過人工標注與仿真生成相結合的方式構建多層級數據,并設計結構化提示詞(Structured Prompt),使預訓練文本編碼器能夠統一編碼文本、時間與音素信息;
- 模型訓練:采用漸進式訓練策略。首先在大規模文本 - 音頻數據上預訓練擴散模型,隨后逐步引入時間與語音內容信息進行建模,使模型逐步具備更細粒度的控制能力;
- 引導采樣:針對擴散模型「由粗到細」的生成特性,設計漸進式引導采樣策略,在推理過程中先生成整體時間結構,再逐步細化語音內容。
![]()
漸進式擴散建模
ControlAudio 將多條件建模拆解為一個由粗到細的漸進過程。
在訓練階段,模型分三步逐步引入控制信號:首先在大規模文本 - 音頻數據上預訓練,學習基礎的文本到音頻生成能力;隨后在包含時間標注的數據上進行微調,使模型能夠控制聲音事件的時間結構;最后進一步引入音素信息進行聯合訓練,實現對語音內容的建模。
在這一過程中,通過使用 Text、Text + Timing 以及 Text + Timing + Phoneme 等不同條件組合,逐步提升模型對細粒度控制信號的建模能力。
![]()
在推理階段,方法提出了漸進式引導采樣策略:在擴散早期,僅使用文本與時間條件進行引導,先生成整體的時間結構;在后期階段,再引入音素信息并提高引導強度,用于細化語音內容。該設計與擴散模型由粗到細的生成過程一致,從而在時間對齊與語音清晰度上取得更好的效果。
數據集構建
針對可控 TTA 所需的時間標注與語音內容數據稀缺問題,ControlAudio 構建了一個多來源的數據體系,將真實標注與仿真數據相結合。
首先,在真實數據方面,基于具有時間標注的 AudioSet-SL,篩選包含語音的片段,并通過分離與轉寫流程,獲得帶有時間戳與語音內容的信息,將原始的 ?text, audio? 擴展為 ?text, timing, phoneme, audio? 的細粒度數據。在此基礎上,進一步構建大規模仿真數據。
方法從真實數據中統計語音活動分布,并據此合成單人或多人語音片段,按照合理的時間結構進行排列,并與背景音頻混合生成復雜音頻場景。該流程額外擴展了超過 17 萬條訓練樣本,提升了數據規模與多樣性。
此外,在結構化提示詞的構建過程中,ControlAudio 引入基于鏈式推理(Chain-of-Thought, CoT)的自動生成流程,將自然語言描述解析為「事件 — 時間 — 語音內容」的結構化表示,為模型提供更加清晰的條件輸入。
![]()
實驗結果
為了驗證 ControlAudio 的有效性,團隊首先在時間可控音頻生成的 AudioCondition 測試集上進行評估。相比現有方法,在事件時間對齊指標上取得顯著提升,同時在 FAD、CLAP 等音頻質量指標上保持競爭力甚至更優表現。
![]()
在包含語音生成的評測任務中,ControlAudio 同樣展現出更強的語音可理解性與整體音頻質量,驗證了其在統一框架下同時建模時間結構與語音內容的能力。
![]()
在文生音頻任務中,ControlAudio 同樣取得了與當前主流方法相當甚至更優的生成質量,在引入時間與語音控制能力的同時,并未降低基礎的文本到音頻生成性能。
![]()
總結與展望
ControlAudio 從數據構建、模型訓練到采樣策略三個層面系統性地解決了文生音頻中的精細化控制問題,在統一框架下實現了文本、時間與語音內容的協同建模,并在多項任務上取得了優于現有方法的表現。
相比以往僅關注單一控制維度的工作,ControlAudio 展現了更強的通用性與擴展潛力。
隨著音頻與多模態生成模型的發展,越來越多系統開始探索 Speech、Audio、Music 的統一建模范式。研究團隊希望ControlAudio 所提出的「多粒度條件統一建模 + 漸進式生成」思路,能夠為通用音頻生成提供一種可擴展的技術路徑,推動模型從單一任務走向更復雜、多維度可控的內容生成。
樣本展示
Text Prompt:Music plays, followed by mechanisms, typing, beeps, and an alarm.
Timing Prompt:Music : 0.00s - 10.00s; Beeps : 1.00s - 1.20s 3.00s - 3.20s 4.90s - 5.10s 6.90s - 7.10s; Typing : 1.20s - 7.80s; Alarm : 7.85s - 8.50s.
Structured prompt:Music plays, followed by mechanisms, typing, beeps, and an alarm. @{Music. & <0.00,10.00>}@{Beeps. & <1.00,1.20><3.00,3.20><4.90,5.10><6.90,7.10>}@{Typing. & <1.20,7.80>}@{Alarm. & <7.85,8.50>}
![]()
Text Prompt:A man speaking over an intercom as a crowd of people talk followed by a dog barking.
Content Prompt:and contain them until that person can be taken into custody effectively and safely on the part of the other team of police sheriffs.
Structured prompt:A man speaking over an intercom as a crowd of people talk followed by a dog barking. @{Crowd talking ambience & <0.00,10.00>}@{Male speech, man speaking & <0.46,5.14>"And contain them until that person can be taken into custody effectively and safely."<5.64,8.22>"On the part of the other team of police sheriffs."}@{Dog barking & <9.26,9.46>}
![]()
Text Prompt:Females voice narrating a scene as music is playing and rain drops are falling.
Content Prompt:Daniel came out of the airport. He raised one arm to hail a taxi.
Structured prompt:Females voice narrating a scene as music is playing and rain drops are falling. @{Music & <0.00,10.00>}@{Female speech, woman narrating & <2.62,4.65>"Daniel came out of the airport."<5.37,8.26>"He raised one arm to hail a taxi."}@{Rain falling & <8.26,10.00>}
![]()
Text Prompt:Splashing water followed by a girl speaking then scraping and spitting.
Content Prompt:This is the last time you did that first thing. Same thing.
Structured prompt:Splashing water followed by a girl speaking then scraping and spitting. @{Splashing water & <0.00,1.38>}@{Female speech, girl speaking & <1.57,4.52>"This is the last time you did that first thing. Same thing."}@{Scraping & <4.66,6.81><7.10,8.00>}@{Spitting & <8.10,8.48>}
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.