![]()
近年來,隨著多模態大模型的飛速發展,視覺領域(如圖像、視頻)的「理解 - 生成 - 編輯」大一統模型不斷涌現。然而,在聲音的物理世界中,音頻模型卻依然處于各自為戰的狀態:
現有的音頻大模型往往局限于單一任務(只能理解,或只能生成),或者受限于特定領域(做語音的處理不了音樂,做音樂的處理不了環境音)。與此同時,音頻編輯(Audio Editing)更是因為極其匱乏大規模、高質量的指令數據集,遲遲難以實現突破。
面對這一長期存在的技術難題,香港科技大學、騰訊微信視覺團隊與北京大學的研究人員提出了一種全新的解耦框架 ——Audio-Omni。這是業界首個在統一框架下,同時支持通用聲音、音樂、語音三大領域的理解、生成與編輯的全能型多模態模型。
Audio-Omni 巧妙地將凍結的多模態大模型(MLLM)的強大推理能力,與可訓練的擴散生成器(DiT)的高保真合成能力完美結合。更重要的是,由于繼承了 MLLM 豐富的世界知識,Audio-Omni 展現出了眾多專家音頻模型難以實現的「涌現能力」。
目前,該研究成果已被頂級學術會議 SIGGRAPH 2026 接收,項目已開源。
![]()
![]()
An overview of the Audio-Omni framework and its capabilities.
- 項目主頁:https://zeyuet.github.io/Audio-Omni/
- 論文地址:https://arxiv.org/pdf/2604.10708
- 開源代碼:https://github.com/ZeyueT/Audio-Omni
- 開源模型:https://huggingface.co/HKUSTAudio/Audio-Omni
效果展示
無論是基礎的跨模態生成,還是精細的指令編輯,亦或是復雜的邏輯推理,Audio-Omni 都能在單一模型中輕松搞定。
1. 多模態音頻生成
在常規生成任務上,Audio-Omni 在多個基準測試中達到 SoTA 水平,支持多種模態控制:
- 文生音頻 (T2A)
A telephone dials twice, followed by the sound of glass shattering.
![]()
- 文生音樂 (T2M)
Compose a bright jazz swing instrumental with walking bass, brushed drums, and a lively horn melody.
![]()
Create a cheerful acoustic folk song accompaniment with strummed guitar, light percussion, and a whistling-style lead melody.
![]()
- 視頻配音 (V2A)
![]()
視頻地址:https://mp.weixin.qq.com/s/yBgZVzS28-WnG2KzQYAR0w?click_id=21
- 視頻配樂 (V2M)
![]()
視頻地址:https://mp.weixin.qq.com/s/yBgZVzS28-WnG2KzQYAR0w?click_id=21
- 文本到語音合成 (TTS)
The alchemist erased the circle in the sand, and the snake slithered away among the rocks.
![]()
2. 指令級靈活音頻編輯
前 10s 是輸入音頻,后 10s 是編輯后的結果:
- 添加 (Add):在原有場景音中自然融入新元素。
Prompt: Add the sound of'skateboarding' to the input audio.
![]()
Input
![]()
Output
![]()
- 移除 (Remove):剝離環境中的指定聲音。
Prompt: Remove the sound of 'female singing' from the input audio.
![]()
Input
![]()
Output
![]()
- 提取 (Extract):精準提取混音中的特定聲源。
Prompt: Extract the sound of 'ambulance siren' from the input audio.
![]()
Input
![]()
Output
![]()
- 風格遷移 (Style Transfer):改變物體的音色或整體環境風格,同時精準保留原始音頻的時序節奏與音高(Pitch)走向。
Prompt: Change the sound of 'dog barking' to 'hammering'.
![]()
Input
![]()
Output
![]()
Prompt: Change the sound of 'playing electric guitar' to 'playing saxophone'.
![]()
![]()
![]()
3. MLLM 賦予的「繼承能力」(Inherited Capabilities)
得益于獨特的架構設計,Audio-Omni 完美繼承了凍結的 MLLM 內部的世界知識,展現出了傳統音頻生成模型難以具備的推理與認知能力
- 知識增強生成(Knowledge-Augmented Generation)
當你在提示詞里寫下「齊柏林飛艇(Led Zeppelin)樂隊的 John Bonham 所演奏樂器的聲音」 時,大多數常規模型會因為缺乏對應文本與音頻的直接配對而生成失敗。但 Audio-Omni 能夠自行推理出該樂器是「架子鼓」,并直接合成出極具辨識度的硬核鼓點!
Prompt:The sound of the instrument that John Bonham played in Led Zeppelin.
![]()
- 上下文生成(In-Context Generation)
給定一段簡單的鋼琴錄音,并輸入指令「生成一段不斷累積緊張感的電影配樂」,模型能精準提取原音頻的音色,并創作出全新的旋律。
- 零樣本跨語言控制(Cross-Lingual Control)
盡管模型訓練時主要使用英文指令,但由于 MLLM 的多語言底子,你可以直接用中文、法語、德語、日語輸入指令,Audio-Omni 依然能生成毫不遜色的高保真音頻。
![]()
4. 自然解鎖的零樣本語音生成
通過訓練時的掩碼(Masking)策略,Audio-Omni 可以在不進行特定任務微調的情況下,直接解鎖零樣本音色轉換以及語音編輯能力
![]()
架構揭秘:High/Low Level 混合條件控制策略
讓一個模型同時勝任「理解、生成、編輯」和「音、樂、語」所有領域,最大的挑戰在于如何處理復雜且存在差異的控制信號。單純的交叉注意力(Cross-Attention)無法做到高精度對齊,而全部拼接(Concatenation)又會破壞語言模型的語義空間。
為此,研究團隊提出了一種優雅的解耦架構與雙流混合條件策略(Hybrid Conditioning Strategy)
![]()
1. 理解核心:采用凍結的預訓練多模態大模型(Qwen2.5-Omni-3B),保留其所有的世界知識和推理能力。
2. 生成核心:一個具有 3B 參數的可訓練擴散生成器(DiT),結合 Rectified Flow 目標函數負責高保真音頻合成。
3. 混合條件注入
- 高層語義流(High-Level Semantic stream):包含 MLLM 提取的多模態特征和轉錄文本。這些特征被當作全局指令向導,通過交叉注意力(Cross-attention)注入 DiT,賦予模型極大的語義靈活度。
- 底層信號流(Low-Level Signal stream):包含 Mel 頻譜特征(用于音色 / 編輯參考)和視頻同步特征(用于音畫對齊)。這些特征與輸入的噪聲隱變量進行通道級拼接(Channel-wise Concatenation),從而為模型注入細粒度的時序約束,實現對生成內容的高精度對齊與結構把控。
這一「宏觀靠注意力,微觀靠拼接」的設計,徹底打通了音頻全能生成的壁壘。另外,為了激發上述的零樣本語音能力,團隊在訓練階段對語音提示詞的 Mel 頻譜進行隨機掩碼,逼迫模型學會從上下文中推理音色和內容,從而自然習得了音色轉換和語音編輯能力。
數據破局:
構建百萬級指令音頻編輯數據集 AudioEdit
在視覺領域,大規模數據集徹底引爆了圖像編輯;而在音頻領域,長期缺乏這樣的指令成對數據。目前基于合成的管線往往存在明顯的「合成感」,難以應對真實世界的復雜聲學環境。
研究團隊為此構建了包含超 100 萬高質量樣本的指令音頻編輯數據集 ——AudioEdit
![]()
數據處理流水線圖
為了兼顧數據的真實聲學保真度與超大規模多樣性,團隊設計了雙管齊下的混合流水線:
- 真實數據挖掘分支(Real Data Branch):從 VGGSound 等真實世界視頻入手,利用大模型(Gemini 2.5 Pro)識別核心發聲物,并調用最新的 SAM-Audio 進行精準音源分離(Source Separation)。通過嚴格的多階段 VAD 和 CLAP 語義對齊過濾,提取出極其純凈的「原始 - 編輯」音頻對。
- 程序化合成數據分支(Synthesis Data Branch):利用 Scaper 工具包,將不同的前景音和背景音進行音高、時長、信噪比的隨機混合,批量制造大規模的精準標注數據。
在 AudioEdit 的加持下,Audio-Omni 擁有了能夠應對多項音頻編輯任務的能力。
Insight:
最后一層特征未必更適合跨模態合成
在探索 MLLM 與 DiT 的連接方式時,研究團隊進行了一系列消融實驗,并得出了一個極具啟發性的結論:
對于音頻生成任務,直接使用 MLLM 最后一層(Last Layer, -1)或復雜的 Query 機制效果并不理想,反而使用倒數第二層(Penultimate Layer, -2)的特征,能取得顯著更優的表現。
![]()
團隊深入分析認為:MLLM 的最后一層特征為了迎合下一詞預測(Next-token prediction)的訓練目標,往往變得過于「文本特化」,在這個過程中,大量豐富的、未壓縮的聲學細節和視覺語義被丟棄了。
而倒數第二層則像一個原生態的信息蓄水池,它既完成了高度抽象的語義理解,又保留了足以讓 DiT 合成高保真音頻的密集底層細節。這也揭示了:在將 LLM 接入高保真生成模型時,避免底層信息的丟失比設計復雜的注意力查詢機制更為關鍵。
項目已開源
Audio-Omni 已在 GitHub 和 Hugging Face 上開源,包括代碼和模型權重。開源以來,Audio-Omni 在Hugging Face 全模態(Any-to-Any)模型熱榜(https://huggingface.co/models?pipeline_tag=any-to-any)上持續位列Top 5,受到了社區的廣泛關注與好評。
![]()
結語
Audio-Omni 的問世,證明了通過單一框架解決跨域音頻任務的可行性,打破了理解、生成和編輯之間的技術壁壘。其展現出的強大推理與零樣本控制能力,為后續工作提供了未來通用生成式音頻人工智能(Universal Generative Audio Intelligence)的演進方向。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.