網易首頁 > 網易號 > 正文 申請入駐

港科大聯合騰訊微信、北大發布首個大一統框架 Audio-Omni

0
分享至



近年來,隨著多模態大模型的飛速發展,視覺領域(如圖像、視頻)的「理解 - 生成 - 編輯」大一統模型不斷涌現。然而,在聲音的物理世界中,音頻模型卻依然處于各自為戰的狀態:

現有的音頻大模型往往局限于單一任務(只能理解,或只能生成),或者受限于特定領域(做語音的處理不了音樂,做音樂的處理不了環境音)。與此同時,音頻編輯(Audio Editing)更是因為極其匱乏大規模、高質量的指令數據集,遲遲難以實現突破。

面對這一長期存在的技術難題,香港科技大學、騰訊微信視覺團隊與北京大學的研究人員提出了一種全新的解耦框架 ——Audio-Omni。這是業界首個在統一框架下,同時支持通用聲音、音樂、語音三大領域的理解、生成與編輯的全能型多模態模型。

Audio-Omni 巧妙地將凍結的多模態大模型(MLLM)的強大推理能力,與可訓練的擴散生成器(DiT)的高保真合成能力完美結合。更重要的是,由于繼承了 MLLM 豐富的世界知識,Audio-Omni 展現出了眾多專家音頻模型難以實現的「涌現能力」。

目前,該研究成果已被頂級學術會議 SIGGRAPH 2026 接收,項目已開源。





An overview of the Audio-Omni framework and its capabilities.

  • 項目主頁:https://zeyuet.github.io/Audio-Omni/
  • 論文地址:https://arxiv.org/pdf/2604.10708
  • 開源代碼:https://github.com/ZeyueT/Audio-Omni
  • 開源模型:https://huggingface.co/HKUSTAudio/Audio-Omni

效果展示

無論是基礎的跨模態生成,還是精細的指令編輯,亦或是復雜的邏輯推理,Audio-Omni 都能在單一模型中輕松搞定。

1. 多模態音頻生成

在常規生成任務上,Audio-Omni 在多個基準測試中達到 SoTA 水平,支持多種模態控制:

  • 文生音頻 (T2A)

A telephone dials twice, followed by the sound of glass shattering.



  • 文生音樂 (T2M)

Compose a bright jazz swing instrumental with walking bass, brushed drums, and a lively horn melody.



Create a cheerful acoustic folk song accompaniment with strummed guitar, light percussion, and a whistling-style lead melody.



  • 視頻配音 (V2A)



視頻地址:https://mp.weixin.qq.com/s/yBgZVzS28-WnG2KzQYAR0w?click_id=21

  • 視頻配樂 (V2M)



視頻地址:https://mp.weixin.qq.com/s/yBgZVzS28-WnG2KzQYAR0w?click_id=21

  • 文本到語音合成 (TTS)

The alchemist erased the circle in the sand, and the snake slithered away among the rocks.



2. 指令級靈活音頻編輯

前 10s 是輸入音頻,后 10s 是編輯后的結果:

  • 添加 (Add):在原有場景音中自然融入新元素。

Prompt: Add the sound of'skateboarding' to the input audio.



Input



Output



  • 移除 (Remove):剝離環境中的指定聲音。

Prompt: Remove the sound of 'female singing' from the input audio.



Input



Output



  • 提取 (Extract):精準提取混音中的特定聲源。

Prompt: Extract the sound of 'ambulance siren' from the input audio.



Input



Output



  • 風格遷移 (Style Transfer):改變物體的音色或整體環境風格,同時精準保留原始音頻的時序節奏與音高(Pitch)走向。

Prompt: Change the sound of 'dog barking' to 'hammering'.



Input



Output



Prompt: Change the sound of 'playing electric guitar' to 'playing saxophone'.







3. MLLM 賦予的「繼承能力」(Inherited Capabilities)

得益于獨特的架構設計,Audio-Omni 完美繼承了凍結的 MLLM 內部的世界知識,展現出了傳統音頻生成模型難以具備的推理與認知能力

  • 知識增強生成(Knowledge-Augmented Generation)

當你在提示詞里寫下「齊柏林飛艇(Led Zeppelin)樂隊的 John Bonham 所演奏樂器的聲音」 時,大多數常規模型會因為缺乏對應文本與音頻的直接配對而生成失敗。但 Audio-Omni 能夠自行推理出該樂器是「架子鼓」,并直接合成出極具辨識度的硬核鼓點!

Prompt:The sound of the instrument that John Bonham played in Led Zeppelin.



  • 上下文生成(In-Context Generation)

給定一段簡單的鋼琴錄音,并輸入指令「生成一段不斷累積緊張感的電影配樂」,模型能精準提取原音頻的音色,并創作出全新的旋律。

  • 零樣本跨語言控制(Cross-Lingual Control)

盡管模型訓練時主要使用英文指令,但由于 MLLM 的多語言底子,你可以直接用中文、法語、德語、日語輸入指令,Audio-Omni 依然能生成毫不遜色的高保真音頻。



4. 自然解鎖的零樣本語音生成

通過訓練時的掩碼(Masking)策略,Audio-Omni 可以在不進行特定任務微調的情況下,直接解鎖零樣本音色轉換以及語音編輯能力



架構揭秘:High/Low Level 混合條件控制策略

讓一個模型同時勝任「理解、生成、編輯」和「音、樂、語」所有領域,最大的挑戰在于如何處理復雜且存在差異的控制信號。單純的交叉注意力(Cross-Attention)無法做到高精度對齊,而全部拼接(Concatenation)又會破壞語言模型的語義空間。

為此,研究團隊提出了一種優雅的解耦架構與雙流混合條件策略(Hybrid Conditioning Strategy)



1. 理解核心:采用凍結的預訓練多模態大模型(Qwen2.5-Omni-3B),保留其所有的世界知識和推理能力。

2. 生成核心:一個具有 3B 參數的可訓練擴散生成器(DiT),結合 Rectified Flow 目標函數負責高保真音頻合成。

3. 混合條件注入

  • 高層語義流(High-Level Semantic stream):包含 MLLM 提取的多模態特征和轉錄文本。這些特征被當作全局指令向導,通過交叉注意力(Cross-attention)注入 DiT,賦予模型極大的語義靈活度。
  • 底層信號流(Low-Level Signal stream):包含 Mel 頻譜特征(用于音色 / 編輯參考)和視頻同步特征(用于音畫對齊)。這些特征與輸入的噪聲隱變量進行通道級拼接(Channel-wise Concatenation),從而為模型注入細粒度的時序約束,實現對生成內容的高精度對齊與結構把控。

這一「宏觀靠注意力,微觀靠拼接」的設計,徹底打通了音頻全能生成的壁壘。另外,為了激發上述的零樣本語音能力,團隊在訓練階段對語音提示詞的 Mel 頻譜進行隨機掩碼,逼迫模型學會從上下文中推理音色和內容,從而自然習得了音色轉換和語音編輯能力。

數據破局:

構建百萬級指令音頻編輯數據集 AudioEdit

在視覺領域,大規模數據集徹底引爆了圖像編輯;而在音頻領域,長期缺乏這樣的指令成對數據。目前基于合成的管線往往存在明顯的「合成感」,難以應對真實世界的復雜聲學環境。

研究團隊為此構建了包含超 100 萬高質量樣本的指令音頻編輯數據集 ——AudioEdit



數據處理流水線圖

為了兼顧數據的真實聲學保真度與超大規模多樣性,團隊設計了雙管齊下的混合流水線:

  • 真實數據挖掘分支(Real Data Branch):從 VGGSound 等真實世界視頻入手,利用大模型(Gemini 2.5 Pro)識別核心發聲物,并調用最新的 SAM-Audio 進行精準音源分離(Source Separation)。通過嚴格的多階段 VAD 和 CLAP 語義對齊過濾,提取出極其純凈的「原始 - 編輯」音頻對。
  • 程序化合成數據分支(Synthesis Data Branch):利用 Scaper 工具包,將不同的前景音和背景音進行音高、時長、信噪比的隨機混合,批量制造大規模的精準標注數據。

在 AudioEdit 的加持下,Audio-Omni 擁有了能夠應對多項音頻編輯任務的能力。

Insight:

最后一層特征未必更適合跨模態合成

在探索 MLLM 與 DiT 的連接方式時,研究團隊進行了一系列消融實驗,并得出了一個極具啟發性的結論:

對于音頻生成任務,直接使用 MLLM 最后一層(Last Layer, -1)或復雜的 Query 機制效果并不理想,反而使用倒數第二層(Penultimate Layer, -2)的特征,能取得顯著更優的表現。



團隊深入分析認為:MLLM 的最后一層特征為了迎合下一詞預測(Next-token prediction)的訓練目標,往往變得過于「文本特化」,在這個過程中,大量豐富的、未壓縮的聲學細節和視覺語義被丟棄了。

而倒數第二層則像一個原生態的信息蓄水池,它既完成了高度抽象的語義理解,又保留了足以讓 DiT 合成高保真音頻的密集底層細節。這也揭示了:在將 LLM 接入高保真生成模型時,避免底層信息的丟失比設計復雜的注意力查詢機制更為關鍵。

項目已開源

Audio-Omni 已在 GitHub 和 Hugging Face 上開源,包括代碼和模型權重。開源以來,Audio-Omni 在Hugging Face 全模態(Any-to-Any)模型熱榜(https://huggingface.co/models?pipeline_tag=any-to-any)上持續位列Top 5,受到了社區的廣泛關注與好評。



結語

Audio-Omni 的問世,證明了通過單一框架解決跨域音頻任務的可行性,打破了理解、生成和編輯之間的技術壁壘。其展現出的強大推理與零樣本控制能力,為后續工作提供了未來通用生成式音頻人工智能(Universal Generative Audio Intelligence)的演進方向。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
上海警方通報“女子機場兩次拒幫陌生人帶行李”:3人購買大量免稅品欲帶至境外販賣,反復糾纏10余名旅客要求“分擔行李”,已被行拘

上海警方通報“女子機場兩次拒幫陌生人帶行李”:3人購買大量免稅品欲帶至境外販賣,反復糾纏10余名旅客要求“分擔行李”,已被行拘

極目新聞
2026-04-23 14:36:35
負債60億!年銷8.4萬臺豪車的百億巨頭破產,浙商大佬全被套牢

負債60億!年銷8.4萬臺豪車的百億巨頭破產,浙商大佬全被套牢

青眼財經
2026-04-16 22:01:48
主動投案,貴州省監獄管理局原副局長吳道明接受審查調查

主動投案,貴州省監獄管理局原副局長吳道明接受審查調查

界面新聞
2026-04-24 09:33:18
一杯水里藏著一個“反常”的宇宙:為什么水讓科學家都頭疼?

一杯水里藏著一個“反常”的宇宙:為什么水讓科學家都頭疼?

半解智士
2026-04-23 10:04:34
別再有“一天滅日本”的幻想了,若中日真開戰,日本有著三重防線

別再有“一天滅日本”的幻想了,若中日真開戰,日本有著三重防線

安安說
2026-04-24 11:29:47
湘南民宅翻修驚現毛主席80年前舊照,專家鑒定彌足珍貴可補史遺缺

湘南民宅翻修驚現毛主席80年前舊照,專家鑒定彌足珍貴可補史遺缺

云霄紀史觀
2026-04-14 02:08:48
“缺大德了!”深圳,一男子辭職后,找了份月薪45000元的工作

“缺大德了!”深圳,一男子辭職后,找了份月薪45000元的工作

時尚的弄潮
2026-04-24 13:11:37
中美金融戰,意外地幫中國解決了,房地產這個尾大不掉的問題

中美金融戰,意外地幫中國解決了,房地產這個尾大不掉的問題

南宗歷史
2026-04-24 05:20:02
記者:梅西、內馬爾、姆巴佩在巴黎時,更衣室分裂成了幾個幫派

記者:梅西、內馬爾、姆巴佩在巴黎時,更衣室分裂成了幾個幫派

懂球帝
2026-04-24 09:59:08
中方不伺候了!光刻機斷供?450億顆芯片爛倉庫,荷蘭啞口無言?

中方不伺候了!光刻機斷供?450億顆芯片爛倉庫,荷蘭啞口無言?

墨羽怪談
2026-04-24 08:19:33
印度評選出8大科技強國,韓國網民:太謙虛了,印度應該排名第一

印度評選出8大科技強國,韓國網民:太謙虛了,印度應該排名第一

番外行
2026-04-24 08:34:03
內塔被上百國通緝,中方打破沉默,在安理會動手,明牌清算以色列

內塔被上百國通緝,中方打破沉默,在安理會動手,明牌清算以色列

愛意隨風起呀
2026-04-24 13:30:09
阿瑙托維奇:因疫情在中國隔離至抑郁,最終選擇重返歐洲

阿瑙托維奇:因疫情在中國隔離至抑郁,最終選擇重返歐洲

懂球帝
2026-04-23 08:32:10
北京大學教授喬曉春言論惹爭議,我們應該上綱上線嗎?

北京大學教授喬曉春言論惹爭議,我們應該上綱上線嗎?

總在茶余后
2026-04-22 21:14:14
佩斯科夫:普京隨時準備在莫斯科接待澤連斯基,但僅限討論雙邊關系

佩斯科夫:普京隨時準備在莫斯科接待澤連斯基,但僅限討論雙邊關系

起喜電影
2026-04-24 15:08:34
制造292球!英國足壇歷史第一帶刀后衛,歐戰史上首位金靴后衛

制造292球!英國足壇歷史第一帶刀后衛,歐戰史上首位金靴后衛

體壇老球迷
2026-04-24 13:18:50
日本專家表示:如果中日戰真的發生了,日本老百姓根本不需要害怕

日本專家表示:如果中日戰真的發生了,日本老百姓根本不需要害怕

安安說
2026-04-23 11:40:47
24號收評:三大指數集體下挫,所有人都注意,大盤下周開始這樣看

24號收評:三大指數集體下挫,所有人都注意,大盤下周開始這樣看

春江財富
2026-04-24 15:28:32
至今,還有13個國家和中國沒有建交,他們都是誰?

至今,還有13個國家和中國沒有建交,他們都是誰?

深度報
2026-04-22 22:30:57
殲10直飛伊朗,美以都沒敢攔!誰也沒想到,背后藏著一個天大的局

殲10直飛伊朗,美以都沒敢攔!誰也沒想到,背后藏著一個天大的局

尋墨閣
2026-04-20 18:51:46
2026-04-24 16:28:49
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
12847文章數 142635關注度
往期回顧 全部

科技要聞

DeepSeek V4牽手華為,價格依然"屠夫級"

頭條要聞

女子買二手奔馳里程數偏差20萬公里 看到事故記錄崩潰

頭條要聞

女子買二手奔馳里程數偏差20萬公里 看到事故記錄崩潰

體育要聞

里程碑之戰拖后腿,哈登18分8失誤

娛樂要聞

停工16個月!趙露思證實接拍新劇

財經要聞

19家企業要"鋁代銅",格力偏不

汽車要聞

YU7 GT 5 月上市!小米Vision GT概念車國內首秀

態度原創

藝術
游戲
親子
公開課
軍事航空

藝術要聞

16幅 佐恩高清油畫 | 瑞典著名畫家

Fami通銷量榜:《識質存在》3.6萬被第一十倍吊打!

親子要聞

女子因遲遲沒懷孕被懷疑身體有問題,女子直接去醫院檢查自證清白

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

美伊陷入互相封鎖僵局

無障礙瀏覽 進入關懷版