无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請入駐

牛津、微軟等發(fā)布音視頻智能綜述:梳理大模型時(shí)代的AVI研究全景

0
分享至



GPT-4o 一邊看屏幕一邊和你語音對話;Veo-3、MovieGen、Seedance 2.0 直接把原生音軌納入視頻生成鏈路;HappyHorse 這類近期模型也開始探索音視頻聯(lián)合生成;OpenVLA 讓機(jī)器人” 聽音辨物”—— 音視頻大模型,正在從” 加在視覺模型旁邊的一個(gè) ASR”,進(jìn)化成 omni-modal 基礎(chǔ)模型的核心能力之一。

NUS 聯(lián)合牛津、多倫多、UTD、HKUST、QMUL、微軟研究院、羅切斯特大學(xué)等共 9 家機(jī)構(gòu)最近推出據(jù)作者所知第一份系統(tǒng)的音視頻智能(AVI)大模型綜述,用一張演化樹串起十年發(fā)展,給出統(tǒng)一 taxonomy、三條主線與六大未來研究軸,把 AVI 在大模型時(shí)代的角色與待解問題擺到了同一張地圖上。



一、9 機(jī)構(gòu)、首份” 音視頻大模型” 綜述

近年來,AI 圈最顯著的變化之一,是” 模型不再只看圖”。

2024 年 GPT-4o 把語音、視覺、文本塞進(jìn)同一個(gè) backbone,2025 年 Google Veo-3、Meta MovieGen 把” 原生帶音軌的視頻生成” 作為統(tǒng)一目標(biāo),2026 年字節(jié) Seedance 2.0 和 HappyHorse 等工作進(jìn)一步把文本、圖像、視頻、音頻條件與同步音視頻輸出放進(jìn)同一代視頻生成敘事中;Qwen-Omni 把多模態(tài)對話推到流式實(shí)時(shí)層面,OpenVLA、π0、GR00T 這一線 VLA 模型則開始讓機(jī)器人同時(shí)處理語音指令、視覺、動(dòng)作甚至環(huán)境聲響。

但與此同時(shí),整個(gè)領(lǐng)域的學(xué)術(shù)地圖卻仍然高度分散。ASR、數(shù)字人 / 說話頭(talking head)、Foley(擬音)合成、視頻配音(V2A)、音頻驅(qū)動(dòng)視頻生成(A2V)、音畫編輯、音視頻問答(AVQA)、空間音頻推理、AV 導(dǎo)航、AV 操作…… 每一個(gè)子方向都有自己的范式、benchmark 與評(píng)測口徑。

正是在這一背景下,新加坡國立大學(xué)(NUS)聯(lián)合牛津大學(xué)、多倫多大學(xué)、UTD、HKUST、QMUL、微軟研究院、羅切斯特大學(xué)等機(jī)構(gòu),推出了據(jù)作者所知第一份專門針對” 音視頻大模型(AVI in Large Foundation Models)“的系統(tǒng)綜述



  • 論文標(biāo)題:Audio-Visual Intelligence in Large Foundation Models: AComprehensiveSurvey
  • 論文:https://arxiv.org/abs/2605.04045
  • HF Paper:https://huggingface.co/papers/2605.04045
  • GitHub(Awesome-AVI,持續(xù)更新):https://github.com/JavisVerse/Awesome-AVI
  • 項(xiàng)目主頁:https://javisverse.github.io/

論文把過去十年里散落在十幾個(gè)子社區(qū)的 AV 工作,重新組織成理解世界(Understanding the World)/ 創(chuàng)造世界(Creating the World)/ 與世界交互(Interacting with the World)三條主線,給出統(tǒng)一的 taxonomy、基礎(chǔ)技術(shù)拆解、應(yīng)用版圖、以及面向未來 1–3 年的六軸研究路線。

論文本身的立意,是把AVI 當(dāng)作大模型時(shí)代下、與單模態(tài)語言模型同等重要的一支基礎(chǔ)能力來梳理:從音視頻對齊、到聯(lián)合音視頻生成、再到實(shí)時(shí)閉環(huán)交互,應(yīng)該形成一個(gè)連貫的研究框架,而不是被 ASR、Foley(擬音)、數(shù)字人 / 說話頭、AVQA 各自的范式繼續(xù)切碎。

二、十年 AVI” 進(jìn)化樹”:從” 對得上” 到” 聽 - 看 - 說 - 動(dòng)一體”

打開 paper 第一頁,先映入眼簾的就是這張2016–2026 AVI 進(jìn)化樹



論文把整個(gè) AVI 的發(fā)展分成 4 個(gè)時(shí)代:

  • Era 1(2016–2018):AV Alignment——L3-Net、AVTS、Wav2Lip、Audio2Head,加上”ASR + LLM + TTS” 的級(jí)聯(lián)式語音對話。問題集中在” 對得上”。
  • Era 2(2019–2022):Scaled Representations——XDC、AVID、VATT 這些大規(guī)模對比學(xué)習(xí)方法登場,AudioLDM、MusicGen 等單模態(tài)生成開始爆發(fā),SpeechGPT、SALMONN、Qwen-Audio 一路走出 audio-native LLM。
  • Era 3(2023–2024):AV Creation——MBT、AV-HuBERT、Diff-Foley、MMAudio、FoleyCrafter、MusicInfuser、AudioGPT、Mini-Omni、NExT-GPT,把” 以一種模態(tài)生成另一種模態(tài)” 和”AV 控制器” 推到舞臺(tái)中央。
  • Era 4(2024–2026):Omni / VLA——ImageBind、Qwen-Omni、JavisDiT、MovieGen、Veo-3、Seedance 2.0、HappyHorse、GPT-4o、OpenVLA、Audio-VLA,原生融合的 AV 大模型、同步音視頻生成模型與 VLA 一起走上前臺(tái)。

更重要的是,論文明確指出,從 Era 1 到 Era 4,有6 條瓶頸貫穿始終:音畫同步、時(shí)序一致性、可控生成、評(píng)測體系、實(shí)時(shí)延遲、安全治理與數(shù)據(jù)合規(guī)。這些問題不會(huì)因?yàn)槟P妥兇缶妥詣?dòng)消失,反而會(huì)隨著場景升級(jí)(短視頻 → 長視頻 → 實(shí)時(shí) omni → agentic)反復(fù)出現(xiàn)。

三、統(tǒng)一 Taxonomy:感知 / 生成 / 交互三條主線

論文給出的統(tǒng)一 taxonomy 是核心交付物之一,它把 AVI 拆成三條主線:



理解世界(Understanding the World,Perception):包括音視頻語音識(shí)別(AV-ASR)、唇語識(shí)別(lip reading)、活躍說話人檢測(ASD)、聲源定位與分離、音視頻事件理解、跨模態(tài)檢索、音視頻問答(AVQA)這些經(jīng)典任務(wù),加上越來越多基于 AV-LLM 的長視頻理解與因果推理任務(wù)。



創(chuàng)造世界(Creating the World,Generation):被進(jìn)一步拆成” 條件生成 / 跨模態(tài)生成 / 聯(lián)合音視頻生成 / 音畫編輯” 四類,覆蓋視頻配音(V2A)、音頻驅(qū)動(dòng)視頻生成(A2V)、joint AV 生成等代表方向。論文特別指出,真正” 原生聯(lián)合” 的音視頻生成才剛剛開始——MovieGen、Veo-3、Seedance 2.0、JavisDiT,以及 HappyHorse 這類近期模型已經(jīng)能從文本或多模態(tài)條件生成帶原生音軌的視頻,但跨身份、跨時(shí)長、跨場景物理合理性的音畫同步生成,以及局部、可控的音畫編輯,仍是開放問題。



與世界交互(Interacting with the World,Interaction):包含兩條線,一條是” 音視頻對話”(從級(jí)聯(lián) ASR + LLM + TTS,到 audio-native LLM,再到 GPT-4o / Qwen-Omni 這類原生 omni-modal 實(shí)時(shí)音視頻對話),另一條是” 具身智能與機(jī)器人”(AV 導(dǎo)航、AV 場景理解、AV 操作,對應(yīng) SoundSpaces、AVLMaps、OpenVLA、Audio-VLA)。





論文強(qiáng)調(diào):交互不是一次性輸出,而是帶狀態(tài)的閉環(huán) —— 感知 → 推理 → 響應(yīng) / 行動(dòng),要在延遲、反饋和用戶意圖的約束下持續(xù)運(yùn)行。這也是為什么 omni-modal 與 VLA 類模型會(huì)在 Era 4 同時(shí)出現(xiàn)。

四、基礎(chǔ)技術(shù):表示、生成、LLM-centric

如果說三條主線組織的是” 做什么”,基礎(chǔ)技術(shù)這一章組織的就是” 怎么做”。論文把 AVI 的技術(shù)棧拆成三塊:

  • Representation(表示):音頻與視覺特征抽取、VAE / 重建式壓縮、離散化 tokenization、跨模態(tài)對齊與融合。在大模型語境下,關(guān)鍵問題已從” 特征對不對得上” 升級(jí)為” 用哪種 token 把音視信號(hào)塞進(jìn) LLM 才最高效”。
  • Generation(生成):系統(tǒng)梳理VAE / GAN / Diffusion / 自回歸(AR)/ Masked Autoregressive(MAR)五類生成范式各自的能力邊界與組合方式,特別覆蓋了 diffusion /flow matching 的演化、AR 模型在視覺與音頻上的進(jìn)展、以及 hybrid AR + Diffusion 的最新方向。
  • LLM-centric 系統(tǒng)范式:論文把當(dāng)前 AV 大模型按結(jié)構(gòu)歸成幾種典型范式 ——Encoder + LLM、LLM + Generator、統(tǒng)一感知生成模型(unified Encoder + LLM + Decoder)、以及 Agentic 系統(tǒng)與 VLA 模型。這也是工業(yè)界搭” 音視頻版 GPT-4o” 時(shí)最直接對應(yīng)的架構(gòu)選擇。



對正在搭” 音視頻版 GPT-4o” 的工程團(tuán)隊(duì)來說,這張圖大體相當(dāng)于一份 AV 大模型架構(gòu)選型的速查表,可以拿來對照自己當(dāng)前的 backbone /encoder/decoder 劃分。

五、應(yīng)用版圖:從短視頻 AIGC 到具身機(jī)器人

論文用一整章梳理了 AVI 的下游應(yīng)用版圖:



圍繞音視頻基礎(chǔ)模型展開,作者把應(yīng)用歸納為6 大方向

1.AIGC 與創(chuàng)意內(nèi)容:視頻配音 / Foley(擬音)合成、跨語言唇形同步、配樂與音畫編輯,再到一次性出” 帶原生音軌短場景” 的 JavisDiT、Veo-3、Seedance 2.0、HappyHorse 等聯(lián)合音視頻生成模型;

2.數(shù)字人與社交交互:從 Wav2Lip 的 2D 唇形同步、到 GaussianTalker 的 3D 神經(jīng)渲染、再到 EmoGene、EMAGE、Stereo-Talker 的高保真全身數(shù)字人;

3.人本服務(wù):以 Qwen-Audio、SALMONN 等 audio LLM 為核心的對話助手 / 會(huì)議轉(zhuǎn)寫 / AI 教學(xué) / 無障礙輔助;

4.沉浸式體驗(yàn)與 Metaverse:空間音頻推理、AV-NeRF、AVLMaps,以及 <20 ms 級(jí)別的低延遲硬約束;

5.具身 AI 與機(jī)器人:從 SoundSpaces 一脈的 AV 導(dǎo)航,到 OpenVLA / π0 / GR00T / SmolVLA 的統(tǒng)一 VLA 策略;

6.泛在感知與安全治理:智慧城市、工業(yè) IoT、深偽檢測、聲學(xué)異常檢測、水印與數(shù)據(jù)合規(guī)、隱私與邊緣部署。

六、未來六大研究軸:超越” 更長清單”,給出結(jié)構(gòu)性能力



AVI 發(fā)展路線圖:前三階段建立起” 對應(yīng) / 感知 / 生成” 的能力基礎(chǔ),當(dāng)下處于交互式 omni-modal 與具身模型這一前沿,再往后是因果 - 上下文 AVI 與可驗(yàn)證的 agentic AVI—— 下文六大主軸正對應(yīng)路線圖右側(cè)兩段需要補(bǔ)齊的關(guān)鍵能力。

論文最后給出六條未來研究主軸,覆蓋音畫同步、因果事件 grounding、空間音頻推理、長程上下文記憶、可控生成、安全治理、水印與數(shù)據(jù)合規(guī)等關(guān)鍵問題,并強(qiáng)調(diào)這六軸不是更長的待辦清單而是把 AVI 與” 通用多模態(tài)學(xué)習(xí)” 區(qū)分開的結(jié)構(gòu)性能力

1.因果事件 - 聲源 grounding:建模延遲、遮擋、畫外音、多源混合下的源級(jí) / 事件級(jí) / 因果對齊,把音畫同步推向因果可解釋層面;

2.AV 世界模型:把音視頻當(dāng)作幾何、材質(zhì)、動(dòng)力學(xué)、可供性、用戶 / 社交狀態(tài)的互補(bǔ)證據(jù),并以空間音頻推理作為關(guān)鍵能力;

3.長程 AV 上下文記憶:構(gòu)建流式 / 情景 / 語義多層、可選擇、可溯源的 AV 記憶,而不是簡單加長上下文窗口;

4.因果 AV 干預(yù)與可控生成:讓生成與編輯支持對物體、聲音、身份、情緒、空間、時(shí)間的局部、因果、同步干預(yù);

5.Verifier 與 Reward 生態(tài):超越 FAD / FVD / CLIP / SyncNet 這些代理指標(biāo),發(fā)展面向 grounding、物理合理性、音頻不可替代性、長程一致性、任務(wù)效用的驗(yàn)證器;

6.交互式與負(fù)責(zé)任 AVI:在低延遲、隱私、版權(quán)、水印與數(shù)據(jù)合規(guī)等安全治理約束下,把 AV 模型變成可被信任的實(shí)時(shí)合作者。

這六條主軸,每一條都幾乎對應(yīng)著某條工業(yè)界正在追的產(chǎn)品線:

  • 因果事件 - 聲源 grounding ? 視頻理解 / 視頻搜索;
  • AV 世界模型 ? 世界模型 / Sora 系列;
  • AV 上下文記憶 ? 長會(huì)議、長直播、長游戲陪伴的 omni assistant;
  • 因果 AV 干預(yù) ? AI 視頻后期 / 影視特效;
  • Verifier & Reward 生態(tài) ? AI 視頻質(zhì)量評(píng)估、自動(dòng)剪輯;
  • 交互式與負(fù)責(zé)任 AVI ? omni 助手 / 實(shí)時(shí)陪練 / 具身機(jī)器人。

七、對行業(yè)意味著什么

最后做一個(gè)簡短的產(chǎn)業(yè)向解讀:

1. 論文給出了” 音視頻大模型” 研發(fā)的統(tǒng)一坐標(biāo)系。不論你是在做視頻生成、數(shù)字人 / 說話頭、omni 助手,還是 AV 智能體或具身機(jī)器人,都能在這張全景圖里找到自己的位置,進(jìn)而判斷鄰接技術(shù)棧在哪里、可借鑒的方法是什么。

2. 它明確指出了 omni-modal 模型的下一波競爭點(diǎn)不在” 能不能聽 / 能不能看”,而在” 能不能在統(tǒng)一 backbone 或統(tǒng)一生成鏈路下做長程 AV 上下文推理 + 原生音畫同步生成 + 實(shí)時(shí)閉環(huán)交互”。GPT-4o、Veo-3、Seedance 2.0、Qwen-Omni、OpenVLA,以及 HappyHorse 這類近期聯(lián)合音視頻生成嘗試,都在從不同側(cè)面推進(jìn)這一趨勢。

3. 評(píng)測體系正在重塑。論文對 FAD / FVD / CLIP / SyncNet 這類代理指標(biāo)在音畫同步與音頻不可替代性維度上的局限做了系統(tǒng)討論,并明確把 verifier & reward 生態(tài)列為未來主軸之一。可以預(yù)期未來一年,AV 評(píng)測會(huì)從” 主觀打分 + 代理指標(biāo)”,走向” 任務(wù)效用 + 物理合理性 + 安全可溯源” 的多維評(píng)測體系。

4. 安全治理已經(jīng)從錦上添花走向基礎(chǔ)設(shè)施層面。深偽、版權(quán)、隱私、水印與數(shù)據(jù)合規(guī)、實(shí)時(shí)濫用,將成為部署側(cè)不可繞過的硬約束。

對任何在做 AV 大模型、omni-modal 模型、視頻生成、數(shù)字人 / 說話頭、AV 智能體、具身機(jī)器人、空間音頻或深偽檢測的團(tuán)隊(duì),這篇綜述長文都值得完整通讀一次。

配套的 Awesome-AVI 倉庫會(huì)持續(xù)更新方法、數(shù)據(jù)集與 benchmark,研究者可以圍繞它跟蹤最新進(jìn)展。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
李斌:新能源汽車行業(yè)從品牌混沌期進(jìn)入澄清期,單點(diǎn)競爭已難取勝

李斌:新能源汽車行業(yè)從品牌混沌期進(jìn)入澄清期,單點(diǎn)競爭已難取勝

澎湃新聞
2026-05-24 07:30:26
記者:帥惟浩注冊問題基本解決,有省外球隊(duì)要買張伯霖也遇到困難

記者:帥惟浩注冊問題基本解決,有省外球隊(duì)要買張伯霖也遇到困難

懂球帝
2026-05-24 10:16:29
這3種魚中老年人要常吃,不是鱸魚、不是鯽魚,刺少、低脂高蛋白

這3種魚中老年人要常吃,不是鱸魚、不是鯽魚,刺少、低脂高蛋白

江江食研社
2026-05-24 14:30:07
武契奇夫婦訪華第一天!80后塔瑪拉夫人穿亮色風(fēng)衣與黑裙,美翻了

武契奇夫婦訪華第一天!80后塔瑪拉夫人穿亮色風(fēng)衣與黑裙,美翻了

八八尚語
2026-05-24 16:33:43
解放臺(tái)灣以意想不到方式實(shí)現(xiàn)?專家建言:來一場新的“西安事變”

解放臺(tái)灣以意想不到方式實(shí)現(xiàn)?專家建言:來一場新的“西安事變”

神秘莫測的世界
2026-05-24 09:37:15
張藝謀4月身體出狀況,陳婷摘掉妻子認(rèn)證

張藝謀4月身體出狀況,陳婷摘掉妻子認(rèn)證

青杉依舊啊啊
2026-05-16 23:41:41
3.2億退休人真相:能拿5500元退休金的,僅8%!別再被網(wǎng)絡(luò)誤導(dǎo)了

3.2億退休人真相:能拿5500元退休金的,僅8%!別再被網(wǎng)絡(luò)誤導(dǎo)了

吃貨的分享
2026-04-29 01:53:54
“感覺她像冰塊一樣捂不熱!”婚后長期分居從未同房,男方無奈提出離婚,要求返還72萬婚事花費(fèi)

“感覺她像冰塊一樣捂不熱!”婚后長期分居從未同房,男方無奈提出離婚,要求返還72萬婚事花費(fèi)

大風(fēng)新聞
2026-05-24 10:17:06
1934年長征開始,被留蘇區(qū)的領(lǐng)導(dǎo)大多是毛澤東的人,他們結(jié)局如何

1934年長征開始,被留蘇區(qū)的領(lǐng)導(dǎo)大多是毛澤東的人,他們結(jié)局如何

小莜讀史
2026-05-21 15:57:23
意難平!騎士舊將發(fā)聲!15年FMVP本該屬于庫里

意難平!騎士舊將發(fā)聲!15年FMVP本該屬于庫里

林子說事
2026-05-23 21:27:10
楊梅爛了,礦井炸了,不能放過他們!

楊梅爛了,礦井炸了,不能放過他們!

行者殷濤
2026-05-24 10:15:39
高達(dá)7米,畝產(chǎn)可達(dá)30噸,種植一次可收割15年,你見過這種草嗎?

高達(dá)7米,畝產(chǎn)可達(dá)30噸,種植一次可收割15年,你見過這種草嗎?

杰絲聊古今
2026-05-21 10:10:18
沃克怒噴圖赫爾:皇馬大英球星落選英格蘭隊(duì)簡直聞所未聞!

沃克怒噴圖赫爾:皇馬大英球星落選英格蘭隊(duì)簡直聞所未聞!

仰臥撐FTUer
2026-05-23 23:33:03
41歲C羅率隊(duì)奪得沙特聯(lián)冠軍,將獲3300萬美元巨額獎(jiǎng)金

41歲C羅率隊(duì)奪得沙特聯(lián)冠軍,將獲3300萬美元巨額獎(jiǎng)金

星耀國際足壇
2026-05-23 21:49:27
俄確認(rèn)使用榛樹打擊烏克蘭

俄確認(rèn)使用榛樹打擊烏克蘭

界面新聞
2026-05-24 16:43:08
俄羅斯的報(bào)復(fù)?7小時(shí)大空襲!俄軍高超音速導(dǎo)彈疑似末端崩解

俄羅斯的報(bào)復(fù)?7小時(shí)大空襲!俄軍高超音速導(dǎo)彈疑似末端崩解

鷹眼Defence
2026-05-24 16:36:08
羅馬諾實(shí)錘打臉!曼聯(lián)接近簽下世界最強(qiáng)后腰!卻只把他當(dāng)備胎

羅馬諾實(shí)錘打臉!曼聯(lián)接近簽下世界最強(qiáng)后腰!卻只把他當(dāng)備胎

瀾歸序
2026-05-24 06:08:27
馬上停止5類運(yùn)動(dòng),很可能加速血栓形成,等血管“堵死”就遲了

馬上停止5類運(yùn)動(dòng),很可能加速血栓形成,等血管“堵死”就遲了

新浪財(cái)經(jīng)
2026-05-24 12:01:59
藍(lán)營集體跳船,鄭麗文想不到,大戲沒上演,等來了蔣萬安6字絕殺

藍(lán)營集體跳船,鄭麗文想不到,大戲沒上演,等來了蔣萬安6字絕殺

聞識(shí)
2026-05-24 05:03:07
宋美齡晚年目睹自己的墓園,忽而心生悔恨,悲傷說出一番戳心的話

宋美齡晚年目睹自己的墓園,忽而心生悔恨,悲傷說出一番戳心的話

史之銘
2026-05-23 18:53:22
2026-05-24 18:43:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
13068文章數(shù) 142652關(guān)注度
往期回顧 全部

科技要聞

我戴著攝像頭上班,正在幫AI搶走我飯碗

頭條要聞

山西礦難遇難者家屬:父親年過半百 我們一直勸他別干了

頭條要聞

山西礦難遇難者家屬:父親年過半百 我們一直勸他別干了

體育要聞

唐斯發(fā)牌,大頭逆襲:騎士跌向殘忍夏季

娛樂要聞

王鶴棣掉粉超20萬!代言和作品遭抵制

財(cái)經(jīng)要聞

爆炸致82人遇難 留神峪煤業(yè)存違法行為

汽車要聞

2027款星途瑤光上市 把"全球車"標(biāo)準(zhǔn)卷進(jìn)13萬級(jí)市場

態(tài)度原創(chuàng)

親子
旅游
時(shí)尚
教育
公開課

親子要聞

平常教育他不要亂扔垃圾,看到這一幕又覺得太苛刻了

旅游要聞

519中國旅游日 | 2026年“5·19中國旅游日”民宿消費(fèi)季在長沙啟動(dòng)。

伊姐周六熱推:電視劇《嫁金枝》;電視劇《大唐迷霧 第一季》......

教育要聞

新傳考研名詞解釋:文化肌膚

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版