IT之家 3 月 16 日消息,今日,阿里通義實驗室宣布發布并開源首個支持影視級多場景配音的多模態大模型Fun-CineForge。此外,還配套開放了高質量數據集的構建方法。官方稱,通過“數據 + 模型”的一體化設計,Fun-CineForge 正嘗試解決影視級 AI 配音長期面臨的關鍵問題。
IT之家附官方介紹如下:
![]()
在真實影視制作場景中,一段高質量的配音,需要同時通過四大嚴苛考驗:
- 口型同步:合成的語音需要和畫面中人物唇部運動高度同步;
- 情緒表達:依賴角色面部形象和指令描述,實現情感和語氣的擬人化呈現和自由控制;
- 音色一致:在多角色配音的復雜場景下要保持每個角色音色的相似度和一致性;
- 時間對齊:即便畫面中說話人被遮擋或不存在,語音也必須在正確的時間區間內合成;
然而,現有 AI 配音方法普遍面臨兩大瓶頸:
01、高質量多模態數據集稀缺。
高質量的配音數據集依賴多種模態的信息,現有的配音數據集數據量過小、標注類型有限,難以滿足大模型的有效訓練;高度依賴人工標注成本較高,難以大規模生產;缺乏對話和多人場景的長視頻數據使大模型難以應對復雜配音場景。
02、模型能力不足。
傳統配音模型在方法上,僅依賴視頻畫面中清晰可見的唇部區域來學習音畫同步。但真實影視配音制作中,存在大量復雜場景,如多人對話、頻繁鏡頭切換、人臉遮擋、面部模糊,現有技術難以在說話人面部缺失的場景實現音畫同步。
![]()
為了解決上述問題,通義實驗室提出了 Fun-CineForge 。本次開源內容核心包含兩部分,旨在打通影視配音的“數據 - 模型”閉環:
1?? 模型側:面向復雜影視場景的多模態配音大模型
2?? 數據側:大規模多模態配音數據集構建流程(CineDub)
在數據基礎之上,Fun-CineForge 基于 CosyVoice3 強大的語音合成底層能力,構建了一個面向復雜影視場景的配音大模型,完成視頻 + 文本 → 語音的任務。
輸入包括:
- 無聲視頻片段
- 配音文本
- 角色屬性和情感線索
- 時間信息
- 參考語音
模型即可以參考語音的音色來合成與時間和視頻信息高度對齊的語音。
Fun-CineForge 首先構建了一套自動化的數據集生產流程,可以將原始影視素材轉化為結構化多模態數據。
該流程包括人聲分離、文本轉錄、長視頻分段、音視頻聯合說話人分離等,其中,基于通用大模型思維鏈的雙向矯正機制,大幅降低了轉錄文本和說話人分離結果的錯誤率。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.