![]()
本文由來自盛大東京 AI 研究院、東京大學、和東京科學大學的研究者合作完成。作者團隊在數字人方向有長期積累。部分工作為共同第一作者 Xuangeng Chu (https://xg-chu.site) 和 Ruicong Liu (https://ruicongliu.github.io) 在盛大東京研究院擔任研究實習生時完成。
在游戲 NPC、虛擬主播、在線客服等數字人對話場景中,傾聽時的 “撲克臉”問題一直是行業長期痛點 —— 虛擬人說話時口型可以做到精準同步,但傾聽時卻表情僵硬、毫無反應,嚴重影響對話的自然感和沉浸感。盛大 AI 研究院(東京)與東京大學聯合提出UniLS(Unified Listening and Speaking),首個僅憑雙軌音頻即可端到端同時驅動說話和傾聽面部動作的統一框架。該方法在說話精度上達到 SOTA,傾聽自然度分布指標提升高達 44.1%,同時支持 500+ FPS 的實時生成,已被 CVPR 2026 錄用。
![]()
- 論文地址:https://arxiv.org/abs/2512.09327
- 項目主頁: https://xg-chu.site/project_unils/
- 代碼地址: https://github.com/xg-chu/UniLS
- 數據地址: https://huggingface.co/datasets/xg-chu/UniLSTalkDataset
背景
構建逼真的對話式數字人需要同時處理說話和傾聽兩種狀態。說話時需要精準的口型同步和面部表情協調,傾聽時則需要展現自然的點頭、眨眼和微表情等互動反應。然而,現有方法大多只關注單向生成:speak-only 方法(如 ARTalk、DiffPoseTalk 等)僅生成說話動作,listen-only 方法僅生成傾聽反應,二者無法在統一框架內協同工作。
唯一嘗試聯合建模的 DualTalk 依賴對方說話者的預計算面部序列作為額外輸入,導致系統非端到端、無法實時部署。UniLS 針對這一空白,提出將傾聽行為分解為 “內在運動先驗” 與 “外部音頻調制” 兩個獨立組成部分,通過兩階段訓練范式分別學習,僅以雙軌音頻作為輸入,端到端地生成雙方的面部動作。
![]()
圖 1: 現有方法與本文提出的方案之間的對比。大多數之前的研究仍局限于單向生成,即僅針對 “說話” 或僅針對 “傾聽”。先前的 “說 - 聽” 交互方法需要先生成演講者 A 的面部序列,然后才能產生演講者 B 的動作。這種對演講者 A 生成過程的依賴,使其無法實現端到端訓練,并阻礙了實時性能。相比之下,本文方法提供了一個端到端框架,能夠實現統一且實時的 “說 - 聽” 動作生成。
UniLS 的方法和設計
1. 核心發現:音頻 - 動作關聯的不平衡
為什么直接端到端訓練會導致傾聽僵硬?研究者通過對音頻特征與面部動作參數在 t-SNE 空間的分布分析揭示了根本原因。如下圖 1 所示,說話時音頻與面部動作高度關聯,二者在嵌入空間中緊密聚集、距離一致性強;而傾聽時面部動作與對方音頻的關聯非常微弱 —— 因為傾聽中的許多行為(如眨眼頻率、微表情、肌肉協調)本質上獨立于對方語音信號。
這種不平衡導致聯合訓練時網絡能輕松為說話分支學到強映射,卻為傾聽分支接收到的監督信號不足,使其退化為安全的、低方差的靜態表情。這一發現直接啟發了 UniLS 的核心設計思路:不應將傾聽建模為音頻到動作的直接映射,而應分兩步走 —— 先學習運動本身的內在規律,再引入音頻進行調制。
![]()
圖 2: 面部表情參數與對應音頻特征之間的相關性。對于說話狀態,音頻是指說話者自身的語音;對于傾聽狀態,音頻則來自對方的語音。
2. 兩階段訓練框架
Stage 1:無音頻生成器訓練 —— 學習內在運動先驗。第一階段在大規模非配對多場景視頻數據上訓練一個無音頻的自回歸生成器。訓練數據來自 CelebV、TalkingHead-1KH、TEDTalk、VFHQ 等多個數據集,涵蓋新聞播報、訪談、演講、日常對話等多種場景,共計 546.5 小時。面部動作使用 FLAME 3D 參數化模型表示(包含表情、頭部姿態和眼球注視),通過多尺度 VQ 編解碼器離散化。生成器以過去的運動 chunk 和風格嵌入為輸入預測下一個運動 chunk。由于完全不使用音頻,模型只能依賴運動本身的時序規律來預測未來,從而自然地學習到眨眼頻率、頭部微動、表情轉換等內在運動先驗。
Stage 2:音頻驅動微調 —— 引入雙軌音頻調制。第二階段使用 Seamless Interaction 配對對話數據(251.5 小時說話 + 406.0 小時傾聽)對生成器進行微調。架構在 Stage 1 基礎上新增兩個交叉注意力層:一個關注說話者 A 自身的音頻(驅動口型同步和面部表情),另一個關注說話者 B 的音頻(調制傾聽反應)。Stage 1 的自注意力和 FFN 骨干權重通過 LoRA 高效微調,新增的交叉注意力層從頭訓練。這一設計既保留了 Stage 1 習得的豐富內在運動先驗,又賦予模型根據雙軌音頻信號分別調制說話和傾聽的能力。
![]()
圖 3: 兩階段訓練策略概覽。第一階段: 在不使用音頻的情況下,基于非配對的多場景視頻數據訓練一個無音頻生成器。該模型根據過去的動作序列和風格嵌入,預測未來的動作塊。第二階段: 在配對的對話片段上對生成器進行微調。通過交叉注意力機制,將說話者 A 和說話者 B 的音頻作為條件輸入,從而生成由音頻驅動的 “說 - 聽” 動作。
實驗結果
1. 定量對比(Seamless Interaction 數據集)
![]()
表 1: 在 Seamless Interaction 測試集上評估說話和聆聽時的面部動作。分別用金色和銀色表示第一名和第二名。
表 1 的量化指標顯示 UniLS 在全部指標上取得最優:說話方面,LVE 降至 5.83、MHD 降至 1.89,表明模型不僅精確追蹤了音素 - 動作對應,還捕捉到了上臉參與和頭 - 頜協調運動等動態特征。傾聽方面,FDD 從 DualTalk 的 43.58 大幅降至 17.12,F-FID 從 13.143 降至 4.304,P-FID 從 0.079 降至 0.038,分布指標提升高達 44.1%,有效解決了傾聽僵硬問題。
2. 用戶研究
與 DualTalk 相比,超過 91% 的用戶偏好 UniLS 的傾聽反應自然度,90% 偏好其表情自然度,86% 偏好其口型同步質量。
![]()
表 2: UniLS 的用戶研究結果。數字(%)表示用戶更喜歡本文方法而非各基線方法的比例。“同步” 衡量唇部同步性,而 “Exp”、“Re-act” 和 “Pose” 分別評估面部表情的自然度、聆聽反應和頭部姿勢。
3. 實時性能
在出色的生成質量之外,UniLS 在單張 RTX 5090 GPU 上以 560.6 FPS 運行(參數量 421.3M),顯著優于 ARTalk * 的 357.7 FPS(489.5M),而 DualTalk 由于非端到端設計無法支持實時。UniLS 在質量、速度與規模之間實現了最優平衡。
總結
UniLS 是首個能夠生成統一 “說 - 聽” 面部動作的端到端音頻驅動框架。通過對音頻與動作相關性的深入分析,作者發現了傳統端到端訓練中導致 “傾聽僵硬感”(listening stiffness)的根本原因。基于這一見解,該研究引入了一種兩階段訓練范式,將內部動作先驗的學習與音頻驅動的調制過程分離開來。在大型對話數據集上進行的大量實驗表明,UniLS 實現了優秀的口型同步準確度,豐富多樣且自然的傾聽表情和出色的實時性能。總而言之,UniLS 為對話式數字人奠定了基礎,并為極具互動感、逼真的 AI 人機交互開啟了新的可能性。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.