網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

智源清華帶來PAM，手物交互數(shù)據(jù)生成新SOTA | CVPR 2026

2026-03-25 10:07:21　來源: AI科技評論

廣東舉報(bào)

分享至

PAM僅需初始/目標(biāo)手部姿態(tài)與物體幾何信息，即可生成高保真交互視頻。

Project Page: https://gasaiyu.github.io/PAM.github.io/

TL；DR

? 在只給定初始姿態(tài)、目標(biāo)姿態(tài)和不含外觀的物體幾何信息的輸入下，如何直接生成逼真的手物交互（HOI）視頻？

? 現(xiàn)有方法存在一系列問題：姿態(tài)合成方法只能預(yù)測 MANO 軌跡，而不能生成像素細(xì)節(jié)；文生圖方法能生成能產(chǎn)生外觀，但缺乏動態(tài)信息；而視頻生成方法目前大多依賴完整的姿態(tài)序列和首幀作為輸入，導(dǎo)致其無法真正應(yīng)用于 Sim-to-Real數(shù)據(jù)生成管線。

? 我們提出PAM (Pose-Appearance-Motion)，一個統(tǒng)一的數(shù)據(jù)生成引擎，利用姿態(tài)、外觀和運(yùn)動的解耦生成過程，完美解決上述痛點(diǎn)。

? 這是第一個僅需條件初始姿態(tài)、目標(biāo)姿態(tài)和物體的幾何信息作為輸入，即可實(shí)現(xiàn)高質(zhì)量 Sim-to-Real 手物交互視頻生成的框架，且利用這個管線合成的數(shù)據(jù)能顯著提升下游任務(wù)（例如手部姿態(tài)估計(jì)）的性能。

簡介

手物交互（HOI）的重建與合成正逐漸成為具身智能和 AR/VR 領(lǐng)域的核心基石。盡管數(shù)據(jù)驅(qū)動范式推動了準(zhǔn)確的手部姿態(tài)估計(jì)和視頻生成領(lǐng)域的的快速發(fā)展，但獲取帶有詳細(xì)標(biāo)注的真實(shí) HOI序列需要耗費(fèi)極大的人力物力，這嚴(yán)重限制了可擴(kuò)展性。

為了打破這一數(shù)據(jù)壁壘，北京大學(xué)聯(lián)合清華大學(xué)、智源研究院（BAAI）、上海交通大學(xué)及東方理工大學(xué)提出了一個突破性的統(tǒng)一引擎——PAM。PAM 能夠?qū)⒆藨B(tài)（Pose）、外觀（Appearance）和運(yùn)動（Motion）無縫整合到一個連貫的框架中。用戶只需提供初始和目標(biāo)姿態(tài)以及物體幾何形狀，PAM 就能生成具有連貫動態(tài)和逼真手物交互的視頻。實(shí)驗(yàn)證明，PAM 不僅在視頻保真度和幾何準(zhǔn)確度上大幅超越現(xiàn)有方法，其生成的合成視頻還能直接作為數(shù)據(jù)增強(qiáng)工具，使下游手部姿態(tài)估計(jì)模型在僅使用 50%真實(shí)數(shù)據(jù)加上合成數(shù)據(jù)的情況下，就能匹配使用100%真實(shí)數(shù)據(jù)的效果！

研究動機(jī)

隨著深度學(xué)習(xí)和擴(kuò)散模型的出現(xiàn)，大規(guī)模生成 HOI 視頻展現(xiàn)出了巨大潛力。然而，縱觀當(dāng)前最先進(jìn)的方法，整個研究領(lǐng)域呈現(xiàn)出三種趨勢：

1.純姿態(tài)合成（Pose-only synthesis）：只預(yù)測手部MANO軌跡而不生成外觀，缺乏視覺真實(shí)感，降低了其實(shí)用價(jià)值。

2.單圖外觀生成（Appearance generation）：根據(jù)掩碼或 2D 提示生成外觀，但完全無法捕捉時(shí)間上的動態(tài)連貫性。

3.視頻運(yùn)動生成（Motion generation）：雖然能生成視頻，但需要完整的姿態(tài)序列和真實(shí)的視頻第一幀作為輸入，這些條件在實(shí)際場景中較難獲得，容易獲得的是模擬器中的手部姿態(tài)數(shù)據(jù)，但由于模擬器中根本無法獲取真實(shí)的第一幀，這類方法不適合 Sim-to-Real的部署。

基于上述痛點(diǎn)，研究團(tuán)隊(duì)認(rèn)為 HOI 生成亟需一個能統(tǒng)一融合姿態(tài)、外觀和運(yùn)動的引擎。因此，PAM 引入了整合運(yùn)動與外觀的擴(kuò)散過程，繞過了對第一幀條件和完成手部姿態(tài)序列的依賴，從而最大化了運(yùn)動和外觀的多樣性。

PAM 方法

方法概覽

給定初始 MANO 手部姿態(tài) 、無外觀的物體 Mesh 、初始 6-DoF 物體姿態(tài) 以及目標(biāo)手部 MANO 姿態(tài) ，PAM 的目標(biāo)是生成一段逼真的 HOI 視頻。整個模型可以形式化為一個生成函數(shù) ：

該模型最終輸出一段連貫且具有物理約束的 RGB 視頻幀序列。為了應(yīng)對生成 HOI 視頻的高維時(shí)空流形的復(fù)雜性，PAM 將生成過程解構(gòu)為三個核心階段：

第一階段：姿態(tài)生成 (Pose Generation)

在這個階段，模型主要解決中間物理運(yùn)動的插值問題。使用預(yù)訓(xùn)練的姿態(tài)生成模型（如 GraspXL）來合成對齊的手物交互姿態(tài)序列。模型接收作為輸入，輸出時(shí)間上連貫的手部和物體運(yùn)動軌跡。這確保了物理一致性，為后續(xù)的視覺渲染奠定幾何基礎(chǔ)。

第二階段：外觀生成 (Appearance Generation)

為了解決從模擬器到真實(shí)視頻的視覺鴻溝，PAM 利用可控的圖像擴(kuò)散模型 Flux 來合成逼真的視頻第一幀。單靠深度圖和語義掩碼不足以處理手部的高自由度。模型將以下三種條件融合并作為生成引導(dǎo)，它們均為的特征圖：

?深度圖 (Depth Maps)：保證全局的幾何連貫性。

?語義掩碼 (Semantic Masks)：保證實(shí)例級別的語義一致性。

?手部關(guān)鍵點(diǎn)映射 (Hand Keypoints)：提供精確的手部骨骼拓?fù)浣Y(jié)構(gòu)，保證手部細(xì)節(jié)生成的一致性。

這些條件首先通過 VAE 編碼為的潛在表示，在通道維度上拼接后，注入到 ControlNet 分支的 DiT 塊中。特征的注入計(jì)算公式如下：

其中是原始 Flux 模型中第 7 層 DiT 塊的輸出，是接收拼接條件輸入的復(fù)制 DiT 塊的輸出，而零卷積層 (Zero-convolution layer) 為參數(shù)全零初始化的卷積層。

第三階段：運(yùn)動生成 (Motion Generation)

在生成首幀后，模型將第一階段生成的序列逐幀渲染，得到對應(yīng)的深度圖、語義圖和關(guān)鍵點(diǎn)序列。隨后，利用預(yù)訓(xùn)練的視頻 VAE 將這些空間條件編碼為形狀為的潛在張量。

PAM 采用基于 CogVideoX 的可控視頻擴(kuò)散模型來生成最終的視頻流。為了保持與姿態(tài)序列的一致性，視頻模型沿用了上述公式的特征融合機(jī)制，將多模態(tài)特征通過 12 個復(fù)制的 DiT 塊注入網(wǎng)絡(luò)。特別地，在訓(xùn)練階段，為了防止模型過度依賴某單一模態(tài)特征，每種條件都會以的概率被隨機(jī)掩碼，從而提升模型的泛化能力。

實(shí)驗(yàn)結(jié)果

基準(zhǔn)測試

團(tuán)隊(duì)在 DexYCB（聚焦于單手交互）和 OAKINK2（聚焦于雙手復(fù)雜交互）兩個基準(zhǔn)數(shù)據(jù)集上對 PAM 進(jìn)行了全面評估，并與當(dāng)前最先進(jìn)的 ManiVideo、InterDyn 和 CosHand 等方法進(jìn)行了對比。

定量結(jié)果

? 在DexYCB數(shù)據(jù)集上：PAM 實(shí)現(xiàn)了 29.13 的 FVD（Fréchet Video Distance，反映視頻整體的時(shí)空連貫性與真實(shí)度，該數(shù)值越低越好），大幅優(yōu)于 InterDyn 的 38.83。在反映手部姿態(tài)準(zhǔn)確度的 MPJPE 指標(biāo)上，PAM 達(dá)到了19.37 mm，遠(yuǎn)優(yōu)于 CosHand 的 30.05 mm。此外，在結(jié)構(gòu)相似性（SSIM）和運(yùn)動保真度（MF）等指標(biāo)上，PAM 也穩(wěn)居第一。

?在OAKINK2數(shù)據(jù)集上：面對更復(fù)雜的雙手交互場景，PAM 同樣展現(xiàn)出強(qiáng)大的建模能力，將 FVD 從 CosHand 的 68.76 顯著降至 46.31，MPJPE 從 14.49 mm 大幅降低至 7.01 mm。

?更高清的分辨率：相比于基線方法生成的256 \times 256 (CosHand) 或 256 \times 384 (InterDyn) 模糊視頻，PAM 能夠穩(wěn)定生成 480 \times 720 的高保真、高分辨率交互視頻。

定性結(jié)果

?如上圖所示，現(xiàn)有方法（如 CosHand）由于僅依賴手部掩碼作為單一條件，缺乏深度的幾何引導(dǎo)，且缺少顯式的時(shí)間建模機(jī)制，導(dǎo)致生成的視頻往往出現(xiàn)手部姿態(tài)畸變以及嚴(yán)重的幀間閃爍。相比之下，PAM 利用帶有時(shí)間注意力機(jī)制的視頻擴(kuò)散基礎(chǔ)模型，加以多條件的控制，保證了較強(qiáng)的幀間連貫性。

多條件的消融實(shí)驗(yàn)

? DexYCB數(shù)據(jù)集上的消融實(shí)驗(yàn)證實(shí)，PAM 的“深度圖+語義掩碼+手部關(guān)鍵點(diǎn)”多模態(tài)控制組合缺一不可。如上圖所示，僅靠手部關(guān)鍵點(diǎn)會導(dǎo)致整體外觀質(zhì)量下降，而僅靠語義掩碼或深度圖則會引發(fā)手部姿態(tài)的錯位失真。PAM 巧妙結(jié)合了全局場景理解（深度與語義）與局部手部細(xì)節(jié)（關(guān)鍵點(diǎn)），明確保留了手部結(jié)構(gòu)的細(xì)節(jié)。這使得 PAM 不僅在背景和前景的生成上具備更高的視覺保真度，還成功消除了幾何錯位，生成了準(zhǔn)確、流暢且符合物理常理的視頻序列。

Sim-To-Real生成

如上圖所示，PAM 展現(xiàn)了強(qiáng)大的 Sim-to-Real 遷移能力。僅僅給定初始和終止?fàn)顟B(tài)的HOI Pose，利用解耦架構(gòu)，模型成功結(jié)合了 GraspXL 的運(yùn)動先驗(yàn)與擴(kuò)散模型的外觀建模，合成了具有不同主體和背景的多樣化、逼真的視頻。這些視頻為之后的下游任務(wù)提供了源源不斷的數(shù)據(jù)生成管線。

下游任務(wù)驗(yàn)證

為了評估生成視頻的實(shí)用性，研究人員將合成視頻用于下游手部姿態(tài)估計(jì)任務(wù)（SimpleHand 模型）的數(shù)據(jù)增強(qiáng)。PAM 訓(xùn)練生成了 3,400 個視頻序列（包含 207,400 幀）作為增強(qiáng)數(shù)據(jù)。

結(jié)果表明，使用合成數(shù)據(jù)結(jié)合不同比例的真實(shí)數(shù)據(jù)進(jìn)行訓(xùn)練，始終能提高手部姿態(tài)估計(jì)的準(zhǔn)確度。從上圖中可以看到，僅使用 50% 真實(shí)數(shù)據(jù)加上 PAM 生成的合成樣本，其性能就足以具備與使用 100% 真實(shí)數(shù)據(jù)基線相競爭的實(shí)力！這證明了合成數(shù)據(jù)能有效彌補(bǔ)真實(shí)數(shù)據(jù)量的不足。

總結(jié)

PAM 提出了一個創(chuàng)新的 Pose-Appearance-Motion 解耦架構(gòu)，成功打破了傳統(tǒng)方法依賴真實(shí)第一幀的瓶頸，實(shí)現(xiàn)了從極簡姿態(tài)輸入到高保真 HOI 視頻的生成。其卓越的感知質(zhì)量、幾何準(zhǔn)確度以及對下游任務(wù)的顯著增益，為具身智能領(lǐng)域的生成模型研究提供了堅(jiān)實(shí)的基礎(chǔ)。

未經(jīng)「AI科技評論」授權(quán)，嚴(yán)禁以任何方式在網(wǎng)頁、論壇、社區(qū)進(jìn)行轉(zhuǎn)載！

公眾號轉(zhuǎn)載請先在「AI科技評論」后臺留言取得授權(quán)，轉(zhuǎn)載時(shí)需標(biāo)注來源并插入本公眾號名片。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.