![]()
PAM僅需初始/目標(biāo)手部姿態(tài)與物體幾何信息,即可生成高保真交互視頻。
Project Page: https://gasaiyu.github.io/PAM.github.io/
01
TL;DR
? 在只給定初始姿態(tài)、目標(biāo)姿態(tài)和不含外觀的物體幾何信息的輸入下,如何直接生成逼真的手物交互(HOI)視頻?
? 現(xiàn)有方法存在一系列問題:姿態(tài)合成方法只能預(yù)測 MANO 軌跡,而不能生成像素細(xì)節(jié);文生圖方法能生成能產(chǎn)生外觀,但缺乏動態(tài)信息;而視頻生成方法目前大多依賴完整的姿態(tài)序列和首幀作為輸入,導(dǎo)致其無法真正應(yīng)用于 Sim-to-Real數(shù)據(jù)生成管線。
? 我們提出PAM (Pose-Appearance-Motion),一個統(tǒng)一的數(shù)據(jù)生成引擎,利用姿態(tài)、外觀和運(yùn)動的解耦生成過程,完美解決上述痛點(diǎn)。
? 這是第一個僅需條件初始姿態(tài)、目標(biāo)姿態(tài)和物體的幾何信息作為輸入,即可實(shí)現(xiàn)高質(zhì)量 Sim-to-Real 手物交互視頻生成的框架,且利用這個管線合成的數(shù)據(jù)能顯著提升下游任務(wù)(例如手部姿態(tài)估計(jì))的性能。
02
簡介
![]()
手物交互(HOI)的重建與合成正逐漸成為具身智能和 AR/VR 領(lǐng)域的核心基石。盡管數(shù)據(jù)驅(qū)動范式推動了準(zhǔn)確的手部姿態(tài)估計(jì)和視頻生成領(lǐng)域的的快速發(fā)展,但獲取帶有詳細(xì)標(biāo)注的真實(shí) HOI序列需要耗費(fèi)極大的人力物力,這嚴(yán)重限制了可擴(kuò)展性。
為了打破這一數(shù)據(jù)壁壘,北京大學(xué)聯(lián)合清華大學(xué)、智源研究院(BAAI)、上海交通大學(xué)及東方理工大學(xué)提出了一個突破性的統(tǒng)一引擎——PAM。PAM 能夠?qū)⒆藨B(tài)(Pose)、外觀(Appearance)和運(yùn)動(Motion)無縫整合到一個連貫的框架中。用戶只需提供初始和目標(biāo)姿態(tài)以及物體幾何形狀,PAM 就能生成具有連貫動態(tài)和逼真手物交互的視頻。實(shí)驗(yàn)證明,PAM 不僅在視頻保真度和幾何準(zhǔn)確度上大幅超越現(xiàn)有方法,其生成的合成視頻還能直接作為數(shù)據(jù)增強(qiáng)工具,使下游手部姿態(tài)估計(jì)模型在僅使用 50%真實(shí)數(shù)據(jù)加上合成數(shù)據(jù)的情況下,就能匹配使用100%真實(shí)數(shù)據(jù)的效果!
03
研究動機(jī)
隨著深度學(xué)習(xí)和擴(kuò)散模型的出現(xiàn),大規(guī)模生成 HOI 視頻展現(xiàn)出了巨大潛力。然而,縱觀當(dāng)前最先進(jìn)的方法,整個研究領(lǐng)域呈現(xiàn)出三種趨勢:
1.純姿態(tài)合成(Pose-only synthesis):只預(yù)測手部MANO軌跡而不生成外觀,缺乏視覺真實(shí)感,降低了其實(shí)用價(jià)值。
2.單圖外觀生成(Appearance generation):根據(jù)掩碼或 2D 提示生成外觀,但完全無法捕捉時(shí)間上的動態(tài)連貫性。
3.視頻運(yùn)動生成(Motion generation):雖然能生成視頻,但需要完整的姿態(tài)序列和真實(shí)的視頻第一幀作為輸入,這些條件在實(shí)際場景中較難獲得,容易獲得的是模擬器中的手部姿態(tài)數(shù)據(jù),但由于模擬器中根本無法獲取真實(shí)的第一幀,這類方法不適合 Sim-to-Real的部署。
基于上述痛點(diǎn),研究團(tuán)隊(duì)認(rèn)為 HOI 生成亟需一個能統(tǒng)一融合姿態(tài)、外觀和運(yùn)動的引擎。因此,PAM 引入了整合運(yùn)動與外觀的擴(kuò)散過程,繞過了對第一幀條件和完成手部姿態(tài)序列的依賴,從而最大化了運(yùn)動和外觀的多樣性。
04
PAM 方法
![]()
方法概覽
給定初始 MANO 手部姿態(tài) 、無外觀的物體 Mesh 、初始 6-DoF 物體姿態(tài) 以及目標(biāo)手部 MANO 姿態(tài) ,PAM 的目標(biāo)是生成一段逼真的 HOI 視頻。整個模型可以形式化為一個生成函數(shù) :
該模型最終輸出一段連貫且具有物理約束的 RGB 視頻幀序列 。為了應(yīng)對生成 HOI 視頻的高維時(shí)空流形的復(fù)雜性,PAM 將生成過程解構(gòu)為三個核心階段:
第一階段:姿態(tài)生成 (Pose Generation)
在這個階段,模型主要解決中間物理運(yùn)動的插值問題。使用預(yù)訓(xùn)練的姿態(tài)生成模型(如 GraspXL)來合成對齊的手物交互姿態(tài)序列。模型接收 作為輸入,輸出時(shí)間上連貫的手部和物體運(yùn)動軌跡 。這確保了物理一致性,為后續(xù)的視覺渲染奠定幾何基礎(chǔ)。
第二階段:外觀生成 (Appearance Generation)
為了解決從模擬器到真實(shí)視頻的視覺鴻溝,PAM 利用可控的圖像擴(kuò)散模型 Flux 來合成逼真的視頻第一幀 。單靠深度圖和語義掩碼不足以處理手部的高自由度。模型將以下三種條件融合并作為生成引導(dǎo),它們均為 的特征圖:
?深度圖 (Depth Maps):保證全局的幾何連貫性。
?語義掩碼 (Semantic Masks):保證實(shí)例級別的語義一致性。
?手部關(guān)鍵點(diǎn)映射 (Hand Keypoints):提供精確的手部骨骼拓?fù)浣Y(jié)構(gòu),保證手部細(xì)節(jié)生成的一致性。
這些條件首先通過 VAE 編碼為 的潛在表示,在通道維度上拼接后,注入到 ControlNet 分支的 DiT 塊中。特征的注入計(jì)算公式如下:
其中 是原始 Flux 模型中第 7 層 DiT 塊的輸出, 是接收拼接條件輸入的復(fù)制 DiT 塊的輸出,而零卷積層 (Zero-convolution layer) 為參數(shù)全零初始化的 卷積層。
第三階段:運(yùn)動生成 (Motion Generation)
在生成首幀 后,模型將第一階段生成的序列 逐幀渲染,得到對應(yīng)的深度圖、語義圖和關(guān)鍵點(diǎn)序列。隨后,利用預(yù)訓(xùn)練的視頻 VAE 將這些空間條件編碼為形狀為 的潛在張量。
PAM 采用基于 CogVideoX 的可控視頻擴(kuò)散模型來生成最終的視頻流。為了保持與姿態(tài)序列的一致性,視頻模型沿用了上述公式的特征融合機(jī)制,將多模態(tài)特征通過 12 個復(fù)制的 DiT 塊注入網(wǎng)絡(luò)。特別地,在訓(xùn)練階段,為了防止模型過度依賴某單一模態(tài)特征,每種條件都會以 的概率被隨機(jī)掩碼,從而提升模型的泛化能力。
05
實(shí)驗(yàn)結(jié)果
基準(zhǔn)測試
團(tuán)隊(duì)在 DexYCB(聚焦于單手交互)和 OAKINK2(聚焦于雙手復(fù)雜交互)兩個基準(zhǔn)數(shù)據(jù)集上對 PAM 進(jìn)行了全面評估,并與當(dāng)前最先進(jìn)的 ManiVideo、InterDyn 和 CosHand 等方法進(jìn)行了對比。
定量結(jié)果
![]()
? 在DexYCB數(shù)據(jù)集上:PAM 實(shí)現(xiàn)了 29.13 的 FVD(Fréchet Video Distance,反映視頻整體的時(shí)空連貫性與真實(shí)度,該數(shù)值越低越好),大幅優(yōu)于 InterDyn 的 38.83。在反映手部姿態(tài)準(zhǔn)確度的 MPJPE 指標(biāo)上,PAM 達(dá)到了19.37 mm,遠(yuǎn)優(yōu)于 CosHand 的 30.05 mm。此外,在結(jié)構(gòu)相似性(SSIM)和運(yùn)動保真度(MF)等指標(biāo)上,PAM 也穩(wěn)居第一。
?在OAKINK2數(shù)據(jù)集上:面對更復(fù)雜的雙手交互場景,PAM 同樣展現(xiàn)出強(qiáng)大的建模能力,將 FVD 從 CosHand 的 68.76 顯著降至 46.31,MPJPE 從 14.49 mm 大幅降低至 7.01 mm。
?更高清的分辨率:相比于基線方法生成的256 \times 256 (CosHand) 或 256 \times 384 (InterDyn) 模糊視頻,PAM 能夠穩(wěn)定生成 480 \times 720 的高保真、高分辨率交互視頻。
定性結(jié)果
![]()
?如上圖所示,現(xiàn)有方法(如 CosHand)由于僅依賴手部掩碼作為單一條件,缺乏深度的幾何引導(dǎo),且缺少顯式的時(shí)間建模機(jī)制,導(dǎo)致生成的視頻往往出現(xiàn)手部姿態(tài)畸變以及嚴(yán)重的幀間閃爍。相比之下,PAM 利用帶有時(shí)間注意力機(jī)制的視頻擴(kuò)散基礎(chǔ)模型,加以多條件的控制,保證了較強(qiáng)的幀間連貫性。
06
多條件的消融實(shí)驗(yàn)
![]()
![]()
? DexYCB數(shù)據(jù)集上的消融實(shí)驗(yàn)證實(shí),PAM 的“深度圖+語義掩碼+手部關(guān)鍵點(diǎn)”多模態(tài)控制組合缺一不可。如上圖所示,僅靠手部關(guān)鍵點(diǎn)會導(dǎo)致整體外觀質(zhì)量下降,而僅靠語義掩碼或深度圖則會引發(fā)手部姿態(tài)的錯位失真。PAM 巧妙結(jié)合了全局場景理解(深度與語義)與局部手部細(xì)節(jié)(關(guān)鍵點(diǎn)),明確保留了手部結(jié)構(gòu)的細(xì)節(jié)。這使得 PAM 不僅在背景和前景的生成上具備更高的視覺保真度,還成功消除了幾何錯位,生成了準(zhǔn)確、流暢且符合物理常理的視頻序列。
07
Sim-To-Real生成
![]()
如上圖所示,PAM 展現(xiàn)了強(qiáng)大的 Sim-to-Real 遷移能力。僅僅給定初始和終止?fàn)顟B(tài)的HOI Pose,利用解耦架構(gòu),模型成功結(jié)合了 GraspXL 的運(yùn)動先驗(yàn)與擴(kuò)散模型的外觀建模,合成了具有不同主體和背景的多樣化、逼真的視頻。這些視頻為之后的下游任務(wù)提供了源源不斷的數(shù)據(jù)生成管線。
08
下游任務(wù)驗(yàn)證
![]()
為了評估生成視頻的實(shí)用性,研究人員將合成視頻用于下游手部姿態(tài)估計(jì)任務(wù)(SimpleHand 模型)的數(shù)據(jù)增強(qiáng)。PAM 訓(xùn)練生成了 3,400 個視頻序列(包含 207,400 幀)作為增強(qiáng)數(shù)據(jù)。
結(jié)果表明,使用合成數(shù)據(jù)結(jié)合不同比例的真實(shí)數(shù)據(jù)進(jìn)行訓(xùn)練,始終能提高手部姿態(tài)估計(jì)的準(zhǔn)確度。從上圖中可以看到,僅使用 50% 真實(shí)數(shù)據(jù)加上 PAM 生成的合成樣本,其性能就足以具備與使用 100% 真實(shí)數(shù)據(jù)基線相競爭的實(shí)力!這證明了合成數(shù)據(jù)能有效彌補(bǔ)真實(shí)數(shù)據(jù)量的不足。
09
總結(jié)
PAM 提出了一個創(chuàng)新的 Pose-Appearance-Motion 解耦架構(gòu),成功打破了傳統(tǒng)方法依賴真實(shí)第一幀的瓶頸,實(shí)現(xiàn)了從極簡姿態(tài)輸入到高保真 HOI 視頻的生成。其卓越的感知質(zhì)量、幾何準(zhǔn)確度以及對下游任務(wù)的顯著增益,為具身智能領(lǐng)域的生成模型研究提供了堅(jiān)實(shí)的基礎(chǔ)。
未經(jīng)「AI科技評論」授權(quán),嚴(yán)禁以任何方式在網(wǎng)頁、論壇、社區(qū)進(jìn)行轉(zhuǎn)載!
公眾號轉(zhuǎn)載請先在「AI科技評論」后臺留言取得授權(quán),轉(zhuǎn)載時(shí)需標(biāo)注來源并插入本公眾號名片。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.