亚洲中文字幕乱码亚洲-蜜桃成熟视频在线观看-免费中文字幕视频在线-中国五十路熟妇洗澡视频-亚洲av伊人啪啪c-国产精品成人一区二区-国产自拍视频一区在线观看-成人一区不卡二区三区四区-亚洲情精品中文字幕99在线

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

智源清華帶來PAM,手物交互數(shù)據(jù)生成新SOTA | CVPR 2026

0
分享至


PAM僅需初始/目標(biāo)手部姿態(tài)與物體幾何信息,即可生成高保真交互視頻。

Project Page: https://gasaiyu.github.io/PAM.github.io/

01

TL;DR

? 在只給定初始姿態(tài)、目標(biāo)姿態(tài)和不含外觀的物體幾何信息的輸入下,如何直接生成逼真的手物交互(HOI)視頻

? 現(xiàn)有方法存在一系列問題:姿態(tài)合成方法只能預(yù)測 MANO 軌跡,而不能生成像素細(xì)節(jié);文生圖方法能生成能產(chǎn)生外觀,但缺乏動態(tài)信息;而視頻生成方法目前大多依賴完整的姿態(tài)序列和首幀作為輸入,導(dǎo)致其無法真正應(yīng)用于 Sim-to-Real數(shù)據(jù)生成管線。

? 我們提出PAM (Pose-Appearance-Motion),一個統(tǒng)一的數(shù)據(jù)生成引擎,利用姿態(tài)、外觀和運(yùn)動的解耦生成過程,完美解決上述痛點(diǎn)。

? 這是第一個僅需條件初始姿態(tài)、目標(biāo)姿態(tài)和物體的幾何信息作為輸入,即可實(shí)現(xiàn)高質(zhì)量 Sim-to-Real 手物交互視頻生成的框架,且利用這個管線合成的數(shù)據(jù)能顯著提升下游任務(wù)(例如手部姿態(tài)估計(jì))的性能。

02


簡介


手物交互(HOI)的重建與合成正逐漸成為具身智能和 AR/VR 領(lǐng)域的核心基石。盡管數(shù)據(jù)驅(qū)動范式推動了準(zhǔn)確的手部姿態(tài)估計(jì)和視頻生成領(lǐng)域的的快速發(fā)展,但獲取帶有詳細(xì)標(biāo)注的真實(shí) HOI序列需要耗費(fèi)極大的人力物力,這嚴(yán)重限制了可擴(kuò)展性。

為了打破這一數(shù)據(jù)壁壘,北京大學(xué)聯(lián)合清華大學(xué)、智源研究院(BAAI)、上海交通大學(xué)及東方理工大學(xué)提出了一個突破性的統(tǒng)一引擎——PAM。PAM 能夠?qū)⒆藨B(tài)(Pose)、外觀(Appearance)和運(yùn)動(Motion)無縫整合到一個連貫的框架中。用戶只需提供初始和目標(biāo)姿態(tài)以及物體幾何形狀,PAM 就能生成具有連貫動態(tài)和逼真手物交互的視頻。實(shí)驗(yàn)證明,PAM 不僅在視頻保真度和幾何準(zhǔn)確度上大幅超越現(xiàn)有方法,其生成的合成視頻還能直接作為數(shù)據(jù)增強(qiáng)工具,使下游手部姿態(tài)估計(jì)模型在僅使用 50%真實(shí)數(shù)據(jù)加上合成數(shù)據(jù)的情況下,就能匹配使用100%真實(shí)數(shù)據(jù)的效果!

03


研究動機(jī)

隨著深度學(xué)習(xí)和擴(kuò)散模型的出現(xiàn),大規(guī)模生成 HOI 視頻展現(xiàn)出了巨大潛力。然而,縱觀當(dāng)前最先進(jìn)的方法,整個研究領(lǐng)域呈現(xiàn)出三種趨勢:

1.純姿態(tài)合成(Pose-only synthesis只預(yù)測手部MANO軌跡而不生成外觀,缺乏視覺真實(shí)感,降低了其實(shí)用價(jià)值。

2.單圖外觀生成(Appearance generation根據(jù)掩碼或 2D 提示生成外觀,但完全無法捕捉時(shí)間上的動態(tài)連貫性。

3.視頻運(yùn)動生成(Motion generation雖然能生成視頻,但需要完整的姿態(tài)序列和真實(shí)的視頻第一幀作為輸入,這些條件在實(shí)際場景中較難獲得,容易獲得的是模擬器中的手部姿態(tài)數(shù)據(jù),但由于模擬器中根本無法獲取真實(shí)的第一幀,這類方法不適合 Sim-to-Real的部署。

基于上述痛點(diǎn),研究團(tuán)隊(duì)認(rèn)為 HOI 生成亟需一個能統(tǒng)一融合姿態(tài)、外觀和運(yùn)動的引擎。因此,PAM 引入了整合運(yùn)動與外觀的擴(kuò)散過程,繞過了對第一幀條件和完成手部姿態(tài)序列的依賴,從而最大化了運(yùn)動和外觀的多樣性。

04


PAM 方法


方法概覽

給定初始 MANO 手部姿態(tài) 、無外觀的物體 Mesh 、初始 6-DoF 物體姿態(tài) 以及目標(biāo)手部 MANO 姿態(tài) ,PAM 的目標(biāo)是生成一段逼真的 HOI 視頻。整個模型可以形式化為一個生成函數(shù) :

該模型最終輸出一段連貫且具有物理約束的 RGB 視頻幀序列 。為了應(yīng)對生成 HOI 視頻的高維時(shí)空流形的復(fù)雜性,PAM 將生成過程解構(gòu)為三個核心階段:

第一階段:姿態(tài)生成 (Pose Generation)

在這個階段,模型主要解決中間物理運(yùn)動的插值問題。使用預(yù)訓(xùn)練的姿態(tài)生成模型(如 GraspXL)來合成對齊的手物交互姿態(tài)序列。模型接收 作為輸入,輸出時(shí)間上連貫的手部和物體運(yùn)動軌跡 。這確保了物理一致性,為后續(xù)的視覺渲染奠定幾何基礎(chǔ)。

第二階段:外觀生成 (Appearance Generation)

為了解決從模擬器到真實(shí)視頻的視覺鴻溝,PAM 利用可控的圖像擴(kuò)散模型 Flux 來合成逼真的視頻第一幀 。單靠深度圖和語義掩碼不足以處理手部的高自由度。模型將以下三種條件融合并作為生成引導(dǎo),它們均為 的特征圖:

?深度圖 (Depth Maps):保證全局的幾何連貫性。

?語義掩碼 (Semantic Masks)保證實(shí)例級別的語義一致性。

?手部關(guān)鍵點(diǎn)映射 (Hand Keypoints):提供精確的手部骨骼拓?fù)浣Y(jié)構(gòu),保證手部細(xì)節(jié)生成的一致性。

這些條件首先通過 VAE 編碼為 的潛在表示,在通道維度上拼接后,注入到 ControlNet 分支的 DiT 塊中。特征的注入計(jì)算公式如下:

其中 是原始 Flux 模型中第 7 層 DiT 塊的輸出, 是接收拼接條件輸入的復(fù)制 DiT 塊的輸出,而零卷積層 (Zero-convolution layer) 為參數(shù)全零初始化的 卷積層。

第三階段:運(yùn)動生成 (Motion Generation)

在生成首幀 后,模型將第一階段生成的序列 逐幀渲染,得到對應(yīng)的深度圖、語義圖和關(guān)鍵點(diǎn)序列。隨后,利用預(yù)訓(xùn)練的視頻 VAE 將這些空間條件編碼為形狀為 的潛在張量。

PAM 采用基于 CogVideoX 的可控視頻擴(kuò)散模型來生成最終的視頻流。為了保持與姿態(tài)序列的一致性,視頻模型沿用了上述公式的特征融合機(jī)制,將多模態(tài)特征通過 12 個復(fù)制的 DiT 塊注入網(wǎng)絡(luò)。特別地,在訓(xùn)練階段,為了防止模型過度依賴某單一模態(tài)特征,每種條件都會以 的概率被隨機(jī)掩碼,從而提升模型的泛化能力。

05


實(shí)驗(yàn)結(jié)果

基準(zhǔn)測試

團(tuán)隊(duì)在 DexYCB(聚焦于單手交互)和 OAKINK2(聚焦于雙手復(fù)雜交互)兩個基準(zhǔn)數(shù)據(jù)集上對 PAM 進(jìn)行了全面評估,并與當(dāng)前最先進(jìn)的 ManiVideo、InterDyn 和 CosHand 等方法進(jìn)行了對比。

定量結(jié)果


? 在DexYCB數(shù)據(jù)集上:PAM 實(shí)現(xiàn)了 29.13 的 FVD(Fréchet Video Distance,反映視頻整體的時(shí)空連貫性與真實(shí)度,該數(shù)值越低越好),大幅優(yōu)于 InterDyn 的 38.83。在反映手部姿態(tài)準(zhǔn)確度的 MPJPE 指標(biāo)上,PAM 達(dá)到了19.37 mm,遠(yuǎn)優(yōu)于 CosHand 的 30.05 mm。此外,在結(jié)構(gòu)相似性(SSIM)和運(yùn)動保真度(MF)等指標(biāo)上,PAM 也穩(wěn)居第一。

?OAKINK2數(shù)據(jù)集上面對更復(fù)雜的雙手交互場景,PAM 同樣展現(xiàn)出強(qiáng)大的建模能力,將 FVD 從 CosHand 的 68.76 顯著降至 46.31,MPJPE 從 14.49 mm 大幅降低至 7.01 mm。

?更高清的分辨率相比于基線方法生成的256 \times 256 (CosHand) 或 256 \times 384 (InterDyn) 模糊視頻,PAM 能夠穩(wěn)定生成 480 \times 720 的高保真、高分辨率交互視頻。

定性結(jié)果


?如上圖所示,現(xiàn)有方法(如 CosHand)由于僅依賴手部掩碼作為單一條件,缺乏深度的幾何引導(dǎo),且缺少顯式的時(shí)間建模機(jī)制,導(dǎo)致生成的視頻往往出現(xiàn)手部姿態(tài)畸變以及嚴(yán)重的幀間閃爍。相比之下,PAM 利用帶有時(shí)間注意力機(jī)制的視頻擴(kuò)散基礎(chǔ)模型,加以多條件的控制,保證了較強(qiáng)的幀間連貫性。

06


多條件的消融實(shí)驗(yàn)



? DexYCB數(shù)據(jù)集上的消融實(shí)驗(yàn)證實(shí),PAM 的“深度圖+語義掩碼+手部關(guān)鍵點(diǎn)”多模態(tài)控制組合缺一不可。如上圖所示,僅靠手部關(guān)鍵點(diǎn)會導(dǎo)致整體外觀質(zhì)量下降,而僅靠語義掩碼或深度圖則會引發(fā)手部姿態(tài)的錯位失真。PAM 巧妙結(jié)合了全局場景理解(深度與語義)與局部手部細(xì)節(jié)(關(guān)鍵點(diǎn)),明確保留了手部結(jié)構(gòu)的細(xì)節(jié)。這使得 PAM 不僅在背景和前景的生成上具備更高的視覺保真度,還成功消除了幾何錯位,生成了準(zhǔn)確、流暢且符合物理常理的視頻序列。

07


Sim-To-Real生成


如上圖所示,PAM 展現(xiàn)了強(qiáng)大的 Sim-to-Real 遷移能力。僅僅給定初始和終止?fàn)顟B(tài)的HOI Pose,利用解耦架構(gòu),模型成功結(jié)合了 GraspXL 的運(yùn)動先驗(yàn)與擴(kuò)散模型的外觀建模,合成了具有不同主體和背景的多樣化、逼真的視頻。這些視頻為之后的下游任務(wù)提供了源源不斷的數(shù)據(jù)生成管線。

08


下游任務(wù)驗(yàn)證


為了評估生成視頻的實(shí)用性,研究人員將合成視頻用于下游手部姿態(tài)估計(jì)任務(wù)(SimpleHand 模型)的數(shù)據(jù)增強(qiáng)。PAM 訓(xùn)練生成了 3,400 個視頻序列(包含 207,400 幀)作為增強(qiáng)數(shù)據(jù)。

結(jié)果表明,使用合成數(shù)據(jù)結(jié)合不同比例的真實(shí)數(shù)據(jù)進(jìn)行訓(xùn)練,始終能提高手部姿態(tài)估計(jì)的準(zhǔn)確度。從上圖中可以看到,僅使用 50% 真實(shí)數(shù)據(jù)加上 PAM 生成的合成樣本,其性能就足以具備與使用 100% 真實(shí)數(shù)據(jù)基線相競爭的實(shí)力!這證明了合成數(shù)據(jù)能有效彌補(bǔ)真實(shí)數(shù)據(jù)量的不足。

09


總結(jié)

PAM 提出了一個創(chuàng)新的 Pose-Appearance-Motion 解耦架構(gòu),成功打破了傳統(tǒng)方法依賴真實(shí)第一幀的瓶頸,實(shí)現(xiàn)了從極簡姿態(tài)輸入到高保真 HOI 視頻的生成。其卓越的感知質(zhì)量、幾何準(zhǔn)確度以及對下游任務(wù)的顯著增益,為具身智能領(lǐng)域的生成模型研究提供了堅(jiān)實(shí)的基礎(chǔ)。

未經(jīng)「AI科技評論」授權(quán),嚴(yán)禁以任何方式在網(wǎng)頁、論壇、社區(qū)進(jìn)行轉(zhuǎn)載!

公眾號轉(zhuǎn)載請先在「AI科技評論」后臺留言取得授權(quán),轉(zhuǎn)載時(shí)需標(biāo)注來源并插入本公眾號名片。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
全球排名已變,俄羅斯高調(diào)攤牌世界第四,排名第一的中國笑而不語

全球排名已變,俄羅斯高調(diào)攤牌世界第四,排名第一的中國笑而不語

浪子阿邴聊體育
2026-04-19 02:27:17
“富人才不會把女兒養(yǎng)這么胖”,家長曬女兒喝60元礦泉水,被群嘲

“富人才不會把女兒養(yǎng)這么胖”,家長曬女兒喝60元礦泉水,被群嘲

妍妍教育日記
2026-04-16 10:25:09
丈夫騎車載妻子,為躲避狗摔倒后妻子身亡,丈夫起訴4輛違停車輛索賠124萬,法院:遮擋了視線,承擔(dān)20%次要責(zé)任

丈夫騎車載妻子,為躲避狗摔倒后妻子身亡,丈夫起訴4輛違停車輛索賠124萬,法院:遮擋了視線,承擔(dān)20%次要責(zé)任

大象新聞
2026-04-18 12:47:03
莫氏雞煲被投訴!

莫氏雞煲被投訴!

東莞好生活
2026-04-18 19:08:16
出戰(zhàn)15分鐘正負(fù)值-22!勇士輸球后揪出最大罪臣,頂薪合同恐懸了

出戰(zhàn)15分鐘正負(fù)值-22!勇士輸球后揪出最大罪臣,頂薪合同恐懸了

兵哥籃球故事
2026-04-18 14:53:45
炸了!梅根2000美元演講,哈里中途奪路而逃,內(nèi)急還是被逼瘋?

炸了!梅根2000美元演講,哈里中途奪路而逃,內(nèi)急還是被逼瘋?

小寒嫣語
2026-04-18 20:59:31
兒媳生娃我給200,親家母出10萬,2年后我住院,兒媳就來露了一面

兒媳生娃我給200,親家母出10萬,2年后我住院,兒媳就來露了一面

游戲收藏指南
2026-04-19 00:22:51
尼康發(fā)布新款雙筒望遠(yuǎn)鏡:60°超寬視野 戴眼鏡也能看

尼康發(fā)布新款雙筒望遠(yuǎn)鏡:60°超寬視野 戴眼鏡也能看

快科技
2026-04-18 18:31:04
破防了!一37歲女子相親遇國企月薪5500男生,稱不接受貧窮的生活

破防了!一37歲女子相親遇國企月薪5500男生,稱不接受貧窮的生活

火山詩話
2026-04-16 07:52:49
前阿里財(cái)務(wù)總監(jiān)爆火言論:普通家庭買車是最蠢的動作!評論炸鍋

前阿里財(cái)務(wù)總監(jiān)爆火言論:普通家庭買車是最蠢的動作!評論炸鍋

許三歲
2026-04-10 09:31:44
越南蘇林主席剛結(jié)束訪華回國,就邀請韓國總統(tǒng)訪越

越南蘇林主席剛結(jié)束訪華回國,就邀請韓國總統(tǒng)訪越

史座y
2026-04-18 16:59:42
5月1日起全國嚴(yán)查!開車上班、做生意,這些小事別再碰,輕則罰款

5月1日起全國嚴(yán)查!開車上班、做生意,這些小事別再碰,輕則罰款

荷蘭豆愛健康
2026-04-19 03:44:44
“真銅實(shí)料”互嗆升級,海信高管稱格力部分機(jī)型用鋁線電機(jī)

“真銅實(shí)料”互嗆升級,海信高管稱格力部分機(jī)型用鋁線電機(jī)

紅星資本局
2026-04-17 18:26:04
地下捐精有多亂!女的被約到賓館,捐精者:直接懷孕只收800元

地下捐精有多亂!女的被約到賓館,捐精者:直接懷孕只收800元

雍親王府
2025-11-14 14:50:03
41歲文章徹底退圈? 上海開陜西小店躬身遞菜單,面相都變了!

41歲文章徹底退圈? 上海開陜西小店躬身遞菜單,面相都變了!

LULU生活家
2026-04-18 17:58:42
在美國買了房,房子是你的不假一旦你無力負(fù)擔(dān)房產(chǎn)稅照樣無家可歸

在美國買了房,房子是你的不假一旦你無力負(fù)擔(dān)房產(chǎn)稅照樣無家可歸

忠于法紀(jì)
2025-12-23 21:02:38
張柏芝變化太大了,都認(rèn)不出來了,果然人都會變老,明星也不例外

張柏芝變化太大了,都認(rèn)不出來了,果然人都會變老,明星也不例外

TVB的四小花
2026-04-18 17:35:52
觀察|從三大先導(dǎo)產(chǎn)業(yè)到十大硬核產(chǎn)業(yè)集群,36歲的浦東有何不同?

觀察|從三大先導(dǎo)產(chǎn)業(yè)到十大硬核產(chǎn)業(yè)集群,36歲的浦東有何不同?

澎湃新聞
2026-04-18 11:54:28
35歲女子覺得不夠緊做陰道緊縮手術(shù),縫合針突然斷體內(nèi),瞬間崩潰

35歲女子覺得不夠緊做陰道緊縮手術(shù),縫合針突然斷體內(nèi),瞬間崩潰

丫頭舫
2026-03-03 21:33:10
比賴清德還狂的人出現(xiàn)了,如果她當(dāng)選臺灣領(lǐng)導(dǎo)人,解放軍必定收臺

比賴清德還狂的人出現(xiàn)了,如果她當(dāng)選臺灣領(lǐng)導(dǎo)人,解放軍必定收臺

芳芳?xì)v史燴
2026-03-29 21:09:31
2026-04-19 04:56:49
AI科技評論 incentive-icons
AI科技評論
點(diǎn)評學(xué)術(shù),服務(wù)AI
7198文章數(shù) 20744關(guān)注度
往期回顧 全部

科技要聞

傳Meta下月擬裁8000 大舉清退人力為AI騰位

頭條要聞

伊朗革命衛(wèi)隊(duì)向油輪開火 伊朗最高領(lǐng)袖發(fā)聲

頭條要聞

伊朗革命衛(wèi)隊(duì)向油輪開火 伊朗最高領(lǐng)袖發(fā)聲

體育要聞

時(shí)隔25年重返英超!沒有人再嘲笑他了

娛樂要聞

劉德華回應(yīng)潘宏彬去世,拒談喪禮細(xì)節(jié)

財(cái)經(jīng)要聞

"影子萬科"2.0:管理層如何吸血萬物云?

汽車要聞

奇瑞威麟R08 PRO正式上市 售價(jià)14.48萬元起

態(tài)度原創(chuàng)

本地
游戲
手機(jī)
房產(chǎn)
親子

本地新聞

12噸巧克力有難,全網(wǎng)化身超級偵探添亂

讓老粥批直呼“計(jì)劃有變”的歲獸代理人,到底是什么東西?

手機(jī)要聞

榮耀600系列參數(shù)、外觀全曝光

房產(chǎn)要聞

官宣簽約最強(qiáng)城更!海口樓市,突然殺入神秘房企!

親子要聞

退燒藥怎么用?90%家長都搞錯了

無障礙瀏覽 進(jìn)入關(guān)懷版