網易首頁 > 網易號 > 正文 申請入駐

無需多視角,單圖重建可交互3D模型!南洋理工開源結構推理框架

0
分享至


新智元報道

編輯:LRST

【新智元導讀】讓3D模型「活」起來!南洋理工大學團隊提出MonoArt,通過逐步推理實現從單圖生成可動3D模型。該方法先恢復幾何結構,再識別部件,最后推斷運動方式與參數。無需外部數據或先驗,即可構建出具備運動能力的3D表示,有效提升重建穩定性與實用性。

在3D生成領域,我們已經習慣了從單張圖片中生成3D物體模型。

然而,隨著具身智能(Embodied AI)的爆發,一個新的現實擺在研究者面前:這些模型大多是難以交互的靜態資產。

你想打開生成的冰箱門?它是焊死的。你想讓機器人搬動生成的椅子?它不知道哪里可以折疊 。

近日,來自南洋理工大學S-Lab的研究團隊提出MonoArt,嘗試高效的解決這一問題:與其讓模型直接「猜」物體怎么動,不如先讓它一步步「理解」物體的結構。

MonoArt 的核心思路可以概括為一句話: 把單目可動物體重建,建模為一個漸進式結構推理過程(progressive structural reasoning)。

在這個框架里,模型不是一次性輸出articulation,而是依次完成幾何恢復、部件感知、運動推理和運動學參數估計,最終得到一個既有形狀、又有部件層級和關節信息的3D表示。


論文鏈接:https://arxiv.org/abs/2603.19231

項目鏈接:https://lihaitian.com/MonoArt/

GitHub鏈接:https://github.com/Quest4Science/MonoArt

引言

與靜態3D重建不同,articulated 3D reconstruction不僅要恢復物體形狀,還要進一步建模部件劃分、關節類型、運動軸、旋轉中心和運動范圍。這個任務的難點不僅在于需要預測的參數更多,更在于結構與運動是耦合的:不知道可動部件怎么劃分,就很難推斷它如何運動;反過來,不理解運動關系,又很難真正建好可動部件的結構。也正因為如此,直接從圖像特征回歸articulation往往不穩定,泛化也有限。

現有方法大致可以分為三類:

  • 基于多視角或視頻的方法依賴同一物體在不同開合狀態下的觀測,雖然效果較好,但對數據條件要求高,真實場景中往往不具備。

  • 基于檢索與拼裝的方法通過已有資產庫組裝可動物體,但容易受到庫內形狀覆蓋的限制,結果常出現幾何誤差和紋理不匹配。

  • 基于額外先驗的方法借助視覺語言模型、輔助視頻生成或預定義運動方向來推斷articulation,雖然減少了對多視角數據的依賴,但系統更復雜,更依賴外部先驗,同時通常需要更漫長的推理時間。

這些方法有一個共同問題:它們都沒有真正把結構理解本身作為articulation inference的起點。

要么依賴更多觀測補信息,要么依賴外部先驗補線索,但都沒有回答一個更本質的問題:單張圖像里的可動物體,能否先被拆解為穩定的幾何與部件結構,再在此基礎上推斷運動關系?

MonoArt正是為了解決這個問題而提出。它不再把 articulation 視為一個直接回歸的結果,而是將單目可動物體重建建模為一個漸進式結構推理過程,把 geometry、part structure 和 motion 放進同一條連續的推理鏈里,讓運動成為結構理解的自然結果。

方法設計


具體來看,MonoArt 由四個關鍵模塊組成,來實現圖像 → 幾何恢復 → 部件感知 → 運動推理 → 運動學參數估計的逐步的推理。

第一步:先有一個靠譜的3D形狀

一切的起點是從單張圖像恢復出物體的三維幾何。MonoArt使用TRELLIS作為凍結的3D生成骨干,輸出一個canonical mesh以及與之對齊的latent features。這一步的意義在于:后續所有關于「部件」和「運動」的推理,都建立在三維空間而非二維圖像上——這比直接從像素特征回歸關節參數要穩定得多。

第二步:知道物體由哪些可動部件組成

有了3D形狀,下一個問題是:這個形狀里哪些部分是可動的?一個柜子的門和柜體是兩個不同的部件,但mesh本身不會告訴你這一點。Part-Aware Semantic Reasoner的作用就是讓模型「看懂」部件結構。

它將表面上每個點的幾何特征投影到三個正交平面上(triplane),再通過Transformer 捕捉全局結構關系,最終為每個點生成一個包含部件歸屬信息的embedding。

訓練時通過triplet loss來拉開不同部件特征之間的距離,讓屬于同一部件的點聚在一起,不同部件的點彼此遠離。

下面的可視化很直觀地展示了這一步的效果:沒有這個模塊時,點特征對于部件難以有運動層級上的區分(第二列);加上模塊和triplet監督后,不同部件的特征有了較好的區分(最后一列)。


第三步:推斷每個部件怎么動

知道了部件劃分,接下來要推斷運動。但這里有一個微妙的難點:描述一個部件的運動,需要同時回答兩類不同性質的問題——它「是什么」(語義:這是一扇門還是一個抽屜?)和它的運動「發生在哪里」(空間:旋轉中心在什么位置?)。

如果把這兩類信息混在同一個表征里端到端回歸,往往不穩定。 MonoArt的Dual-Query Motion Decoder用了一個解耦的設計:用content query編碼部件語義,用position query編碼空間運動錨點,兩者通過6層迭代 refinement 逐步對齊。

每一層中,query之間通過self-attention建模部件間關系,再通過 cross-attention 從點特征中提取證據。這種「一邊搞清楚是什么,一邊搞清楚在哪里」的并行迭代方式,讓運動推理更加穩定。

第四步:輸出物理上可用的運動學參數

最后,Kinematic Estimator 把前面的推理結果轉化為明確的、物理可解釋的輸出:每個部件的 mask、關節類型(固定、旋轉、平移等)、旋轉軸方向、旋轉中心位置、以及運動范圍上下限。

此外,它還預測部件之間的父子關系,構建出完整的 kinematic tree——也就是「哪個部件連在哪個部件上」。

一個值得注意的設計細節是:關節位置的預測采用了殘差形式,以上一步輸出的 position query(即部件質心)為錨點,只預測偏移量。消融實驗表明這比直接回歸絕對坐標更準確——這也呼應了整個框架「漸進式」的設計哲學:每一步都站在上一步的肩膀上。

這四步遞進的設計帶來一個直接的好處:整個articulation推理不需要任何外部先驗——不需要多視角、不需要資產庫、不需要VLM、不需要輔助視頻生成。那么它的效果到底怎么樣?

實驗效果

在PartNet-Mobility基準測試中,MonoArt在7類和46類兩種設置下均展現出領先性能。

相比SINGAPO、URDFormer、Articulate-Anything、PhysXAnything等代表性方法,MonoArt在幾何重建質量、關節類型預測以及關鍵運動參數估計等多個核心指標上取得最優表現,同時兼顧了更高的推理效率。

相比Articulate-Anything的229.9s和PhysXAnything的256.8s, MonoArt只需要20.5s(其中 18.2 秒花在 TRELLIS做3D重建上,articulation reasoning本身只增加了約 2 秒的開銷)。

同時,在下游任務中,MonoArt生成的3D物體可以用在機械臂的仿真訓練,MonoArt 重建出來的物體可以直接導入 IsaacSim,讓 Franka 機械臂去抓取和開門,不需要任何額外的關節標注。

MonoArt可以擴展到具有可動部件的場景生成上。

局限性與思考

MonoArt給單目articulated 3D reconstruction提供了一條清晰的新路線:不是依賴越來越重的外部先驗去「補」運動,而是通過progressive structural reasoning,讓模型真正學會物體為什么這樣組成、又為什么可以這樣運動。

但是對于尺度極不均衡的小部件,均勻采樣可能導致特征不夠明顯;對于非常新的拓撲結構或罕見模式,模型的運動參數預測也可能下降。這些問題也為后續工作留下了空間。

參考資料:

[1] TRELLIS: Structured 3D Latents for Scalable and Versatile 3D Generation. CVPR 2025.

[2] URDFormer: A Pipeline for Constructing Articulated Simulation Environments from Real-World Images. RSS 2024.

[3] SINGAPO: Single Image Controlled Generation of Articulated Parts in Objects. ICLR 2025.

[4] Articulate-Anything: Automatic Modeling of Articulated Objects via a Vision-Language Foundation Model. ICLR 2025.

[5] PhysX-Anything: Simulation-Ready Physical 3D Assets from Single Image. CVPR 2026.

[6] DreamArt: Generating Interactable Articulated Objects from a Single Image. SIGGRAPH Asia 2025.

[7] Puppet-Master: Scaling Interactive Video Generation as a Motion Prior for Part-Level Dynamics. ICCV 2025.

[8] PARIS: Part-level Reconstruction and Motion Analysis for Articulated Objects. ICCV 2023.

[9] ArticulatedGS: Self-supervised Digital Twin Modeling of Articulated Objects using 3D Gaussian Splatting. CVPR 2025.

[10] PhysX-3D: Physical-Grounded 3D Asset Generation. NeurIPS 2025.


特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
NBA官方:亞歷山大當選年度最佳關鍵球員 多項關鍵數據聯盟第一

NBA官方:亞歷山大當選年度最佳關鍵球員 多項關鍵數據聯盟第一

羅說NBA
2026-04-22 06:18:26
1946年孔二小姐穿短裙逛公園卻被龍三公子調戲,雙方立即拔槍火拼

1946年孔二小姐穿短裙逛公園卻被龍三公子調戲,雙方立即拔槍火拼

睡前講故事
2026-04-21 11:33:01
存款大局已定!若無意外,2026年銀行利率或將迎來4大變化

存款大局已定!若無意外,2026年銀行利率或將迎來4大變化

復轉這些年
2026-04-21 18:33:57
云南一幼童十余天反復咳痰帶血,氣管內取出8厘米活體蠕動螞蟥

云南一幼童十余天反復咳痰帶血,氣管內取出8厘米活體蠕動螞蟥

澎湃新聞
2026-04-22 11:02:28
皇馬銀河戰艦崩塌內幕:喝酒的巨星、嫉妒的勞爾、管就下課的教練

皇馬銀河戰艦崩塌內幕:喝酒的巨星、嫉妒的勞爾、管就下課的教練

老曁科普
2026-04-20 21:28:34
當年張柏芝抱著lucas后面居然是大s,到現在才發現,真美呀

當年張柏芝抱著lucas后面居然是大s,到現在才發現,真美呀

可樂談情感
2026-04-22 00:14:41
王近山不經請示干掉日本戰地觀戰團,毛主席:早就聽說有個王瘋子

王近山不經請示干掉日本戰地觀戰團,毛主席:早就聽說有個王瘋子

鶴羽說個事
2026-04-20 22:56:36
南通百億超級工程,官宣!

南通百億超級工程,官宣!

南通樓市說說
2026-04-22 14:05:02
只為演好春麗!《街霸》女演員狂吃牛排"增肌大腿"

只為演好春麗!《街霸》女演員狂吃牛排"增肌大腿"

游民星空
2026-04-21 11:51:12
吳千語曬上海的新豪宅,程曉玥生了,吳千語去月子會所看她!

吳千語曬上海的新豪宅,程曉玥生了,吳千語去月子會所看她!

小娛樂悠悠
2026-04-22 09:33:58
特朗普最新支持率公布

特朗普最新支持率公布

新京報政事兒
2026-04-22 13:36:07
京東員工:周圍同事不少得糖尿病呀,有點恐怖

京東員工:周圍同事不少得糖尿病呀,有點恐怖

螞蟻大喇叭
2026-04-22 09:54:02
51歲何潤東騎自行車買早飯,妻子林姵希蹬車小腿纖細,很般配

51歲何潤東騎自行車買早飯,妻子林姵希蹬車小腿纖細,很般配

娛樂圈圈圓
2026-04-22 10:45:56
美智庫急了:已經上天的殲-50,抄襲還在PPT上的F-47?

美智庫急了:已經上天的殲-50,抄襲還在PPT上的F-47?

忠誠TALK
2026-04-21 08:53:44
杜蘭特火線復出 G2火箭依舊落敗 火箭的問題到底有哪些

杜蘭特火線復出 G2火箭依舊落敗 火箭的問題到底有哪些

大話火箭隊
2026-04-22 15:39:27
他從正部降到副廳,級別恢復后不想上任,宋任窮:這是中央的決定

他從正部降到副廳,級別恢復后不想上任,宋任窮:這是中央的決定

鑒史錄
2026-04-20 20:54:57
編造“大蔥免費拿”謠言造成種植戶財產損失,多人被處罰

編造“大蔥免費拿”謠言造成種植戶財產損失,多人被處罰

界面新聞
2026-04-22 10:01:16
中央5臺直播乒乓時間表:4月22日CCTV5轉播國乒!附國乒出征消息

中央5臺直播乒乓時間表:4月22日CCTV5轉播國乒!附國乒出征消息

八斗小先生
2026-04-22 12:14:04
“中年返貧三件套”,正在吞掉一代人的存款

“中年返貧三件套”,正在吞掉一代人的存款

十點讀書
2026-04-18 18:36:15
好裝、好有錢,被國產劇里的窮人氣笑了

好裝、好有錢,被國產劇里的窮人氣笑了

糊咖娛樂
2026-04-21 18:45:21
2026-04-22 15:48:49
新智元 incentive-icons
新智元
AI產業主平臺領航智能+時代
15037文章數 66797關注度
往期回顧 全部

科技要聞

對話梅濤:沒有視頻底座,具身智能走不遠

頭條要聞

媒體:愛奇藝AI藝人庫惹眾怒 CEO龔宇的解釋站不住腳

頭條要聞

媒體:愛奇藝AI藝人庫惹眾怒 CEO龔宇的解釋站不住腳

體育要聞

網易傳媒再度簽約法國隊和阿根廷隊

娛樂要聞

復婚無望!baby黃曉明陪小海綿零交流

財經要聞

伊朗拒絕出席 特朗普宣布延長停火期限

汽車要聞

純電續航301km+激光雷達 宋Pro DM-i飛馳版9.99萬起

態度原創

教育
數碼
本地
房產
公開課

教育要聞

第8課-Sightseeing + taking photos 觀光旅游和拍照

數碼要聞

OPPO Find X9 Ultra深度評測:10倍光變重塑旗艦標桿

本地新聞

春色滿城關不住|白鵑梅浪漫盛放,吳山藏了一片四月雪

房產要聞

狂搶284輪!中海海口再拿重磅宅地!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版