无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

中國科大、合工大等提出CAPER++:關節物體位姿感知邁向又快又穩

0
分享至



在具身智能快速發展的今天,機器人已經不再滿足于「看見」剛體物體,而是開始真正走向復雜環境中的交互與操作。從機械臂開柜門,到服務機器人整理抽屜,再到工業場景中的工具操作,大量真實世界目標都屬于關節物體(Articulated Objects)。

對于具身智能系統而言,如何準確理解這些物體的空間姿態與運動狀態,一直是邁向真實場景交互的關鍵難題。

然而,相比傳統剛體,關節物體的位姿感知一直是一個更加困難的問題。這是因為,關節物體不僅存在多部件結構,還伴隨著復雜的運動約束關系。不同部件之間并不是彼此獨立,而是受到旋轉關節、滑動關節等運動學結構的強約束。一旦遮擋、快速運動或觀測殘缺出現,傳統方法就容易產生不符合物理規律的預測結果。

近年來,類級別關節物體位姿估計逐漸成為熱點方向,卻存在一個長期未被真正解決的問題:

如何同時兼顧「魯棒性」與「實時性」?

一類方法依賴復雜后處理與優化過程,雖然精度較高,但速度難以滿足實時需求;另一類方法強調端到端效率,卻往往忽略運動學約束,在復雜場景下容易出現姿態抖動、結構不一致甚至長期跟蹤漂移,即不穩定預測。

針對這一問題,來自中國科學技術大學、合肥工業大學等機構的研究團隊提出了CAPER++:一個兼具高魯棒性、高效率與實時追蹤能力的統一關節物體位姿感知框架。該工作已被《IEEE Transactions on Pattern Analysis and Machine Intelligence》(TPAMI)接收。

CAPER++ 是一個端到端的一體化關節物感知方案:可自由切換到關節物體的靜態位姿估計和動態位姿追蹤。目前代碼已開源,歡迎學術界和工業界試用。



  • 論文標題: Probing Effective and Efficient Category-Level Articulated Object Pose Perception
  • 論文鏈接:https://ieeexplore.ieee.org/abstract/document/11480457
  • 項目主頁:https://sites.google.com/view/caperplusplus
  • 倉庫鏈接:https://github.com/zanly20/CAPERPlusPlus

引言

過去幾年,機器人領域正在經歷一個明顯變化:研究重點開始從「識別物體」逐漸轉向「理解物體如何運動」。對于真實世界中的機器人而言,僅僅知道一個物體「是什么」已經遠遠不夠。機器人還需要理解它「如何被打開」「如何被推動」「哪些部分可以運動」,以及不同部件之間存在怎樣的運動約束關系。

與傳統剛體不同,關節物體往往由多個部件構成,并通過旋轉關節或滑動關節連接。例如柜門會繞鉸鏈旋轉,抽屜會沿軌道滑動,機械臂不同連桿之間也存在復雜耦合關系。這意味著,機器人不僅需要感知物體整體姿態,還必須同時推理不同部件之間的相對運動狀態。

然而,這一任務遠比想象中困難。一方面,真實場景中普遍存在遮擋、快速運動以及殘缺觀測問題;另一方面,關節結構天然具有嚴格的運動學約束,而現有方法大多采用獨立的 part-wise 建模策略,將各個部件分別預測后再進行組合。這種方式雖然直觀,卻容易忽略部件之間的關聯關系,導致預測結果不穩定,甚至出現不符合物理規律的姿態結構。

更關鍵的是,許多高精度方法仍然依賴復雜優化或后處理過程。這類方法雖然能夠提升估計精度,但推理效率往往難以滿足真實機器人系統對于實時性的要求。

在 CAPER++ 這篇論文中,與傳統「零件獨立預測」的思路不同,CAPER++ 首次從「關節驅動」的視角重新建模關節物體。論文提出了一種 Joint-Centric(關節中心)層次化建模策略,將物體劃分為 Root Part 與 Constrained Part,并顯式引入運動學約束,使網絡能夠學習更加符合物理規律的位姿結構。

更進一步,CAPER++ 將位姿學習過程從傳統歐式空間拓展至SE (3) 流形切空間,通過 Lie Algebra 建模旋轉與位姿增量,有效緩解了傳統旋轉回歸中的奇異性、不穩定優化以及幾何約束破壞等問題。在保證高精度的同時,實現了無需后處理的端到端推理。

而在動態追蹤場景中,CAPER++ 進一步提出 Proxy Canonicalization 與動態關鍵幀機制,將連續視頻中的位姿追蹤轉化為相鄰幀之間的增量學習問題,大幅降低長期漂移與時序抖動,使系統在復雜動態環境中依然保持穩定預測。實驗結果顯示,CAPER++ 不僅在多個合成、半真實與真實世界數據集上取得了當前最優性能,還實現了 50 FPS 實時推理速度,真正兼顧了「精度」「魯棒性」與「實時性」三項長期難以統一的目標。

不再「零件各管各的」:

CAPER++ 如何重新理解關節物體?

現有大量關節物體位姿估計方法,本質上都遵循一種典型思路:先將物體拆分成多個部件(Part),再分別預測每個部件的位姿,最后進行組合恢復。

這種 Part-wise 建模方式雖然直觀,卻存在一個長期被忽略的問題:

現實世界中的關節物體,本來就不是「彼此獨立」的。

例如柜門的運動一定圍繞鉸鏈展開,抽屜只能沿滑軌方向移動,機械臂不同連桿之間也始終受到運動鏈約束。換句話說,部件之間天然存在強耦合關系。但傳統方法往往將這些部件視作相互獨立的剛體進行預測,導致模型雖然「看到了局部」,卻無法真正理解整體運動結構。

這也是為什么,在遮擋、殘缺觀測或者復雜運動場景下,傳統方法容易出現結構不一致、姿態漂移甚至違反物理規律的預測結果。

針對這一問題,CAPER++ 提出了 Joint-Centric(關節中心)層次化建模策略,從「關節」而非「部件」視角重新定義關節物體位姿感知。

論文將整個關節物體劃分為 Root Part 與 Constrained Part 兩類結構。其中,Root Part 作為運動參考主體,負責建立整體空間坐標;而其余可運動部件,則不再被獨立回歸完整 6D 位姿,而是通過關節參數與運動狀態進行約束恢復。



這一設計帶來了一個關鍵變化:

模型不再直接學習「每個部件在哪里」,而是開始學習「部件為什么會這樣運動」。

在具體實現上,CAPER++ 首先預測 Root Part 的位姿,并將輸入點云變換到規范化關節空間(Canonicalized Articulation Space)。隨后,網絡進一步估計關節軸、旋轉中心以及關節狀態等運動學參數,并結合運動約束恢復其余部件姿態。

相比傳統獨立預測方式,這種關節中心建模不僅顯著提升了結構一致性,還使模型在遮擋、快速運動以及復雜關節配置下保持更強魯棒性。

為什么傳統旋轉回歸總「不穩定」?

CAPER++ 把位姿學習搬進了 SE (3) 流形

在關節物體位姿估計中,真正困難的部分,往往不是「看見物體」,而是「如何正確描述運動」。尤其是旋轉。

長期以來,大量位姿估計方法都默認在歐式空間(Euclidean Space)中直接回歸旋轉參數,例如 Euler Angle、Quaternion 或 Rotation Matrix。這樣的方式雖然簡單,但始終存在一個核心問題:

旋轉本身,其實并不屬于普通歐式空間。

例如歐拉角存在萬向節鎖(Gimbal Lock)問題;四元數雖然連續,卻需要額外歸一化約束;而旋轉矩陣則天然受到正交約束限制。這意味著,網絡雖然是在「學習旋轉」,但優化過程卻始終運行在一個并不匹配的空間中。

這種幾何不一致,會直接導致訓練不穩定、優化困難以及姿態抖動等問題。尤其在關節物體場景下,由于多個部件之間存在復雜運動耦合,誤差還會進一步累積放大。

CAPER++ 則嘗試從更底層的幾何結構重新思考這一問題。



論文首次將關節物體位姿學習過程從傳統歐式空間拓展至 SE (3) 流形切空間(Tangent Space),并基于 Lie Algebra 對位姿增量進行建模。

這一設計的核心思想在于:

既然剛體運動天然屬于 SE (3) 群,那么位姿學習過程本身,也應該在符合其幾何結構的空間中完成。

具體而言,CAPER++ 不再直接回歸最終旋轉結果,而是學習位姿在 Lie Algebra 空間中的增量表達,再通過指數映射恢復真實 SE (3) 位姿。相比傳統直接回歸方式,這種方法能夠更自然地保持旋轉連續性與幾何一致性。

更重要的是,這種建模方式對于關節物體尤為關鍵。

因為不同部件之間的相對運動,本質上就是定義在 SE (3) 空間中的局部變換關系。通過在流形空間中進行統一優化,CAPER++ 能夠更加穩定地建模復雜關節運動鏈,并有效降低長期預測漂移。

實驗結果表明,該設計不僅顯著提升了位姿估計穩定性,同時也增強了模型在復雜動態場景下的魯棒性。

為什么位姿追蹤總會「越跟越飄」?

CAPER++ 把長期追蹤變成了局部增量學習

在真實機器人場景中,位姿估計往往并不是「一次性任務」。機器人需要持續觀察目標物體,并在連續視頻流中不斷更新其位姿狀態。無論是機械臂操作柜門,還是服務機器人拉開抽屜,系統都必須在動態過程中穩定追蹤關節物體的運動變化。

然而,長期位姿追蹤一直存在一個非常棘手的問題:

誤差會不斷累積。

傳統追蹤方法通常直接以前一幀預測結果作為下一幀輸入,并持續遞推更新。短時間內這種方式或許有效,但隨著時間推移,微小誤差會逐漸放大,最終導致明顯漂移、姿態抖動甚至跟蹤失敗。對于關節物體而言,這一問題會更加嚴重。

因為關節物體不僅包含整體運動,還伴隨著多個部件之間的局部運動變化。當遮擋、快速運動或觀測殘缺出現時,系統很容易逐漸偏離真實運動軌跡。

CAPER++ 則從另一個角度重新思考了位姿追蹤問題。

論文提出,與其讓模型直接學習「長期運動」,不如將連續追蹤拆解為大量「短距離局部增量」。

基于這一思想,CAPER++ 設計了 Proxy Canonicalization 與動態關鍵幀(Dynamic Keyframe)機制,將長時序位姿追蹤轉化為相鄰幀之間的局部增量學習問題。



具體而言,系統會動態選擇關鍵幀作為參考坐標,并將當前觀測規范化到局部代理空間(Proxy Canonical Space)中。在這一空間下,模型無需處理復雜的大范圍運動變化,而只需要學習相鄰幀之間更加穩定的小幅位姿增量。

這一設計帶來了一個重要優勢:

復雜的全局運動,被轉化成了更加容易學習的局部連續運動。

與此同時,動態關鍵幀機制還能周期性重置參考狀態,有效抑制長期誤差傳播,從根源上降低漂移問題。實驗結果表明,即使在快速運動、嚴重遮擋以及長時序動態場景下,CAPER++ 依然能夠保持穩定、連續且高精度的位姿追蹤能力。

實驗結果

對于關節物體位姿感知而言,「高精度」并不意味著真正可用。在真實機器人場景中,一個方法不僅需要預測準確,還必須能夠在遮擋、快速運動以及殘缺觀測下保持穩定,并滿足實時推理需求。這也是為什么,許多實驗室中的高精度方法,最終難以真正部署到真實系統中的核心原因。

CAPER++ 的實驗部分,恰恰重點驗證了這一點。論文分別在合成數據集、半真實場景以及真實世界數據集上進行了大規模評估,覆蓋多類別、多關節結構以及復雜動態場景。實驗結果表明,CAPER++ 在位姿估計與位姿追蹤任務中均取得了當前最優性能。



尤其值得關注的是,在復雜遮擋與運動干擾場景下,CAPER++ 依然能夠保持穩定預測。相比傳統 Part-wise 方法,其預測結果不僅精度更高,而且關節結構更加符合真實物理運動規律,顯著降低了部件漂移與結構錯位問題。

除了定量結果,論文中的可視化結果同樣非常直觀。



在多個動態序列中,CAPER++ 能夠持續穩定地跟蹤關節物體運動狀態,即使面對快速旋轉、局部遮擋以及殘缺點云輸入,依然能夠保持連續且平滑的位姿預測。而部分傳統方法則會逐漸出現關節偏移、結構斷裂甚至整體跟蹤失敗。

更重要的是,CAPER++ 并沒有為了精度犧牲實時性。得益于 Joint-Centric 層次化建模與增量式追蹤機制,CAPER++ 在無需復雜后處理與優化求解的情況下,實現了約 50 FPS 的實時推理速度。這意味著,該方法不僅能夠「看得準」,還能真正滿足機器人在線交互與動態操作需求。

某種意義上,CAPER++ 真正解決的,并不僅僅是「位姿估計」本身,而是讓關節物體位姿感知第一次同時具備了「精度」「魯棒性」與「實時性」三項長期難以兼顧的能力。

結語

長期以來,關節物體位姿感知始終面臨一個核心矛盾:高精度方法往往依賴復雜優化,難以滿足實時需求;而強調效率的方法,又容易在復雜動態場景下出現結構不穩定與長期漂移問題。

這也是為什么,盡管近年來相關研究不斷發展,但真正能夠部署到真實機器人系統中的方法仍然有限。

CAPER++ 的意義,恰恰在于嘗試進一步縮小「實驗室方法」與「真實場景需求」之間的距離。

論文不僅在多個數據集上實現了穩定、準確且實時的關節物體位姿感知能力,也進一步說明:對于復雜運動結構的理解,僅依賴局部幾何信息往往是不夠的,運動約束、結構一致性以及時序連續性,同樣是機器人感知系統中不可忽視的重要部分。

隨著具身智能、機器人操作以及動態場景交互持續發展,這類兼顧魯棒性、實時性與物理一致性的感知框架,未來有望在家庭機器人、工業自動化以及復雜人機交互等場景中發揮更實際的價值。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
大陸再出手,金門告急,馬英九表態,新黨主席:戰事起金門將獨立

大陸再出手,金門告急,馬英九表態,新黨主席:戰事起金門將獨立

涼州辭
2026-05-26 12:20:03
他當選安徽一縣縣長!

他當選安徽一縣縣長!

鳳凰網安徽
2026-05-26 16:50:26
存款大局已定?不出意外,2026下半年銀行存款利率或有4大變化

存款大局已定?不出意外,2026下半年銀行存款利率或有4大變化

貓叔東山再起
2026-05-26 09:10:09
就今晚8點!樊振東決戰法國兄弟,央視破例直播

就今晚8點!樊振東決戰法國兄弟,央視破例直播

乒芯21st論壇
2026-05-26 07:00:12
越來越多年輕人查出腔隙性腦梗!4個習慣正在悄悄堵死你的大腦

越來越多年輕人查出腔隙性腦梗!4個習慣正在悄悄堵死你的大腦

孟大夫之家1
2026-05-26 18:21:18
五部爛得離譜、爽到飛起的科幻片

五部爛得離譜、爽到飛起的科幻片

我是一個養蝦人
2026-05-24 03:41:15
王晶沒說謊,58歲久居“日本農村”的鄭伊健,現狀印證了他的評價

王晶沒說謊,58歲久居“日本農村”的鄭伊健,現狀印證了他的評價

小蘭聊歷史
2026-05-25 07:41:20
小滿后,使勁吃這菜,一清熱解暑、二潤腸、三補鉀補鈣,別不懂吃

小滿后,使勁吃這菜,一清熱解暑、二潤腸、三補鉀補鈣,別不懂吃

阿龍美食記
2026-05-25 13:23:46
敲打徐巧芯?國民黨再不“止血”,只怕要被民進黨當提款機了!

敲打徐巧芯?國民黨再不“止血”,只怕要被民進黨當提款機了!

牛鍋巴小釩
2026-05-26 19:02:24
美若天仙!24歲國乒第一女神曬穿旗袍照:孫穎莎陪練又美又能打

美若天仙!24歲國乒第一女神曬穿旗袍照:孫穎莎陪練又美又能打

李喜林籃球絕殺
2026-05-26 18:03:46
小蜘蛛后悔了!拒絕頂薪續約,放棄核心待遇,加盟巴薩輔佐亞馬爾

小蜘蛛后悔了!拒絕頂薪續約,放棄核心待遇,加盟巴薩輔佐亞馬爾

夏侯看英超
2026-05-25 23:51:53
楊絳:真正有頭腦的女人,一輩子兩不管,越不管越好命

楊絳:真正有頭腦的女人,一輩子兩不管,越不管越好命

心理觀察局
2026-05-26 06:36:06
國際油價大跌逾6%

國際油價大跌逾6%

證券時報
2026-05-26 07:44:04
職業運動員究竟有多厲害?網友:在天賦面前,努力一文不值!

職業運動員究竟有多厲害?網友:在天賦面前,努力一文不值!

另子維愛讀史
2026-05-21 08:03:05
狗交配時屁股為什么會連在一起?是母狗不讓,還是公狗不想?

狗交配時屁股為什么會連在一起?是母狗不讓,還是公狗不想?

宇宙時空
2026-05-25 12:57:36
我畢業后娶了曾經的女老師,洞房夜她說:你果然沒讓我失望

我畢業后娶了曾經的女老師,洞房夜她說:你果然沒讓我失望

千秋文化
2026-05-21 20:18:04
饒穎:趙忠祥曾和我發生關系7年,他有特殊癖好,讓我身心受傷害

饒穎:趙忠祥曾和我發生關系7年,他有特殊癖好,讓我身心受傷害

妙知
2026-05-26 04:45:18
體育總局三記重拳,拳拳打在樊振東的痛點上:他不用再逃了

體育總局三記重拳,拳拳打在樊振東的痛點上:他不用再逃了

最愛乒乓球
2026-05-26 05:01:31
每瓶僅含0.01克,喝幾千瓶才抵一個桃!“飲料一哥”也翻車了?杭州多家超市在售,你可能也喝過

每瓶僅含0.01克,喝幾千瓶才抵一個桃!“飲料一哥”也翻車了?杭州多家超市在售,你可能也喝過

都市快報橙柿互動
2026-05-24 20:48:16
無緣歐冠后米蘭地震 官宣3大高管離任+58歲阿萊格里下課 新帥曝光

無緣歐冠后米蘭地震 官宣3大高管離任+58歲阿萊格里下課 新帥曝光

我愛英超
2026-05-26 06:28:17
2026-05-26 20:19:00
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
13087文章數 142653關注度
往期回顧 全部

科技要聞

中國AI要向外卷,而不只是做第二個OpenAI

頭條要聞

25歲海歸男戀上32歲離異女 因88.8萬彩禮鬧掰追討12萬

頭條要聞

25歲海歸男戀上32歲離異女 因88.8萬彩禮鬧掰追討12萬

體育要聞

上賽季差點降入英甲,下賽季要踢英超了

娛樂要聞

臺媒貼臉!S媽被問大S嗑藥當場沉默

財經要聞

中國鋁行業爆單 下一個“煤炭”大周期?

汽車要聞

涉水加強 福特烈馬亞馬遜限量版上市 售價39.98萬

態度原創

親子
教育
本地
藝術
軍事航空

親子要聞

英語啟蒙別再猶豫,別再糾結,來找悠悠聊聊

教育要聞

“女兒10塊錢都敢隨便花!”重男輕女家長被制裁:女兒直接撕標簽

本地新聞

用云錦的方式,打開江蘇南京

藝術要聞

中國之美,美到極致!

軍事要聞

美伊在阿巴斯港附近短暫交火 交戰過程披露

無障礙瀏覽 進入關懷版