大數據文摘受權轉載自頭部科技
文丨丁靈波
全身人形機器人遙操作技術允許人類遠程控制人形機器人,既可作為實時作業工具,也可作為可擴展的示范數據采集引擎,對于機器人行業來說不可或缺。
在廣泛的應用場景下,遙操作系統需要無縫融合幾組往往相互制約的能力:魯棒性、穩定性、動態靈活性與精確控制,目前仍是一項極具挑戰性的工作。
近日,來自 北理工、北大、北京通用人工智能研究院、香港大學、清華大學等10大機構的研發人員合作推出了OmniClone:一款魯棒全能的全身人形機器人遙操作系統。
![]()
據論文介紹,該系統在單塊消費級GPU上即可實現高保真、多技能控制,平均關節位置誤差(MPJPE)降低超過66%,計算資源消耗相較于同類方法低數個數量級。
此外,OmniClone與控制源無關,單一統一策略即可支持實時遙操作、生成運動回放以及視覺-語言-動作(VLA)模型,并能在體型差異極大的不同操作者間泛化。
通過將診斷式評估與實用工程相結合,OmniClone為可擴展的人形機器人遙操作與自主學習提供了更低成本、更易落地的基礎。
現有遙操作的弊端
近年來業內許多方法顯著拓展了人形機器人遙操作的能力范圍,但這些系統仍無法滿足實際部署所需的魯棒性與任務無關的通用性。
研究人員認為主要有兩方面因素:
在評估方面,現有方法往往只展示孤立、高復雜度的技能,且僅報告粗糙的總體指標,這些指標會混淆不同類型的運動模式。
這掩蓋了關鍵的細節差異,例如,一個策略在標準直立姿態下可以保持較低的跟蹤誤差,但在深蹲時卻可能出現明顯的不穩定。現有評估通過平均化處理掩蓋了這些失效模式,從而忽視了當前模型僅適用于窄域場景的問題,也忽視了實現實用化、泛化部署所必須解決的關鍵瓶頸。
![]()
在系統方面,當前遙操作系統的軟硬件配置高度異構,且與特定方法緊密耦合,阻礙了真實場景下的復現。
以動作捕捉為例,VR頭顯 、VICON系統等平臺采用的人體姿態估計算法是閉源專有的,對用戶而言往往不透明。
姿態估計尺度上看似微小的差異,在實際中會導致巨大的性能差距,再加上控制頻率、網絡延遲等因素,這些系統針對每一位新操作者、每一種不同動捕環境都需要繁瑣的標定,嚴重阻礙了可擴展部署。
經濟實惠,綜合性能SOTA水準
為了開發一套高效且低成本的解決方案,研究人員首先構建了OmniBench——首個面向人形機器人全身遙操作的綜合性診斷評估基準。
OmniBench在不同工作空間與技能需求下(從高動態敏捷運動,到穩定、精確的準靜態操作),按多個難度層級系統性評估策略性能,細粒度評估揭示了現有系統中普遍存在的技能失衡問題。
![]()
在基準診斷分析的指導下,該團隊提出OmniClone——一套魯棒且低成本的系統,可在各類實際場景中實現高保真人形機器人全身遙操作。
OmniClone采用基于Transformer的高容量全身跟蹤策略,并使用精心設計、均衡覆蓋多樣技能(從高動態敏捷運動到穩定操作)的數據方案進行訓練,從而解決了現有模型覆蓋范圍狹窄的問題。
除策略學習外,OmniClone還加入了系統級機制以應對現實環境中的擾動,包括與操作者無關的精細化運動重定向和魯棒的數據通信,以緩解網絡波動與延遲帶來的影響。
![]()
更重要的一點是,整套系統門檻極低:僅需30小時運動數據和單塊消費級GPU,計算資源需求遠低于同類方法(低數個數量級)。
OmniClone可在身高1.47米至1.94米的不同操作者之間可靠泛化,并作為與控制源無關的平臺,兼容實時遙操作、生成運動回放以及下游VLA模型。
研究人員開展了大量實驗,結果表明,OmniClone在OmniBench所有維度及真實場景測試中均顯著優于當前最優(SOTA)基線。
![]()
同時,研究人員基于OmniClone采集的數據訓練了一個VLA策略,在拾取放置與下蹲拾取放置任務上分別達到85.71%和80.00%的成功率,在小數據場景下實現高效的自主策略學習能力。
開啟具身智能“小數據高效學”模式
論文的一作Yixuan Li目前是北京理工大學計算機科學與技術學院的三年級博士生,隸屬于北京理工大學感知、交互與具身實驗室(PIE實驗室),同時在北京通用人工智能研究院(BIGAI)擔任研究實習生。
![]()
同等貢獻作者Le Ma是北京通用人工智能研究院(BIGAI)的高級研究工程師,擁有香港科技大學碩士學位和東南大學學士學位 ,此前曾在百度擔任算法工程師,研究方向包括具身人工智能、人形機器人和計算機視覺等。
![]()
另一名同等貢獻作者Yutang Lin是北京大學元培學院的大三學生,最近在BIGAI實習,研究興趣為機器人學、計算機視覺和強化學習的交叉領域。
![]()
展望未來,該團隊認為仍有諸多頗具前景的研究方向。
例如,通過擴展數據方案,在保持整體均衡性的同時,彌補在極端動態場景(如高跳)中尚存的性能差距,此外,為OmniBench增設標準化現實任務協議,可進一步增強其診斷價值。
最后,OmniClone與控制源無關的特性,為在真實世界中閉合生成式運動模型與長程自主執行之間的閉環提供了可能,讓具身智能從“靠大量數據硬訓”變成“靠高質量小數據高效學”。
GPU 訓練特惠!
H100/H200 GPU算力按秒計費,平均節省開支30%以上!
掃碼了解詳情?
點「贊」的人都變好看了哦!
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.