當(dāng)具身智能從概念走向落地,行業(yè)討論的焦點,早已從“如何采集數(shù)據(jù)”轉(zhuǎn)向“哪種數(shù)據(jù)范式更優(yōu)”。UMI和Ego的路線之爭,一度讓行業(yè)陷入非此即彼的對立認(rèn)知:UMI作為傳統(tǒng)數(shù)據(jù)采集方案,相較于被熱捧的Ego路線,難免被部分觀點認(rèn)為迭代節(jié)奏偏緩,未能及時跟上新興需求,Ego則被捧為未來終局。但編解碼(杭州)機器人科技有限公司推出的Project Decode數(shù)采方案,用產(chǎn)品給出了不同答案——UMI并未過時,Ego也絕非終局,UMI+Ego+靈巧手+觸覺+全身動捕才是具身智能落地的標(biāo)準(zhǔn)答案,而要真正理解這種融合的價值,需要先看清數(shù)據(jù)采集的三層金字塔結(jié)構(gòu)。
UMI和Ego:各有局限,也各有價值
UMI(Universal Manipulation Interface)作為無本體數(shù)據(jù)采集的經(jīng)典方案,核心優(yōu)勢在于精準(zhǔn)捕捉操作細(xì)節(jié)。它通過輕量化末端設(shè)備,記錄手部動作、操作軌跡與動作對齊信息,是訓(xùn)練機器人精細(xì)操作能力的核心數(shù)據(jù)來源。但UMI的局限同樣明顯:視角局限于手部,缺乏全局環(huán)境信息,難以支撐機器人理解空間布局、場景上下文與環(huán)境交互邏輯
·空間布局物體擺放位置、遠(yuǎn)近高低、前后左右的空間位置關(guān)系,比如杯子放在桌子哪個方位、物件之間間距。
·場景上下文當(dāng)下所處環(huán)境整體樣貌、場景用途、周遭物品全貌,比如這是廚房還是桌面操作臺,整體有哪些物件。
·環(huán)境交互邏輯物體之間、手和物件、物件和環(huán)境的聯(lián)動規(guī)律,比如開門要拉把手、倒水對準(zhǔn)杯口、觸碰物件會產(chǎn)生對應(yīng)的動作反饋。
![]()
Ego(Egocentric)數(shù)據(jù)則以第一視角感知全局環(huán)境為核心。通過頭戴式設(shè)備,Ego可記錄完整的空間關(guān)系、環(huán)境布局與任務(wù)上下文,彌補UMI在環(huán)境理解上的短板。但純Ego方案也有不足:側(cè)重全局感知,難以精準(zhǔn)捕捉手部操作的細(xì)微動作,且數(shù)據(jù)采集成本與場景適配性,遠(yuǎn)不及UMI靈活。 簡單來說,Ego負(fù)責(zé)‘看世界’,提供環(huán)境語義和空間上下文;UMI則負(fù)責(zé)‘把操作動作做干凈’,專注于操作細(xì)節(jié)。但僅有這兩層還不夠,精細(xì)的接觸任務(wù)需要第三層——靈巧手與觸覺技術(shù)來補齊。
![]()
編解碼方案:UMI+Ego+靈巧手+觸覺+全身動捕
![]()
![]()
![]()
事實上,具身數(shù)據(jù)采集的核心邏輯是一套完整的“數(shù)據(jù)金字塔”,三層結(jié)構(gòu)相輔相成、缺一不可:第一層是Ego,負(fù)責(zé)“看世界”,提供最上層的環(huán)境語義和空間上下文,讓機器人感知所處場景;第二層是靈巧手與觸覺技術(shù),負(fù)責(zé)“補齊高難度接觸細(xì)節(jié)”,作為高價值補充,應(yīng)對精細(xì)、復(fù)雜的接觸類任務(wù),五指完整采集:可遷移到兩指/三指夾爪,第三層是全身動作捕捉與模型交互,同時保留環(huán)境、動作、接觸和結(jié)果的閉環(huán)數(shù)據(jù)這三層結(jié)構(gòu),共同構(gòu)成了具身數(shù)據(jù)采集的完整體系,打破了單一模態(tài)的局限。
![]()
行業(yè)觀點也逐漸趨于統(tǒng)一:真實世界沒有單模態(tài)答案,真正有價值的數(shù)據(jù),是同時保留環(huán)境、動作、接觸和結(jié)果的閉環(huán)數(shù)據(jù)。UMI負(fù)責(zé)“低頭干活”的操作細(xì)節(jié),Ego負(fù)責(zé)“抬頭看世界”的空間上下文,加上靈巧手和觸覺、全身動捕融合多種結(jié)合,才能讓機器人既懂操作,又懂環(huán)境。
結(jié)語:務(wù)實落地,而非追求終局
具身智能的終極形態(tài)仍在探索之中,現(xiàn)階段不必急于定義“終局”,更應(yīng)關(guān)注如何讓技術(shù)活下去、用起來。編解碼的核心價值,正是跳出路線博弈,以工程化思維補齊行業(yè)最缺的空間上下文能力,讓數(shù)據(jù)采集更高效、更完整、更貼近真實需求。編解碼通過“全家桶”產(chǎn)品矩陣,搭配全球首個具身全要素數(shù)據(jù),打破數(shù)據(jù)孤島、降低采集成本,已啟動百萬小時數(shù)據(jù)采集計劃,規(guī)模化開采高質(zhì)量“物理石油”。
我們重新認(rèn)知具身數(shù)據(jù):這兩年行業(yè)總陷入“某類數(shù)據(jù)最強”的陷阱,但2026年已然清晰——真實世界沒有單模態(tài)答案,閉環(huán)數(shù)據(jù)才是關(guān)鍵,誰能融合環(huán)境、動作、接觸、結(jié)果,誰就更接近物理AI。正如行業(yè)共識:大多數(shù)“or”問題,最終會走向協(xié)同互補的“and”。編解碼(杭州)機器人科技有限公司的實踐證明,UMI+Ego+靈巧手+觸覺+全身動捕的融合,是具身智能規(guī)模化落地的核心路徑。唯有這種務(wù)實布局,才能加速具身智能走進(jìn)千家萬戶。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.