![]()
重塑具身智能頭手全模態(tài)數(shù)據(jù)采集新范式。
在虛擬Agent時(shí)代,模型依托文本、圖像與視頻數(shù)據(jù)實(shí)現(xiàn)跨越式發(fā)展,語言智能、視覺智能走向成熟。
但當(dāng) AI 真正進(jìn)入物理世界、要讓機(jī)器人像人一樣靈巧干活時(shí),需要在open-world場景、有交互的處理多樣類型的任務(wù)。
所以從更底層能力來看,具身智能需要的不只video/language層面,而是在真實(shí)生活中認(rèn)知、行動、產(chǎn)生交互,并根據(jù)物理反饋持續(xù)思考與迭代。
這就意味著具身智能需要學(xué)習(xí)的,不是一段視頻,而是在真實(shí)生活中、自然多樣的Human Data。
今天,簡智正式發(fā)布Gen DAS Dex(以下簡稱Dex)—— 實(shí)現(xiàn)人手全模態(tài)感知與行為的高精度重建,并與Ego 配合,革新“Human Data”數(shù)據(jù)范式,為具身智能提供覆蓋 “頭 + 手” 全場景、精細(xì)化、可直接訓(xùn)練的靈巧行為數(shù)據(jù)底座。
01
為什么今天的具身智能,
需要Dex這樣的“手”?
人類五指經(jīng)過數(shù)百萬年進(jìn)化,形成27 塊骨骼 + 34 塊肌肉 + 24 個(gè)自由度的精密結(jié)構(gòu),是面對復(fù)雜、多樣靈巧操作的“通用接口”;同時(shí)現(xiàn)實(shí)生活中大量五指操作,也為模型訓(xùn)練提供了豐富的樣本與實(shí)例。
那么如何將手的行為轉(zhuǎn)化為可被理解、訓(xùn)練的數(shù)據(jù),面臨的是多維度的疊加挑戰(zhàn):
1.高質(zhì)量、自由度的靈巧手?jǐn)?shù)據(jù)極度稀缺:多是視覺片段,缺少關(guān)節(jié)角度、且指尖空間精度停留在2-3cm,誤差大,有效數(shù)據(jù)供給遠(yuǎn)不及產(chǎn)業(yè)需求。
2.多模態(tài)無法兼?zhèn)洹R:視覺、動作、觸覺不完整、不同步,時(shí)序錯(cuò)位、空間不準(zhǔn), downstream 模型難以訓(xùn)練、無法泛化。
3.采集設(shè)備與自然動作沖突:笨重、遮擋、負(fù)重感強(qiáng),導(dǎo)致動作變形,數(shù)據(jù)失真,無法長期大規(guī)模采集。
4.頭和手獨(dú)立存在,而非形成“認(rèn)知+行為的閉環(huán)”:僅靠頭視角:看得見,卻摸不準(zhǔn),精細(xì)操作徹底失效,或者只有手摸得準(zhǔn),卻看不全,全局操作極易出錯(cuò)。這些無法構(gòu)成人行為的物理交互的時(shí)空閉環(huán)。
5.無法規(guī)模化,走出實(shí)驗(yàn)室:遙操、動捕等方式都需要巨大成本布置場地,無法進(jìn)入生活、進(jìn)入戶外。
![]()
因此過去的問題在于,上面多個(gè)維度是“trade-off”狀態(tài),而真正好用的數(shù)據(jù)需要被同時(shí)滿足,這也使得看似有“大量的數(shù)據(jù)、原始素材”,但實(shí)際不“好用”。
簡智 Dex 要解決的,正是這個(gè)斷層。
02
Gen DAS Dex 到底帶來了什么?
Dex 不只是一只 “數(shù)據(jù)手套”,而是一整套把人類雙手行為與感受,轉(zhuǎn)化為機(jī)器可理解、可訓(xùn)練、可泛化的采集終端。它與 Ego 協(xié)同,首次實(shí)現(xiàn) “頭 + 手” 全鏈路、全模態(tài)、高精度、低延遲的數(shù)據(jù)閉環(huán),輸出可直接喂給模型的結(jié)構(gòu)化數(shù)據(jù)。
1.全自由度覆蓋,逼近人手生理極限的靈巧還原
面向最復(fù)雜的精細(xì)操作,Dex 用仿生輕量化外骨骼,完整支持人手23個(gè)自由度檢測,接近人手生理全部自由度。無論是指尖捏取、指節(jié)彎曲、掌心開合還是手腕扭轉(zhuǎn),都能完整捕捉,讓機(jī)器第一次學(xué)到人類真實(shí)的 “手怎么動”。
2.行業(yè)頂級精度,為模型迭代筑牢真值根基
精度,決定數(shù)據(jù)用來訓(xùn)練的效率與價(jià)值。
? 自研磁編碼器實(shí)現(xiàn)0.02°關(guān)節(jié)角檢測,且外骨骼結(jié)構(gòu)使得在溫變與環(huán)境擾動下偏差極小,無需頻繁校準(zhǔn);
? 搭配高精度 IMU 與 Ego 紅外 + 視覺多重定位,最終達(dá)成mm級指尖定位。每一個(gè)微操作都有真值,讓模型訓(xùn)練告別 “模糊估計(jì)”。
3.行業(yè)最全單設(shè)備模態(tài),補(bǔ)齊觸覺 + 視覺雙核心
單一視覺永遠(yuǎn)學(xué)不會物理交互。Dex 做到真正多模態(tài)合一:
? 指尖搭載高精度磁觸覺傳感,靈敏度0.05N,空間分辨率1mm,清晰捕捉撫摸、抓取、按壓的物理反饋;
? 手背 / 手下方配置150°超廣視角攝像頭,與 Ego View 互補(bǔ),無死角記錄抓取全過程。視覺看 “怎么做”,觸覺懂 “用多大力”,數(shù)據(jù)價(jià)值直接翻倍。
![]()
4.頭手協(xié)同 1ms 超低延遲,多模態(tài)信息可靠對齊
具身智能最痛的,是 “頭看的” 和 “手做的” 對不上。解決這一問題,不能只通過云端“拼湊”與對齊,而是需要從硬件開始就著手解決,
Dex 通過 SUB?G 無線協(xié)同,統(tǒng)一控制相機(jī)快門、曝光、IMU采樣等全設(shè)備時(shí)鐘,實(shí)現(xiàn)多源數(shù)據(jù)亞毫秒級對齊。頭部視角、手部動作、觸覺信號完全同步,讓 “眼?手” 協(xié)同數(shù)據(jù)真正可訓(xùn)練、可復(fù)現(xiàn)。
5.無感穿戴設(shè)計(jì),讓采集像戴手套一樣自然
動作自然,數(shù)據(jù)才真實(shí)。
? 自研磁編碼器微型化至3mm,整機(jī)體積與普通滑雪手套相當(dāng);
? 合金 + 彈性聚合復(fù)合材質(zhì),重心優(yōu)化,整機(jī)僅210g;長時(shí)間佩戴、連續(xù)復(fù)雜操作、精準(zhǔn)抓取都無負(fù)擔(dān),徹底避免 “為采集而演戲”。
6.全場景規(guī)模化采集,本地端壓縮/質(zhì)檢,讓效率提升兩個(gè)數(shù)量級
Dex 從設(shè)計(jì)之初就為量產(chǎn)數(shù)據(jù)而生:
? 結(jié)構(gòu)自適應(yīng),適配不同手型;
? Ego+Dex 穿戴即采,無需基站、無需場端設(shè)備;
? 語音交互控制,單次續(xù)航超3小時(shí);
? 自動流式無線傳輸,3分鐘完成采集?上傳全鏈路,數(shù)據(jù)采集效率提升 100 倍。讓大規(guī)模、低成本、全天候、真實(shí)場景的數(shù)據(jù)生產(chǎn)成為可能。
![]()
03
看視頻的AI”,到會動手的物理智能
如果說互聯(lián)網(wǎng)數(shù)據(jù)成就了語言與視覺大模型,那么人類真實(shí)物理交互的數(shù)據(jù),將成就具身智能。
Dex 的意義,遠(yuǎn)不止一款硬件:
? 它第一次用單設(shè)備實(shí)現(xiàn)手部全自由度+高精度+觸覺+視覺+頭手同步的一體化采集;
? 它把 “經(jīng)驗(yàn)采集” 從實(shí)驗(yàn)室搬到日常場景,讓數(shù)據(jù)可規(guī)模化、可標(biāo)準(zhǔn)化、可互通復(fù)用;
? 它與 Ego 協(xié)同,共同定義Human Centric數(shù)據(jù)新范式,為具身世界模型提供最核心的 “頭 + 手” 行為數(shù)據(jù)源泉。
![]()
過去,機(jī)器人靠編程與仿真模仿動作;未來,機(jī)器人將通過 Dex 學(xué)習(xí)億萬次人類真實(shí)操作,真正理解物理世界。
簡智 Dex 的發(fā)布,是具身智能數(shù)據(jù)基建的關(guān)鍵一步。我們不再滿足于讓機(jī)器人 “動起來”,而是要讓機(jī)器人學(xué)得會、做得穩(wěn)、用得自然。
以Dex 為采集入口,以全模態(tài)高精度數(shù)據(jù)為燃料,以頭手協(xié)同為骨架,一個(gè)可持續(xù)積累、持續(xù)迭代、持續(xù)泛化的物理智能時(shí)代,正在到來。
讓機(jī)器人,從學(xué)習(xí)人類的雙手開始。
![]()
未經(jīng)「AI科技評論」授權(quán),嚴(yán)禁以任何方式在網(wǎng)頁、論壇、社區(qū)進(jìn)行轉(zhuǎn)載!
公眾號轉(zhuǎn)載請先在「AI科技評論」后臺留言取得授權(quán),轉(zhuǎn)載時(shí)需標(biāo)注來源并插入本公眾號名片。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.