01
寫在前面
我們建設了一座跨本體全身運動數(shù)據(jù)工廠(Cross-Embodiment Whole-Body Motion Data Factory),打通了從動作設計、同步采集、跨本體重定向、數(shù)據(jù)增強到訓練反饋的完整鏈路。數(shù)據(jù)工廠作為一座持續(xù)運轉(zhuǎn)的基礎設施,能夠為人形機器人操作系統(tǒng)提供數(shù)據(jù)燃料,讓系統(tǒng)里的全身運動模型不斷獲得跨本體、可訓練、可復用的數(shù)據(jù)資產(chǎn)。
模型能力的提升正在越來越明顯地受到數(shù)據(jù)制約。數(shù)據(jù)規(guī)模不夠,模型很難覆蓋足夠多的動作;數(shù)據(jù)質(zhì)量不穩(wěn),模型會學到錯誤的接觸關(guān)系和身體協(xié)調(diào)方式;數(shù)據(jù)不能跨本體復用,機器人硬件一換,很多訓練資產(chǎn)就要重新生產(chǎn)。
對通用全身運動模型來說,數(shù)據(jù)已經(jīng)不只是訓練材料,而是決定能力邊界的重要資產(chǎn)。
基于這次試點和過去兩年在多種足式機器人上的工程實踐,我們正在把數(shù)據(jù)工廠從內(nèi)部驗證推向正式規(guī)模化建設。它要解決的是如何持續(xù)規(guī)劃動作、同步采集多源信號、跨本體重定向、做物理驗證和數(shù)據(jù)增強,并把訓練結(jié)果反饋回下一輪生產(chǎn)。
這篇文章分享我們對運動控制數(shù)據(jù)工廠的階段性思考:什么是跨本體全身運動數(shù)據(jù),我們?yōu)槭裁匆獙iT為它建一座工廠,以及這座工廠內(nèi)部應該如何運轉(zhuǎn)。
02
從運動能力出發(fā)
我們需要什么數(shù)據(jù)
要回答“需要什么數(shù)據(jù)”,先要回答“我們想要什么運動能力”。
對通用全身運動模型來說,我們要的是一種能夠向上兼容多模態(tài)動作意圖、向下兼容不同本體硬件、安全可靠、并且可以在復雜環(huán)境中持續(xù)進化的運動能力。
這種能力對數(shù)據(jù)提出了更高的要求:模型需要的是能同時保留全身協(xié)同、任務意圖、接觸關(guān)系、環(huán)境上下文、物理可行性和跨本體復用價值的數(shù)據(jù)。
但現(xiàn)有的數(shù)據(jù)形態(tài),單獨看都很難自然滿足這些要求:
動捕數(shù)據(jù)可以準確、結(jié)構(gòu)化地記錄人體運動狀態(tài),但缺失環(huán)境信息以及人和環(huán)境之間的精確交互;
遙操作數(shù)據(jù)嚴格綁定特定機器人本體,硬件一換,復用價值就會顯著下降;
第一人稱視頻集中在末端和物體交互,不能完整表達軀干、下肢、重心和接觸之間的全身協(xié)調(diào)關(guān)系;
第三人稱視頻雖然能看到整體動作,但難以從中提取出準確合理的人體動作。這些數(shù)據(jù)各自都有價值,但單獨都不足以支撐通用全身運動模型需要的數(shù)據(jù)閉環(huán)。
基于這個判斷,我們把真正面向通用全身運動模型訓練的數(shù)據(jù)資產(chǎn),定義為跨本體全身運動數(shù)據(jù)(Cross-Embodiment Whole-Body Motion Data,CWM),要求 CWM 至少同時滿足以下四個性質(zhì):
跨本體可重定向性(Cross-embodiment retargetability)
同一段動作必須能夠通過統(tǒng)一的處理管線,在連桿長度、關(guān)節(jié)配置、質(zhì)量分布和驅(qū)動能力差異顯著的多種目標本體上,產(chǎn)出物理自洽的訓練樣本。這意味著原始數(shù)據(jù)本身需要帶有足夠的拓撲與運動學信息,以支持對不同本體的統(tǒng)一構(gòu)型映射,而不是綁死在某一臺機器人的關(guān)節(jié)空間里。機器人硬件會持續(xù)迭代,如果數(shù)據(jù)只服務某一代本體,它就會跟著這一代硬件一起折舊;CWM 把數(shù)據(jù)價值綁定在人類全身運動語義和可遷移規(guī)律上,讓一份數(shù)據(jù)能在多代硬件上反復結(jié)算。
全身覆蓋性(Whole-body coverage)
數(shù)據(jù)必須完整表達軀干、四肢、手部、手指以及它們之間的協(xié)同關(guān)系,而不能只保留上半身末端軌跡或下半身步態(tài)。真實任務往往不是局部動作的簡單拼接,例如“蹲下?lián)煳铩稹D(zhuǎn)身行走”,同時涉及下肢支撐、重心轉(zhuǎn)移、軀干姿態(tài)、手臂伸展、手指抓握和接觸切換。只有把這些身體部位的耦合關(guān)系作為一個整體記錄下來,模型才能學習移動、操作和姿態(tài)變化之間的協(xié)同規(guī)律。
物理可行性(Physical feasibility)
一條合格的數(shù)據(jù),不只是運動學平滑合理,還需在目標本體上的動力學具備物理可行性,不能出現(xiàn)浮空、穿透、滑移、失穩(wěn)、力矩超限等問題,這是 CWM 資產(chǎn)從候選軌跡升級為訓練樣本的硬門檻。
多模態(tài)性(Multi-source augmentability)
CWM 數(shù)據(jù)在錄制階段就同步采集人體動作、語義標簽、第一人稱視頻、第三人稱視頻、環(huán)境資產(chǎn)和物體資產(chǎn),使動作帶有完整的身體、任務和場景上下文。隨后,我們會在仿真環(huán)境中回放并增強數(shù)據(jù),通過自定義攝像機位置、更換場景與物體材質(zhì)貼圖、采集全身接觸力和運動狀態(tài),將單次采集擴展為多視角、多場景、多物理狀態(tài)的訓練樣本。
滿足這四個性質(zhì)的 CWM 數(shù)據(jù),不是簡單的采集就能得到,這也是我們建設跨本體全身運動數(shù)據(jù)工廠的出發(fā)點。
03
為什么要建一座數(shù)據(jù)工廠
我們定義了什么是 CWM 數(shù)據(jù),但對模型訓練來說,僅有“正確”的數(shù)據(jù)并不足夠,數(shù)據(jù)規(guī)模同樣至關(guān)重要,這一點在大模型領(lǐng)域已成共識。
Generalist AI 的研究指出,VLA 模型同樣存在明確的數(shù)據(jù) scaling law;SONIC 也在人形機器人全身運動跟蹤上系統(tǒng)驗證了,運動數(shù)據(jù)量的擴大會帶來運動控制能力的顯著提升。對于全身運動控制來說,這意味著數(shù)據(jù)要覆蓋的不只是幾個標準動作,而是行走、轉(zhuǎn)身、下蹲、搬運、抓取、支撐、避障、恢復平衡、接觸切換等大量連續(xù)動作組合。
按我們內(nèi)部的判斷,要訓練出一個真正通用的全身運動模型,最終需要數(shù)十萬小時級別的高質(zhì)量 CWM 數(shù)據(jù);在這個量級面前,少量數(shù)據(jù)幾乎沒有長期訓練價值,真正有價值的是能夠不斷擴張的數(shù)據(jù)規(guī)模。
與此同時,數(shù)據(jù)的多樣性同樣重要,因為再多的走路數(shù)據(jù)也訓不出一個會后空翻的模型。全身運動數(shù)據(jù)的復雜性在于,它不只是“動作越多越好”,而是必須有正確的數(shù)據(jù)配方和嚴格的數(shù)據(jù)質(zhì)量控制。
模型需要看到足夠多的動作類別、接觸狀態(tài)、任務語義、環(huán)境變化和目標本體差異;同時,每條數(shù)據(jù)還必須經(jīng)過清洗、標注、重定向和物理驗證。否則,大規(guī)模數(shù)據(jù)很容易變成大規(guī)模噪聲。腳底滑移、身體穿透、浮空、失穩(wěn)、力矩超限等問題是直接拉低模型質(zhì)量的數(shù)據(jù)污染,它們會讓模型學習到錯誤的接觸關(guān)系、錯誤的身體協(xié)調(diào)方式和不可執(zhí)行的控制模式。
這條標準也意味著外部數(shù)據(jù)無法成為主力:公開動捕和網(wǎng)絡視頻可以作為補充,但在數(shù)量和質(zhì)量上都不足以支撐通用全身運動模型的訓練。
因此,CWM 數(shù)據(jù)生產(chǎn)必須被設計成一套工業(yè)化生產(chǎn)體系,而采集只是其中一環(huán)。一段動作從被設計出來,到能進入訓練集,還必須經(jīng)過質(zhì)檢、跨本體重定向、動力學與仿真增強、語義標注,以及來自模型訓練側(cè)的反饋閉環(huán)。
這條產(chǎn)線需要同時定義數(shù)據(jù)配方、生產(chǎn)流程和質(zhì)量標準:哪些動作必須優(yōu)先覆蓋,哪些場景和接觸狀態(tài)最稀缺,哪些目標本體需要驗證,哪些樣本應該剔除,哪些數(shù)據(jù)在訓練中產(chǎn)生了最高收益,都需要被持續(xù)追蹤和反饋。數(shù)據(jù)規(guī)模越大,越不能依賴手工經(jīng)驗;模型目標越通用,越需要可復現(xiàn)、可審計、可迭代的生產(chǎn)流程。
這也是 CWM 數(shù)據(jù)工廠的核心價值:用穩(wěn)定的場地、設備、流水線、專業(yè)團隊和質(zhì)檢體系,把通用全身運動數(shù)據(jù)變成一種可持續(xù)生產(chǎn)能力。
專業(yè)動作設計人員負責定義動作譜系,采集團隊負責高質(zhì)量同步錄制,工程團隊負責清洗、格式化、重定向和仿真回放,算法團隊負責物理驗證、訓練反饋和數(shù)據(jù)篩選,質(zhì)檢團隊負責把不可用樣本擋在訓練集之外。
只有這樣的工廠級體系,才能持續(xù)產(chǎn)出足夠大、足夠準、足夠干凈,并且能隨模型訓練和機器人迭代不斷更新的 CWM 數(shù)據(jù)資產(chǎn)。
04
數(shù)據(jù)工廠不是“采集場地”
而是“基礎設施”
橋介數(shù)物跨本體全身運動數(shù)據(jù)工廠是一套圍繞 CWM 數(shù)據(jù)資產(chǎn)生產(chǎn)的全流程基礎設施。
它從動作設計開始,明確動作類別、接觸狀態(tài)和任務場景;在采集階段,同步獲取人體動作、視頻、接觸、環(huán)境和物體等多源數(shù)據(jù);隨后通過跨本體重定向、物理驗證和仿真增強,把原始素材轉(zhuǎn)化為可訓練樣本;最后,再用訓練反饋持續(xù)修正數(shù)據(jù)配方。
![]()
主動覆蓋:豐富運動多樣性
數(shù)據(jù)工廠第一件要回答的事是“采什么”。通用全身運動模型需要見到一套持續(xù)擴展、能夠覆蓋身體協(xié)同方式的運動空間。這套空間不能只是動作目錄的堆疊,而要沿幾條相互獨立的主線持續(xù)填充:
- 能力維度的橫向鋪開
采集計劃要按身體使用方式來組織,而不是按動作名稱湊數(shù)。移動、姿態(tài)轉(zhuǎn)換、肢體協(xié)同、接觸切換和物體操作這些基礎維度,是后續(xù)復雜能力的底盤。我們關(guān)心的是身體如何被調(diào)用、不同身體部位如何協(xié)同、重心和接觸如何變化,而不是某一個具體動作是否被采到。
- 復雜地形、多人交互與環(huán)境交互
這三類場景是基礎維度之外難度最高、最貼近真實部署的需求,但是又最容易被漏掉的場景,必須被顯式安排進采集計劃。復雜地形會改變支撐和落腳策略,多人交互會引入節(jié)奏對齊和空間協(xié)商,環(huán)境交互會讓身體運動與物體、接觸面和可達空間深度耦合。它們不能靠平地單人動作自然外推,必須被顯式安排進采集計劃。
- 下意識行為與自由發(fā)揮
劇本只能定義任務邊界,真實運動里還有大量沒有被寫下來的部分:個體動作習慣、臨場調(diào)整和應對意外的本能反應。專業(yè)動作設計人員會在錄制中給出意圖與約束,同時保留表演者按自身習慣完成動作的空間,讓數(shù)據(jù)既覆蓋任務目標,也保留真實身體差異。
- 動作恢復與失敗兜底
模型在真實環(huán)境里能不能被部署,很大程度上取決于失敗時能不能穩(wěn)住。因此動作恢復要單獨進入采集計劃,包括失衡后的再平衡、碰撞后的避障回縮、跌倒或非理想姿態(tài)下的起身恢復。這類樣本通常稀缺,但直接關(guān)系到模型的安全邊界。
采集多樣性同樣需要在源頭被顯式管理。采集人員與采集設備的多樣性會直接影響 CWM 數(shù)據(jù)的多樣性與豐富度:不同身形、年齡、性別、體態(tài)的表演者會帶來差異化的運動姿態(tài)、關(guān)節(jié)角度范圍和重心控制方式;不同采集設備(慣性動捕、光學動捕、電磁動捕)在精度、覆蓋范圍、佩戴約束和適用場景上的差異,本身也會成為數(shù)據(jù)的一種維度。只有讓人員和設備的多樣性都進入采集計劃,模型才不會只學到“某一類人在某一種設備下”的運動方式。
這些方向通過一份持續(xù)更新的運動覆蓋圖譜被組織和度量,記錄哪些組合已經(jīng)被覆蓋、哪些維度仍然稀疏、哪些樣本在跨本體遷移后反復失敗。
除了按圖譜主動覆蓋,數(shù)據(jù)工廠還會顯式接收來自模型訓練側(cè)的數(shù)據(jù)類型需求反饋:哪些動作類別在哪些本體上學得不穩(wěn)、哪些接觸狀態(tài)訓練收益最低、哪些樣本通過了質(zhì)檢卻沒有帶來實際增益,都會被翻譯成新的數(shù)據(jù)類型需求回寫到采集計劃,讓“采什么”持續(xù)被訓練結(jié)果校準。
為了把上面這些需求真正轉(zhuǎn)化成可執(zhí)行的采集任務,我們在工廠內(nèi)部建設了一個AI 原生的數(shù)據(jù)設計與錄制管理平臺,把動作需求、覆蓋圖譜、場景資產(chǎn)、錄制計劃、數(shù)據(jù)狀態(tài)和訓練反饋放進同一個系統(tǒng)里管理。
平臺的核心使用者是一組全職的專業(yè)動作設計人員,他們負責定義動作語義、拆解身體協(xié)同、判斷表演可執(zhí)行性,把全身交互、動作恢復、工具使用和場景任務轉(zhuǎn)化為可錄制的動作方案。
平臺借由內(nèi)置的 AI 能力,沿三件事輔助設計人員把動作方案做出來:
動作方案的生成與擴增上,平臺基于覆蓋圖譜缺口和訓練反饋起草動作描述、做語義級泛化,按速度、體型、節(jié)奏等維度衍生出大量變體;
方案的可視化呈現(xiàn)上,可以選擇使用AI直接通過文本描述或者動作關(guān)鍵幀生成動作示例,把抽象描述變成可演示的參考動作;
多樣性審閱與人員匹配上,平臺比對當前批次相對覆蓋圖譜的分布偏差,提示設計人員哪些維度被過度采集、哪些仍然稀疏,并按身形、年齡、性別和體態(tài),輔助設計人員把每條方案分配給最合適的表演者、采集設備。
這條工具鏈讓覆蓋圖譜、設計人員判斷和模型訓練反饋在同一個系統(tǒng)里閉環(huán),把“哪些動作已經(jīng)學穩(wěn)、哪些動作遷移失敗率高、哪些場景還缺覆蓋”持續(xù)轉(zhuǎn)化為可采、可查、可反饋的生產(chǎn)任務。
同步采集:多源信息同步對齊采集
CWM 的同步采集不是單純錄一段人體動作,而是要在同一段動作中同步回答四件事:運動意圖、身體運動方式、交互目標與環(huán)境。“全身”意味著移動、操作、姿態(tài)控制、接觸變化等子任務在同一段動作里同時成立,不能退化成軀干、手、腿軌跡的簡單拼接。這天然要求人體動作、視頻、語義、場景被同步記錄。按當前的采集規(guī)范,一條完整記錄會盡量同步以下四類信號,具體哪些可用取決于采集場景和目標本體。
- 人體動作(BVH)
跨本體重定向的主要參考信號,承載動作語義、身體協(xié)同、重心變化和姿態(tài)轉(zhuǎn)換。我們在錄制不同類型的動作時選用不同設備:
低動態(tài)動作和復雜地形下的運動適合慣性動捕,對場地、遮擋和地形不敏感;
高動態(tài)動作適合光學動捕或精度更高的光慣混合設備,能在快速運動下穩(wěn)住關(guān)節(jié)位置;
末端手部的精細動作(抓握、操作工具、按鍵、擰動)適合電磁動捕,能在小空間內(nèi)提供高精度位姿。
- 原始視頻
不直接進入重定向流程,但在數(shù)據(jù)工廠里是高價值的輔助信號:它支撐視頻動作補全與人體動作提取,讓海量互聯(lián)網(wǎng)視頻可以被納入訓練資產(chǎn),也為導航與操作預備視覺模態(tài);同時被用于訓練 SLAM、估計人與物體之間的接觸狀態(tài)。設備上以頭戴式相機與外部 RGB / RGB-D 相機并行采集,分別提供第一人稱和第三人稱視角。
- 場景交互資產(chǎn)
提供動作發(fā)生的環(huán)境與物體上下文,是把動作放進仿真環(huán)境的前置條件。
我們采集兩類:一類是地形與場景資產(chǎn)——房間結(jié)構(gòu)、地面起伏、固定家具,決定動作可達空間和接觸面;一類是可交互物體資產(chǎn)——被搬運、推拉、使用的物體,決定操作任務的目標幾何。
技術(shù)上以3D 高斯?jié)姙R + Mesh 提取做整體重建,對需要精確位姿的物體進一步使用光學 Marker 標記。資產(chǎn)進入仿真環(huán)境后支撐強化學習訓練和模型評估。
- 語義標簽
由專業(yè)動作設計人員、現(xiàn)場記錄員和 AI 標注系統(tǒng)協(xié)同生成,定義動作邊界、動作類別、場景和意圖,決定每條樣本如何進入訓練集,以及在訓練里如何被采樣、加權(quán)和評估。
之所以必須同步,是因為全身運動的價值不在某一個單獨模態(tài),而在不同模態(tài)之間的對應關(guān)系。同一個“蹲下?lián)煳铩眲幼鳎梭w BVH 只能說明身體姿態(tài)如何變化;視頻說明物體在哪里、手是否真的接觸;場景資產(chǎn)說明物體所在的環(huán)境和可交互面;語義標簽說明動作邊界和任務意圖。如果這些信號沒有對齊,我們就無法判斷手部軌跡對應的是哪一幀物體接觸,也無法判斷腳底受力是否對應當前姿態(tài),更無法驗證這段動作是否真的可以進入訓練集。
為此,數(shù)據(jù)工廠為所有采集設備建立統(tǒng)一的采集時鐘和時間戳體系:所有設備在采集前完成空間標定和時間校準,采集過程中由主控系統(tǒng)統(tǒng)一管理任務編號、動作編號、設備狀態(tài)和開始 / 結(jié)束信號;能夠硬件同步的設備優(yōu)先使用觸發(fā)信號、幀同步、時間碼或 PTP 等方式對齊,不能硬件同步的設備則在本地記錄高精度時間戳,并通過同步動作、標定事件或后處理算法做時間同步校正。
同步之后,每一條數(shù)據(jù)需要被整理成可以直接進入下游流水線的資產(chǎn),這部分工作同樣由前述錄制管理平臺完成。
平臺一邊做現(xiàn)場自動質(zhì)檢——檢查時間同步、標定、軌跡完整性、骨長穩(wěn)定、關(guān)鍵點異常和動作段邊界,AI 輔助檢查動作語義、表演一致性和明顯錄制異常;一邊做統(tǒng)一入庫——把同一段動作下的所有模態(tài)打包成統(tǒng)一數(shù)據(jù)包,綁定會話、設備狀態(tài)、標定版本、時間偏差、丟幀情況和質(zhì)檢結(jié)果,并以主時鐘為基準完成對齊、重采樣和切片,形成能夠直接進入重定向與訓練流水線的最小數(shù)據(jù)契約。
跨本體重定向:重定向到多構(gòu)型機器人
異構(gòu)性問題的核心解法是動作重定向(motion retargeting):把一段以人體或某一參考本體為坐標系的動作,轉(zhuǎn)化為目標機器人本體上的軌跡。到了工業(yè)化生產(chǎn)里,難點不再只是“能不能把一個動作轉(zhuǎn)到一臺機器人上”,而是能不能在大量動作和大量本體之間,持續(xù)、穩(wěn)定、低成本地完成這件事。
算法層面,我們自研的重定向引擎面向“任意動作 × 任意機型 × 任意地形”。輸入側(cè)覆蓋任意動作、上半身 / 下半身 / 全身,可以處理離線動捕文件、實時動捕流,也支持視頻動作等不同來源的動作信號;輸出側(cè)覆蓋結(jié)構(gòu)、關(guān)節(jié)配置、尺度和驅(qū)動能力差異顯著的足式、人形、上肢和復合構(gòu)型機器人,并能把平地、斜坡、樓梯、不平地面等地形約束納入統(tǒng)一求解,不需要為每條動作、每臺機器人或每類地形單獨寫一套專用解算邏輯。求解器以運動學求解和幾何約束為主干,把接觸狀態(tài)、支撐關(guān)系、空間約束、地形約束、關(guān)節(jié)限制和身體交互關(guān)系納入同一個求解過程,輸出語義一致、結(jié)構(gòu)可達、質(zhì)量穩(wěn)定的候選軌跡。
工程層面,它有三個直接服務于工廠化生產(chǎn)的優(yōu)勢。
第一,無需逐條調(diào)參、無需動作模版:跨本體能力來自一層統(tǒng)一本體抽象層——新機器人接入時,我們只依賴該機器人的 URDF 定義,算法就能在這層抽象上自動快速適配多種構(gòu)型,不需要為每條動作或每臺機器人寫專用解算邏輯,也不依賴逐條動作的人工微調(diào)。
第二,流式與離線雙模式:既能消化采集端實時進入的動作流,也能批量處理已有的動作庫;這一點讓重定向不再是“采完再處理”的離線工序,而可以做到邊采邊重定向——動作剛被記錄下來,目標本體上的候選軌跡就已經(jīng)可用,質(zhì)檢和后續(xù)動力學增強可以緊接著接入。流模式下,我們的重定向工具支持Noitom和Xsens等多種設備的輸出數(shù)據(jù)。
第三,跨平臺穩(wěn)定分發(fā):從工程站點、采集現(xiàn)場、訓練集群到目標機器人側(cè)都能以一致的形式部署和回放,讓動作流在生產(chǎn)鏈路上始終基于同一份算法實現(xiàn)。
產(chǎn)能層面,它已經(jīng)是工廠的主干生產(chǎn)服務。按當前統(tǒng)計口徑,這套重定向算法在單 CPU 核心上可以超過 1000 幀每秒,約為常規(guī)錄制幀率的十數(shù)倍;我們?yōu)檫@條路線準備了一個算力集群,讓它能持續(xù)消化采集端進入的動作流,并支撐同一段動作向多構(gòu)型機器人并行派發(fā)。落到生產(chǎn)口徑上,它把“每條動作都需要人工適配”的隱性成本,壓縮成新本體接入時的一次性工程標定,把“采集 → 重定向 → 候選訓練樣本”的鏈路時間從天級壓縮到接近實時。
數(shù)據(jù)增強:動力學、仿真與 AI 標注增強
跨本體重定向輸出的是高質(zhì)量候選軌跡,但候選軌跡還不是最終訓練資產(chǎn)。數(shù)據(jù)增強要做的是繼續(xù)把這些候選軌跡變成更可驗證、更可訓練、更容易被模型消費的數(shù)據(jù)。我們沿三條主線推進:動力學增強、仿真多樣性增強、語義標注。
動力學增強把最有價值、最困難、最需要物理一致性的樣本放進目標本體的動力學與接觸模型里,通過 RL 動力學后處理同時控制跟蹤誤差和物理違背,讓候選軌跡從“運動學上像”升級為“在目標本體上能跟蹤、不穿透、不超扭矩、不違反摩擦錐”。被判定不可行的樣本會帶著具體失敗原因進入質(zhì)量反饋,而不是被直接丟掉。
仿真多樣性增強則把同一段動作放進不同的虛擬環(huán)境里反復執(zhí)行,讓 CWM 資產(chǎn)的覆蓋密度成倍放大。
一方面補齊缺失模態(tài):通過物理仿真和渲染管線,給原本只采到動作和視頻的樣本補出力學信號、深度圖、語義分割、多視角圖像等本來沒有采到的模態(tài);
另一方面擴增視覺與場景多樣性:替換物體和環(huán)境的貼圖資產(chǎn)、調(diào)整材質(zhì)和光照、變換房間布局、引入新的交互對象和初始狀態(tài)、施加不同方向和強度的外力擾動。同一段動作可以在多個目標本體、多套場景、多種光照和多組擾動條件下派生出大量新樣本,讓模型見到的不是“做這個動作的一種方式”,而是“做這個動作的一個分布”。
語義標注讓數(shù)據(jù)成為能被訓練流水線檢索、加權(quán)、篩選和復用的資產(chǎn)。AI 標注系統(tǒng)輔助生成動作切片、動作類別、接觸狀態(tài)、場景對象、任務語義、失敗原因和能力維度等標簽,專業(yè)動作設計人員負責復核語義邊界和關(guān)鍵樣本,把標注產(chǎn)出收斂到可用于訓練采樣和評估分桶的標準格式。
三類增強共用同一套版本與來源記錄:每一條增強后的樣本都會標記它來自哪條原始動作、經(jīng)過哪個目標本體、哪一次動力學后處理、哪一輪仿真擴增、哪個標注版本,以及是否通過物理驗證。這樣訓練系統(tǒng)能在不同版本之間安全地復用、對照和回滾增強樣本,質(zhì)量反饋也能在出問題時把責任定位到具體的增強環(huán)節(jié)。
質(zhì)量反饋:讓模型訓練結(jié)果回到生產(chǎn)系統(tǒng)
傳統(tǒng)動捕質(zhì)檢多看軌跡是否干凈;CWM 數(shù)據(jù)工廠的質(zhì)量管理則要走兩步:先沿生產(chǎn)鏈路做分層把關(guān),再用模型訓練的結(jié)果做閉環(huán)反饋。
第一步是分層把關(guān)。一條樣本從動作需求走到訓練集,要順序通過四道獨立的質(zhì)檢,四層把關(guān)共同把一條候選樣本篩成可入訓練集的資產(chǎn),但真正能不能訓練出通用全身運動能力,最終只能由模型告訴我們。
- 設計層
動作需求是否真的對齊能力缺口、是否覆蓋運動覆蓋圖譜里仍然稀疏的格子、是否能落到現(xiàn)場可執(zhí)行的動作方案上。這一層把控“該不該采”。
- 原始數(shù)據(jù)層
表演者是否完整表達了設計意圖,采集是否同步、標定是否到位,是否存在丟幀 / 漂移 / 關(guān)鍵點異常 / 骨長不穩(wěn)等基礎錄制問題。這一層把控“采得對不對”。
- 重定向數(shù)據(jù)層
候選軌跡在目標本體上是否結(jié)構(gòu)可達、關(guān)節(jié)是否越限、接觸關(guān)系是否成立、動作語義在重定向后是否仍然成立。這一層把控“換到目標本體上是否還成立”。
- 增強數(shù)據(jù)層
動力學后處理后是否仍然可跟蹤、不穿透、不超扭矩、不違反摩擦錐;仿真擴增和語義標注是否帶上正確的版本與來源記錄。這一層把控“放進訓練集是否真的有效”。
第二步是結(jié)果閉環(huán)。訓練側(cè)會把每一次模型評估結(jié)果,例如哪些動作類別在哪些本體上學穩(wěn)了、哪些遷移失敗、哪些接觸狀態(tài)訓練收益最低、哪些樣本通過了四層把關(guān)卻沒有帶來實際增益,匯總成一份可回寫的失敗畫像:在哪個本體、哪個動作類別、哪個接觸狀態(tài)、哪個訓練版本下出問題,問題歸因到設計、原始采集、重定向還是增強環(huán)節(jié)。
失敗畫像會被直接寫回到上游每一層:設計層據(jù)此調(diào)整運動覆蓋圖譜的優(yōu)先級和錄制計劃;原始數(shù)據(jù)層據(jù)此調(diào)整采集規(guī)范、同步策略和現(xiàn)場質(zhì)檢閾值;重定向?qū)訐?jù)此迭代算法能力;增強層據(jù)此調(diào)整動力學后處理強度、仿真多樣性配置和標注口徑。
兩步合在一起,數(shù)據(jù)工廠就形成了持續(xù)迭代閉環(huán)。它在實際運行中是雙線推進:一條線是基于長期判斷的主動覆蓋,按運動覆蓋圖譜不斷擴展人類全身運動庫;另一條線是模型訓練側(cè)的反饋補洞,按失敗畫像回填上游每一層。每跑一輪,數(shù)據(jù)資產(chǎn)的質(zhì)量、跨本體覆蓋密度和訓練收益都會同時往上抬一點:越跑越準、越跑越快,是 CWM 數(shù)據(jù)工廠隨時間復利的核心來源。
![]()
05
我們數(shù)據(jù)工廠的現(xiàn)狀和未來
過去三個月,我們在內(nèi)部試點中跑通了跨本體全身運動數(shù)據(jù)工廠的端到端鏈路。這一階段的目標不是追求最大產(chǎn)能,而是把整套生產(chǎn)系統(tǒng)真正運行起來:動作設計能否被系統(tǒng)化管理、多源采集能否穩(wěn)定對齊、重定向能否快速適配新本體、增強和質(zhì)檢能否把候選軌跡變成可訓練資產(chǎn)、訓練反饋能否回到下一輪生產(chǎn)。
沿著這條鏈路,我們累計產(chǎn)出了近千小時高質(zhì)量 CWM 數(shù)據(jù);用這批數(shù)據(jù)訓出的全身運動模型,最終在十多款結(jié)構(gòu)、驅(qū)動性能、質(zhì)量分布和慣量分布差異顯著的足式機器人上完成了關(guān)鍵驗證。
現(xiàn)在,這套方案已經(jīng)完成內(nèi)部可行性驗證,數(shù)據(jù)工廠也即將完成正式建設。下一階段的重點,是從試點驗證轉(zhuǎn)向規(guī)模化生產(chǎn)——把場地、采集棚、動捕設備、動作設計團隊、表演者編制和算法 / 仿真 / 訓練算力集群同時擴容,讓前面跑通的產(chǎn)線在更大規(guī)模上穩(wěn)定運轉(zhuǎn)。
我們的目標是在新工廠落地后,形成每月數(shù)千小時級、面向多構(gòu)型機器人的高質(zhì)量 CWM 數(shù)據(jù)產(chǎn)出能力,并沿“數(shù)千小時 → 數(shù)萬小時”分階段爬升;在這一過程中,數(shù)據(jù)質(zhì)量、跨本體復用率和訓練增益會作為同一套生產(chǎn)標準被持續(xù)考核,讓每一批新數(shù)據(jù)都能回答它在多少種本體上能跑通、在哪些動作類別上貢獻了真實訓練收益,而不只是“采到了多少小時”。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.