橋介數(shù)物跨本體全身運動數(shù)據(jù)工廠通用全身運動模型的數(shù)據(jù)基礎設施

2026-05-22 17:44:50　來源: 克機技速

廣東舉報

分享至

寫在前面

我們建設了一座跨本體全身運動數(shù)據(jù)工廠（Cross-Embodiment Whole-Body Motion Data Factory），打通了從動作設計、同步采集、跨本體重定向、數(shù)據(jù)增強到訓練反饋的完整鏈路。數(shù)據(jù)工廠作為一座持續(xù)運轉(zhuǎn)的基礎設施，能夠為人形機器人操作系統(tǒng)提供數(shù)據(jù)燃料，讓系統(tǒng)里的全身運動模型不斷獲得跨本體、可訓練、可復用的數(shù)據(jù)資產(chǎn)。

模型能力的提升正在越來越明顯地受到數(shù)據(jù)制約。數(shù)據(jù)規(guī)模不夠，模型很難覆蓋足夠多的動作；數(shù)據(jù)質(zhì)量不穩(wěn)，模型會學到錯誤的接觸關(guān)系和身體協(xié)調(diào)方式；數(shù)據(jù)不能跨本體復用，機器人硬件一換，很多訓練資產(chǎn)就要重新生產(chǎn)。

對通用全身運動模型來說，數(shù)據(jù)已經(jīng)不只是訓練材料，而是決定能力邊界的重要資產(chǎn)。

基于這次試點和過去兩年在多種足式機器人上的工程實踐，我們正在把數(shù)據(jù)工廠從內(nèi)部驗證推向正式規(guī)模化建設。它要解決的是如何持續(xù)規(guī)劃動作、同步采集多源信號、跨本體重定向、做物理驗證和數(shù)據(jù)增強，并把訓練結(jié)果反饋回下一輪生產(chǎn)。

這篇文章分享我們對運動控制數(shù)據(jù)工廠的階段性思考：什么是跨本體全身運動數(shù)據(jù)，我們?yōu)槭裁匆獙ｉT為它建一座工廠，以及這座工廠內(nèi)部應該如何運轉(zhuǎn)。

從運動能力出發(fā)

我們需要什么數(shù)據(jù)

要回答“需要什么數(shù)據(jù)”，先要回答“我們想要什么運動能力”。

對通用全身運動模型來說，我們要的是一種能夠向上兼容多模態(tài)動作意圖、向下兼容不同本體硬件、安全可靠、并且可以在復雜環(huán)境中持續(xù)進化的運動能力。

這種能力對數(shù)據(jù)提出了更高的要求：模型需要的是能同時保留全身協(xié)同、任務意圖、接觸關(guān)系、環(huán)境上下文、物理可行性和跨本體復用價值的數(shù)據(jù)。

但現(xiàn)有的數(shù)據(jù)形態(tài)，單獨看都很難自然滿足這些要求：

動捕數(shù)據(jù)可以準確、結(jié)構(gòu)化地記錄人體運動狀態(tài)，但缺失環(huán)境信息以及人和環(huán)境之間的精確交互；

遙操作數(shù)據(jù)嚴格綁定特定機器人本體，硬件一換，復用價值就會顯著下降；

第一人稱視頻集中在末端和物體交互，不能完整表達軀干、下肢、重心和接觸之間的全身協(xié)調(diào)關(guān)系；

第三人稱視頻雖然能看到整體動作，但難以從中提取出準確合理的人體動作。這些數(shù)據(jù)各自都有價值，但單獨都不足以支撐通用全身運動模型需要的數(shù)據(jù)閉環(huán)。

基于這個判斷，我們把真正面向通用全身運動模型訓練的數(shù)據(jù)資產(chǎn)，定義為跨本體全身運動數(shù)據(jù)（Cross-Embodiment Whole-Body Motion Data，CWM），要求 CWM 至少同時滿足以下四個性質(zhì)：

跨本體可重定向性（Cross-embodiment retargetability）

同一段動作必須能夠通過統(tǒng)一的處理管線，在連桿長度、關(guān)節(jié)配置、質(zhì)量分布和驅(qū)動能力差異顯著的多種目標本體上，產(chǎn)出物理自洽的訓練樣本。這意味著原始數(shù)據(jù)本身需要帶有足夠的拓撲與運動學信息，以支持對不同本體的統(tǒng)一構(gòu)型映射，而不是綁死在某一臺機器人的關(guān)節(jié)空間里。機器人硬件會持續(xù)迭代，如果數(shù)據(jù)只服務某一代本體，它就會跟著這一代硬件一起折舊；CWM 把數(shù)據(jù)價值綁定在人類全身運動語義和可遷移規(guī)律上，讓一份數(shù)據(jù)能在多代硬件上反復結(jié)算。

全身覆蓋性（Whole-body coverage）

數(shù)據(jù)必須完整表達軀干、四肢、手部、手指以及它們之間的協(xié)同關(guān)系，而不能只保留上半身末端軌跡或下半身步態(tài)。真實任務往往不是局部動作的簡單拼接，例如“蹲下?lián)煳铩稹D(zhuǎn)身行走”，同時涉及下肢支撐、重心轉(zhuǎn)移、軀干姿態(tài)、手臂伸展、手指抓握和接觸切換。只有把這些身體部位的耦合關(guān)系作為一個整體記錄下來，模型才能學習移動、操作和姿態(tài)變化之間的協(xié)同規(guī)律。

物理可行性（Physical feasibility）

一條合格的數(shù)據(jù)，不只是運動學平滑合理，還需在目標本體上的動力學具備物理可行性，不能出現(xiàn)浮空、穿透、滑移、失穩(wěn)、力矩超限等問題，這是 CWM 資產(chǎn)從候選軌跡升級為訓練樣本的硬門檻。

多模態(tài)性（Multi-source augmentability）

CWM 數(shù)據(jù)在錄制階段就同步采集人體動作、語義標簽、第一人稱視頻、第三人稱視頻、環(huán)境資產(chǎn)和物體資產(chǎn)，使動作帶有完整的身體、任務和場景上下文。隨后，我們會在仿真環(huán)境中回放并增強數(shù)據(jù)，通過自定義攝像機位置、更換場景與物體材質(zhì)貼圖、采集全身接觸力和運動狀態(tài)，將單次采集擴展為多視角、多場景、多物理狀態(tài)的訓練樣本。

滿足這四個性質(zhì)的 CWM 數(shù)據(jù)，不是簡單的采集就能得到，這也是我們建設跨本體全身運動數(shù)據(jù)工廠的出發(fā)點。

為什么要建一座數(shù)據(jù)工廠

我們定義了什么是 CWM 數(shù)據(jù)，但對模型訓練來說，僅有“正確”的數(shù)據(jù)并不足夠，數(shù)據(jù)規(guī)模同樣至關(guān)重要，這一點在大模型領(lǐng)域已成共識。

Generalist AI 的研究指出，VLA 模型同樣存在明確的數(shù)據(jù) scaling law；SONIC 也在人形機器人全身運動跟蹤上系統(tǒng)驗證了，運動數(shù)據(jù)量的擴大會帶來運動控制能力的顯著提升。對于全身運動控制來說，這意味著數(shù)據(jù)要覆蓋的不只是幾個標準動作，而是行走、轉(zhuǎn)身、下蹲、搬運、抓取、支撐、避障、恢復平衡、接觸切換等大量連續(xù)動作組合。

按我們內(nèi)部的判斷，要訓練出一個真正通用的全身運動模型，最終需要數(shù)十萬小時級別的高質(zhì)量 CWM 數(shù)據(jù)；在這個量級面前，少量數(shù)據(jù)幾乎沒有長期訓練價值，真正有價值的是能夠不斷擴張的數(shù)據(jù)規(guī)模。

與此同時，數(shù)據(jù)的多樣性同樣重要，因為再多的走路數(shù)據(jù)也訓不出一個會后空翻的模型。全身運動數(shù)據(jù)的復雜性在于，它不只是“動作越多越好”，而是必須有正確的數(shù)據(jù)配方和嚴格的數(shù)據(jù)質(zhì)量控制。

模型需要看到足夠多的動作類別、接觸狀態(tài)、任務語義、環(huán)境變化和目標本體差異；同時，每條數(shù)據(jù)還必須經(jīng)過清洗、標注、重定向和物理驗證。否則，大規(guī)模數(shù)據(jù)很容易變成大規(guī)模噪聲。腳底滑移、身體穿透、浮空、失穩(wěn)、力矩超限等問題是直接拉低模型質(zhì)量的數(shù)據(jù)污染，它們會讓模型學習到錯誤的接觸關(guān)系、錯誤的身體協(xié)調(diào)方式和不可執(zhí)行的控制模式。

這條標準也意味著外部數(shù)據(jù)無法成為主力：公開動捕和網(wǎng)絡視頻可以作為補充，但在數(shù)量和質(zhì)量上都不足以支撐通用全身運動模型的訓練。

因此，CWM 數(shù)據(jù)生產(chǎn)必須被設計成一套工業(yè)化生產(chǎn)體系，而采集只是其中一環(huán)。一段動作從被設計出來，到能進入訓練集，還必須經(jīng)過質(zhì)檢、跨本體重定向、動力學與仿真增強、語義標注，以及來自模型訓練側(cè)的反饋閉環(huán)。

這條產(chǎn)線需要同時定義數(shù)據(jù)配方、生產(chǎn)流程和質(zhì)量標準：哪些動作必須優(yōu)先覆蓋，哪些場景和接觸狀態(tài)最稀缺，哪些目標本體需要驗證，哪些樣本應該剔除，哪些數(shù)據(jù)在訓練中產(chǎn)生了最高收益，都需要被持續(xù)追蹤和反饋。數(shù)據(jù)規(guī)模越大，越不能依賴手工經(jīng)驗；模型目標越通用，越需要可復現(xiàn)、可審計、可迭代的生產(chǎn)流程。

這也是 CWM 數(shù)據(jù)工廠的核心價值：用穩(wěn)定的場地、設備、流水線、專業(yè)團隊和質(zhì)檢體系，把通用全身運動數(shù)據(jù)變成一種可持續(xù)生產(chǎn)能力。

專業(yè)動作設計人員負責定義動作譜系，采集團隊負責高質(zhì)量同步錄制，工程團隊負責清洗、格式化、重定向和仿真回放，算法團隊負責物理驗證、訓練反饋和數(shù)據(jù)篩選，質(zhì)檢團隊負責把不可用樣本擋在訓練集之外。

只有這樣的工廠級體系，才能持續(xù)產(chǎn)出足夠大、足夠準、足夠干凈，并且能隨模型訓練和機器人迭代不斷更新的 CWM 數(shù)據(jù)資產(chǎn)。

數(shù)據(jù)工廠不是“采集場地”

而是“基礎設施”

橋介數(shù)物跨本體全身運動數(shù)據(jù)工廠是一套圍繞 CWM 數(shù)據(jù)資產(chǎn)生產(chǎn)的全流程基礎設施。

它從動作設計開始，明確動作類別、接觸狀態(tài)和任務場景；在采集階段，同步獲取人體動作、視頻、接觸、環(huán)境和物體等多源數(shù)據(jù)；隨后通過跨本體重定向、物理驗證和仿真增強，把原始素材轉(zhuǎn)化為可訓練樣本；最后，再用訓練反饋持續(xù)修正數(shù)據(jù)配方。

主動覆蓋：豐富運動多樣性

數(shù)據(jù)工廠第一件要回答的事是“采什么”。通用全身運動模型需要見到一套持續(xù)擴展、能夠覆蓋身體協(xié)同方式的運動空間。這套空間不能只是動作目錄的堆疊，而要沿幾條相互獨立的主線持續(xù)填充：

能力維度的橫向鋪開

采集計劃要按身體使用方式來組織，而不是按動作名稱湊數(shù)。移動、姿態(tài)轉(zhuǎn)換、肢體協(xié)同、接觸切換和物體操作這些基礎維度，是后續(xù)復雜能力的底盤。我們關(guān)心的是身體如何被調(diào)用、不同身體部位如何協(xié)同、重心和接觸如何變化，而不是某一個具體動作是否被采到。

復雜地形、多人交互與環(huán)境交互

這三類場景是基礎維度之外難度最高、最貼近真實部署的需求，但是又最容易被漏掉的場景，必須被顯式安排進采集計劃。復雜地形會改變支撐和落腳策略，多人交互會引入節(jié)奏對齊和空間協(xié)商，環(huán)境交互會讓身體運動與物體、接觸面和可達空間深度耦合。它們不能靠平地單人動作自然外推，必須被顯式安排進采集計劃。

下意識行為與自由發(fā)揮

劇本只能定義任務邊界，真實運動里還有大量沒有被寫下來的部分：個體動作習慣、臨場調(diào)整和應對意外的本能反應。專業(yè)動作設計人員會在錄制中給出意圖與約束，同時保留表演者按自身習慣完成動作的空間，讓數(shù)據(jù)既覆蓋任務目標，也保留真實身體差異。

動作恢復與失敗兜底

模型在真實環(huán)境里能不能被部署，很大程度上取決于失敗時能不能穩(wěn)住。因此動作恢復要單獨進入采集計劃，包括失衡后的再平衡、碰撞后的避障回縮、跌倒或非理想姿態(tài)下的起身恢復。這類樣本通常稀缺，但直接關(guān)系到模型的安全邊界。

采集多樣性同樣需要在源頭被顯式管理。采集人員與采集設備的多樣性會直接影響 CWM 數(shù)據(jù)的多樣性與豐富度：不同身形、年齡、性別、體態(tài)的表演者會帶來差異化的運動姿態(tài)、關(guān)節(jié)角度范圍和重心控制方式；不同采集設備（慣性動捕、光學動捕、電磁動捕）在精度、覆蓋范圍、佩戴約束和適用場景上的差異，本身也會成為數(shù)據(jù)的一種維度。只有讓人員和設備的多樣性都進入采集計劃，模型才不會只學到“某一類人在某一種設備下”的運動方式。

這些方向通過一份持續(xù)更新的運動覆蓋圖譜被組織和度量，記錄哪些組合已經(jīng)被覆蓋、哪些維度仍然稀疏、哪些樣本在跨本體遷移后反復失敗。

除了按圖譜主動覆蓋，數(shù)據(jù)工廠還會顯式接收來自模型訓練側(cè)的數(shù)據(jù)類型需求反饋：哪些動作類別在哪些本體上學得不穩(wěn)、哪些接觸狀態(tài)訓練收益最低、哪些樣本通過了質(zhì)檢卻沒有帶來實際增益，都會被翻譯成新的數(shù)據(jù)類型需求回寫到采集計劃，讓“采什么”持續(xù)被訓練結(jié)果校準。

為了把上面這些需求真正轉(zhuǎn)化成可執(zhí)行的采集任務，我們在工廠內(nèi)部建設了一個AI 原生的數(shù)據(jù)設計與錄制管理平臺，把動作需求、覆蓋圖譜、場景資產(chǎn)、錄制計劃、數(shù)據(jù)狀態(tài)和訓練反饋放進同一個系統(tǒng)里管理。

平臺的核心使用者是一組全職的專業(yè)動作設計人員，他們負責定義動作語義、拆解身體協(xié)同、判斷表演可執(zhí)行性，把全身交互、動作恢復、工具使用和場景任務轉(zhuǎn)化為可錄制的動作方案。

平臺借由內(nèi)置的 AI 能力，沿三件事輔助設計人員把動作方案做出來：

動作方案的生成與擴增上，平臺基于覆蓋圖譜缺口和訓練反饋起草動作描述、做語義級泛化，按速度、體型、節(jié)奏等維度衍生出大量變體；

方案的可視化呈現(xiàn)上，可以選擇使用AI直接通過文本描述或者動作關(guān)鍵幀生成動作示例，把抽象描述變成可演示的參考動作；

多樣性審閱與人員匹配上，平臺比對當前批次相對覆蓋圖譜的分布偏差，提示設計人員哪些維度被過度采集、哪些仍然稀疏，并按身形、年齡、性別和體態(tài)，輔助設計人員把每條方案分配給最合適的表演者、采集設備。

這條工具鏈讓覆蓋圖譜、設計人員判斷和模型訓練反饋在同一個系統(tǒng)里閉環(huán)，把“哪些動作已經(jīng)學穩(wěn)、哪些動作遷移失敗率高、哪些場景還缺覆蓋”持續(xù)轉(zhuǎn)化為可采、可查、可反饋的生產(chǎn)任務。

同步采集：多源信息同步對齊采集

CWM 的同步采集不是單純錄一段人體動作，而是要在同一段動作中同步回答四件事：運動意圖、身體運動方式、交互目標與環(huán)境。“全身”意味著移動、操作、姿態(tài)控制、接觸變化等子任務在同一段動作里同時成立，不能退化成軀干、手、腿軌跡的簡單拼接。這天然要求人體動作、視頻、語義、場景被同步記錄。按當前的采集規(guī)范，一條完整記錄會盡量同步以下四類信號，具體哪些可用取決于采集場景和目標本體。

人體動作（BVH）

跨本體重定向的主要參考信號，承載動作語義、身體協(xié)同、重心變化和姿態(tài)轉(zhuǎn)換。我們在錄制不同類型的動作時選用不同設備：

低動態(tài)動作和復雜地形下的運動適合慣性動捕，對場地、遮擋和地形不敏感；

高動態(tài)動作適合光學動捕或精度更高的光慣混合設備，能在快速運動下穩(wěn)住關(guān)節(jié)位置；

末端手部的精細動作（抓握、操作工具、按鍵、擰動）適合電磁動捕，能在小空間內(nèi)提供高精度位姿。

原始視頻

不直接進入重定向流程，但在數(shù)據(jù)工廠里是高價值的輔助信號：它支撐視頻動作補全與人體動作提取，讓海量互聯(lián)網(wǎng)視頻可以被納入訓練資產(chǎn)，也為導航與操作預備視覺模態(tài)；同時被用于訓練 SLAM、估計人與物體之間的接觸狀態(tài)。設備上以頭戴式相機與外部 RGB / RGB-D 相機并行采集，分別提供第一人稱和第三人稱視角。

場景交互資產(chǎn)

提供動作發(fā)生的環(huán)境與物體上下文，是把動作放進仿真環(huán)境的前置條件。

我們采集兩類：一類是地形與場景資產(chǎn)——房間結(jié)構(gòu)、地面起伏、固定家具，決定動作可達空間和接觸面；一類是可交互物體資產(chǎn)——被搬運、推拉、使用的物體，決定操作任務的目標幾何。

技術(shù)上以3D 高斯?jié)姙R + Mesh 提取做整體重建，對需要精確位姿的物體進一步使用光學 Marker 標記。資產(chǎn)進入仿真環(huán)境后支撐強化學習訓練和模型評估。

語義標簽

由專業(yè)動作設計人員、現(xiàn)場記錄員和 AI 標注系統(tǒng)協(xié)同生成，定義動作邊界、動作類別、場景和意圖，決定每條樣本如何進入訓練集，以及在訓練里如何被采樣、加權(quán)和評估。

之所以必須同步，是因為全身運動的價值不在某一個單獨模態(tài)，而在不同模態(tài)之間的對應關(guān)系。同一個“蹲下?lián)煳铩眲幼鳎梭w BVH 只能說明身體姿態(tài)如何變化；視頻說明物體在哪里、手是否真的接觸；場景資產(chǎn)說明物體所在的環(huán)境和可交互面；語義標簽說明動作邊界和任務意圖。如果這些信號沒有對齊，我們就無法判斷手部軌跡對應的是哪一幀物體接觸，也無法判斷腳底受力是否對應當前姿態(tài)，更無法驗證這段動作是否真的可以進入訓練集。

為此，數(shù)據(jù)工廠為所有采集設備建立統(tǒng)一的采集時鐘和時間戳體系：所有設備在采集前完成空間標定和時間校準，采集過程中由主控系統(tǒng)統(tǒng)一管理任務編號、動作編號、設備狀態(tài)和開始 / 結(jié)束信號；能夠硬件同步的設備優(yōu)先使用觸發(fā)信號、幀同步、時間碼或 PTP 等方式對齊，不能硬件同步的設備則在本地記錄高精度時間戳，并通過同步動作、標定事件或后處理算法做時間同步校正。

同步之后，每一條數(shù)據(jù)需要被整理成可以直接進入下游流水線的資產(chǎn)，這部分工作同樣由前述錄制管理平臺完成。

平臺一邊做現(xiàn)場自動質(zhì)檢——檢查時間同步、標定、軌跡完整性、骨長穩(wěn)定、關(guān)鍵點異常和動作段邊界，AI 輔助檢查動作語義、表演一致性和明顯錄制異常；一邊做統(tǒng)一入庫——把同一段動作下的所有模態(tài)打包成統(tǒng)一數(shù)據(jù)包，綁定會話、設備狀態(tài)、標定版本、時間偏差、丟幀情況和質(zhì)檢結(jié)果，并以主時鐘為基準完成對齊、重采樣和切片，形成能夠直接進入重定向與訓練流水線的最小數(shù)據(jù)契約。

跨本體重定向：重定向到多構(gòu)型機器人

異構(gòu)性問題的核心解法是動作重定向（motion retargeting）：把一段以人體或某一參考本體為坐標系的動作，轉(zhuǎn)化為目標機器人本體上的軌跡。到了工業(yè)化生產(chǎn)里，難點不再只是“能不能把一個動作轉(zhuǎn)到一臺機器人上”，而是能不能在大量動作和大量本體之間，持續(xù)、穩(wěn)定、低成本地完成這件事。

算法層面，我們自研的重定向引擎面向“任意動作 × 任意機型 × 任意地形”。輸入側(cè)覆蓋任意動作、上半身 / 下半身 / 全身，可以處理離線動捕文件、實時動捕流，也支持視頻動作等不同來源的動作信號；輸出側(cè)覆蓋結(jié)構(gòu)、關(guān)節(jié)配置、尺度和驅(qū)動能力差異顯著的足式、人形、上肢和復合構(gòu)型機器人，并能把平地、斜坡、樓梯、不平地面等地形約束納入統(tǒng)一求解，不需要為每條動作、每臺機器人或每類地形單獨寫一套專用解算邏輯。求解器以運動學求解和幾何約束為主干，把接觸狀態(tài)、支撐關(guān)系、空間約束、地形約束、關(guān)節(jié)限制和身體交互關(guān)系納入同一個求解過程，輸出語義一致、結(jié)構(gòu)可達、質(zhì)量穩(wěn)定的候選軌跡。

工程層面，它有三個直接服務于工廠化生產(chǎn)的優(yōu)勢。

第一，無需逐條調(diào)參、無需動作模版：跨本體能力來自一層統(tǒng)一本體抽象層——新機器人接入時，我們只依賴該機器人的 URDF 定義，算法就能在這層抽象上自動快速適配多種構(gòu)型，不需要為每條動作或每臺機器人寫專用解算邏輯，也不依賴逐條動作的人工微調(diào)。

第二，流式與離線雙模式：既能消化采集端實時進入的動作流，也能批量處理已有的動作庫；這一點讓重定向不再是“采完再處理”的離線工序，而可以做到邊采邊重定向——動作剛被記錄下來，目標本體上的候選軌跡就已經(jīng)可用，質(zhì)檢和后續(xù)動力學增強可以緊接著接入。流模式下，我們的重定向工具支持Noitom和Xsens等多種設備的輸出數(shù)據(jù)。

第三，跨平臺穩(wěn)定分發(fā)：從工程站點、采集現(xiàn)場、訓練集群到目標機器人側(cè)都能以一致的形式部署和回放，讓動作流在生產(chǎn)鏈路上始終基于同一份算法實現(xiàn)。

產(chǎn)能層面，它已經(jīng)是工廠的主干生產(chǎn)服務。按當前統(tǒng)計口徑，這套重定向算法在單 CPU 核心上可以超過 1000 幀每秒，約為常規(guī)錄制幀率的十數(shù)倍；我們?yōu)檫@條路線準備了一個算力集群，讓它能持續(xù)消化采集端進入的動作流，并支撐同一段動作向多構(gòu)型機器人并行派發(fā)。落到生產(chǎn)口徑上，它把“每條動作都需要人工適配”的隱性成本，壓縮成新本體接入時的一次性工程標定，把“采集 → 重定向 → 候選訓練樣本”的鏈路時間從天級壓縮到接近實時。

數(shù)據(jù)增強：動力學、仿真與 AI 標注增強

跨本體重定向輸出的是高質(zhì)量候選軌跡，但候選軌跡還不是最終訓練資產(chǎn)。數(shù)據(jù)增強要做的是繼續(xù)把這些候選軌跡變成更可驗證、更可訓練、更容易被模型消費的數(shù)據(jù)。我們沿三條主線推進：動力學增強、仿真多樣性增強、語義標注。

動力學增強把最有價值、最困難、最需要物理一致性的樣本放進目標本體的動力學與接觸模型里，通過 RL 動力學后處理同時控制跟蹤誤差和物理違背，讓候選軌跡從“運動學上像”升級為“在目標本體上能跟蹤、不穿透、不超扭矩、不違反摩擦錐”。被判定不可行的樣本會帶著具體失敗原因進入質(zhì)量反饋，而不是被直接丟掉。

仿真多樣性增強則把同一段動作放進不同的虛擬環(huán)境里反復執(zhí)行，讓 CWM 資產(chǎn)的覆蓋密度成倍放大。

一方面補齊缺失模態(tài)：通過物理仿真和渲染管線，給原本只采到動作和視頻的樣本補出力學信號、深度圖、語義分割、多視角圖像等本來沒有采到的模態(tài)；

另一方面擴增視覺與場景多樣性：替換物體和環(huán)境的貼圖資產(chǎn)、調(diào)整材質(zhì)和光照、變換房間布局、引入新的交互對象和初始狀態(tài)、施加不同方向和強度的外力擾動。同一段動作可以在多個目標本體、多套場景、多種光照和多組擾動條件下派生出大量新樣本，讓模型見到的不是“做這個動作的一種方式”，而是“做這個動作的一個分布”。

語義標注讓數(shù)據(jù)成為能被訓練流水線檢索、加權(quán)、篩選和復用的資產(chǎn)。AI 標注系統(tǒng)輔助生成動作切片、動作類別、接觸狀態(tài)、場景對象、任務語義、失敗原因和能力維度等標簽，專業(yè)動作設計人員負責復核語義邊界和關(guān)鍵樣本，把標注產(chǎn)出收斂到可用于訓練采樣和評估分桶的標準格式。

三類增強共用同一套版本與來源記錄：每一條增強后的樣本都會標記它來自哪條原始動作、經(jīng)過哪個目標本體、哪一次動力學后處理、哪一輪仿真擴增、哪個標注版本，以及是否通過物理驗證。這樣訓練系統(tǒng)能在不同版本之間安全地復用、對照和回滾增強樣本，質(zhì)量反饋也能在出問題時把責任定位到具體的增強環(huán)節(jié)。

質(zhì)量反饋：讓模型訓練結(jié)果回到生產(chǎn)系統(tǒng)

傳統(tǒng)動捕質(zhì)檢多看軌跡是否干凈；CWM 數(shù)據(jù)工廠的質(zhì)量管理則要走兩步：先沿生產(chǎn)鏈路做分層把關(guān)，再用模型訓練的結(jié)果做閉環(huán)反饋。

第一步是分層把關(guān)。一條樣本從動作需求走到訓練集，要順序通過四道獨立的質(zhì)檢，四層把關(guān)共同把一條候選樣本篩成可入訓練集的資產(chǎn)，但真正能不能訓練出通用全身運動能力，最終只能由模型告訴我們。

設計層

動作需求是否真的對齊能力缺口、是否覆蓋運動覆蓋圖譜里仍然稀疏的格子、是否能落到現(xiàn)場可執(zhí)行的動作方案上。這一層把控“該不該采”。

原始數(shù)據(jù)層

表演者是否完整表達了設計意圖，采集是否同步、標定是否到位，是否存在丟幀 / 漂移 / 關(guān)鍵點異常 / 骨長不穩(wěn)等基礎錄制問題。這一層把控“采得對不對”。

重定向數(shù)據(jù)層

候選軌跡在目標本體上是否結(jié)構(gòu)可達、關(guān)節(jié)是否越限、接觸關(guān)系是否成立、動作語義在重定向后是否仍然成立。這一層把控“換到目標本體上是否還成立”。

增強數(shù)據(jù)層

動力學后處理后是否仍然可跟蹤、不穿透、不超扭矩、不違反摩擦錐；仿真擴增和語義標注是否帶上正確的版本與來源記錄。這一層把控“放進訓練集是否真的有效”。

第二步是結(jié)果閉環(huán)。訓練側(cè)會把每一次模型評估結(jié)果，例如哪些動作類別在哪些本體上學穩(wěn)了、哪些遷移失敗、哪些接觸狀態(tài)訓練收益最低、哪些樣本通過了四層把關(guān)卻沒有帶來實際增益，匯總成一份可回寫的失敗畫像：在哪個本體、哪個動作類別、哪個接觸狀態(tài)、哪個訓練版本下出問題，問題歸因到設計、原始采集、重定向還是增強環(huán)節(jié)。

失敗畫像會被直接寫回到上游每一層：設計層據(jù)此調(diào)整運動覆蓋圖譜的優(yōu)先級和錄制計劃；原始數(shù)據(jù)層據(jù)此調(diào)整采集規(guī)范、同步策略和現(xiàn)場質(zhì)檢閾值；重定向?qū)訐?jù)此迭代算法能力；增強層據(jù)此調(diào)整動力學后處理強度、仿真多樣性配置和標注口徑。

兩步合在一起，數(shù)據(jù)工廠就形成了持續(xù)迭代閉環(huán)。它在實際運行中是雙線推進：一條線是基于長期判斷的主動覆蓋，按運動覆蓋圖譜不斷擴展人類全身運動庫；另一條線是模型訓練側(cè)的反饋補洞，按失敗畫像回填上游每一層。每跑一輪，數(shù)據(jù)資產(chǎn)的質(zhì)量、跨本體覆蓋密度和訓練收益都會同時往上抬一點：越跑越準、越跑越快，是 CWM 數(shù)據(jù)工廠隨時間復利的核心來源。

我們數(shù)據(jù)工廠的現(xiàn)狀和未來

過去三個月，我們在內(nèi)部試點中跑通了跨本體全身運動數(shù)據(jù)工廠的端到端鏈路。這一階段的目標不是追求最大產(chǎn)能，而是把整套生產(chǎn)系統(tǒng)真正運行起來：動作設計能否被系統(tǒng)化管理、多源采集能否穩(wěn)定對齊、重定向能否快速適配新本體、增強和質(zhì)檢能否把候選軌跡變成可訓練資產(chǎn)、訓練反饋能否回到下一輪生產(chǎn)。

沿著這條鏈路，我們累計產(chǎn)出了近千小時高質(zhì)量 CWM 數(shù)據(jù)；用這批數(shù)據(jù)訓出的全身運動模型，最終在十多款結(jié)構(gòu)、驅(qū)動性能、質(zhì)量分布和慣量分布差異顯著的足式機器人上完成了關(guān)鍵驗證。

現(xiàn)在，這套方案已經(jīng)完成內(nèi)部可行性驗證，數(shù)據(jù)工廠也即將完成正式建設。下一階段的重點，是從試點驗證轉(zhuǎn)向規(guī)模化生產(chǎn)——把場地、采集棚、動捕設備、動作設計團隊、表演者編制和算法 / 仿真 / 訓練算力集群同時擴容，讓前面跑通的產(chǎn)線在更大規(guī)模上穩(wěn)定運轉(zhuǎn)。

我們的目標是在新工廠落地后，形成每月數(shù)千小時級、面向多構(gòu)型機器人的高質(zhì)量 CWM 數(shù)據(jù)產(chǎn)出能力，并沿“數(shù)千小時 → 數(shù)萬小時”分階段爬升；在這一過程中，數(shù)據(jù)質(zhì)量、跨本體復用率和訓練增益會作為同一套生產(chǎn)標準被持續(xù)考核，讓每一批新數(shù)據(jù)都能回答它在多少種本體上能跑通、在哪些動作類別上貢獻了真實訓練收益，而不只是“采到了多少小時”。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.