一個框架，重塑具身研發(fā)流程：Dexbotic走向具身PyTorch

2026-05-12 09:27:08　來源: 機器之心Pro

河北舉報

分享至

機器之心發(fā)布

近日，開源具身智能原生框架Dexbotic宣布正式支持以RLinf作為其分布式強化學(xué)習(xí)后端。對具身智能開發(fā)者而言，這不僅是一次普通的工程適配，更意味著 VLA 模型研發(fā)中長期存在的「SFT 與 RL 割裂」問題，正在被真正打通。

這是一種典型的「樂高式協(xié)作」：雙方不強行 Fork、不粗暴揉合代碼，而是保持清晰邊界，通過標準接口完成模塊化拼裝。Dexbotic 不隱藏、不替代 RLinf，而是為其能力提供自然的承接入口；RLinf 也不侵入 Dexbotic 的策略生態(tài)，而是以穩(wěn)定可靠的分布式 RL 能力，為模型后訓(xùn)練提供底座。

更重要的是，Dexbotic 通過后端適配器完整復(fù)用了 RLinf 原生的分布式能力，包括 Cluster、HybridComponentPlacement、Actor/Rollout/Env Worker 組以及 EmbodiedRunner。目前，該整合已在 LIBERO 系列任務(wù)套件中完成端到端驗證，可支持 PPO 等算法完成后訓(xùn)練。對開發(fā)者來說，這意味著從模型開發(fā)、SFT Checkpoint 管理，到 RL 配置編寫與任務(wù)啟動，終于可以在同一個開發(fā)流中自然完成。

如果說大語言模型時代的黃金范式是「預(yù)訓(xùn)練 + SFT + RLHF」，那么在具身智能時代，「VLA 預(yù)訓(xùn)練 / SFT + 大規(guī)模 RL 后訓(xùn)練」正在成為新的模型進化路徑。Dexbotic × RLinf 的打通，正是這一范式走向具身智能 PyTorch 的重要一步。

架構(gòu)重塑

V-L-A 模塊化解耦與多源混訓(xùn)

在復(fù)雜的物理世界中執(zhí)行任務(wù)，機器人需要同時具備三種能力：敏銳的視覺感知、強大的邏輯認知、以及精細的運動控制。在過去，這三者往往被雜糅在一個極其厚重的黑盒網(wǎng)絡(luò)中，不僅訓(xùn)練成本高昂，且任何單一模塊的改進都需要對整個系統(tǒng)進行重構(gòu)。

Dexbotic 2.0 直擊這一痛點，在業(yè)界率先實現(xiàn)了 V（Vision Encoder，視覺編碼器）、L（LLM，大語言模型）、A（Action Expert，動作專家）的徹底模塊化解耦。

這種「樂高式」的架構(gòu)設(shè)計，帶來了前所未有的工程彈性：同一套系統(tǒng)可以在感知、認知和控制三個層面進行獨立升級、自由替換與混搭。這意味著，算法工程師可以輕松地將最新的視覺基座接入原有系統(tǒng)以測試空間感知能力的提升，或者更換不同的動作頭（Action Head）以適配不同自由度的機械臂。這種符合軟件工程「開閉原則」的設(shè)計，為快速試驗新模型提供了極大的便利。

在解耦的基礎(chǔ)上，Dexbotic 2.0 帶來了其最具戰(zhàn)略意義的訓(xùn)練特性：多源數(shù)據(jù)混合訓(xùn)練（Co-training）

傳統(tǒng)的具身模型訓(xùn)練往往面臨一個兩難困境：純互聯(lián)網(wǎng)數(shù)據(jù)缺乏物理世界的操作語義，而真實的機器人軌跡數(shù)據(jù)又極其稀缺且難以覆蓋長尾場景。Dexbotic 的解法是，用同一套訓(xùn)練過程，讓模型把「看懂世界」和「動手操作」一起學(xué)會。

具體而言，視覺 - 語言模型（VLM）同時攝入多模態(tài)互聯(lián)網(wǎng)數(shù)據(jù)（圖像 / 視頻 + 文字）與機器人實操軌跡。在互聯(lián)網(wǎng)數(shù)據(jù)上，模型學(xué)習(xí)三類通用泛化能力：對場景生成精確描述（Caption）、將宏大指令拆解為可執(zhí)行子步驟（Subtask），以及將自然語言錨定到三維空間中的具體對象（Grounding）。在此基礎(chǔ)之上，動作專家（Action Expert）接入系統(tǒng)，將上述高維語義理解直接轉(zhuǎn)化為連續(xù)的物理控制序列（如抓取、移動、放置）。

在最新的更新中，Dexbotic 甚至進一步支持了 CogACT 與 Pi0.5 模型的 Co-training（Action Expert + LLM 聯(lián)合優(yōu)化）能力。互聯(lián)網(wǎng)海量數(shù)據(jù)賦予了模型「通用語義理解」，具身軌跡數(shù)據(jù)賦予了模型「可落地的操作技能」—— 兩者的聯(lián)合優(yōu)化，使得機器人真正做到了「能說清、能看準、能做對」。

工程破局

SFT + RL 的黃金范式與單一入口設(shè)計

在大模型（LLM）的發(fā)展歷程中，SFT（監(jiān)督微調(diào)）讓模型學(xué)會遵循指令，而 RLHF（基于人類反饋的強化學(xué)習(xí)）則讓模型的能力上限與人類對齊，兩者結(jié)合鑄就了 ChatGPT 的輝煌。同理，在具身智能領(lǐng)域，「VLA 預(yù)訓(xùn)練 / SFT + 大規(guī)模 RL 后訓(xùn)練」正在成為公認的黃金進化范式。

然而，長期以來，具身 RL 的工程落地堪稱災(zāi)難。研究者必須在兩個獨立的開源項目間「來回奔波」：在 Dexbotic 等框架中完成 SFT 訓(xùn)練拿到模型權(quán)重后，需要手動切換到復(fù)雜的 RL 框架倉庫，重新編寫任務(wù)配置、路徑適配與數(shù)據(jù)接口。這種人為割裂的流水線，不僅導(dǎo)致了極高的認知負荷，也讓代碼維護成本急劇上升。

為了打破這一桎梏，Dexbotic 與頂級強化學(xué)習(xí)框架 RLinf 達成了深度戰(zhàn)略合作，并在工程層面實現(xiàn)了教科書級別的融合。

開源具身智能原生框架 Dexbotic 宣布，正式支持以 RLinf 作為其分布式強化學(xué)習(xí)后端。此次整合的首要原則，依然是「樂高式架構(gòu)」所體現(xiàn)的清晰邊界：

Dexbotic 穩(wěn)守前端本職：繼續(xù)深耕機器人策略定義、模型注冊、Checkpoint 管理、專屬數(shù)據(jù)變換與用戶側(cè)實驗入口；
RLinf 穩(wěn)守后端底座：承擔(dān)分布式 Rollout、優(yōu)化、Worker 調(diào)度、日志記錄與 Runner 編排。

雙方拒絕了粗暴的代碼融合（Fork 強行揉合），而是實現(xiàn)了模塊化拼裝。結(jié)果是驚人的：開發(fā)者無需在兩個倉庫間跳轉(zhuǎn)，只需停留在 Dexbotic 項目內(nèi)，通過一行極其簡潔的命令，即可啟動完整的 RL 后訓(xùn)練流程。進階用戶依然可以通過 Hydra 靈活覆蓋底層配置。

更重要的是，通過后端適配器，Dexbotic 完整復(fù)用了 RLinf 原生的強大分布式 RL 能力（包括 Cluster、HybridComponentPlacement、Actor/Rollout/Env Worker 組等）。這意味著，Dexbotic 策略終于擁有一套可調(diào)、可訓(xùn)、可增益的后訓(xùn)練閉環(huán)，模型的動作質(zhì)量與執(zhí)行成功率得以持續(xù)躍升。

此外，Dexbotic 近期還正式支持了基于 GRPO（群體相對策略優(yōu)化）的模型后訓(xùn)練。該方案不依賴龐大的 Ray 框架，部署更加輕量，卻能實現(xiàn)環(huán)境多卡并行推理與點對點數(shù)據(jù)均勻分配，讓 RL 訓(xùn)練吞吐量大幅提高，幫助機器人從「能做」跨越到「更穩(wěn)定地做好」。

「各司其職，是最好的協(xié)作。」Dexbotic 不隱藏、不替代 RLinf，而是為其提供最自然的承接入口。當(dāng)具身智能進入「持續(xù)進化」時代，工程棧的協(xié)同能力正成為核心競爭力，而 Dexbotic × RLinf 的牽手，無疑樹立了行業(yè)的標桿。

基礎(chǔ)設(shè)施

從數(shù)據(jù)、仿真到真機的完整閉環(huán)

如果說算法與架構(gòu)是具身智能的大腦，那么數(shù)據(jù)流轉(zhuǎn)與硬件驗證機制則是支撐其運作的骨骼與血液。Dexbotic 2.0 系統(tǒng)性地標準化了具身開發(fā)的生命周期，從「數(shù)據(jù) — 訓(xùn)練 — 評測 — 硬件」四個環(huán)節(jié)構(gòu)建了無縫閉環(huán)。

在數(shù)據(jù)引擎層面，框架提出了極簡且高效的 DexData 統(tǒng)一數(shù)據(jù)格式。該格式創(chuàng)造性地將 Prompt、子任務(wù)拆解、目標物體 3D 框選以及機械臂 2D/3D 軌跡信息整合于一體，大幅壓縮了多源數(shù)據(jù)對齊的工程開銷。

在評測基準層面，Dexbotic 展現(xiàn)出了強大的生態(tài)包容力。在仿真端，通過高度封裝的 Docker 環(huán)境，框架一口氣適配了 5 款主流物理仿真器，并將所有仿真訓(xùn)練數(shù)據(jù)一鍵轉(zhuǎn)化為 DexData 格式開源至 Hugging Face，徹底掃清了「復(fù)現(xiàn)不公平」的科研障礙。在真機端，Dexbotic 更是直接打通了全球首個具身智能大規(guī)模真機評測平臺 RoboChallenge 的評測接口，并進行了全面開源代碼貢獻，讓「開發(fā) - 訓(xùn)練 - 推理 - 評測」的鏈路在物理世界中真正落地。

在最新前沿探索上，近日 Dexbotic 再下一城，新增對 UniNaVid 開源項目的深度支持。這不僅囊括了評測與 SFT 訓(xùn)練能力，還完成了 DexDataset 數(shù)據(jù)格式的適配，一舉打通了導(dǎo)航任務(wù)從數(shù)據(jù)接入、模型微調(diào)到 Benchmark 評測的完整鏈路，為 VLN（視覺語言導(dǎo)航）與 Embodied Navigation 領(lǐng)域的持續(xù)迭代鋪平了道路。

在硬件支持層面，Dexbotic 從未停止擴展的腳步。在已有的 ALOHA、UR5、Franka、ARX5 陣營外，框架不僅加入了星海圖 Galaxea R1，還極具前瞻性地接軌了 NVIDIA GR00T N1，加速人形機器人的訓(xùn)練部署。更值得一提的是，原力靈機推出了完全開源的硬件產(chǎn)品Dexbotic Open Source - W1 (DOS-W1)與 SO-101，并全面適配了 XLeRobot 生態(tài)。以 DOS-W1 為例，其設(shè)計圖紙、BOM 表與組裝代碼全面公開，大量采用的快拆結(jié)構(gòu)與符合人體工學(xué)的抗疲勞設(shè)計，極大地降低了數(shù)據(jù)采集的門檻與設(shè)備維護成本。

巔峰驗證

DM0 —— 全球首個從零訓(xùn)練的具身原生大模型

檢驗一個底層框架是否足夠強大的最好方式，是看它能孵化出怎樣的前沿模型。2026 年 2 月，基于 Dexbotic 框架研發(fā)的DM0 大模型震撼發(fā)布。

作為全球首個從零開始訓(xùn)練的具身原生大模型，DM0 在權(quán)威真機評測基準 RoboChallenge 上，以 2.4B 的參數(shù)規(guī)模，一舉奪得單任務(wù)與多任務(wù)雙項第一，成功登頂全球榜首。

DM0 的成功，是對 Dexbotic 框架優(yōu)勢的極致展現(xiàn)。其展現(xiàn)出的極高「智能密度」，得益于預(yù)訓(xùn)練階段對操作、導(dǎo)航、全身控制三類核心任務(wù)的系統(tǒng)級混合。DM0 的訓(xùn)練數(shù)據(jù)覆蓋了 UR、Franka 等 8 種構(gòu)型迥異的機器人硬件，在強大的框架調(diào)度下，模型被迫去學(xué)習(xí)底層的、通用的「物理操作邏輯」，而非死記硬背特定硬件的運動學(xué)參數(shù)，從而獲得了令人矚目的跨機型泛化能力。

更令人驚嘆的是，依托 Dexbotic 的多模態(tài)數(shù)據(jù)處理能力，DM0 構(gòu)建了獨創(chuàng)的「空間推理思維鏈（Spatial Reasoning Chain-of-Thought）」。模型能夠?qū)h(huán)境感知、任務(wù)理解、運動規(guī)劃與精細執(zhí)行進行邏輯串聯(lián)，完成諸如「先尋找目標、移開遮擋物、再進行拍照發(fā)送」這類需要長程多步驟空間推理的廣義復(fù)雜動作。

持續(xù)迭代

半年的生長，千人的共建

自 2025 年 10 月發(fā)布以來的短短數(shù)月，Dexbotic 展現(xiàn)出了令人側(cè)目的演進速度：

2025-10-20：Dexbotic VLA 代碼庫開源，提出數(shù)據(jù)、模型、實驗三大核心層級；
2025-12-29：全面適配支持 Pi0.5 與 OFT 模型，解鎖其開發(fā)全鏈路；
2026-01-08：快速跟進硬件迭代，發(fā)布適配 Blackwell GPU 架構(gòu)的專用鏡像；
2026-01-15：NaVILA 導(dǎo)航算法、SimpleVLA-RL 合入主線，推出 GRPO 輕量級后訓(xùn)練方案；
2026-02-10：官宣與 RLinf 戰(zhàn)略合作，打造具身智能的 PyTorch，發(fā)布登頂全球的 DM0 模型；
2026-03-30：硬件生態(tài)爆發(fā)，適配 XLeRobot、接入 NVIDIA GR00T N1，并為 Pi0.5 開啟一鍵混訓(xùn)功能；
2026-05-09：全面兼容 UniNaVid，將版圖強勢擴張至泛具身導(dǎo)航領(lǐng)域。

高頻的迭代帶來了極其繁榮的生態(tài)回饋。目前，Dexbotic 已經(jīng)成功服務(wù)了包括清華大學(xué)、北京大學(xué)、普林斯頓大學(xué)、帝國理工學(xué)院在內(nèi)的數(shù)十家頂尖高校，以及騰訊、北京具身智能機器人創(chuàng)新中心等頭部產(chǎn)業(yè)機構(gòu)，累計觸達研發(fā)者超過千人。

正如 Linux 之父林納斯?托瓦茲所言：「軟件進化需要群體的智慧。」

Dexbotic 拒絕了「閉門造車」的技術(shù)路線，而是選擇將自己打造為具身智能領(lǐng)域的「基礎(chǔ)運行層」。隨著原力靈機、清華大學(xué)、無問芯穹等多方力量的持續(xù)匯聚，一個屬于具身智能的繁榮開源生態(tài)正在形成。

當(dāng)「大模型 + 機器人」從實驗室的概念走向千行百業(yè)的真實場景，工程框架的協(xié)同演進能力，已經(jīng)成為與模型算力同等重要的競爭維度。從解決數(shù)據(jù)格式的細枝末節(jié)，到重塑 SFT+RL 的頂層研發(fā)閉環(huán)，Dexbotic 的每一步更新，都在為通用智能機器人的到來夯實基建。

毫無疑問，具身智能的「PyTorch 時刻」已經(jīng)開啟。而 Dexbotic，正致力于成為承載這一歷史進程的堅實基石。

歡迎全球研究者與開發(fā)者關(guān)注、Star，并共同參與 Dexbotic 社區(qū)建設(shè)，探索具身智能的無限可能。

項目官網(wǎng)：https://dexbotic.com/
GitHub 開源倉庫：https://github.com/dexmal/dexbotic
Hugging Face 模型集：https://huggingface.co/collections/Dexmal/dexbotic

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.