![]()
機器之心發(fā)布
近日,開源具身智能原生框架Dexbotic宣布正式支持以RLinf作為其分布式強化學(xué)習(xí)后端。對具身智能開發(fā)者而言,這不僅是一次普通的工程適配,更意味著 VLA 模型研發(fā)中長期存在的「SFT 與 RL 割裂」問題,正在被真正打通。
![]()
這是一種典型的「樂高式協(xié)作」:雙方不強行 Fork、不粗暴揉合代碼,而是保持清晰邊界,通過標準接口完成模塊化拼裝。Dexbotic 不隱藏、不替代 RLinf,而是為其能力提供自然的承接入口;RLinf 也不侵入 Dexbotic 的策略生態(tài),而是以穩(wěn)定可靠的分布式 RL 能力,為模型后訓(xùn)練提供底座。
![]()
更重要的是,Dexbotic 通過后端適配器完整復(fù)用了 RLinf 原生的分布式能力,包括 Cluster、HybridComponentPlacement、Actor/Rollout/Env Worker 組以及 EmbodiedRunner。目前,該整合已在 LIBERO 系列任務(wù)套件中完成端到端驗證,可支持 PPO 等算法完成后訓(xùn)練。對開發(fā)者來說,這意味著從模型開發(fā)、SFT Checkpoint 管理,到 RL 配置編寫與任務(wù)啟動,終于可以在同一個開發(fā)流中自然完成。
如果說大語言模型時代的黃金范式是「預(yù)訓(xùn)練 + SFT + RLHF」,那么在具身智能時代,「VLA 預(yù)訓(xùn)練 / SFT + 大規(guī)模 RL 后訓(xùn)練」正在成為新的模型進化路徑。Dexbotic × RLinf 的打通,正是這一范式走向具身智能 PyTorch 的重要一步。
架構(gòu)重塑
V-L-A 模塊化解耦與多源混訓(xùn)
在復(fù)雜的物理世界中執(zhí)行任務(wù),機器人需要同時具備三種能力:敏銳的視覺感知、強大的邏輯認知、以及精細的運動控制。在過去,這三者往往被雜糅在一個極其厚重的黑盒網(wǎng)絡(luò)中,不僅訓(xùn)練成本高昂,且任何單一模塊的改進都需要對整個系統(tǒng)進行重構(gòu)。
![]()
Dexbotic 2.0 直擊這一痛點,在業(yè)界率先實現(xiàn)了 V(Vision Encoder,視覺編碼器)、L(LLM,大語言模型)、A(Action Expert,動作專家)的徹底模塊化解耦。
這種「樂高式」的架構(gòu)設(shè)計,帶來了前所未有的工程彈性:同一套系統(tǒng)可以在感知、認知和控制三個層面進行獨立升級、自由替換與混搭。這意味著,算法工程師可以輕松地將最新的視覺基座接入原有系統(tǒng)以測試空間感知能力的提升,或者更換不同的動作頭(Action Head)以適配不同自由度的機械臂。這種符合軟件工程「開閉原則」的設(shè)計,為快速試驗新模型提供了極大的便利。
在解耦的基礎(chǔ)上,Dexbotic 2.0 帶來了其最具戰(zhàn)略意義的訓(xùn)練特性:多源數(shù)據(jù)混合訓(xùn)練(Co-training)
傳統(tǒng)的具身模型訓(xùn)練往往面臨一個兩難困境:純互聯(lián)網(wǎng)數(shù)據(jù)缺乏物理世界的操作語義,而真實的機器人軌跡數(shù)據(jù)又極其稀缺且難以覆蓋長尾場景。Dexbotic 的解法是,用同一套訓(xùn)練過程,讓模型把「看懂世界」和「動手操作」一起學(xué)會。
具體而言,視覺 - 語言模型(VLM)同時攝入多模態(tài)互聯(lián)網(wǎng)數(shù)據(jù)(圖像 / 視頻 + 文字)與機器人實操軌跡。在互聯(lián)網(wǎng)數(shù)據(jù)上,模型學(xué)習(xí)三類通用泛化能力:對場景生成精確描述(Caption)、將宏大指令拆解為可執(zhí)行子步驟(Subtask),以及將自然語言錨定到三維空間中的具體對象(Grounding)。在此基礎(chǔ)之上,動作專家(Action Expert)接入系統(tǒng),將上述高維語義理解直接轉(zhuǎn)化為連續(xù)的物理控制序列(如抓取、移動、放置)。
在最新的更新中,Dexbotic 甚至進一步支持了 CogACT 與 Pi0.5 模型的 Co-training(Action Expert + LLM 聯(lián)合優(yōu)化)能力。互聯(lián)網(wǎng)海量數(shù)據(jù)賦予了模型「通用語義理解」,具身軌跡數(shù)據(jù)賦予了模型「可落地的操作技能」—— 兩者的聯(lián)合優(yōu)化,使得機器人真正做到了「能說清、能看準、能做對」。
工程破局
SFT + RL 的黃金范式與單一入口設(shè)計
在大模型(LLM)的發(fā)展歷程中,SFT(監(jiān)督微調(diào))讓模型學(xué)會遵循指令,而 RLHF(基于人類反饋的強化學(xué)習(xí))則讓模型的能力上限與人類對齊,兩者結(jié)合鑄就了 ChatGPT 的輝煌。同理,在具身智能領(lǐng)域,「VLA 預(yù)訓(xùn)練 / SFT + 大規(guī)模 RL 后訓(xùn)練」正在成為公認的黃金進化范式。
然而,長期以來,具身 RL 的工程落地堪稱災(zāi)難。研究者必須在兩個獨立的開源項目間「來回奔波」:在 Dexbotic 等框架中完成 SFT 訓(xùn)練拿到模型權(quán)重后,需要手動切換到復(fù)雜的 RL 框架倉庫,重新編寫任務(wù)配置、路徑適配與數(shù)據(jù)接口。這種人為割裂的流水線,不僅導(dǎo)致了極高的認知負荷,也讓代碼維護成本急劇上升。
為了打破這一桎梏,Dexbotic 與頂級強化學(xué)習(xí)框架 RLinf 達成了深度戰(zhàn)略合作,并在工程層面實現(xiàn)了教科書級別的融合。
![]()
開源具身智能原生框架 Dexbotic 宣布,正式支持以 RLinf 作為其分布式強化學(xué)習(xí)后端。此次整合的首要原則,依然是「樂高式架構(gòu)」所體現(xiàn)的清晰邊界:
- Dexbotic 穩(wěn)守前端本職:繼續(xù)深耕機器人策略定義、模型注冊、Checkpoint 管理、專屬數(shù)據(jù)變換與用戶側(cè)實驗入口;
- RLinf 穩(wěn)守后端底座:承擔(dān)分布式 Rollout、優(yōu)化、Worker 調(diào)度、日志記錄與 Runner 編排。
雙方拒絕了粗暴的代碼融合(Fork 強行揉合),而是實現(xiàn)了模塊化拼裝。結(jié)果是驚人的:開發(fā)者無需在兩個倉庫間跳轉(zhuǎn),只需停留在 Dexbotic 項目內(nèi),通過一行極其簡潔的命令,即可啟動完整的 RL 后訓(xùn)練流程。進階用戶依然可以通過 Hydra 靈活覆蓋底層配置。
更重要的是,通過后端適配器,Dexbotic 完整復(fù)用了 RLinf 原生的強大分布式 RL 能力(包括 Cluster、HybridComponentPlacement、Actor/Rollout/Env Worker 組等)。這意味著,Dexbotic 策略終于擁有一套可調(diào)、可訓(xùn)、可增益的后訓(xùn)練閉環(huán),模型的動作質(zhì)量與執(zhí)行成功率得以持續(xù)躍升。
此外,Dexbotic 近期還正式支持了基于 GRPO(群體相對策略優(yōu)化)的模型后訓(xùn)練。該方案不依賴龐大的 Ray 框架,部署更加輕量,卻能實現(xiàn)環(huán)境多卡并行推理與點對點數(shù)據(jù)均勻分配,讓 RL 訓(xùn)練吞吐量大幅提高,幫助機器人從「能做」跨越到「更穩(wěn)定地做好」。
「各司其職,是最好的協(xié)作。」Dexbotic 不隱藏、不替代 RLinf,而是為其提供最自然的承接入口。當(dāng)具身智能進入「持續(xù)進化」時代,工程棧的協(xié)同能力正成為核心競爭力,而 Dexbotic × RLinf 的牽手,無疑樹立了行業(yè)的標桿。
基礎(chǔ)設(shè)施
從數(shù)據(jù)、仿真到真機的完整閉環(huán)
如果說算法與架構(gòu)是具身智能的大腦,那么數(shù)據(jù)流轉(zhuǎn)與硬件驗證機制則是支撐其運作的骨骼與血液。Dexbotic 2.0 系統(tǒng)性地標準化了具身開發(fā)的生命周期,從「數(shù)據(jù) — 訓(xùn)練 — 評測 — 硬件」四個環(huán)節(jié)構(gòu)建了無縫閉環(huán)。
在數(shù)據(jù)引擎層面,框架提出了極簡且高效的 DexData 統(tǒng)一數(shù)據(jù)格式。該格式創(chuàng)造性地將 Prompt、子任務(wù)拆解、目標物體 3D 框選以及機械臂 2D/3D 軌跡信息整合于一體,大幅壓縮了多源數(shù)據(jù)對齊的工程開銷。
在評測基準層面,Dexbotic 展現(xiàn)出了強大的生態(tài)包容力。在仿真端,通過高度封裝的 Docker 環(huán)境,框架一口氣適配了 5 款主流物理仿真器,并將所有仿真訓(xùn)練數(shù)據(jù)一鍵轉(zhuǎn)化為 DexData 格式開源至 Hugging Face,徹底掃清了「復(fù)現(xiàn)不公平」的科研障礙。在真機端,Dexbotic 更是直接打通了全球首個具身智能大規(guī)模真機評測平臺 RoboChallenge 的評測接口,并進行了全面開源代碼貢獻,讓「開發(fā) - 訓(xùn)練 - 推理 - 評測」的鏈路在物理世界中真正落地。
在最新前沿探索上,近日 Dexbotic 再下一城,新增對 UniNaVid 開源項目的深度支持。這不僅囊括了評測與 SFT 訓(xùn)練能力,還完成了 DexDataset 數(shù)據(jù)格式的適配,一舉打通了導(dǎo)航任務(wù)從數(shù)據(jù)接入、模型微調(diào)到 Benchmark 評測的完整鏈路,為 VLN(視覺語言導(dǎo)航)與 Embodied Navigation 領(lǐng)域的持續(xù)迭代鋪平了道路。
在硬件支持層面,Dexbotic 從未停止擴展的腳步。在已有的 ALOHA、UR5、Franka、ARX5 陣營外,框架不僅加入了星海圖 Galaxea R1,還極具前瞻性地接軌了 NVIDIA GR00T N1,加速人形機器人的訓(xùn)練部署。更值得一提的是,原力靈機推出了完全開源的硬件產(chǎn)品Dexbotic Open Source - W1 (DOS-W1)與 SO-101,并全面適配了 XLeRobot 生態(tài)。以 DOS-W1 為例,其設(shè)計圖紙、BOM 表與組裝代碼全面公開,大量采用的快拆結(jié)構(gòu)與符合人體工學(xué)的抗疲勞設(shè)計,極大地降低了數(shù)據(jù)采集的門檻與設(shè)備維護成本。
巔峰驗證
DM0 —— 全球首個從零訓(xùn)練的具身原生大模型
檢驗一個底層框架是否足夠強大的最好方式,是看它能孵化出怎樣的前沿模型。2026 年 2 月,基于 Dexbotic 框架研發(fā)的DM0 大模型震撼發(fā)布。
作為全球首個從零開始訓(xùn)練的具身原生大模型,DM0 在權(quán)威真機評測基準 RoboChallenge 上,以 2.4B 的參數(shù)規(guī)模,一舉奪得單任務(wù)與多任務(wù)雙項第一,成功登頂全球榜首。
![]()
DM0 的成功,是對 Dexbotic 框架優(yōu)勢的極致展現(xiàn)。其展現(xiàn)出的極高「智能密度」,得益于預(yù)訓(xùn)練階段對操作、導(dǎo)航、全身控制三類核心任務(wù)的系統(tǒng)級混合。DM0 的訓(xùn)練數(shù)據(jù)覆蓋了 UR、Franka 等 8 種構(gòu)型迥異的機器人硬件,在強大的框架調(diào)度下,模型被迫去學(xué)習(xí)底層的、通用的「物理操作邏輯」,而非死記硬背特定硬件的運動學(xué)參數(shù),從而獲得了令人矚目的跨機型泛化能力。
更令人驚嘆的是,依托 Dexbotic 的多模態(tài)數(shù)據(jù)處理能力,DM0 構(gòu)建了獨創(chuàng)的「空間推理思維鏈(Spatial Reasoning Chain-of-Thought)」。模型能夠?qū)h(huán)境感知、任務(wù)理解、運動規(guī)劃與精細執(zhí)行進行邏輯串聯(lián),完成諸如「先尋找目標、移開遮擋物、再進行拍照發(fā)送」這類需要長程多步驟空間推理的廣義復(fù)雜動作。
持續(xù)迭代
半年的生長,千人的共建
自 2025 年 10 月發(fā)布以來的短短數(shù)月,Dexbotic 展現(xiàn)出了令人側(cè)目的演進速度:
- 2025-10-20:Dexbotic VLA 代碼庫開源,提出數(shù)據(jù)、模型、實驗三大核心層級;
- 2025-12-29:全面適配支持 Pi0.5 與 OFT 模型,解鎖其開發(fā)全鏈路;
- 2026-01-08:快速跟進硬件迭代,發(fā)布適配 Blackwell GPU 架構(gòu)的專用鏡像;
- 2026-01-15:NaVILA 導(dǎo)航算法、SimpleVLA-RL 合入主線,推出 GRPO 輕量級后訓(xùn)練方案;
- 2026-02-10:官宣與 RLinf 戰(zhàn)略合作,打造具身智能的 PyTorch,發(fā)布登頂全球的 DM0 模型;
- 2026-03-30:硬件生態(tài)爆發(fā),適配 XLeRobot、接入 NVIDIA GR00T N1,并為 Pi0.5 開啟一鍵混訓(xùn)功能;
- 2026-05-09:全面兼容 UniNaVid,將版圖強勢擴張至泛具身導(dǎo)航領(lǐng)域。
高頻的迭代帶來了極其繁榮的生態(tài)回饋。目前,Dexbotic 已經(jīng)成功服務(wù)了包括清華大學(xué)、北京大學(xué)、普林斯頓大學(xué)、帝國理工學(xué)院在內(nèi)的數(shù)十家頂尖高校,以及騰訊、北京具身智能機器人創(chuàng)新中心等頭部產(chǎn)業(yè)機構(gòu),累計觸達研發(fā)者超過千人。
正如 Linux 之父林納斯?托瓦茲所言:「軟件進化需要群體的智慧。」
Dexbotic 拒絕了「閉門造車」的技術(shù)路線,而是選擇將自己打造為具身智能領(lǐng)域的「基礎(chǔ)運行層」。隨著原力靈機、清華大學(xué)、無問芯穹等多方力量的持續(xù)匯聚,一個屬于具身智能的繁榮開源生態(tài)正在形成。
當(dāng)「大模型 + 機器人」從實驗室的概念走向千行百業(yè)的真實場景,工程框架的協(xié)同演進能力,已經(jīng)成為與模型算力同等重要的競爭維度。從解決數(shù)據(jù)格式的細枝末節(jié),到重塑 SFT+RL 的頂層研發(fā)閉環(huán),Dexbotic 的每一步更新,都在為通用智能機器人的到來夯實基建。
毫無疑問,具身智能的「PyTorch 時刻」已經(jīng)開啟。而 Dexbotic,正致力于成為承載這一歷史進程的堅實基石。
歡迎全球研究者與開發(fā)者關(guān)注、Star,并共同參與 Dexbotic 社區(qū)建設(shè),探索具身智能的無限可能。
- 項目官網(wǎng):https://dexbotic.com/
- GitHub 開源倉庫:https://github.com/dexmal/dexbotic
- Hugging Face 模型集:https://huggingface.co/collections/Dexmal/dexbotic
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.