无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

一個框架,重塑具身研發(fā)流程:Dexbotic走向具身PyTorch

0
分享至



機器之心發(fā)布

近日,開源具身智能原生框架Dexbotic宣布正式支持以RLinf作為其分布式強化學(xué)習(xí)后端。對具身智能開發(fā)者而言,這不僅是一次普通的工程適配,更意味著 VLA 模型研發(fā)中長期存在的「SFT 與 RL 割裂」問題,正在被真正打通。



這是一種典型的「樂高式協(xié)作」:雙方不強行 Fork、不粗暴揉合代碼,而是保持清晰邊界,通過標準接口完成模塊化拼裝。Dexbotic 不隱藏、不替代 RLinf,而是為其能力提供自然的承接入口;RLinf 也不侵入 Dexbotic 的策略生態(tài),而是以穩(wěn)定可靠的分布式 RL 能力,為模型后訓(xùn)練提供底座。



更重要的是,Dexbotic 通過后端適配器完整復(fù)用了 RLinf 原生的分布式能力,包括 Cluster、HybridComponentPlacement、Actor/Rollout/Env Worker 組以及 EmbodiedRunner。目前,該整合已在 LIBERO 系列任務(wù)套件中完成端到端驗證,可支持 PPO 等算法完成后訓(xùn)練。對開發(fā)者來說,這意味著從模型開發(fā)、SFT Checkpoint 管理,到 RL 配置編寫與任務(wù)啟動,終于可以在同一個開發(fā)流中自然完成。

如果說大語言模型時代的黃金范式是「預(yù)訓(xùn)練 + SFT + RLHF」,那么在具身智能時代,「VLA 預(yù)訓(xùn)練 / SFT + 大規(guī)模 RL 后訓(xùn)練」正在成為新的模型進化路徑。Dexbotic × RLinf 的打通,正是這一范式走向具身智能 PyTorch 的重要一步。

架構(gòu)重塑

V-L-A 模塊化解耦與多源混訓(xùn)

在復(fù)雜的物理世界中執(zhí)行任務(wù),機器人需要同時具備三種能力:敏銳的視覺感知、強大的邏輯認知、以及精細的運動控制。在過去,這三者往往被雜糅在一個極其厚重的黑盒網(wǎng)絡(luò)中,不僅訓(xùn)練成本高昂,且任何單一模塊的改進都需要對整個系統(tǒng)進行重構(gòu)。



Dexbotic 2.0 直擊這一痛點,在業(yè)界率先實現(xiàn)了 V(Vision Encoder,視覺編碼器)、L(LLM,大語言模型)、A(Action Expert,動作專家)的徹底模塊化解耦。

這種「樂高式」的架構(gòu)設(shè)計,帶來了前所未有的工程彈性:同一套系統(tǒng)可以在感知、認知和控制三個層面進行獨立升級、自由替換與混搭。這意味著,算法工程師可以輕松地將最新的視覺基座接入原有系統(tǒng)以測試空間感知能力的提升,或者更換不同的動作頭(Action Head)以適配不同自由度的機械臂。這種符合軟件工程「開閉原則」的設(shè)計,為快速試驗新模型提供了極大的便利。

在解耦的基礎(chǔ)上,Dexbotic 2.0 帶來了其最具戰(zhàn)略意義的訓(xùn)練特性:多源數(shù)據(jù)混合訓(xùn)練(Co-training)

傳統(tǒng)的具身模型訓(xùn)練往往面臨一個兩難困境:純互聯(lián)網(wǎng)數(shù)據(jù)缺乏物理世界的操作語義,而真實的機器人軌跡數(shù)據(jù)又極其稀缺且難以覆蓋長尾場景。Dexbotic 的解法是,用同一套訓(xùn)練過程,讓模型把「看懂世界」和「動手操作」一起學(xué)會。

具體而言,視覺 - 語言模型(VLM)同時攝入多模態(tài)互聯(lián)網(wǎng)數(shù)據(jù)(圖像 / 視頻 + 文字)與機器人實操軌跡。在互聯(lián)網(wǎng)數(shù)據(jù)上,模型學(xué)習(xí)三類通用泛化能力:對場景生成精確描述(Caption)、將宏大指令拆解為可執(zhí)行子步驟(Subtask),以及將自然語言錨定到三維空間中的具體對象(Grounding)。在此基礎(chǔ)之上,動作專家(Action Expert)接入系統(tǒng),將上述高維語義理解直接轉(zhuǎn)化為連續(xù)的物理控制序列(如抓取、移動、放置)。

在最新的更新中,Dexbotic 甚至進一步支持了 CogACT 與 Pi0.5 模型的 Co-training(Action Expert + LLM 聯(lián)合優(yōu)化)能力。互聯(lián)網(wǎng)海量數(shù)據(jù)賦予了模型「通用語義理解」,具身軌跡數(shù)據(jù)賦予了模型「可落地的操作技能」—— 兩者的聯(lián)合優(yōu)化,使得機器人真正做到了「能說清、能看準、能做對」。

工程破局

SFT + RL 的黃金范式與單一入口設(shè)計

在大模型(LLM)的發(fā)展歷程中,SFT(監(jiān)督微調(diào))讓模型學(xué)會遵循指令,而 RLHF(基于人類反饋的強化學(xué)習(xí))則讓模型的能力上限與人類對齊,兩者結(jié)合鑄就了 ChatGPT 的輝煌。同理,在具身智能領(lǐng)域,「VLA 預(yù)訓(xùn)練 / SFT + 大規(guī)模 RL 后訓(xùn)練」正在成為公認的黃金進化范式。

然而,長期以來,具身 RL 的工程落地堪稱災(zāi)難。研究者必須在兩個獨立的開源項目間「來回奔波」:在 Dexbotic 等框架中完成 SFT 訓(xùn)練拿到模型權(quán)重后,需要手動切換到復(fù)雜的 RL 框架倉庫,重新編寫任務(wù)配置、路徑適配與數(shù)據(jù)接口。這種人為割裂的流水線,不僅導(dǎo)致了極高的認知負荷,也讓代碼維護成本急劇上升。

為了打破這一桎梏,Dexbotic 與頂級強化學(xué)習(xí)框架 RLinf 達成了深度戰(zhàn)略合作,并在工程層面實現(xiàn)了教科書級別的融合。



開源具身智能原生框架 Dexbotic 宣布,正式支持以 RLinf 作為其分布式強化學(xué)習(xí)后端。此次整合的首要原則,依然是「樂高式架構(gòu)」所體現(xiàn)的清晰邊界:

  • Dexbotic 穩(wěn)守前端本職:繼續(xù)深耕機器人策略定義、模型注冊、Checkpoint 管理、專屬數(shù)據(jù)變換與用戶側(cè)實驗入口;
  • RLinf 穩(wěn)守后端底座:承擔(dān)分布式 Rollout、優(yōu)化、Worker 調(diào)度、日志記錄與 Runner 編排。

雙方拒絕了粗暴的代碼融合(Fork 強行揉合),而是實現(xiàn)了模塊化拼裝。結(jié)果是驚人的:開發(fā)者無需在兩個倉庫間跳轉(zhuǎn),只需停留在 Dexbotic 項目內(nèi),通過一行極其簡潔的命令,即可啟動完整的 RL 后訓(xùn)練流程。進階用戶依然可以通過 Hydra 靈活覆蓋底層配置。

更重要的是,通過后端適配器,Dexbotic 完整復(fù)用了 RLinf 原生的強大分布式 RL 能力(包括 Cluster、HybridComponentPlacement、Actor/Rollout/Env Worker 組等)。這意味著,Dexbotic 策略終于擁有一套可調(diào)、可訓(xùn)、可增益的后訓(xùn)練閉環(huán),模型的動作質(zhì)量與執(zhí)行成功率得以持續(xù)躍升。

此外,Dexbotic 近期還正式支持了基于 GRPO(群體相對策略優(yōu)化)的模型后訓(xùn)練。該方案不依賴龐大的 Ray 框架,部署更加輕量,卻能實現(xiàn)環(huán)境多卡并行推理與點對點數(shù)據(jù)均勻分配,讓 RL 訓(xùn)練吞吐量大幅提高,幫助機器人從「能做」跨越到「更穩(wěn)定地做好」。

「各司其職,是最好的協(xié)作。」Dexbotic 不隱藏、不替代 RLinf,而是為其提供最自然的承接入口。當(dāng)具身智能進入「持續(xù)進化」時代,工程棧的協(xié)同能力正成為核心競爭力,而 Dexbotic × RLinf 的牽手,無疑樹立了行業(yè)的標桿。

基礎(chǔ)設(shè)施

從數(shù)據(jù)、仿真到真機的完整閉環(huán)

如果說算法與架構(gòu)是具身智能的大腦,那么數(shù)據(jù)流轉(zhuǎn)與硬件驗證機制則是支撐其運作的骨骼與血液。Dexbotic 2.0 系統(tǒng)性地標準化了具身開發(fā)的生命周期,從「數(shù)據(jù) — 訓(xùn)練 — 評測 — 硬件」四個環(huán)節(jié)構(gòu)建了無縫閉環(huán)。

在數(shù)據(jù)引擎層面,框架提出了極簡且高效的 DexData 統(tǒng)一數(shù)據(jù)格式。該格式創(chuàng)造性地將 Prompt、子任務(wù)拆解、目標物體 3D 框選以及機械臂 2D/3D 軌跡信息整合于一體,大幅壓縮了多源數(shù)據(jù)對齊的工程開銷。

在評測基準層面,Dexbotic 展現(xiàn)出了強大的生態(tài)包容力。在仿真端,通過高度封裝的 Docker 環(huán)境,框架一口氣適配了 5 款主流物理仿真器,并將所有仿真訓(xùn)練數(shù)據(jù)一鍵轉(zhuǎn)化為 DexData 格式開源至 Hugging Face,徹底掃清了「復(fù)現(xiàn)不公平」的科研障礙。在真機端,Dexbotic 更是直接打通了全球首個具身智能大規(guī)模真機評測平臺 RoboChallenge 的評測接口,并進行了全面開源代碼貢獻,讓「開發(fā) - 訓(xùn)練 - 推理 - 評測」的鏈路在物理世界中真正落地。

在最新前沿探索上,近日 Dexbotic 再下一城,新增對 UniNaVid 開源項目的深度支持。這不僅囊括了評測與 SFT 訓(xùn)練能力,還完成了 DexDataset 數(shù)據(jù)格式的適配,一舉打通了導(dǎo)航任務(wù)從數(shù)據(jù)接入、模型微調(diào)到 Benchmark 評測的完整鏈路,為 VLN(視覺語言導(dǎo)航)與 Embodied Navigation 領(lǐng)域的持續(xù)迭代鋪平了道路。

在硬件支持層面,Dexbotic 從未停止擴展的腳步。在已有的 ALOHA、UR5、Franka、ARX5 陣營外,框架不僅加入了星海圖 Galaxea R1,還極具前瞻性地接軌了 NVIDIA GR00T N1,加速人形機器人的訓(xùn)練部署。更值得一提的是,原力靈機推出了完全開源的硬件產(chǎn)品Dexbotic Open Source - W1 (DOS-W1)與 SO-101,并全面適配了 XLeRobot 生態(tài)。以 DOS-W1 為例,其設(shè)計圖紙、BOM 表與組裝代碼全面公開,大量采用的快拆結(jié)構(gòu)與符合人體工學(xué)的抗疲勞設(shè)計,極大地降低了數(shù)據(jù)采集的門檻與設(shè)備維護成本。

巔峰驗證

DM0 —— 全球首個從零訓(xùn)練的具身原生大模型

檢驗一個底層框架是否足夠強大的最好方式,是看它能孵化出怎樣的前沿模型。2026 年 2 月,基于 Dexbotic 框架研發(fā)的DM0 大模型震撼發(fā)布。

作為全球首個從零開始訓(xùn)練的具身原生大模型,DM0 在權(quán)威真機評測基準 RoboChallenge 上,以 2.4B 的參數(shù)規(guī)模,一舉奪得單任務(wù)與多任務(wù)雙項第一,成功登頂全球榜首。



DM0 的成功,是對 Dexbotic 框架優(yōu)勢的極致展現(xiàn)。其展現(xiàn)出的極高「智能密度」,得益于預(yù)訓(xùn)練階段對操作、導(dǎo)航、全身控制三類核心任務(wù)的系統(tǒng)級混合。DM0 的訓(xùn)練數(shù)據(jù)覆蓋了 UR、Franka 等 8 種構(gòu)型迥異的機器人硬件,在強大的框架調(diào)度下,模型被迫去學(xué)習(xí)底層的、通用的「物理操作邏輯」,而非死記硬背特定硬件的運動學(xué)參數(shù),從而獲得了令人矚目的跨機型泛化能力。

更令人驚嘆的是,依托 Dexbotic 的多模態(tài)數(shù)據(jù)處理能力,DM0 構(gòu)建了獨創(chuàng)的「空間推理思維鏈(Spatial Reasoning Chain-of-Thought)」。模型能夠?qū)h(huán)境感知、任務(wù)理解、運動規(guī)劃與精細執(zhí)行進行邏輯串聯(lián),完成諸如「先尋找目標、移開遮擋物、再進行拍照發(fā)送」這類需要長程多步驟空間推理的廣義復(fù)雜動作。

持續(xù)迭代

半年的生長,千人的共建

自 2025 年 10 月發(fā)布以來的短短數(shù)月,Dexbotic 展現(xiàn)出了令人側(cè)目的演進速度:

  • 2025-10-20:Dexbotic VLA 代碼庫開源,提出數(shù)據(jù)、模型、實驗三大核心層級;
  • 2025-12-29:全面適配支持 Pi0.5 與 OFT 模型,解鎖其開發(fā)全鏈路;
  • 2026-01-08:快速跟進硬件迭代,發(fā)布適配 Blackwell GPU 架構(gòu)的專用鏡像;
  • 2026-01-15:NaVILA 導(dǎo)航算法、SimpleVLA-RL 合入主線,推出 GRPO 輕量級后訓(xùn)練方案;
  • 2026-02-10:官宣與 RLinf 戰(zhàn)略合作,打造具身智能的 PyTorch,發(fā)布登頂全球的 DM0 模型;
  • 2026-03-30:硬件生態(tài)爆發(fā),適配 XLeRobot、接入 NVIDIA GR00T N1,并為 Pi0.5 開啟一鍵混訓(xùn)功能;
  • 2026-05-09:全面兼容 UniNaVid,將版圖強勢擴張至泛具身導(dǎo)航領(lǐng)域。

高頻的迭代帶來了極其繁榮的生態(tài)回饋。目前,Dexbotic 已經(jīng)成功服務(wù)了包括清華大學(xué)、北京大學(xué)、普林斯頓大學(xué)、帝國理工學(xué)院在內(nèi)的數(shù)十家頂尖高校,以及騰訊、北京具身智能機器人創(chuàng)新中心等頭部產(chǎn)業(yè)機構(gòu),累計觸達研發(fā)者超過千人。

正如 Linux 之父林納斯?托瓦茲所言:「軟件進化需要群體的智慧。」

Dexbotic 拒絕了「閉門造車」的技術(shù)路線,而是選擇將自己打造為具身智能領(lǐng)域的「基礎(chǔ)運行層」。隨著原力靈機、清華大學(xué)、無問芯穹等多方力量的持續(xù)匯聚,一個屬于具身智能的繁榮開源生態(tài)正在形成。

當(dāng)「大模型 + 機器人」從實驗室的概念走向千行百業(yè)的真實場景,工程框架的協(xié)同演進能力,已經(jīng)成為與模型算力同等重要的競爭維度。從解決數(shù)據(jù)格式的細枝末節(jié),到重塑 SFT+RL 的頂層研發(fā)閉環(huán),Dexbotic 的每一步更新,都在為通用智能機器人的到來夯實基建。

毫無疑問,具身智能的「PyTorch 時刻」已經(jīng)開啟。而 Dexbotic,正致力于成為承載這一歷史進程的堅實基石。

歡迎全球研究者與開發(fā)者關(guān)注、Star,并共同參與 Dexbotic 社區(qū)建設(shè),探索具身智能的無限可能。

  • 項目官網(wǎng):https://dexbotic.com/
  • GitHub 開源倉庫:https://github.com/dexmal/dexbotic
  • Hugging Face 模型集:https://huggingface.co/collections/Dexmal/dexbotic

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
劉三姐“全裸演出”引爭議,張藝謀惹怒全網(wǎng)

劉三姐“全裸演出”引爭議,張藝謀惹怒全網(wǎng)

李東陽朋友圈
2026-05-10 12:12:45
李家鼎被曝資產(chǎn)約1500萬,千萬祖屋已被長子霸占,定期存款200萬

李家鼎被曝資產(chǎn)約1500萬,千萬祖屋已被長子霸占,定期存款200萬

臨云史策
2026-05-12 11:30:14
伊朗深夜清理門戶,兩名內(nèi)鬼被絞,身份曝光后中國也驚出一身冷汗

伊朗深夜清理門戶,兩名內(nèi)鬼被絞,身份曝光后中國也驚出一身冷汗

達文西看世界
2026-05-09 14:03:46
中華人民共和國二級大法官、廣東省高級人民法院院長張海波:穩(wěn)慎推進人工智能應(yīng)用 促推審判工作高質(zhì)量發(fā)展

中華人民共和國二級大法官、廣東省高級人民法院院長張海波:穩(wěn)慎推進人工智能應(yīng)用 促推審判工作高質(zhì)量發(fā)展

中國審判
2026-05-12 08:33:07
林徽因落選的國徽方案,網(wǎng)友看后感嘆:審美確實厲害,但真不合適

林徽因落選的國徽方案,網(wǎng)友看后感嘆:審美確實厲害,但真不合適

浩渺青史
2026-04-17 13:55:15
貝索斯花了7000萬,讓桑切斯在Met Gala出盡風(fēng)頭,梅根沒收到邀請

貝索斯花了7000萬,讓桑切斯在Met Gala出盡風(fēng)頭,梅根沒收到邀請

小書生吃瓜
2026-05-11 15:36:21
向余望,你還真踢不了中超

向余望,你還真踢不了中超

中場陰謀家
2026-05-11 21:51:51
衡陽居民樓這把火的更多消息,人員為啥死亡?

衡陽居民樓這把火的更多消息,人員為啥死亡?

靠山屯閑話
2026-05-12 12:20:54
廣州一工地吊臂折斷 砸向剛建成的幼兒園

廣州一工地吊臂折斷 砸向剛建成的幼兒園

新快報新聞
2026-05-12 11:24:08
慢病開藥一定要多說這三句話,很多人每月能省下不少錢!

慢病開藥一定要多說這三句話,很多人每月能省下不少錢!

鬼菜生活
2026-05-12 10:41:43
“還沒成年,脖子就有草莓了!”原來窮人富養(yǎng)女,才是悲劇的禍根

“還沒成年,脖子就有草莓了!”原來窮人富養(yǎng)女,才是悲劇的禍根

妍妍教育日記
2026-05-11 19:20:59
什么時候讓你意識到這就是命,考公四次落榜,隨便報個東大就中了

什么時候讓你意識到這就是命,考公四次落榜,隨便報個東大就中了

夜深愛雜談
2026-05-11 07:41:40
人到70,還擠一張床的夫妻,十有八九是這3類人,看你家中了幾個

人到70,還擠一張床的夫妻,十有八九是這3類人,看你家中了幾個

匹夫來搞笑
2026-05-03 16:47:22
外國記者提問樊振東能否回歸,國乒工作人員:這不是一個問題

外國記者提問樊振東能否回歸,國乒工作人員:這不是一個問題

懂球帝
2026-05-11 17:07:41
英超保級形勢:3隊上岸 2隊剩2輪決戰(zhàn) 熱刺領(lǐng)先2分+凈勝球多11個

英超保級形勢:3隊上岸 2隊剩2輪決戰(zhàn) 熱刺領(lǐng)先2分+凈勝球多11個

我愛英超
2026-05-12 07:28:26
同事月薪8000,為了償還200萬房貸,多次申請漲薪被拒,跳槽下家給漲薪50%,結(jié)果領(lǐng)導(dǎo)說:你要想離職,就有競業(yè)限制!

同事月薪8000,為了償還200萬房貸,多次申請漲薪被拒,跳槽下家給漲薪50%,結(jié)果領(lǐng)導(dǎo)說:你要想離職,就有競業(yè)限制!

黎兜兜
2026-05-12 11:35:45
后悔莫及,兩三百元維修費,換兩條人命!遼寧北鎮(zhèn)悲劇本可避免

后悔莫及,兩三百元維修費,換兩條人命!遼寧北鎮(zhèn)悲劇本可避免

一口娛樂
2026-05-04 12:30:11
難怪能把國乒女隊逼到絕境,背后“操盤者”不簡單:馬琳師兄!

難怪能把國乒女隊逼到絕境,背后“操盤者”不簡單:馬琳師兄!

十點街球體育
2026-05-11 21:34:06
問界M9尾燈能"畫"長城黃河,49.98萬起預(yù)售

問界M9尾燈能"畫"長城黃河,49.98萬起預(yù)售

硅嶼手記
2026-05-12 07:50:33
“農(nóng)村父母就是這樣被騙的”,中職女孩穿廉價警服,畢業(yè)就傻眼了

“農(nóng)村父母就是這樣被騙的”,中職女孩穿廉價警服,畢業(yè)就傻眼了

妍妍教育日記
2026-05-11 18:59:23
2026-05-12 13:19:00
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
12976文章數(shù) 142648關(guān)注度
往期回顧 全部

科技要聞

納德拉法庭爆料:拒當(dāng)“AI時代的IBM”

頭條要聞

媒體:內(nèi)塔尼亞胡稱十年擺脫美軍援 揭示中東之亂本質(zhì)

頭條要聞

媒體:內(nèi)塔尼亞胡稱十年擺脫美軍援 揭示中東之亂本質(zhì)

體育要聞

梁靖崑:可能是最后一屆了,想讓大家記住這個我

娛樂要聞

劉濤曬媽祖誕辰活動照 評論區(qū)變許愿池

財經(jīng)要聞

特朗普要來了,我們且淡定

汽車要聞

吉利銀河“TT”申報圖曝光 電動尾翼+激光雷達

態(tài)度原創(chuàng)

時尚
本地
家居
旅游
教育

推廣|| 你們都想要的絕美白襯衫,鏈接來了!

本地新聞

用蘇繡的方式,打開江西婺源

家居要聞

極簡主義下的居住場域與空間

旅游要聞

他眼重慶|徒步讓外國小伙成為重慶“本地人”

教育要聞

@所有家長,2026年山東智慧家長學(xué)院家庭教育宣傳周精彩主題活動搶先看!

無障礙瀏覽 進入關(guān)懷版