近日,大曉機器人聯合香港中文大學多媒體實驗室(CUHK MMLab)正式發布全新“一腦多型”具身操作VLA模型 ACE-Ego,并向行業開源。作為“以人為中心”ACE 研發范式在具身模型預訓練的核心落地成果,ACE-Ego提出大規模第一視角人類視頻與多型機器人數據高效聯合預訓練的新范式,在兩大國際權威具身智能基準上雙雙領先,并在復雜零售場景中展現出強泛化落地能力,為具身操作模型的規模化演進開辟了全新路徑。
![]()
在國際公認的人形機器人操作基準 RoboCasa GR1 TableTop 上,ACE-Ego 以72.8%的平均成功率刷新當前最高紀錄,奪得榜首,大幅超越英偉達 GR00T、PI π?.?、京東JoyAI-RA 等主流模型;在高難度雙臂操作基準 RoboTwin 2.0 的強域隨機化測試中,ACE-Ego 以90.62%的成功率展現出遠超行業平均水平的環境魯棒性。
2025年12月,大曉機器人提出“以人為中心(Human-centric)” 的ACE具身研發范式,將人類與物理世界的互動規律作為核心研究起點,構建了一套從“環境式數據采集—開悟世界模型3.0—具身交互”的全鏈路技術體系。源于對 “以人為中心” ACE 范式的深度踐行,不同于行業傳統 “以機器為中心”、依賴大批量高成本真機遙操作數據的路線,ACE-Ego 將海量低成本的第一視角人類視頻轉化為可用于模型訓練的有效監督信號。通過統一相機空間動作表示、統一本體形態編碼、時間對齊動態分塊、可靠性自適應目標函數四大核心機制,它系統性破解了人與不同型號機器人數據在空間坐標系、本體結構、時序頻率、標簽質量上的四重異構難題,實現使用大規模高質量人類第一視角視頻與數千小時多機型機器人數據的協同訓練。
實驗結果證實了大規模第一視角人類視頻能夠有效提升VLA模型預訓練和下游適配能力:在 RoboCasa 基準上,引入第一視角人類視頻進行聯合預訓練,相比于僅使用機器人數據進行預訓練,模型成功率從 68.3% 提升至 72.8%,實現了4.5%的顯著性能跨越。充分證明了“以人為中心”的大規模數據預訓練對提升具身模型泛化能力的巨大價值。
目前,ACE-Ego 已能穩定完成塑料袋打包、鞋子裝入鞋盒等長周期、強接觸的復雜零售操作,覆蓋商品整理、打包履約等典型線下零售環節,突破了此前模型僅能完成簡單桌面抓取的能力邊界,為具身智能走向產業規模化落地提供了高性價比的技術方案。
刷新兩大國際具身智能基準,全面領跑通用操作模型
ACE-Ego 在RoboCasa GR1 TableTop 與 RoboTwin 2.0 兩大國際權威具身智能基準上取得SOTA成績,顯著超越英偉達 GR00T、PI π?.?、京東JoyAI-RA、螞蟻靈波LingBot-VLA、高德ABot-M0、小鵬DIAL等多款主流通用機器人模型。
在 RoboCasa GR1 TableTop 人形桌面操作基準上,ACE-Ego 實現72.8%的平均成功率,大幅刷新榜單紀錄。該基準基于 GR1 人形機器人平臺設置 24 項典型家庭任務,涵蓋18項抓取放置重排與6項鉸接物體交互,是衡量人形機器人通用操作能力的核心標尺。
![]()
測試結果顯示,ACE-Ego 較第二名 小鵬DIAL模型(70.2%)任務成功率提升 2.6%,較英偉達 GR00T-N1.6(47.6%)提升達25.2%,同時全面領先 京東JoyAI-RA(63.2%)、高德ABot-M0(58.3%)、FLARE(55.0%)等主流模型。性能增益覆蓋抓取放置、鉸接操作全品類任務,其中盤子疊放、托盤移鍋等任務成功率突破98%,證明其能力提升來自框架底層優化,而非特定任務過擬合。
在 RoboTwin 2.0 雙臂操作基準中,ACE-Ego 同樣穩居VLA類模型榜首,展現出極強的環境魯棒性。該基準包含50項覆蓋抓取、放置、工具使用、雙臂協同的復雜任務,設置干凈場景(Easy)與強域隨機化場景(Hard)兩種模式,其中 Hard 模式隨機改變光照、紋理、物體位置等條件,高度模擬真實世界不確定性。
ACE-Ego 在 Easy 模式下成功率達 91.12%,Hard 模式達 90.62%,超越騰訊混元Hy-VLA(90.9%/90.1%)、 京東JoyAI-RA(90.48%/89.28%)、螞蟻靈波LingBot-VLA(88.56%/86.68%)、PI π?.?(82.74%/76.76%)、生數Motus(88.66%/87.02%)、高德ABot-M0 (86.06%/85.08%)等對比模型。
![]()
從干凈場景到強隨機化場景,ACE-Ego 性能僅衰減0.5個百分點,遠低于行業平均水平,意味著其習得技能具備極強的環境適應性,更貼近真實商業部署要求。
零售場景全鏈路落地驗證,實操能力解鎖商業價值
從鞋盒規整入盒、咖啡定量分裝,再到柔性塑料袋打包,ACE-Ego 在典型零售場景中展現出全棧式真實操作能力,覆蓋商品陳列、履約打包、貨品分揀等線下零售核心作業環節。
機械臂精準識別鞋盒與雙鞋的空間位置,按照零售場景的標準陳列方位將鞋依次平穩放入盒內;隨后精準定位鞋盒翻蓋的鉸鏈轉軸與邊緣,沿自然合蓋軌跡平穩完成翻蓋扣合,全程無碰撞、無擠壓,展現出對鉸接類物體的幾何操作理解與精準空間定位能力。
機械臂抓取咖啡勺后,從敞口咖啡罐中平穩舀取定量咖啡豆,抬臂、平移、對準杯口一氣呵成,精準控制傾倒角度與速度將咖啡豆全部注入杯中,全程無撒漏。整套長時序操作連貫流暢,體現模型對長程動作序列的規劃能力與末端執行的精細對準精度。
機械臂抓取輕薄購物塑料袋的袋口,順勢撐開袋身形成穩定容納空間,將目標物品平穩放入袋中后收緊袋口完成打包。全程應對塑料袋柔軟易變形、無固定形態的特性,實現了柔性物體的穩定抓取與形態操控。
四大核心機制破局異構融合,解鎖人機協同預訓練新范式
雙榜登頂與下游任務高效適配的卓越表現,源于 ACE-Ego 依托“以人為中心”的研發范式,對具身智能行業痛點實現的重大技術突破。面對人-機數據在空間、結構、時間、訓練監督信號四個維度嚴重不匹配的行業挑戰,ACE-Ego 創新構建了“大規模人類第一人稱視頻 + 多具身機器人數據”的全鏈路融合方案。通過自研的四大核心機制,ACE-Ego 分別從空間、結構、時間以及訓練監督四個維度統一表示與對齊,徹底破解了人機數據不兼容的難題。這四大機制并行發力,成功支撐了大規模人機異構數據的同框訓練,將具身操作模型推入多源協同預訓練的新階段。
機制一:第一視角統一動作空間表達,讓不同人與不同機型的動作 “說同一種語言”。ACE-Ego 以頭部相機坐標系為統一基準,將多機型機器人末端執行器軌跡、不同人類視角視頻重建的手部運動全部投影到機器人 “第一視角” 下,讓動作指令與視覺觀測對齊至統一坐標系,免去跨平臺復雜坐標校準,新本體部署僅需替換一組相機外參。針對人類視頻,團隊搭建多階段處理管線,覆蓋原始篩選、3D 手部重建、參數化映射與多輪質量過濾等數據構建機制,最終輸出與機器人完全同構的動作向量,實現數據格式層面的無縫兼容。
機制二:URDF(統一機器人描述格式) 本體形態映射,讓模型知曉 “誰在做動作”。不同機器人的關節結構、物理尺寸差異巨大,人體運動模式與機器人更是截然不同。為此,ACE-Ego 創新性地將 URDF(統一機器人描述格式)映射為跨本體的統一中間層編碼。對于機器人,它通過解析 URDF 文件將運動學特征編碼并輸入動作解碼器;對于人類數據,則通過學習專屬的“代理形態嵌入”來模擬人體結構。這種“形態條件”僅在動作解碼階段注入,不干擾視覺語言主干網絡,不僅保留了主干網絡強大的通用視覺理解能力,更帶來了極快的新機適配速度——在面對 ARX 雙臂機器人等全新未知機型時,僅需不到 200 條動作數據,即可在極短時間內完成適配部署。
機制三:時間對齊動態分塊,讓不同“手速”數據步調一致。不同機器人平臺控制頻率從10Hz到30Hz不等,固定幀數的動作塊對應物理時長差異顯著,直接混訓會擾亂時序邏輯。ACE-Ego 打破按幀切分的傳統做法,以物理時長為標準劃分動作塊,確保所有數據源預測相同時長的未來動作窗口;搭配分桶采樣策略,按任務類型、時序階段、塊長組合成批,大幅降低填充開銷,穩定梯度更新,讓跨頻率數據的聯合訓練平穩落地。
機制四:可靠性自適應目標函數,帶噪聲數據“按需采信”。人類視頻數據中的動作標簽由視覺算法重建獲得,動作標簽帶有一定重建噪聲,若與高精度傳感器數據同權訓練反而會拉低模型精度。ACE-Ego 設計了雙層訓練目標體系:機器人傳感器數據作為“準確”監督信號,全權重錨定核心控制精度;人類采集動作作為重要多樣性補充信號也參與訓練,實行三級加權機制 —— 通道級重點采信高可靠位置信號,數據集級按重建質量設置權重上限,幀級通過運動平滑度動態過濾異常片段。這套 “信息過濾器” 既充分釋放了大規模人類視頻場景的多樣性潛力與行為廣度,又牢牢守住機器人高精度數據的質量底線。
四大機制環環相扣,打通了 “人類視頻規模化擴量 + 機器人數據保障精度” 的全新技術路徑,為具身操作模型的規模化訓練打開了成本與規模的雙重增長空間。
大曉機器人將繼續深化“以人為中心”的 ACE 研發范式,將這一套高效的人機協同預訓練方法推廣至更廣闊的空間。在模型層面,ACE-Ego模型系列將進一步融合視覺-語言-動作(VLA)模型和具身世界模型(WAM),賦予機器人更強的物理世界想象力與預測能力;在應用層面,該范式也將從當前的復雜零售場景,加速拓展至工業產線、柔性制造等更多高精尖實體產業場景,以高性價比、高泛化性的技術路徑,全面加速具身智能的規模化商業落地。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.