豐田CUE機器人新進展：通過強化學(xué)習(xí)+Sim2Real，走路、運球新技能

2026-04-07 10:48:14　來源: 機器人大講堂

安徽舉報

分享至

人形機器人走向?qū)嵱茫铍y的從來不是 “能走”，而是走得穩(wěn)、學(xué)得快、能從仿真順利落地現(xiàn)實。豐田未來創(chuàng)生中心，正用一套全新的強化學(xué)習(xí) + Sim2Real 路線，讓旗下 CUE 籃球機器人實現(xiàn)行走、站立乃至運球。盡管CUE目前還不具備行走能力，但通過這套技術(shù)路線，有望把雙足控制與動態(tài)交互能力推到新高度。

左側(cè)：森田光典。右側(cè)：伊藤貴弘

近日，豐田官方采訪了 R-Frontier 部門的伊藤貴弘、森田光典兩位研發(fā)人員，披露了CUE人形機器人的最新進展。

伊藤貴弘現(xiàn)任豐田 R-Frontier 人形機器人團隊運動控制 / 全身動力學(xué)核心工程師、研究員，主攻雙足行走穩(wěn)定、力矩控制與 MPC 模型預(yù)測控制，參與 T-HR3 及下一代人形平臺研發(fā)。加入豐田僅一年多，便成為運動控制方向核心研究者。

森田光典同為該團隊研究員，主攻機器人學(xué)習(xí)、行為生成與模仿學(xué)習(xí)，擅長從人類示范和大規(guī)模數(shù)據(jù)中學(xué)習(xí)通用操作技能，聚焦人形機器人手眼協(xié)調(diào)與靈巧操作。

01.

強化學(xué)習(xí)+Sim2Real：豐田機器人的動作訓(xùn)練底層邏輯

伊藤貴弘認為，人形機器人要自主掌握復(fù)雜動作，強化學(xué)習(xí)是當(dāng)下最有效的路徑。

它和監(jiān)督學(xué)習(xí)不同，不需要大量標注好的完美軌跡，本質(zhì)是讓 AI 在環(huán)境里不斷試錯，根據(jù)獎勵機制調(diào)整行為，最終收斂到最優(yōu)策略。

實驗中使用的測試機的模擬環(huán)境（左圖）用于虛擬仿真訓(xùn)練。使用實際設(shè)備（右圖）進行評估。

而讓這套方案真正具備工程價值的，是 Sim2Real（仿真到現(xiàn)實）。先在虛擬環(huán)境里讓機器人跑完海量場景與極端工況，再把訓(xùn)練好的模型遷移到實體機器人上。這能大幅減少真機損耗、縮短訓(xùn)練周期，也是目前全球人形機器人落地的主流技術(shù)路線。

豐田的思路和國內(nèi)頭部人形機器人企業(yè)基本一致：用仿真補足數(shù)據(jù)不足，再靠產(chǎn)品迭代解決仿真偏差問題。

02.

走路這件事：仿真1-2小時學(xué)會，真機磨了無數(shù)輪

行走是人形機器人的基本功，卻是工程上的老大難。豐田團隊把強化學(xué)習(xí)完整嵌入行走控制。

他們在仿真里設(shè)置了很簡單的獎勵規(guī)則：朝著目標速度走就加分，滑倒、失衡就扣分。為了加快訓(xùn)練，團隊直接在仿真中并行跑上千個機器人實例，同步學(xué)習(xí)、同步迭代。

測試結(jié)果顯示，只用 1–2 小時，虛擬機器人就學(xué)會了前進、后退、轉(zhuǎn)彎，能維持基本平衡。

但模型一搬到真機上，問題就立刻暴露出來。

森田光典坦言，仿真和現(xiàn)實之間存在一道很難跨越的鴻溝：同樣的控制指令，虛擬里流暢自然，真機上卻會抖動、拖腳，甚至突然失穩(wěn)。這也是行業(yè)普遍頭疼的 “仿真-現(xiàn)實差距”。

為了填平差距，豐田研究團隊同時用了兩套技術(shù)方案。

Real2Sim：優(yōu)化模擬器的執(zhí)行器模型，使其與真實世界數(shù)據(jù)相匹配。

第一套是域隨機化：人為給編碼器、IMU 等傳感器加噪聲，隨機改變地面摩擦力，讓機器人在 “不完美環(huán)境” 里訓(xùn)練，提升策略魯棒性。

第二套更硬核：Real2Sim 實物反哺仿真。用真機關(guān)節(jié)電機的實際運行數(shù)據(jù)，反向校準仿真模型。靜摩擦、動摩擦、粘性摩擦、轉(zhuǎn)動慣量，全都通過黑箱優(yōu)化一一匹配，讓虛擬執(zhí)行器的行為無限貼近真實硬件。

即便這樣，真機驗證仍是漫長的循環(huán)。

每訓(xùn)一個新模型，都必須上真機測試。走不穩(wěn)，就分析問題、改獎勵、重訓(xùn)，再放回真機驗證。一圈圈迭代下來，原型機才真正實現(xiàn)穩(wěn)定行走，甚至被推動時也能穩(wěn)住姿態(tài)不摔倒。

03.

比走路更難的運球：時機轉(zhuǎn)瞬即逝，獎勵根本沒法手工調(diào)

如果說行走只是控制機器人自身，運球還要同時兼顧動態(tài)球體，難度直接上了一個臺階。

研發(fā)這項技術(shù)，主要是為豐田的 AI 籃球機器人 CUE 做鋪墊。CUE 最早由豐田工程師志愿者發(fā)起，后來歸入 R?Frontier 部門，是一款專用投籃機器人，主打高精度投射技術(shù)驗證，并非通用服務(wù)型機器人。它和 T?HR3 及下一代人形平臺共用底層運動控制技術(shù)，但定位不同。項目始于 2017 年，靈感來自《灌籃高手》，現(xiàn)已迭代到 CUE6。

CUE 身高約 2.08 米，依靠全身動力學(xué)、力矩控制、MPC 模型預(yù)測控制和 AI 視覺感知，實現(xiàn)籃筐定位、彈道計算與實時姿態(tài)修正，能完成罰球、三分甚至超遠投籃。憑借穩(wěn)定的閉環(huán)控制，CUE 已拿下兩項吉尼斯紀錄：連續(xù)罰球 2020 次命中、24.55 米超遠投籃命中。

伊藤貴弘說，運球和行走的控制邏輯完全不一樣。行走時雙腳支撐的時機相對寬松，可運球時觸球只有一瞬間，時機稍差就失敗。球一直在動，不會等機器人，對感知、預(yù)判和控制精度要求極高。

團隊最先卡在獎勵函數(shù)設(shè)計上。森田光典表示，行走的獎勵機制有很多成熟參考，很好定義；但運球要控制球速、方向、持續(xù)接觸，手工設(shè)計獎勵不僅費勁，還容易讓動作僵硬不自然。人工反復(fù)調(diào)參，效率低、容錯也差。

他們最終放棄手工設(shè)計獎勵，改用模仿人類運動的思路。團隊用動作捕捉記錄人類自然運球的全過程，把關(guān)節(jié)角度、運動速度等數(shù)據(jù)映射到機器人的骨骼結(jié)構(gòu)和運動范圍，以人類動作為參考目標。機器人動作越接近，獎勵越高。

這種方式不用設(shè)計復(fù)雜指標，還能直接從人體數(shù)據(jù)里拿到精準觸球時機，讓機器人在正確時間擊球。最終訓(xùn)練出的運球動作流暢、接近人類，還能在真機上穩(wěn)定復(fù)現(xiàn)。

04.

Sim2Real 運球再遇坎：視覺識別誤差險些毀掉全部訓(xùn)練

運球環(huán)節(jié)，仿真到現(xiàn)實的遷移又遇到了新問題。

在仿真里，系統(tǒng)能直接拿到球的精準位置和速度；但現(xiàn)實中，機器人只能靠頭部攝像頭加識別算法去估算。誤差、延遲都會嚴重影響動作，導(dǎo)致仿真里完美的策略，一上真機就失靈。

團隊沒有死磕算法優(yōu)化，而是選擇把現(xiàn)實誤差直接搬進仿真。

他們用動作捕捉測出真實環(huán)境里視覺識別的誤差和延遲，把這些特性寫進仿真的觀測模型，讓虛擬訓(xùn)練環(huán)境和現(xiàn)實保持一致。這一調(diào)整后，運球動作終于成功從仿真遷移到真機。

05.

未來規(guī)劃：先落地 CUE，再打造通用機器人框架

對于后續(xù)計劃，伊藤貴弘表示，近期目標就是把行走和運球能力遷移到 CUE 籃球機器人上。先把整套學(xué)習(xí)框架部署到 CUE，實現(xiàn)穩(wěn)定運球，再逐步提升動作的流暢度與觀賞性，接近人類籃球運動員的表現(xiàn)。

森田光典則看得更遠并表示：團隊會聚焦通用人形機器人控制框架，不只依賴強化學(xué)習(xí)，而是融合多種技術(shù)，打造能像人一樣應(yīng)對多樣任務(wù)、適應(yīng)復(fù)雜環(huán)境的通用平臺。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.