人形機器人走向?qū)嵱茫铍y的從來不是 “能走”,而是走得穩(wěn)、學(xué)得快、能從仿真順利落地現(xiàn)實。豐田未來創(chuàng)生中心,正用一套全新的強化學(xué)習(xí) + Sim2Real 路線,讓旗下 CUE 籃球機器人實現(xiàn)行走、站立乃至運球。盡管CUE目前還不具備行走能力,但通過這套技術(shù)路線,有望把雙足控制與動態(tài)交互能力推到新高度。
![]()
左側(cè):森田光典。右側(cè):伊藤貴弘
近日,豐田官方采訪了 R-Frontier 部門的伊藤貴弘、森田光典兩位研發(fā)人員,披露了CUE人形機器人的最新進展。
伊藤貴弘現(xiàn)任豐田 R-Frontier 人形機器人團隊運動控制 / 全身動力學(xué)核心工程師、研究員,主攻雙足行走穩(wěn)定、力矩控制與 MPC 模型預(yù)測控制,參與 T-HR3 及下一代人形平臺研發(fā)。加入豐田僅一年多,便成為運動控制方向核心研究者。
森田光典同為該團隊研究員,主攻機器人學(xué)習(xí)、行為生成與模仿學(xué)習(xí),擅長從人類示范和大規(guī)模數(shù)據(jù)中學(xué)習(xí)通用操作技能,聚焦人形機器人手眼協(xié)調(diào)與靈巧操作。
01.
強化學(xué)習(xí)+Sim2Real:豐田機器人的動作訓(xùn)練底層邏輯
伊藤貴弘認為,人形機器人要自主掌握復(fù)雜動作,強化學(xué)習(xí)是當(dāng)下最有效的路徑。
它和監(jiān)督學(xué)習(xí)不同,不需要大量標注好的完美軌跡,本質(zhì)是讓 AI 在環(huán)境里不斷試錯,根據(jù)獎勵機制調(diào)整行為,最終收斂到最優(yōu)策略。
![]()
實驗中使用的測試機的模擬環(huán)境(左圖)用于虛擬仿真訓(xùn)練。使用實際設(shè)備(右圖)進行評估。
而讓這套方案真正具備工程價值的,是 Sim2Real(仿真到現(xiàn)實)。先在虛擬環(huán)境里讓機器人跑完海量場景與極端工況,再把訓(xùn)練好的模型遷移到實體機器人上。這能大幅減少真機損耗、縮短訓(xùn)練周期,也是目前全球人形機器人落地的主流技術(shù)路線。
豐田的思路和國內(nèi)頭部人形機器人企業(yè)基本一致:用仿真補足數(shù)據(jù)不足,再靠產(chǎn)品迭代解決仿真偏差問題。
02.
走路這件事:仿真1-2小時學(xué)會,真機磨了無數(shù)輪
行走是人形機器人的基本功,卻是工程上的老大難。豐田團隊把強化學(xué)習(xí)完整嵌入行走控制。
他們在仿真里設(shè)置了很簡單的獎勵規(guī)則:朝著目標速度走就加分,滑倒、失衡就扣分。為了加快訓(xùn)練,團隊直接在仿真中并行跑上千個機器人實例,同步學(xué)習(xí)、同步迭代。
測試結(jié)果顯示,只用 1–2 小時,虛擬機器人就學(xué)會了前進、后退、轉(zhuǎn)彎,能維持基本平衡。
但模型一搬到真機上,問題就立刻暴露出來。
森田光典坦言,仿真和現(xiàn)實之間存在一道很難跨越的鴻溝:同樣的控制指令,虛擬里流暢自然,真機上卻會抖動、拖腳,甚至突然失穩(wěn)。這也是行業(yè)普遍頭疼的 “仿真-現(xiàn)實差距”。
為了填平差距,豐田研究團隊同時用了兩套技術(shù)方案。
![]()
Real2Sim:優(yōu)化模擬器的執(zhí)行器模型,使其與真實世界數(shù)據(jù)相匹配。
第一套是域隨機化:人為給編碼器、IMU 等傳感器加噪聲,隨機改變地面摩擦力,讓機器人在 “不完美環(huán)境” 里訓(xùn)練,提升策略魯棒性。
第二套更硬核:Real2Sim 實物反哺仿真。用真機關(guān)節(jié)電機的實際運行數(shù)據(jù),反向校準仿真模型。靜摩擦、動摩擦、粘性摩擦、轉(zhuǎn)動慣量,全都通過黑箱優(yōu)化一一匹配,讓虛擬執(zhí)行器的行為無限貼近真實硬件。
即便這樣,真機驗證仍是漫長的循環(huán)。
![]()
每訓(xùn)一個新模型,都必須上真機測試。走不穩(wěn),就分析問題、改獎勵、重訓(xùn),再放回真機驗證。一圈圈迭代下來,原型機才真正實現(xiàn)穩(wěn)定行走,甚至被推動時也能穩(wěn)住姿態(tài)不摔倒。
03.
比走路更難的運球:時機轉(zhuǎn)瞬即逝,獎勵根本沒法手工調(diào)
如果說行走只是控制機器人自身,運球還要同時兼顧動態(tài)球體,難度直接上了一個臺階。
研發(fā)這項技術(shù),主要是為豐田的 AI 籃球機器人 CUE 做鋪墊。CUE 最早由豐田工程師志愿者發(fā)起,后來歸入 R?Frontier 部門,是一款專用投籃機器人,主打高精度投射技術(shù)驗證,并非通用服務(wù)型機器人。它和 T?HR3 及下一代人形平臺共用底層運動控制技術(shù),但定位不同。項目始于 2017 年,靈感來自《灌籃高手》,現(xiàn)已迭代到 CUE6。
![]()
CUE 身高約 2.08 米,依靠全身動力學(xué)、力矩控制、MPC 模型預(yù)測控制和 AI 視覺感知,實現(xiàn)籃筐定位、彈道計算與實時姿態(tài)修正,能完成罰球、三分甚至超遠投籃。憑借穩(wěn)定的閉環(huán)控制,CUE 已拿下兩項吉尼斯紀錄:連續(xù)罰球 2020 次命中、24.55 米超遠投籃命中。
![]()
伊藤貴弘說,運球和行走的控制邏輯完全不一樣。行走時雙腳支撐的時機相對寬松,可運球時觸球只有一瞬間,時機稍差就失敗。球一直在動,不會等機器人,對感知、預(yù)判和控制精度要求極高。
團隊最先卡在獎勵函數(shù)設(shè)計上。森田光典表示,行走的獎勵機制有很多成熟參考,很好定義;但運球要控制球速、方向、持續(xù)接觸,手工設(shè)計獎勵不僅費勁,還容易讓動作僵硬不自然。人工反復(fù)調(diào)參,效率低、容錯也差。
![]()
他們最終放棄手工設(shè)計獎勵,改用模仿人類運動的思路。團隊用動作捕捉記錄人類自然運球的全過程,把關(guān)節(jié)角度、運動速度等數(shù)據(jù)映射到機器人的骨骼結(jié)構(gòu)和運動范圍,以人類動作為參考目標。機器人動作越接近,獎勵越高。
這種方式不用設(shè)計復(fù)雜指標,還能直接從人體數(shù)據(jù)里拿到精準觸球時機,讓機器人在正確時間擊球。最終訓(xùn)練出的運球動作流暢、接近人類,還能在真機上穩(wěn)定復(fù)現(xiàn)。
04.
Sim2Real 運球再遇坎:視覺識別誤差險些毀掉全部訓(xùn)練
運球環(huán)節(jié),仿真到現(xiàn)實的遷移又遇到了新問題。
在仿真里,系統(tǒng)能直接拿到球的精準位置和速度;但現(xiàn)實中,機器人只能靠頭部攝像頭加識別算法去估算。誤差、延遲都會嚴重影響動作,導(dǎo)致仿真里完美的策略,一上真機就失靈。
![]()
團隊沒有死磕算法優(yōu)化,而是選擇把現(xiàn)實誤差直接搬進仿真。
他們用動作捕捉測出真實環(huán)境里視覺識別的誤差和延遲,把這些特性寫進仿真的觀測模型,讓虛擬訓(xùn)練環(huán)境和現(xiàn)實保持一致。這一調(diào)整后,運球動作終于成功從仿真遷移到真機。
05.
未來規(guī)劃:先落地 CUE,再打造通用機器人框架
對于后續(xù)計劃,伊藤貴弘表示,近期目標就是把行走和運球能力遷移到 CUE 籃球機器人上。先把整套學(xué)習(xí)框架部署到 CUE,實現(xiàn)穩(wěn)定運球,再逐步提升動作的流暢度與觀賞性,接近人類籃球運動員的表現(xiàn)。
森田光典則看得更遠并表示:團隊會聚焦通用人形機器人控制框架,不只依賴強化學(xué)習(xí),而是融合多種技術(shù),打造能像人一樣應(yīng)對多樣任務(wù)、適應(yīng)復(fù)雜環(huán)境的通用平臺。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.