上周刷到個開源項目,名字叫PyRep,把V-REP機器人仿真平臺和深度機器人學習流程縫合在了一起。以前做機械臂控制或者移動機器人導航,用V-REP搭建場景挺方便,但要把訓練好的神經網(wǎng)絡部署進去,得自己寫一堆接口和管道代碼。
PyRep的做法很直接。它把V-REP的遠程API封裝成一套Python類,仿真步進、傳感器數(shù)據(jù)讀取、關節(jié)力矩控制這些常用操作,都變成和強化學習環(huán)境差不多的step/reset模式。也就是說,你寫的RL訓練腳本不用改太多,就能直接在V-REP里跑。
好奇看了一眼架構,最上層暴露的是和OpenAI Gym類似的環(huán)境接口,中間層負責把V-REP的C接口調用翻譯成numpy數(shù)組,底下才是V-REP自身的物理引擎。這樣搞的好處是,你可以復用已有的大多數(shù)強化學習算法庫,換個環(huán)境就行,不用從零搭數(shù)據(jù)流。
不過這工具目前的重點在單臂操作任務上,像reach、push這些基礎skill。想直接拿去做移動抓取或者多機器人協(xié)作,估計還得自己擴展任務定義。已經能跑的幾個benchmark里,PPO和SAC算法的收斂速度看起來和MuJoCo差不多,仿真步進延遲基本在10ms以內——這個數(shù)字對實時訓練挺友好。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.