你是否想過,為什么我們能一邊走路一邊玩手機,手指還能在口袋里準確找到鑰匙?這種“不用看就能感知身體”的能力,在科學上被稱為本體感覺。它就像一個內置在肌肉和關節里的陀螺儀,時刻告訴我們四肢的位置和運動狀態。
在機器人領域,讓機械手像人類一樣靈活地轉筆或把玩魔方,一直是極具挑戰的前沿課題。過去,頂尖的機器手大多依賴“眼睛”——也就是外部攝像頭和視覺算法——來追蹤手中物體。但這帶來了許多現實難題:手指一動就容易遮擋物體,光線變化會影響追蹤,龐大的圖像處理還會拖慢反應速度。這就引出了一個核心問題:如果讓機器手閉上眼睛,僅靠自身的“肌肉感”,能完成靈巧的操作嗎?
近日,來自蘇黎世聯邦理工學院(ETH Zurich)軟體機器人實驗室(Soft Robotics Laboratory)的最新研究:“Learning Robust Dexterous In-Hand Manipulation from Joint Sensors with Proprioceptive Transformer”。開發了一種名為本體感覺變換器(Proprioceptive Transformer,簡稱PT)的系統,成功讓一只肌腱驅動的靈巧機械手,在沒有任何外部視覺或觸覺傳感器輔助的情況下,僅憑“關節的本能”就玩轉了連續旋轉立方體的任務,性能甚至比依賴高端視覺系統的方案還要高出數倍。
01.
肌腱驅動的感知難題
靈巧手主流有兩大類:剛性連桿驅動和肌腱驅動。ORCA手屬于后者,它擁有17個自由度,通過電機牽引細鋼絲繩來拉動手指關節。這種設計柔順、緊湊,但帶來了一個棘手的問題——傳動不確定性。
![]()
該方法整體概覽
鋼絲繩的彈性拉伸、與護套的摩擦、關節的回差,都導致電機端的轉動角度與手指關節的真實角度存在明顯的非線性偏差。直接讀取電機編碼器,就像只盯著汽車油門踏板的刻度來猜測車速,在中低速時或許勉強能用,一旦需要精細的動態操控,誤差就會被急劇放大。
為了解決這個問題,研究團隊在ORCA的16個手指關節內直接嵌入了微型磁角度傳感器(AS5600)。這些傳感器直接測量關節的真實轉角,完全繞開了從電機到關節的整條傳動鏈。這種直接關節傳感構成了PT系統感知基礎的底層,也為后續一切驚艷的表現埋下了伏筆。
02.
師生蒸餾:從“上帝視角”到“純本體感知”
PT的訓練遵循經典的師生蒸餾范式。在NVIDIA Isaac Lab仿真環境中,研究者首先訓練了一位擁有“上帝視角”的教師策略。
這位教師通過PPO強化學習算法訓練,輸入觀測多達81維,包含無噪聲的關節位置、速度,以及立方體的真實三維位置和四元數姿態。獎勵函數被設計為角速度跟蹤(分解為幅值和方向)、位置跟蹤和多項平滑正則項的加權組合,特別是動作變化率懲罰,對后期遷移至真實硬件上的平滑運動至關重要。借助8192個并行環境的大規模訓練,教師策略能夠以極高的精度操控立方體繞Z軸持續旋轉。
![]()
師生蒸餾流程
接下來輪到學生。學生的感知能力被刻意限制:只能訪問帶噪聲的關節位置和速度歷史、目標指令,以及前一時刻的動作和位置指令。為了逼真模擬真實傳感器特性,關節位置被疊加了每回合變化的偏置噪聲和高斯白噪聲,速度也受到逐步噪聲干擾。
學生策略需要僅憑這些“模糊的自我感知”來模仿教師的行為。但單純的模仿(行為克隆)往往不夠,因為學生要面對的是一個部分可觀測的環境:它看不見物體,不知道手與物體之間微妙的接觸力。為了讓學生“學會想象”,研究者設計了一個輔助任務,要求學生同時重建出無噪聲的關節狀態師生蒸餾范式以及立方體的實時位置。這個重建損失與動作模仿損失聯合優化,迫使Transformer編碼器將物體動力學隱式地編碼進本體感覺序列的特征表示中。
03.
時間序列中的“觸覺推理”
學生的大腦,正是本體感覺變換器(PT)。其核心架構是Transformer模型。
在與物體交互的過程中,關節的指令目標與實際位置之間會形成某種特定的偏差模式。物體越大,手指越早被物理阻擋;物體越重,支撐手指被壓彎的幅度越大。這些模式不是瞬時的,而是在時間軸上展開的動態信號。要準確解碼出物體的大小、存在、甚至運動趨勢,模型必須能夠審視一段較長的觀測歷史。
Transformer的自注意力機制天然適合這種需求。PT接收過去10個時間步(約0.5秒)的關節數據,將它們與動作、指令上下文一起編碼為12個token,送入3層4頭的Transformer編碼器。相比同等參數量的MLP或LSTM,Transformer能夠靈活地關注那些接觸發生和脫離的關鍵時刻,從而在快速的狀態變化中保持對物體運動的準確“腦補”。
定量結果證實了這一點。在模擬環境中,PT對物體位置的重建均方根誤差(RMSE)僅為13.70 mm,而MLP和LSTM分別為17.87 mm和15.64 mm,PT相比MLP降幅達23.4%。更重要的是,這種誤差遠小于立方體的尺寸(55 mm),意味著策略能夠形成足夠準確的內部信念來完成操控任務。
04.
實驗結果驚艷:轉速提升超3倍
真正的考驗在真實ORCA手上。研究者使用兩塊不同尺寸(55 mm和65 mm)的立方體進行了對比測試,評估指標包括每分鐘轉數(RPM)、旋轉精度(RA)、不掉落成功率(DFSR)和掉落次數(DC)。
![]()
結果非常驚艷,使用直接關節傳感的PT-Joint方案,在55 mm立方體上達到了11.83 RPM的平均轉速,不僅遠高于單純使用電機編碼器的PT-Motor(9.33 RPM),更讓僅用本體感覺反饋訓練的Proprio-PPO基線(3.83 RPM)望塵莫及,速度提升了3.1倍。
![]()
該策略在仿真中用到了真實的物體姿態,實際部署時通過類似DeXtreme的視覺姿態檢測系統提供目標狀態。然而,視覺檢測的噪聲和延遲導致其實際轉速僅3.08 RPM,不足PT-Joint的三分之一。也就是說,PT通過關節序列“腦補”出的物體狀態,比視覺姿態估計更可靠、更有用。
換用65 mm大立方體時,PT-Joint無需任何重新訓練,轉速依然高達11.33 RPM,而Extero-PPO僅為4.83 RPM,證明了策略對物體尺寸的泛化能力。研究還通過可視化不同立方體尺寸下的關節指令-實際位置散點圖,清晰地展示了體積效應和重量效應如何被自然編碼在關節跟蹤誤差中,沒有觸覺皮膚,僅靠關節傳感器就實現了對物體存在和尺寸的隱式檢測。
05.
哪些設計真正起作用?
為了理清各項創新對最終性能的貢獻,研究者進行了一系列消融實驗。幾項關鍵發現:
觀測窗口大小至關重要。窗口從1步增加到10步,平均轉速提升了31%。Transformer需要足夠長的歷史才能有效捕捉接觸動力學中的時序模式。
重建輔助損失是不可或缺的。去掉重建頭(無偵察),策略性能斷崖式下跌:DFSR暴跌至35.0%,平均每次試驗掉落5次。這印證了輔助任務對于塑造有意義的潛在空間至關重要,失去了“想象物體”的壓力,Transformer也就退化為一個盲目的模仿器。
傳感器類型與架構的交互同樣明顯。PT-Joint在所有窗口尺寸下都保持完美的RA和DFSR,而PT-Motor在小窗口時RA和DFSR顯著下降。這表明關節傳感提供的本體感覺信號更干凈、更可靠,使得學習過程更容易收斂到魯棒的解。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.