![]()
人類不只是用眼睛操控這個世界。
把一張薄卡片插進卡槽、擰開一把鎖、從一疊紙杯中分出一個,這些動作之所以對人類毫不費力,靠的不是視覺,而是指尖傳回大腦的那一點點壓力與滑動信號。然而在機器人領(lǐng)域,觸覺長期被當(dāng)作"錦上添花"的附屬模態(tài),真正決定動作的始終是視覺。
過去兩年,隨著具身智能和 VLA 模型快速發(fā)展,機器人的任務(wù)開始從"看得見、拿得起"邁向"摸得準、做得細"。從 Physical Intelligence 的 π0,到 NVIDIA 的 GR00T,再到 UC Berkeley 的 EgoScale,越來越多研究開始挑戰(zhàn)翻書、插卡、擰燈泡、分紙杯等接觸密集型任務(wù)。
在一次次的任務(wù)中,研究者們開始發(fā)現(xiàn),雖然視覺負責(zé)找到物體,但真正決定操作成敗的,往往是接觸發(fā)生后的那幾十毫秒。于是,觸覺開始重新進入它們的視野,并被嘗試引入 Transformer 和 VLA 框架,希望讓機器人擁有類似人類指尖的反饋能力。
但當(dāng)研究者們嘗試把觸覺傳感器接入系統(tǒng)時,一個尷尬的結(jié)果發(fā)生了:模型不僅沒能學(xué)會更好的操作,反而更容易出現(xiàn)抓取失誤、動作猶豫甚至任務(wù)失敗。很多時候,觸覺不如不加。
這個奇怪的現(xiàn)象引起了一支超級團隊的注意。最近,來自 UC Berkeley、NVIDIA、斯坦福、松下等機構(gòu)的研究者,其中包括斯坦福教授李飛飛、英偉達具身智能負責(zé)人 Jim Fan、佐治亞理工學(xué)院助理教授徐丹飛、Pieter Abbeel、Jitendra Malik、Ken Goldberg、Trevor Darrell 等多位知名學(xué)者,聯(lián)合發(fā)表了一篇題為“T-Rex: Tactile-Reactive Dexterous Manipulation”的論文,分析當(dāng)前觸覺融合方案的根本缺陷,并提出了一套全新的架構(gòu)——T-Rex 來解決這個問題。
![]()
(來源:T-Rex)
加了觸覺,反而更差了?
目前最強的機器人操作策略大多基于視覺-語言-動作模型(VLA),其核心是一個大型 Transformer 骨干網(wǎng)絡(luò)。當(dāng)研究者引入觸覺時,最自然的做法就是把觸覺信號編碼成 token,和視覺、語言 token 一起喂進同一個 Transformer。這也是大多數(shù)現(xiàn)有工作采用的路線。
增加一種新的感知模態(tài),按理說應(yīng)該讓機器人擁有更精準的操作能力。然而,論文中的實驗卻得出了相反的結(jié)果:在相同的實驗平臺和任務(wù)設(shè)置下,將觸覺力信號直接拼接到預(yù)訓(xùn)練好的 π0.5 模型中,任務(wù)成功率從 17% 驟降至 6%。也就是說,加入觸覺后,模型不僅沒有表現(xiàn)得更好,反而更容易失敗。
為什么會這樣?論文指出,核心矛盾在于頻率不匹配。視覺信號的更新頻率通常在 5Hz 左右,而觸覺反饋天然需要在 20Hz 甚至更高的頻率下才能發(fā)揮作用。人在捏一個雞蛋時,手指對力度的微調(diào)是毫秒級的。把這兩種時間尺度完全不同的信號塞進同一個以低頻運行的 Transformer,不僅無法發(fā)揮觸覺的優(yōu)勢,反而會干擾視覺模態(tài)已經(jīng)學(xué)好的表征,造成性能退化。
換句話說,過去的做法不是"加了觸覺沒用",而是"加的方式不對"。
T-Rex 的核心創(chuàng)新,就是改變觸覺輸入的方式。把觸覺從"另一種輸入模態(tài)"重新定義為"另一條獨立的控制通路"。
它采用了一種混合 Transformer 專家架構(gòu)(Mixture-of-Transformer-Experts,MoT),將整個系統(tǒng)拆分為三個專家模塊,各司其職:
![]()
(來源:T-Rex)
第一個是潛在專家(Latent Expert),負責(zé)處理視覺和語言觀測,預(yù)測未來的視覺表征,為后續(xù)動作提供語義上下文。可以把它理解為"看清楚當(dāng)前場景并預(yù)判接下來會發(fā)生什么"的模塊。
第二個是動作專家(Action Expert),以大約 5Hz 的低頻運行,負責(zé)粗粒度的動作規(guī)劃。它采用條件流匹配(Flow Matching)的方式,從純噪聲出發(fā)逐步去噪,生成一個中間狀態(tài)的動作方案——相當(dāng)于先畫一個草圖。
第三個也是最關(guān)鍵的,是觸覺專家(Tactile Expert)。它以大約 20Hz 的高頻運行,接收實時觸覺信號,在動作專家產(chǎn)出的"草圖"基礎(chǔ)上進行快速修正。它不需要重新處理視覺和語言信息,而是直接復(fù)用前兩個專家緩存的上下文,只關(guān)注觸覺帶來的即時反饋。
這種設(shè)計的精妙之處在于:視覺和觸覺不再爭搶同一個 Transformer 的注意力資源,而是在各自最合適的頻率上獨立運作,再通過級聯(lián)去噪的方式協(xié)同配合。動作專家完成 10 步去噪中的前 6 步,輸出一個部分去噪的動作;觸覺專家接過來,用最新的觸覺數(shù)據(jù)完成剩下的 4 步,輸出最終可執(zhí)行的動作。
一套新的觸覺編碼方式
除了架構(gòu)創(chuàng)新,T-Rex 在觸覺信號的編碼和數(shù)據(jù)上也下了功夫。
論文提出了一種時空觸覺編碼器(Spatial-Temporal Tactile Encoder),同時捕捉兩種互補的觸覺信息:一是力的時間動態(tài)——通過一個 VQ-VAE(向量量化變分自編碼器)將每根手指過去 16 幀的六維力向量壓縮為一個緊湊的離散 token,既能捕捉力的變化趨勢,又能有效抵抗傳感器漂移;二是形變的空間分布——通過一個輕量級卷積網(wǎng)絡(luò)提取指尖形變圖的特征,捕捉接觸面的邊緣、滑移和剪切模式。
兩種信號拼接后,構(gòu)成觸覺專家的完整輸入。這種編碼方式既保留了觸覺的豐富信息,又將其壓縮到了 Transformer 能高效處理的規(guī)模。
數(shù)據(jù)方面,團隊構(gòu)建了 T-Rex 數(shù)據(jù)集。其中包含 100 小時的雙臂靈巧手遙操作數(shù)據(jù),覆蓋超過 200 種日常物品和 22 種運動基元(如抓取、擠壓、插入、擦拭、折疊等),包含 7,700 余條軌跡。每條軌跡都同步記錄了 RGB 圖像、機器人狀態(tài)、動作指令、觸覺力信號和形變圖。
![]()
圖|T-Rex 數(shù)據(jù)集圍繞“動作 × 物體”組合構(gòu)建(來源:T-Rex)
與以往針對特定任務(wù)錄制數(shù)據(jù)不同,T-Rex 數(shù)據(jù)集的設(shè)計思路是圍繞"動詞-名詞"組合來組織。用 22 個動作原語搭配 200 多種物品,通過組合覆蓋盡可能多樣的接觸行為。這種方式使得模型能夠?qū)W到通用的觸覺-動作對應(yīng)關(guān)系,而非記憶特定任務(wù)的模式。
訓(xùn)練采用三階段策略。第一階段是大規(guī)模人類視頻預(yù)訓(xùn)練:基于 EgoScale 的方案,在 22,889 小時的第一人稱人類視頻上預(yù)訓(xùn)練潛在專家和動作專家,獲取廣泛的視覺運動先驗。第二階段是觸覺中間訓(xùn)練(mid-training):在 100 小時的 T-Rex 數(shù)據(jù)集上,將動作專家適配到機器人平臺,同時訓(xùn)練觸覺專家。第三階段是技能微調(diào)(post-training):對特定任務(wù)使用約 100 條示范進行微調(diào)。
這種漸進式訓(xùn)練的好處在于:觸覺能力不需要從頭學(xué),而是在視覺運動先驗已經(jīng)建立之后,以相對較少的數(shù)據(jù)"嫁接"進來。
12 項任務(wù),平均領(lǐng)先 30 個百分點
對于 T-Rex 的最終效果,論文在 12 項需要精細力控和接觸感知的真實世界任務(wù)上進行了評估。這些任務(wù)包括翻書頁、轉(zhuǎn)移雞蛋、擦盤子、擠牙膏、分紙杯、分揀麻將、開鎖、填藥盒、酸堿中和滴定、抽卡片、發(fā)撲克牌和擰燈泡。每一個都需要機器人對接觸力進行動態(tài)調(diào)節(jié)。
結(jié)果顯示,T-Rex 在所有任務(wù)上均取得了最高的成功率,平均達到 65%,比最強基線 EgoScale 的 35% 高出了 30 個百分點。在翻書頁、轉(zhuǎn)移雞蛋、分紙杯等任務(wù)上,T-Rex 分別達到了 96%、75%、78% 的成功率。
![]()
圖|12 項真實世界靈巧操作任務(wù)評測結(jié)果(來源:T-Rex)
消融實驗進一步證實了幾個關(guān)鍵結(jié)論。去掉所有觸覺輸入后,平均成功率從 65% 降至 42%,下降了 23 個百分點,說明觸覺信號確實至關(guān)重要。去掉異步執(zhí)行機制(讓觸覺專家和動作專家以相同頻率同步運行),性能下降 5 個百分點,驗證了頻率解耦的必要性。而在數(shù)據(jù)效率方面,經(jīng)過觸覺中間訓(xùn)練的模型在僅使用 10 條任務(wù)示范時就能達到可用水平,遠優(yōu)于未經(jīng)中間訓(xùn)練的版本。
回過頭看,T-Rex 的成功主要來自幾個相互配合的設(shè)計。
首先是頻率解耦。視覺以約 5 Hz 的頻率運行,負責(zé)理解場景;觸覺則以約 20 Hz 的頻率持續(xù)更新,負責(zé)感知接觸后的細微變化,兩者互不干擾。這不僅更符合人類處理視覺和觸覺的方式,也避免了高頻觸覺信號被低頻模型“淹沒”,難以發(fā)揮作用。
其次是分工明確。動作專家先規(guī)劃整體動作,相當(dāng)于先確定“大方向”;觸覺專家再根據(jù)實時觸覺反饋,對動作進行快速微調(diào)。這樣一來,視覺負責(zé)“決定做什么”,觸覺負責(zé)“決定怎么做得更準”,兩者各自發(fā)揮優(yōu)勢。
第三是計算上的優(yōu)化。觸覺專家不需要每次都重新處理視覺和語言信息,而是直接利用動作專家已經(jīng)計算好的結(jié)果,只專注于處理最新的觸覺反饋。這既減少了計算量,也讓觸覺能夠以 20 Hz 的頻率實時運行,真正跟上機器人操作時的節(jié)奏。
局限與未來方向
不過,在結(jié)尾部分論文也坦承了當(dāng)前的局限。對于需要更長時間、更高精度協(xié)調(diào)的任務(wù),比如那些遙操作本身就很困難的場景。純粹的行為克隆仍然受限于示范數(shù)據(jù)的分布,未來可能需要引入強化學(xué)習(xí)或在線交互來突破瓶頸。
硬件層面,觸覺傳感器本身的局限也是瓶頸:傳感器漂移、設(shè)備間的標定差異、以及目前僅限于指尖而非全手掌的感知覆蓋,都限制了系統(tǒng)的上限。論文建議未來探索跨異構(gòu)傳感器的統(tǒng)一表征,以及覆蓋整個手掌的更密集觸覺硬件。
T-Rex 這篇工作給出的核心啟示或許可以用一句話概括:觸覺不應(yīng)該被當(dāng)作視覺的附庸,而應(yīng)該被當(dāng)作一個獨立的控制回路。
過去幾年,機器人學(xué)習(xí)領(lǐng)域習(xí)慣了"萬物皆 token"的思路——把所有模態(tài)統(tǒng)一編碼、扔進同一個大模型。這個范式在視覺和語言上取得了巨大成功,但當(dāng)觸覺這種天然高頻、需要即時響應(yīng)的信號加入時,統(tǒng)一架構(gòu)的弊端就暴露了出來。T-Rex 的 MoT 架構(gòu)提供了一種更尊重信號物理特性的融合方式,也為未來多模態(tài)機器人系統(tǒng)的設(shè)計提供了新的思路。
論文鏈接:https://arxiv.org/abs/2606.17055
項目主頁:https://tactile-rex.github.io/
運營/排版:何晨龍
注:封面/首圖由 AI 輔助生成
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.