李飛飛 Jim Fan和徐丹飛聯(lián)合重磅論文：機器人靈巧手可能走錯了路

2026-07-02 16:05:05　來源: DeepTech深科技

北京舉報

分享至

人類不只是用眼睛操控這個世界。

把一張薄卡片插進卡槽、擰開一把鎖、從一疊紙杯中分出一個，這些動作之所以對人類毫不費力，靠的不是視覺，而是指尖傳回大腦的那一點點壓力與滑動信號。然而在機器人領(lǐng)域，觸覺長期被當(dāng)作"錦上添花"的附屬模態(tài)，真正決定動作的始終是視覺。

過去兩年，隨著具身智能和 VLA 模型快速發(fā)展，機器人的任務(wù)開始從"看得見、拿得起"邁向"摸得準、做得細"。從 Physical Intelligence 的 π0，到 NVIDIA 的 GR00T，再到 UC Berkeley 的 EgoScale，越來越多研究開始挑戰(zhàn)翻書、插卡、擰燈泡、分紙杯等接觸密集型任務(wù)。

在一次次的任務(wù)中，研究者們開始發(fā)現(xiàn)，雖然視覺負責(zé)找到物體，但真正決定操作成敗的，往往是接觸發(fā)生后的那幾十毫秒。于是，觸覺開始重新進入它們的視野，并被嘗試引入 Transformer 和 VLA 框架，希望讓機器人擁有類似人類指尖的反饋能力。

但當(dāng)研究者們嘗試把觸覺傳感器接入系統(tǒng)時，一個尷尬的結(jié)果發(fā)生了：模型不僅沒能學(xué)會更好的操作，反而更容易出現(xiàn)抓取失誤、動作猶豫甚至任務(wù)失敗。很多時候，觸覺不如不加。

這個奇怪的現(xiàn)象引起了一支超級團隊的注意。最近，來自 UC Berkeley、NVIDIA、斯坦福、松下等機構(gòu)的研究者，其中包括斯坦福教授李飛飛、英偉達具身智能負責(zé)人 Jim Fan、佐治亞理工學(xué)院助理教授徐丹飛、Pieter Abbeel、Jitendra Malik、Ken Goldberg、Trevor Darrell 等多位知名學(xué)者，聯(lián)合發(fā)表了一篇題為“T-Rex: Tactile-Reactive Dexterous Manipulation”的論文，分析當(dāng)前觸覺融合方案的根本缺陷，并提出了一套全新的架構(gòu)——T-Rex 來解決這個問題。

（來源：T-Rex）

加了觸覺，反而更差了？

目前最強的機器人操作策略大多基于視覺-語言-動作模型（VLA），其核心是一個大型 Transformer 骨干網(wǎng)絡(luò)。當(dāng)研究者引入觸覺時，最自然的做法就是把觸覺信號編碼成 token，和視覺、語言 token 一起喂進同一個 Transformer。這也是大多數(shù)現(xiàn)有工作采用的路線。

增加一種新的感知模態(tài)，按理說應(yīng)該讓機器人擁有更精準的操作能力。然而，論文中的實驗卻得出了相反的結(jié)果：在相同的實驗平臺和任務(wù)設(shè)置下，將觸覺力信號直接拼接到預(yù)訓(xùn)練好的 π0.5 模型中，任務(wù)成功率從 17% 驟降至 6%。也就是說，加入觸覺后，模型不僅沒有表現(xiàn)得更好，反而更容易失敗。

為什么會這樣？論文指出，核心矛盾在于頻率不匹配。視覺信號的更新頻率通常在 5Hz 左右，而觸覺反饋天然需要在 20Hz 甚至更高的頻率下才能發(fā)揮作用。人在捏一個雞蛋時，手指對力度的微調(diào)是毫秒級的。把這兩種時間尺度完全不同的信號塞進同一個以低頻運行的 Transformer，不僅無法發(fā)揮觸覺的優(yōu)勢，反而會干擾視覺模態(tài)已經(jīng)學(xué)好的表征，造成性能退化。

換句話說，過去的做法不是"加了觸覺沒用"，而是"加的方式不對"。

T-Rex 的核心創(chuàng)新，就是改變觸覺輸入的方式。把觸覺從"另一種輸入模態(tài)"重新定義為"另一條獨立的控制通路"。

它采用了一種混合 Transformer 專家架構(gòu)（Mixture-of-Transformer-Experts，MoT），將整個系統(tǒng)拆分為三個專家模塊，各司其職：

（來源：T-Rex）

第一個是潛在專家（Latent Expert），負責(zé)處理視覺和語言觀測，預(yù)測未來的視覺表征，為后續(xù)動作提供語義上下文。可以把它理解為"看清楚當(dāng)前場景并預(yù)判接下來會發(fā)生什么"的模塊。

第二個是動作專家（Action Expert），以大約 5Hz 的低頻運行，負責(zé)粗粒度的動作規(guī)劃。它采用條件流匹配（Flow Matching）的方式，從純噪聲出發(fā)逐步去噪，生成一個中間狀態(tài)的動作方案——相當(dāng)于先畫一個草圖。

第三個也是最關(guān)鍵的，是觸覺專家（Tactile Expert）。它以大約 20Hz 的高頻運行，接收實時觸覺信號，在動作專家產(chǎn)出的"草圖"基礎(chǔ)上進行快速修正。它不需要重新處理視覺和語言信息，而是直接復(fù)用前兩個專家緩存的上下文，只關(guān)注觸覺帶來的即時反饋。

這種設(shè)計的精妙之處在于：視覺和觸覺不再爭搶同一個 Transformer 的注意力資源，而是在各自最合適的頻率上獨立運作，再通過級聯(lián)去噪的方式協(xié)同配合。動作專家完成 10 步去噪中的前 6 步，輸出一個部分去噪的動作；觸覺專家接過來，用最新的觸覺數(shù)據(jù)完成剩下的 4 步，輸出最終可執(zhí)行的動作。

一套新的觸覺編碼方式

除了架構(gòu)創(chuàng)新，T-Rex 在觸覺信號的編碼和數(shù)據(jù)上也下了功夫。

論文提出了一種時空觸覺編碼器（Spatial-Temporal Tactile Encoder），同時捕捉兩種互補的觸覺信息：一是力的時間動態(tài)——通過一個 VQ-VAE（向量量化變分自編碼器）將每根手指過去 16 幀的六維力向量壓縮為一個緊湊的離散 token，既能捕捉力的變化趨勢，又能有效抵抗傳感器漂移；二是形變的空間分布——通過一個輕量級卷積網(wǎng)絡(luò)提取指尖形變圖的特征，捕捉接觸面的邊緣、滑移和剪切模式。

兩種信號拼接后，構(gòu)成觸覺專家的完整輸入。這種編碼方式既保留了觸覺的豐富信息，又將其壓縮到了 Transformer 能高效處理的規(guī)模。

數(shù)據(jù)方面，團隊構(gòu)建了 T-Rex 數(shù)據(jù)集。其中包含 100 小時的雙臂靈巧手遙操作數(shù)據(jù)，覆蓋超過 200 種日常物品和 22 種運動基元（如抓取、擠壓、插入、擦拭、折疊等），包含 7,700 余條軌跡。每條軌跡都同步記錄了 RGB 圖像、機器人狀態(tài)、動作指令、觸覺力信號和形變圖。

圖｜T-Rex 數(shù)據(jù)集圍繞“動作 × 物體”組合構(gòu)建（來源：T-Rex）

與以往針對特定任務(wù)錄制數(shù)據(jù)不同，T-Rex 數(shù)據(jù)集的設(shè)計思路是圍繞"動詞-名詞"組合來組織。用 22 個動作原語搭配 200 多種物品，通過組合覆蓋盡可能多樣的接觸行為。這種方式使得模型能夠?qū)W到通用的觸覺-動作對應(yīng)關(guān)系，而非記憶特定任務(wù)的模式。

訓(xùn)練采用三階段策略。第一階段是大規(guī)模人類視頻預(yù)訓(xùn)練：基于 EgoScale 的方案，在 22,889 小時的第一人稱人類視頻上預(yù)訓(xùn)練潛在專家和動作專家，獲取廣泛的視覺運動先驗。第二階段是觸覺中間訓(xùn)練（mid-training）：在 100 小時的 T-Rex 數(shù)據(jù)集上，將動作專家適配到機器人平臺，同時訓(xùn)練觸覺專家。第三階段是技能微調(diào)（post-training）：對特定任務(wù)使用約 100 條示范進行微調(diào)。

這種漸進式訓(xùn)練的好處在于：觸覺能力不需要從頭學(xué)，而是在視覺運動先驗已經(jīng)建立之后，以相對較少的數(shù)據(jù)"嫁接"進來。

12 項任務(wù)，平均領(lǐng)先 30 個百分點

對于 T-Rex 的最終效果，論文在 12 項需要精細力控和接觸感知的真實世界任務(wù)上進行了評估。這些任務(wù)包括翻書頁、轉(zhuǎn)移雞蛋、擦盤子、擠牙膏、分紙杯、分揀麻將、開鎖、填藥盒、酸堿中和滴定、抽卡片、發(fā)撲克牌和擰燈泡。每一個都需要機器人對接觸力進行動態(tài)調(diào)節(jié)。

結(jié)果顯示，T-Rex 在所有任務(wù)上均取得了最高的成功率，平均達到 65%，比最強基線 EgoScale 的 35% 高出了 30 個百分點。在翻書頁、轉(zhuǎn)移雞蛋、分紙杯等任務(wù)上，T-Rex 分別達到了 96%、75%、78% 的成功率。

圖｜12 項真實世界靈巧操作任務(wù)評測結(jié)果（來源：T-Rex）

消融實驗進一步證實了幾個關(guān)鍵結(jié)論。去掉所有觸覺輸入后，平均成功率從 65% 降至 42%，下降了 23 個百分點，說明觸覺信號確實至關(guān)重要。去掉異步執(zhí)行機制（讓觸覺專家和動作專家以相同頻率同步運行），性能下降 5 個百分點，驗證了頻率解耦的必要性。而在數(shù)據(jù)效率方面，經(jīng)過觸覺中間訓(xùn)練的模型在僅使用 10 條任務(wù)示范時就能達到可用水平，遠優(yōu)于未經(jīng)中間訓(xùn)練的版本。

回過頭看，T-Rex 的成功主要來自幾個相互配合的設(shè)計。

首先是頻率解耦。視覺以約 5 Hz 的頻率運行，負責(zé)理解場景；觸覺則以約 20 Hz 的頻率持續(xù)更新，負責(zé)感知接觸后的細微變化，兩者互不干擾。這不僅更符合人類處理視覺和觸覺的方式，也避免了高頻觸覺信號被低頻模型“淹沒”，難以發(fā)揮作用。

其次是分工明確。動作專家先規(guī)劃整體動作，相當(dāng)于先確定“大方向”；觸覺專家再根據(jù)實時觸覺反饋，對動作進行快速微調(diào)。這樣一來，視覺負責(zé)“決定做什么”，觸覺負責(zé)“決定怎么做得更準”，兩者各自發(fā)揮優(yōu)勢。

第三是計算上的優(yōu)化。觸覺專家不需要每次都重新處理視覺和語言信息，而是直接利用動作專家已經(jīng)計算好的結(jié)果，只專注于處理最新的觸覺反饋。這既減少了計算量，也讓觸覺能夠以 20 Hz 的頻率實時運行，真正跟上機器人操作時的節(jié)奏。

局限與未來方向

不過，在結(jié)尾部分論文也坦承了當(dāng)前的局限。對于需要更長時間、更高精度協(xié)調(diào)的任務(wù)，比如那些遙操作本身就很困難的場景。純粹的行為克隆仍然受限于示范數(shù)據(jù)的分布，未來可能需要引入強化學(xué)習(xí)或在線交互來突破瓶頸。

硬件層面，觸覺傳感器本身的局限也是瓶頸：傳感器漂移、設(shè)備間的標定差異、以及目前僅限于指尖而非全手掌的感知覆蓋，都限制了系統(tǒng)的上限。論文建議未來探索跨異構(gòu)傳感器的統(tǒng)一表征，以及覆蓋整個手掌的更密集觸覺硬件。

T-Rex 這篇工作給出的核心啟示或許可以用一句話概括：觸覺不應(yīng)該被當(dāng)作視覺的附庸，而應(yīng)該被當(dāng)作一個獨立的控制回路。

過去幾年，機器人學(xué)習(xí)領(lǐng)域習(xí)慣了"萬物皆 token"的思路——把所有模態(tài)統(tǒng)一編碼、扔進同一個大模型。這個范式在視覺和語言上取得了巨大成功，但當(dāng)觸覺這種天然高頻、需要即時響應(yīng)的信號加入時，統(tǒng)一架構(gòu)的弊端就暴露了出來。T-Rex 的 MoT 架構(gòu)提供了一種更尊重信號物理特性的融合方式，也為未來多模態(tài)機器人系統(tǒng)的設(shè)計提供了新的思路。

論文鏈接：https://arxiv.org/abs/2606.17055

項目主頁：https://tactile-rex.github.io/

運營/排版：何晨龍

注：封面/首圖由 AI 輔助生成

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.