无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

李飛飛、Jim Fan、徐丹飛聯手,給具身智能指了一條新路

0
分享至


2026年夏天,機器人圈被一個近乎“黑色幽默”的實驗結果炸開了鍋。

一支由斯坦福教授李飛飛、英偉達具身智能負責人Jim Fan、佐治亞理工學院助理教授徐丹飛領銜,聯合Pieter Abbeel、Jitendra Malik、Ken Goldberg、Trevor Darrell等多位頂尖學者的“超級團隊”,在一項消融對照實驗中遇到了一個百思不得其解的現象。

他們在一個名為π0.5的行業經典模型上做了一件看似理所當然的事——把觸覺信號作為額外信息輸入給模型。按常理,多一種感知應該多一分精準。結果卻令人瞠目:據論文中的消融實驗顯示,任務成功率從17%驟降至6%

加了觸覺,機器人反而“不會干活”了。

這個反常結果,像一記耳光打在了整個具身智能行業的臉上。過去幾年,業界的主流做法是把一切感知信息——視覺、語言、觸覺——統統轉成同一種格式塞進同一個大模型里,相信“數據多了自然智能涌現”。T-Rex論文用一組冰冷的數據證明:這條路,可能從一開始就走偏了。

觸覺為什么成了“豬隊友”?

問題出在哪里?論文作者們給出了一個簡潔而有力的診斷:頻率錯配

據論文及相關技術解讀,視覺是一種“慢感知”。攝像頭以大約每秒5幀的頻率掃描世界,提供的是穩定的場景語義——知道物體在哪里、長什么樣。但觸覺是一種“快感知”。當指尖接觸到物體的瞬間,壓力、滑動、形變等信息以毫秒為單位變化,觸覺反饋天然需要在每秒20次甚至更高的頻率下才能發揮作用。

打個比方:這就像讓一個長跑運動員(視覺)和一個短跑運動員(觸覺)在同一條跑道上以同樣的速度跑步。長跑運動員覺得節奏太快跟不上,短跑運動員覺得節奏太慢憋得慌。把這兩種時間尺度完全不同的信號強行塞進同一個以低頻運行的Transformer里,結果不是“1+1=2”,而是“1+1<1”——觸覺的高頻優勢發揮不出來,反而把視覺已經學好的表征攪得一團糟。

換句話說,不是觸覺沒用,是用錯了地方。

面對這個結構性矛盾,研究團隊沒有在原有框架上修修補補,而是選擇推倒重來。

他們提出了一套名為T-Rex的全新框架。T-Rex既是“觸覺反應式靈巧操作”(Tactile-Reactive Dexterous Manipulation)的縮寫,也暗合“霸王龍”之意——雖然霸王龍的前肢短小,但這篇論文要解決的,正是一雙靈巧手如何真正“感知”世界。

T-Rex的核心思路可以概括為一句話:別再讓觸覺和視覺搶同一條算力通道了,給它單獨開辟一條獨立的高速公路。

具體怎么實現?論文提出了一套混合Transformer專家架構(Mixture-of-Transformers,MoT) 。所謂“混合”,是把機器人的控制權拆解給三位各司其職的專家;所謂“變速率”,是讓三位專家各跑各的時鐘頻率,互不干擾。MoT中的“M”恰好同時代表了這兩層含義。

第一位專家負責“看路”和“預判”——它叫潛在專家。 它的任務是處理視覺和語言信息,預測“接下來場景會變成什么樣”,為后續動作提供時間上的上下文。說白了,它在提前想好下一步會發生什么。

第二位專家負責“畫草圖”——它叫動作專家。 它從一片“噪聲”開始,通過一步步去噪,生成一個大致的動作走向——“手往這個方向移動”。這個模塊的運行頻率大約是每秒5次,對應視覺感知的天然節奏。

第三位專家負責“微調”——它叫觸覺專家。 它不參與前期的全局規劃,只在接觸發生的瞬間啟動,以每秒20次以上的高頻實時讀取指尖傳來的力和形變信號,在動作專家畫好的“草圖”上做毫秒級的精細修正——“力道輕一點”“往左偏一毫米”。

三個專家的協同流程是這樣的:動作專家先跑完前幾步,畫出一張動作草圖;觸覺專家從某個中間節點接手,利用最新的觸覺數據完成剩余步驟的精化。動作專家負責“低頻去噪”,觸覺專家負責“高頻精化” 。潛在專家全程“看路”,為兩者提供視覺上下文。三位專家各跑各的時鐘,各司其職,最后協同輸出完整的動作。


T-Rex 的 Mixture-of-Transformer-Experts(MoT)架構。(圖片來源:T-Rex)

為了讓觸覺專家真正“讀懂”觸覺信號,論文還專門設計了一套時空觸覺編碼器。核心是一個VQ-VAE模塊——你可以把它理解為一個“翻譯官”,把過去十幾幀的時序力數據壓縮成離散的“觸覺詞匯”,既能捕捉力的變化趨勢,又能抵抗傳感器的信號漂移。這樣一來,觸覺專家接收到的就是一套標準化的“觸覺語言”,而非雜亂無章的原始信號。

這套設計的本質,就是給高頻觸覺信號辟出一條獨立的通道,不讓它被低頻的視覺節奏拖累。 三個專家各跑各的頻率,各管各的事,互不干擾,最后再協同輸出一個完整的動作——既保留了視覺對全局的把控,又徹底釋放了觸覺在接觸瞬間的敏捷反應能力。

數據層面同樣下足了功夫。團隊構建了一個100小時的觸覺同步數據集,涵蓋200多種日常物品、22種動作基元(抓取、擠壓、插入、擦拭、折疊等)、7700多條運動軌跡。與傳統做法不同,這個數據集不是針對某個特定任務錄制的,而是圍繞“動作×物體”的組合來組織——22個動作搭配200多種物品,通過排列組合覆蓋盡可能多樣的接觸場景。這讓模型學到的是通用的觸覺-動作對應關系,而非死記硬背特定任務的模板。

訓練策略同樣極具層次感。團隊先用22,889小時的人類第一視角視頻進行大規模預訓練,讓模型理解人類的手部交互模式;再用上述100小時的機器人觸覺數據進行跨模態對齊;最后僅需少量特定任務示范即可完成專項能力的激活。這種漸進式訓練的好處是,觸覺能力不需要從頭學起,而是在視覺運動先驗已經建立之后,以相對少的數據“嫁接”進來。

12項“刁難級”任務,30個百分點的跨越

這套架構到底有沒有用?論文在12項專門為“刁難”機器人而設計的精細操作任務上進行了嚴苛測試——翻書頁、轉移生雞蛋、擦盤子、擠牙膏、分紙杯、分揀麻將、開鎖、填藥盒、模擬化學滴定、抽卡片、發撲克牌、擰燈泡。每一項都要求機器人對接觸力進行動態的、即時的調節。


T-Rex 完成翻書等接觸密集型任務(圖片來源:T-Rex)

最終結果令人振奮:T-Rex相較此前最強的基線模型,在這12項任務上取得了超過30%的平均成功率提升。在翻書頁、分紙杯等對力度極為敏感的任務中,T-Rex的表現從“幾乎不可用”躍升到了“初步具備實用價值”。

進一步的消融實驗反向印證了設計的精妙:一旦切除所有觸覺輸入通道,系統成功率出現斷崖式下跌;而如果強行取消異步運行機制,讓觸覺被迫降頻與視覺同步,性能同樣會顯著劣化。這恰恰說明,T-Rex的成功并非單純來自“加了觸覺”,而是來自“用對了觸覺”——給它獨立的節奏、獨立的通道、獨立的處理邏輯。

T-Rex這篇論文的價值,遠不止于一組漂亮的實驗數據。它用一個極具說服力的反例,向整個具身智能行業發出了一個明確的警示信號:

“萬物皆token、一切進大模型”的通用范式,并不天然適用于所有感知模態。

視覺和語言是“慢變量”,適合放在同一個巨大的Transformer里做全局關聯推理;但觸覺是“快變量”,它關乎物理接觸和即時反饋,需要單獨的高頻閉環控制回路。強行把兩者塞進同一個模子,結果不是融合,而是污染。

這讓人聯想到神經科學中經典的雙流假說——視覺腹側通路負責“識別是什么”,背側通路負責“指導怎么做”。T-Rex的混合專家架構,某種程度上是在機器人身上復刻了這種生物演化的高級智慧。

當然,論文也坦誠了當前的局限性:對于需要數秒級連貫協調的復雜操作,純粹的行為克隆仍受限于示范數據的覆蓋度;當前觸覺感知僅限于指尖而非全手掌,且傳感器標定與漂移問題仍是工程痛點。但這些屬于“成長中的煩惱”,并不妨礙T-Rex所確立的范式意義。

這篇論文傳遞的核心信息已經無比清晰:別再讓機器人光靠“瞪大眼睛看”來干活了,是時候讓它們學會“伸出手去摸”。 觸覺不應是視覺的附庸,而應是一條獨立的、與視覺平起平坐的物理感知通道。

那個“17%跌到6%”的反常實驗,或許正是機器人從“看見世界”走向“感知世界”的關鍵轉折點。(本文首發鈦媒體APP,作者 | 硅谷Tech-news,編輯 | 趙虹宇)

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
決定四風向轉變!詹姆斯回騎士概率上升,富保羅也認了

決定四風向轉變!詹姆斯回騎士概率上升,富保羅也認了

奕辰說球
2026-07-05 09:57:49
墨西哥主帥怒噴國際足聯:沒人問過我,開球時間改動像挨了一腳

墨西哥主帥怒噴國際足聯:沒人問過我,開球時間改動像挨了一腳

籃壇第一線
2026-07-05 01:36:59
新賽季薪資前十出爐:3人并列第三、庫里成歷史第一人!

新賽季薪資前十出爐:3人并列第三、庫里成歷史第一人!

運籌帷幄的籃球
2026-07-05 11:06:50
嗚呼!詹姆斯下家被正式公開!差點直接去尼克斯!

嗚呼!詹姆斯下家被正式公開!差點直接去尼克斯!

柚子說球
2026-07-04 18:19:59
明明相處不多,為何汪寶兒認人后,獨獨偏愛姐姐玥兒?

明明相處不多,為何汪寶兒認人后,獨獨偏愛姐姐玥兒?

手工制作阿殲
2026-07-05 06:04:08
騎士消息:詹皇父子有望加盟,哈登確定續約,哄搶冠軍前鋒

騎士消息:詹皇父子有望加盟,哈登確定續約,哄搶冠軍前鋒

冷月小風風
2026-07-05 11:49:41
莫斯科遭大規模襲擊

莫斯科遭大規模襲擊

第一財經資訊
2026-07-04 20:32:13
女生乘車離開,一網約車司機崩潰:“全是素顏霜,根本擦不掉……”

女生乘車離開,一網約車司機崩潰:“全是素顏霜,根本擦不掉……”

都市快報橙柿互動
2026-07-04 17:32:50
佛得角世界杯之旅落幕:球隊收獲1100萬美元獎金,40歲老門將沃齊尼亞社媒粉絲數破2000萬;旅游爆火,赴當地航班搜索量同比增近30倍

佛得角世界杯之旅落幕:球隊收獲1100萬美元獎金,40歲老門將沃齊尼亞社媒粉絲數破2000萬;旅游爆火,赴當地航班搜索量同比增近30倍

魯中晨報
2026-07-04 16:02:12
豪擲1億美元,簽下3名球員,薪資已超奢侈稅,火箭隊就賭下賽季了

豪擲1億美元,簽下3名球員,薪資已超奢侈稅,火箭隊就賭下賽季了

兵哥籃球故事
2026-07-05 10:55:18
俄軍在扎波羅熱插旗擺拍被俘虜!烏克蘭切斷俄13座電力系統

俄軍在扎波羅熱插旗擺拍被俘虜!烏克蘭切斷俄13座電力系統

項鵬飛
2026-07-03 21:40:18
大V怒批留學生!建議校領導各領一個留學生回家,評論區一片支持

大V怒批留學生!建議校領導各領一個留學生回家,評論區一片支持

譚談社會
2026-07-04 11:26:09
尷尬!以為降薪要吵架,37歲經理低聲坦言:我早想走,只是沒勇氣

尷尬!以為降薪要吵架,37歲經理低聲坦言:我早想走,只是沒勇氣

火山詩話
2026-07-05 11:23:00
陳奕迅女兒首度回應父親買1.8億港元豪宅:沒跟我說,可能送給他自己的,也可能是“擴張”我們的家;此前網友猜測是為女兒準備的“嫁妝”

陳奕迅女兒首度回應父親買1.8億港元豪宅:沒跟我說,可能送給他自己的,也可能是“擴張”我們的家;此前網友猜測是為女兒準備的“嫁妝”

魯中晨報
2026-07-03 17:58:17
十萬一臺的性愛機器人:買單的根本不是宅男

十萬一臺的性愛機器人:買單的根本不是宅男

下海fallsea
2026-07-04 00:45:28
7.5戰報,國乒女單鎖定獎牌,王藝迪4-0,張本美和4-1,小布4-2

7.5戰報,國乒女單鎖定獎牌,王藝迪4-0,張本美和4-1,小布4-2

漫川舟船
2026-07-05 10:16:14
非必要不做CT?醫生強調:只要做過CT,患者一定多加關注這4點!

非必要不做CT?醫生強調:只要做過CT,患者一定多加關注這4點!

敘說醫療健康
2026-06-16 08:00:21
索爾巴肯:為了保持對陣巴西不敗,我們拒絕了所有友誼賽邀請

索爾巴肯:為了保持對陣巴西不敗,我們拒絕了所有友誼賽邀請

懂球帝
2026-07-05 07:53:06
瘋了!歐洲人花2000塊空運中國空調,到手價比當地買還便宜一半?

瘋了!歐洲人花2000塊空運中國空調,到手價比當地買還便宜一半?

菁菁子衿
2026-07-03 20:49:24
偉大的2-0爆冷!衛冕冠軍斯瓦泰克出局!亞洲小將殺瘋 創歷史一勝

偉大的2-0爆冷!衛冕冠軍斯瓦泰克出局!亞洲小將殺瘋 創歷史一勝

大秦壁虎白話體育
2026-07-04 22:54:35
2026-07-05 12:20:49
鈦媒體APP incentive-icons
鈦媒體APP
獨立財經科技媒體
136134文章數 862375關注度
往期回顧 全部

科技要聞

華為:邏輯折疊將大幅提升麒麟CPU核心頻率

頭條要聞

姆巴佩回應巴拉圭隊球風:他們想用粗野風格壓制我們

頭條要聞

姆巴佩回應巴拉圭隊球風:他們想用粗野風格壓制我們

體育要聞

姆巴佩點走巴拉圭:巴黎三代左鋒傳承

娛樂要聞

王力宏成都舞臺受傷 仍然堅持三小時

財經要聞

揭秘跨境“對敲”換匯黑產

汽車要聞

方程豹鈦9內飾曝光 用上了長聯屏設計/下半年上市

態度原創

健康
親子
房產
本地
公開課

聽說少吃點能抗衰老?專家講解!

親子要聞

出生35小時嬰兒竟有超能力:能分辨數字差異,數感竟是天生的?

房產要聞

總裁空缺17個月、現金缺口超1000億:金融局“局外人”入局萬科

本地新聞

國內足球之旅?這座小城給你高分答案

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版