VLA不會死，但不融合世界模型的除外

2026-06-01 23:41:18　來源: 智能相對論

湖南舉報

分享至

文 | 智能相對論

作者 | 葉遠風

2026年5月，具身智能圈子里流傳著一個不太好笑的杜撰笑話：一個VLA模型在演示時，被要求“把桌上那個蘋果拿給我”。機械臂優(yōu)雅地伸過去，穩(wěn)穩(wěn)地抓住了一個馬克杯。現(xiàn)場死寂。工程師冷汗直冒，趕緊在Pad上打字：“重新定義蘋果”。

過去半年，類似的翻車笑話很多，主角從國內估值最高的那幾家獨角獸，到大洋彼岸Figure AI、Physical Intelligence，無一幸免。

前兩年，行業(yè)還在為VLA（Vision-Language-Action，視覺-語言-動作模型）這個技術路線搖旗吶喊。Covariant的RFM-1剛露面時，媒體恨不得把“通用機器人奇點”的帽子直接扣它頭上。谷歌DeepMind的RT-2論文一出，二級市場的分析師們連夜改報告，把具身智能的商業(yè)化時間表往前挪了三年。

到了現(xiàn)在，沒人再提“奇點”了。

大家關心的是，這玩意兒到底能不能在工廠里把螺絲擰進孔里，而不是把螺絲刀捅進自己的電機里。在VLA體系下，具身智能稍顯拙劣的表現(xiàn)，讓英偉達機器人一號位Jim Fan甚至直接高呼“VLA已死”。

只是，這話說得太早。

VLA不會死，那些試圖只用互聯(lián)網(wǎng)圖文視頻和幾張機械臂遙操作數(shù)據(jù)就幻想造出通用機器人的VLA，確實該被埋進土里，但另一種東西正在長出來，它融合了被行業(yè)念叨了好幾年卻一直沒認真對待的“世界模型”。這可能是未來三年，具身智能唯一能走通的路。

活在互聯(lián)網(wǎng)里的“缸中大腦”

要理解VLA為什么頻頻翻車，得先搞清楚它的基因缺陷。

現(xiàn)在主流的VLA架構，無論是谷歌的RT-2，還是國內星塵智能等公司搗鼓的東西，骨子里的邏輯都是一脈相承的。先用互聯(lián)網(wǎng)上海量的圖文數(shù)據(jù)，把視覺和語言對齊，讓模型看懂圖、聽懂人話；然后，再接入機器人的動作數(shù)據(jù)，做端到端的微調，讓模型能輸出動作指令。

這套打法的最大誘惑力在于“省錢”。它試圖復用大語言模型和視覺-語言模型的基礎設施，把機器人學習變成一個“輕量化”的微調任務。

投資人愛聽這個故事：不用從零開始收集昂貴的物理世界交互數(shù)據(jù)，只需站在互聯(lián)網(wǎng)巨頭的肩膀上。

但問題來了。互聯(lián)網(wǎng)數(shù)據(jù)教會了模型“蘋果是紅色的圓形物體”，卻沒教會它“蘋果被施加10牛頓的力會發(fā)生形變并可能滾開”。

互聯(lián)網(wǎng)上的視頻，都是被剪輯過的、符合人類視覺審美的片段，充滿了光滑的轉場和因果關系的大幅跳躍。

一個杯子從桌面邊緣掉落，下一個鏡頭往往是它已經(jīng)在地板上摔碎了，或者被一只手穩(wěn)穩(wěn)接住。那個決定命運的瞬間——杯子在指尖打滑、摩擦系數(shù)不足、傾斜角度過大——永遠消失了。

VLA學到的物理，是一種基于表面關聯(lián)的“偽物理”。它知道“掉落”往往伴隨著“碎裂”，但它不理解一個盛滿熱咖啡的玻璃壺在傾斜多少度時，壺蓋會因為重心不穩(wěn)而自己滑落。谷歌DeepMind的RT-2論文里也坦承，模型在面對全新的物體組合或需要精細力控的場景時，泛化能力會急劇下降。

而更進一步，Physical Intelligence的論文揭示了一個現(xiàn)實，即便你把模型規(guī)模再擴大十倍，灌入更多的網(wǎng)絡圖片，它對物理交互的預測能力也幾乎是一條平直的線。這個領域的scaling law，在物理交互這個維度上，碰壁了。

所以，現(xiàn)在的VLA演示，就像一場精心排練的魔術。

你只能在實驗室那0.5平方米的區(qū)域內，用那固定的三五種道具，在嚴格控制的光照和背景下，看到機器人流暢地抓取。一旦稍微改變背景，或者放進去一個反光、透明的物體，模型的“缸中大腦”本質就暴露了。

它只知道答案，但不知道過程。

世界模型不是萬能藥，但它是唯一的解藥

“世界模型”這個詞最近的熱度，有點像幾年前的元宇宙，是個人都在提，但好像誰也沒見過它的真身。Yann LeCun在Meta的AI部門整天把世界模型掛在嘴邊，認為這是通向真正智能的關鍵。英偉達的黃仁勛也在GTC上為它站臺。

在具身智能的語境下，世界模型被寄予厚望，但在一些人手里，它差點淪為一種文字游戲。一些團隊的做法簡單粗暴：在VLA的輸出端，套殼一個現(xiàn)成的物理仿真引擎，用來“修正”那些違背物理常識的動作。

比如，模型說要穿透桌子去拿東西，仿真器就彈出一個“碰撞警告”，把手臂攔下來。

這叫融合世界模型？這叫給爛代碼打補丁。

真正的融合，核心在于內在化。

一個強大的世界模型，應該是VLA的“潛意識”和“直覺模塊”，而不是一個外掛的安全監(jiān)督員。

它在VLA做出決策之前，就能在內部以極快的速度推演接下來幾秒的物理變化，并反過來約束和指導動作的生成。

我抬手去接一個拋過來的鑰匙，我的大腦不會先規(guī)劃好手指的精確軌跡，再等著視覺反饋來糾偏。我的大腦里有一個關于“鑰匙會以何種拋物線飛來、風阻多大、落點在哪”的內化模型，它直接驅動我的肌肉記憶，讓我?guī)缀跏潜灸艿卣{整身體姿態(tài)。

李飛飛團隊的RoboAgent工作和最近的一些新嘗試，正在朝這個方向努力。他們讓模型不僅僅學習“看到杯子-輸出抓取動作”，而是強迫模型在學習動作的同時，去預測下一幀的深度圖、物體分割圖，甚至接觸力的分布。

這不僅僅是輸入輸出通道的擴展。它在逼迫模型從二維像素的關聯(lián)中抽離出來，去建構一個內部的、三維的、有因果的物理表征。

當模型能準確預測“如果我用這個角度和速度去推那個瓶子，它接下來0.5秒會向右傾倒”時，它才算真正“理解”了瓶子的動力學特性。這個時候，抓取動作才不會像現(xiàn)在這樣，要么畏畏縮縮不敢碰，要么用力過猛直接懟飛。

前景是可見的，大大小小的機器人公司都已經(jīng)開始著手這樣的融合了，VLA+世界模型，會蓋上各種概念的帽子，成為行業(yè)的共識。

Jim Fan喊出的“WAM萬歲”，本質上也是這么個組合。

用不了多久，所有認真的具身智能公司都會在技術白皮書里寫上“我們構建了端到端的世界模型”，或者類似的把VLA和世界模型融合的概念——名字不同，甚至還叫VLA模型，但本質都一樣。

數(shù)據(jù)工廠的沉默戰(zhàn)爭，決定誰能笑到最后

爭論VLA死不死、世界模型靈不靈，其實都有點隔靴搔癢。

這些上層建筑的問題，最終都回歸到一個最底層、最不性感的東西上：數(shù)據(jù)。

一位在頭部人形機器人公司負責數(shù)據(jù)采集的哥們私下跟“智能相對論”說，他們現(xiàn)在最頭疼的不是算法調參，而是怎么讓那群遠程遙操作的標注員別打瞌睡。

為了采集高質量的操作數(shù)據(jù)，他們請來退休的老工程師，戴著手套一整天重復擰一個零件。但老人家的手會抖，精細動作的遙操作映射總是出問題。采集一天的數(shù)據(jù)，洗一洗、對齊一下，真正能喂給模型的不到10%。

這還是一個動作。而要讓VLA+世界模型真正學會泡一杯咖啡，它需要知道水壺的重量變化、蒸汽的溫度分布、水流的沖擊力、茶杯的材質。這些數(shù)據(jù)，沒有任何互聯(lián)網(wǎng)圖文數(shù)據(jù)庫能給到。

這是一場前所未有的數(shù)據(jù)工廠戰(zhàn)爭。

特斯拉的Optimus團隊之所以被無數(shù)人盯著，除了馬斯克的明星光環(huán)，更重要的是他們正在把汽車自動駕駛那套“影子模式”和數(shù)據(jù)引擎體系，遷移到機器人上。Optimus在工廠里擰螺絲的每一次成功和失敗，都會被自動標注、回流、迭代訓練。這是一個可怕的、能自我造血的數(shù)據(jù)飛輪。

相比之下，國內多數(shù)機器人公司還在用“堆人”的遠古模式。租一個幾千平米的場地，像當年數(shù)據(jù)標注村一樣，密集地請人來做遙操作。數(shù)據(jù)質量參差不齊，采集成本居高不下。

這直接導致了一個結果：VLA+世界模型的技術路線雖然會成為共識，但真正的技術壁壘，會從模型架構本身，迅速轉移到數(shù)據(jù)工廠的規(guī)模和效率上。

未來的競爭是分層級的。最高的一層，是能構建“物理世界基礎模型”的公司，如OpenAI、谷歌DeepMind、英偉達。它們提供最底層的、能理解基本物理規(guī)律的VLA基座。

中間的一層，是能擁有高效、海量且多樣的私有數(shù)據(jù)工廠的機器人公司。它們用自己場景里的“私域數(shù)據(jù)”，在基座模型上進行深度微調，形成特定領域（如3C組裝、餐飲服務）的超級專家模型。

沒有高效數(shù)據(jù)工廠的公司，會淪為基礎模型廠商的分銷商，或者只能在那些技術要求不高的巡檢、導引場景里卷生卷死。

數(shù)據(jù)，物理交互的高質量數(shù)據(jù)，是VLA最終能用的唯一彈藥。沒有彈藥，拿著最先進的槍也是燒火棍。

看看Physical Intelligence，這家由一群頂尖學術大佬創(chuàng)立的明星公司，今年以來瘋狂地跟各種制造業(yè)、物流企業(yè)簽合作協(xié)議。他們圖的不是那點服務費，而是那些場景里最真實、最骯臟、最充滿不確定性的物理交互數(shù)據(jù)。Uber當年的崛起，靠的不是算法，是那些在全世界城市街道上奔跑的私家車帶來的數(shù)據(jù)壟斷。

具身智能的Uber時刻，還沒來，但已經(jīng)在倒計時了。

結語

VLA沒死，它只是在長大。這個長大的標志，就是它必須從互聯(lián)網(wǎng)的溫室里被連根拔起，扔進物理世界的泥土里。

它需要長出世界模型這個新的認知器官，去理解和預測物理的因果。而這一切能否發(fā)生，取決于那些最不被鎂光燈照耀的角落——數(shù)據(jù)工廠里，工人的動作是不是標準，傳感器的噪音是不是被濾掉，那些失敗的操作有沒有被認真地記錄下來。

具身智能的宏大敘事已經(jīng)落幕，一場更枯燥、更殘酷的工程戰(zhàn)，剛剛開場。

*本文圖片均來源于網(wǎng)絡

聲明：個人原創(chuàng)，僅供參考

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.