文 | 智能相對論
作者 | 葉遠風
2026年5月,具身智能圈子里流傳著一個不太好笑的杜撰笑話:一個VLA模型在演示時,被要求“把桌上那個蘋果拿給我”。機械臂優(yōu)雅地伸過去,穩(wěn)穩(wěn)地抓住了一個馬克杯。現(xiàn)場死寂。工程師冷汗直冒,趕緊在Pad上打字:“重新定義蘋果”。
過去半年,類似的翻車笑話很多,主角從國內估值最高的那幾家獨角獸,到大洋彼岸Figure AI、Physical Intelligence,無一幸免。
前兩年,行業(yè)還在為VLA(Vision-Language-Action,視覺-語言-動作模型)這個技術路線搖旗吶喊。Covariant的RFM-1剛露面時,媒體恨不得把“通用機器人奇點”的帽子直接扣它頭上。谷歌DeepMind的RT-2論文一出,二級市場的分析師們連夜改報告,把具身智能的商業(yè)化時間表往前挪了三年。
![]()
到了現(xiàn)在,沒人再提“奇點”了。
大家關心的是,這玩意兒到底能不能在工廠里把螺絲擰進孔里,而不是把螺絲刀捅進自己的電機里。在VLA體系下,具身智能稍顯拙劣的表現(xiàn),讓英偉達機器人一號位Jim Fan甚至直接高呼“VLA已死”。
只是,這話說得太早。
VLA不會死,那些試圖只用互聯(lián)網(wǎng)圖文視頻和幾張機械臂遙操作數(shù)據(jù)就幻想造出通用機器人的VLA,確實該被埋進土里,但另一種東西正在長出來,它融合了被行業(yè)念叨了好幾年卻一直沒認真對待的“世界模型”。這可能是未來三年,具身智能唯一能走通的路。
活在互聯(lián)網(wǎng)里的“缸中大腦”
要理解VLA為什么頻頻翻車,得先搞清楚它的基因缺陷。
現(xiàn)在主流的VLA架構,無論是谷歌的RT-2,還是國內星塵智能等公司搗鼓的東西,骨子里的邏輯都是一脈相承的。先用互聯(lián)網(wǎng)上海量的圖文數(shù)據(jù),把視覺和語言對齊,讓模型看懂圖、聽懂人話;然后,再接入機器人的動作數(shù)據(jù),做端到端的微調,讓模型能輸出動作指令。
這套打法的最大誘惑力在于“省錢”。它試圖復用大語言模型和視覺-語言模型的基礎設施,把機器人學習變成一個“輕量化”的微調任務。
投資人愛聽這個故事:不用從零開始收集昂貴的物理世界交互數(shù)據(jù),只需站在互聯(lián)網(wǎng)巨頭的肩膀上。
但問題來了。互聯(lián)網(wǎng)數(shù)據(jù)教會了模型“蘋果是紅色的圓形物體”,卻沒教會它“蘋果被施加10牛頓的力會發(fā)生形變并可能滾開”。
互聯(lián)網(wǎng)上的視頻,都是被剪輯過的、符合人類視覺審美的片段,充滿了光滑的轉場和因果關系的大幅跳躍。
一個杯子從桌面邊緣掉落,下一個鏡頭往往是它已經(jīng)在地板上摔碎了,或者被一只手穩(wěn)穩(wěn)接住。那個決定命運的瞬間——杯子在指尖打滑、摩擦系數(shù)不足、傾斜角度過大——永遠消失了。
![]()
VLA學到的物理,是一種基于表面關聯(lián)的“偽物理”。它知道“掉落”往往伴隨著“碎裂”,但它不理解一個盛滿熱咖啡的玻璃壺在傾斜多少度時,壺蓋會因為重心不穩(wěn)而自己滑落。谷歌DeepMind的RT-2論文里也坦承,模型在面對全新的物體組合或需要精細力控的場景時,泛化能力會急劇下降。
而更進一步,Physical Intelligence的論文揭示了一個現(xiàn)實,即便你把模型規(guī)模再擴大十倍,灌入更多的網(wǎng)絡圖片,它對物理交互的預測能力也幾乎是一條平直的線。這個領域的scaling law,在物理交互這個維度上,碰壁了。
所以,現(xiàn)在的VLA演示,就像一場精心排練的魔術。
你只能在實驗室那0.5平方米的區(qū)域內,用那固定的三五種道具,在嚴格控制的光照和背景下,看到機器人流暢地抓取。一旦稍微改變背景,或者放進去一個反光、透明的物體,模型的“缸中大腦”本質就暴露了。
它只知道答案,但不知道過程。
世界模型不是萬能藥,但它是唯一的解藥
“世界模型”這個詞最近的熱度,有點像幾年前的元宇宙,是個人都在提,但好像誰也沒見過它的真身。Yann LeCun在Meta的AI部門整天把世界模型掛在嘴邊,認為這是通向真正智能的關鍵。英偉達的黃仁勛也在GTC上為它站臺。
在具身智能的語境下,世界模型被寄予厚望,但在一些人手里,它差點淪為一種文字游戲。一些團隊的做法簡單粗暴:在VLA的輸出端,套殼一個現(xiàn)成的物理仿真引擎,用來“修正”那些違背物理常識的動作。
比如,模型說要穿透桌子去拿東西,仿真器就彈出一個“碰撞警告”,把手臂攔下來。
這叫融合世界模型?這叫給爛代碼打補丁。
真正的融合,核心在于內在化。
一個強大的世界模型,應該是VLA的“潛意識”和“直覺模塊”,而不是一個外掛的安全監(jiān)督員。
它在VLA做出決策之前,就能在內部以極快的速度推演接下來幾秒的物理變化,并反過來約束和指導動作的生成。
我抬手去接一個拋過來的鑰匙,我的大腦不會先規(guī)劃好手指的精確軌跡,再等著視覺反饋來糾偏。我的大腦里有一個關于“鑰匙會以何種拋物線飛來、風阻多大、落點在哪”的內化模型,它直接驅動我的肌肉記憶,讓我?guī)缀跏潜灸艿卣{整身體姿態(tài)。
![]()
李飛飛團隊的RoboAgent工作和最近的一些新嘗試,正在朝這個方向努力。他們讓模型不僅僅學習“看到杯子-輸出抓取動作”,而是強迫模型在學習動作的同時,去預測下一幀的深度圖、物體分割圖,甚至接觸力的分布。
這不僅僅是輸入輸出通道的擴展。它在逼迫模型從二維像素的關聯(lián)中抽離出來,去建構一個內部的、三維的、有因果的物理表征。
當模型能準確預測“如果我用這個角度和速度去推那個瓶子,它接下來0.5秒會向右傾倒”時,它才算真正“理解”了瓶子的動力學特性。這個時候,抓取動作才不會像現(xiàn)在這樣,要么畏畏縮縮不敢碰,要么用力過猛直接懟飛。
前景是可見的,大大小小的機器人公司都已經(jīng)開始著手這樣的融合了,VLA+世界模型,會蓋上各種概念的帽子,成為行業(yè)的共識。
Jim Fan喊出的“WAM萬歲”,本質上也是這么個組合。
用不了多久,所有認真的具身智能公司都會在技術白皮書里寫上“我們構建了端到端的世界模型”,或者類似的把VLA和世界模型融合的概念——名字不同,甚至還叫VLA模型,但本質都一樣。
數(shù)據(jù)工廠的沉默戰(zhàn)爭,決定誰能笑到最后
爭論VLA死不死、世界模型靈不靈,其實都有點隔靴搔癢。
這些上層建筑的問題,最終都回歸到一個最底層、最不性感的東西上:數(shù)據(jù)。
一位在頭部人形機器人公司負責數(shù)據(jù)采集的哥們私下跟“智能相對論”說,他們現(xiàn)在最頭疼的不是算法調參,而是怎么讓那群遠程遙操作的標注員別打瞌睡。
為了采集高質量的操作數(shù)據(jù),他們請來退休的老工程師,戴著手套一整天重復擰一個零件。但老人家的手會抖,精細動作的遙操作映射總是出問題。采集一天的數(shù)據(jù),洗一洗、對齊一下,真正能喂給模型的不到10%。
這還是一個動作。而要讓VLA+世界模型真正學會泡一杯咖啡,它需要知道水壺的重量變化、蒸汽的溫度分布、水流的沖擊力、茶杯的材質。這些數(shù)據(jù),沒有任何互聯(lián)網(wǎng)圖文數(shù)據(jù)庫能給到。
這是一場前所未有的數(shù)據(jù)工廠戰(zhàn)爭。
特斯拉的Optimus團隊之所以被無數(shù)人盯著,除了馬斯克的明星光環(huán),更重要的是他們正在把汽車自動駕駛那套“影子模式”和數(shù)據(jù)引擎體系,遷移到機器人上。Optimus在工廠里擰螺絲的每一次成功和失敗,都會被自動標注、回流、迭代訓練。這是一個可怕的、能自我造血的數(shù)據(jù)飛輪。
相比之下,國內多數(shù)機器人公司還在用“堆人”的遠古模式。租一個幾千平米的場地,像當年數(shù)據(jù)標注村一樣,密集地請人來做遙操作。數(shù)據(jù)質量參差不齊,采集成本居高不下。
這直接導致了一個結果:VLA+世界模型的技術路線雖然會成為共識,但真正的技術壁壘,會從模型架構本身,迅速轉移到數(shù)據(jù)工廠的規(guī)模和效率上。
未來的競爭是分層級的。最高的一層,是能構建“物理世界基礎模型”的公司,如OpenAI、谷歌DeepMind、英偉達。它們提供最底層的、能理解基本物理規(guī)律的VLA基座。
中間的一層,是能擁有高效、海量且多樣的私有數(shù)據(jù)工廠的機器人公司。它們用自己場景里的“私域數(shù)據(jù)”,在基座模型上進行深度微調,形成特定領域(如3C組裝、餐飲服務)的超級專家模型。
沒有高效數(shù)據(jù)工廠的公司,會淪為基礎模型廠商的分銷商,或者只能在那些技術要求不高的巡檢、導引場景里卷生卷死。
數(shù)據(jù),物理交互的高質量數(shù)據(jù),是VLA最終能用的唯一彈藥。沒有彈藥,拿著最先進的槍也是燒火棍。
看看Physical Intelligence,這家由一群頂尖學術大佬創(chuàng)立的明星公司,今年以來瘋狂地跟各種制造業(yè)、物流企業(yè)簽合作協(xié)議。他們圖的不是那點服務費,而是那些場景里最真實、最骯臟、最充滿不確定性的物理交互數(shù)據(jù)。Uber當年的崛起,靠的不是算法,是那些在全世界城市街道上奔跑的私家車帶來的數(shù)據(jù)壟斷。
具身智能的Uber時刻,還沒來,但已經(jīng)在倒計時了。
結語
VLA沒死,它只是在長大。這個長大的標志,就是它必須從互聯(lián)網(wǎng)的溫室里被連根拔起,扔進物理世界的泥土里。
它需要長出世界模型這個新的認知器官,去理解和預測物理的因果。而這一切能否發(fā)生,取決于那些最不被鎂光燈照耀的角落——數(shù)據(jù)工廠里,工人的動作是不是標準,傳感器的噪音是不是被濾掉,那些失敗的操作有沒有被認真地記錄下來。
具身智能的宏大敘事已經(jīng)落幕,一場更枯燥、更殘酷的工程戰(zhàn),剛剛開場。
*本文圖片均來源于網(wǎng)絡
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.