无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

VLA不會死,但不融合世界模型的除外

0
分享至

文 | 智能相對論

作者 | 葉遠風

2026年5月,具身智能圈子里流傳著一個不太好笑的杜撰笑話:一個VLA模型在演示時,被要求“把桌上那個蘋果拿給我”。機械臂優(yōu)雅地伸過去,穩(wěn)穩(wěn)地抓住了一個馬克杯。現(xiàn)場死寂。工程師冷汗直冒,趕緊在Pad上打字:“重新定義蘋果”。

過去半年,類似的翻車笑話很多,主角從國內估值最高的那幾家獨角獸,到大洋彼岸Figure AI、Physical Intelligence,無一幸免。

前兩年,行業(yè)還在為VLA(Vision-Language-Action,視覺-語言-動作模型)這個技術路線搖旗吶喊。Covariant的RFM-1剛露面時,媒體恨不得把“通用機器人奇點”的帽子直接扣它頭上。谷歌DeepMind的RT-2論文一出,二級市場的分析師們連夜改報告,把具身智能的商業(yè)化時間表往前挪了三年。



到了現(xiàn)在,沒人再提“奇點”了。

大家關心的是,這玩意兒到底能不能在工廠里把螺絲擰進孔里,而不是把螺絲刀捅進自己的電機里。在VLA體系下,具身智能稍顯拙劣的表現(xiàn),讓英偉達機器人一號位Jim Fan甚至直接高呼“VLA已死”。

只是,這話說得太早。

VLA不會死,那些試圖只用互聯(lián)網(wǎng)圖文視頻和幾張機械臂遙操作數(shù)據(jù)就幻想造出通用機器人的VLA,確實該被埋進土里,但另一種東西正在長出來,它融合了被行業(yè)念叨了好幾年卻一直沒認真對待的“世界模型”。這可能是未來三年,具身智能唯一能走通的路。

活在互聯(lián)網(wǎng)里的“缸中大腦”

要理解VLA為什么頻頻翻車,得先搞清楚它的基因缺陷。

現(xiàn)在主流的VLA架構,無論是谷歌的RT-2,還是國內星塵智能等公司搗鼓的東西,骨子里的邏輯都是一脈相承的。先用互聯(lián)網(wǎng)上海量的圖文數(shù)據(jù),把視覺和語言對齊,讓模型看懂圖、聽懂人話;然后,再接入機器人的動作數(shù)據(jù),做端到端的微調,讓模型能輸出動作指令。

這套打法的最大誘惑力在于“省錢”。它試圖復用大語言模型和視覺-語言模型的基礎設施,把機器人學習變成一個“輕量化”的微調任務。

投資人愛聽這個故事:不用從零開始收集昂貴的物理世界交互數(shù)據(jù),只需站在互聯(lián)網(wǎng)巨頭的肩膀上。

但問題來了。互聯(lián)網(wǎng)數(shù)據(jù)教會了模型“蘋果是紅色的圓形物體”,卻沒教會它“蘋果被施加10牛頓的力會發(fā)生形變并可能滾開”。

互聯(lián)網(wǎng)上的視頻,都是被剪輯過的、符合人類視覺審美的片段,充滿了光滑的轉場和因果關系的大幅跳躍。

一個杯子從桌面邊緣掉落,下一個鏡頭往往是它已經(jīng)在地板上摔碎了,或者被一只手穩(wěn)穩(wěn)接住。那個決定命運的瞬間——杯子在指尖打滑、摩擦系數(shù)不足、傾斜角度過大——永遠消失了。



VLA學到的物理,是一種基于表面關聯(lián)的“偽物理”。它知道“掉落”往往伴隨著“碎裂”,但它不理解一個盛滿熱咖啡的玻璃壺在傾斜多少度時,壺蓋會因為重心不穩(wěn)而自己滑落。谷歌DeepMind的RT-2論文里也坦承,模型在面對全新的物體組合或需要精細力控的場景時,泛化能力會急劇下降。

而更進一步,Physical Intelligence的論文揭示了一個現(xiàn)實,即便你把模型規(guī)模再擴大十倍,灌入更多的網(wǎng)絡圖片,它對物理交互的預測能力也幾乎是一條平直的線。這個領域的scaling law,在物理交互這個維度上,碰壁了。

所以,現(xiàn)在的VLA演示,就像一場精心排練的魔術。

你只能在實驗室那0.5平方米的區(qū)域內,用那固定的三五種道具,在嚴格控制的光照和背景下,看到機器人流暢地抓取。一旦稍微改變背景,或者放進去一個反光、透明的物體,模型的“缸中大腦”本質就暴露了。

它只知道答案,但不知道過程。

世界模型不是萬能藥,但它是唯一的解藥

“世界模型”這個詞最近的熱度,有點像幾年前的元宇宙,是個人都在提,但好像誰也沒見過它的真身。Yann LeCun在Meta的AI部門整天把世界模型掛在嘴邊,認為這是通向真正智能的關鍵。英偉達的黃仁勛也在GTC上為它站臺。

在具身智能的語境下,世界模型被寄予厚望,但在一些人手里,它差點淪為一種文字游戲。一些團隊的做法簡單粗暴:在VLA的輸出端,套殼一個現(xiàn)成的物理仿真引擎,用來“修正”那些違背物理常識的動作。

比如,模型說要穿透桌子去拿東西,仿真器就彈出一個“碰撞警告”,把手臂攔下來。

這叫融合世界模型?這叫給爛代碼打補丁。

真正的融合,核心在于內在化。

一個強大的世界模型,應該是VLA的“潛意識”和“直覺模塊”,而不是一個外掛的安全監(jiān)督員。

它在VLA做出決策之前,就能在內部以極快的速度推演接下來幾秒的物理變化,并反過來約束和指導動作的生成。

我抬手去接一個拋過來的鑰匙,我的大腦不會先規(guī)劃好手指的精確軌跡,再等著視覺反饋來糾偏。我的大腦里有一個關于“鑰匙會以何種拋物線飛來、風阻多大、落點在哪”的內化模型,它直接驅動我的肌肉記憶,讓我?guī)缀跏潜灸艿卣{整身體姿態(tài)。



李飛飛團隊的RoboAgent工作和最近的一些新嘗試,正在朝這個方向努力。他們讓模型不僅僅學習“看到杯子-輸出抓取動作”,而是強迫模型在學習動作的同時,去預測下一幀的深度圖、物體分割圖,甚至接觸力的分布。

這不僅僅是輸入輸出通道的擴展。它在逼迫模型從二維像素的關聯(lián)中抽離出來,去建構一個內部的、三維的、有因果的物理表征。

當模型能準確預測“如果我用這個角度和速度去推那個瓶子,它接下來0.5秒會向右傾倒”時,它才算真正“理解”了瓶子的動力學特性。這個時候,抓取動作才不會像現(xiàn)在這樣,要么畏畏縮縮不敢碰,要么用力過猛直接懟飛。

前景是可見的,大大小小的機器人公司都已經(jīng)開始著手這樣的融合了,VLA+世界模型,會蓋上各種概念的帽子,成為行業(yè)的共識。

Jim Fan喊出的“WAM萬歲”,本質上也是這么個組合。

用不了多久,所有認真的具身智能公司都會在技術白皮書里寫上“我們構建了端到端的世界模型”,或者類似的把VLA和世界模型融合的概念——名字不同,甚至還叫VLA模型,但本質都一樣。

數(shù)據(jù)工廠的沉默戰(zhàn)爭,決定誰能笑到最后

爭論VLA死不死、世界模型靈不靈,其實都有點隔靴搔癢。

這些上層建筑的問題,最終都回歸到一個最底層、最不性感的東西上:數(shù)據(jù)。

一位在頭部人形機器人公司負責數(shù)據(jù)采集的哥們私下跟“智能相對論”說,他們現(xiàn)在最頭疼的不是算法調參,而是怎么讓那群遠程遙操作的標注員別打瞌睡。

為了采集高質量的操作數(shù)據(jù),他們請來退休的老工程師,戴著手套一整天重復擰一個零件。但老人家的手會抖,精細動作的遙操作映射總是出問題。采集一天的數(shù)據(jù),洗一洗、對齊一下,真正能喂給模型的不到10%。

這還是一個動作。而要讓VLA+世界模型真正學會泡一杯咖啡,它需要知道水壺的重量變化、蒸汽的溫度分布、水流的沖擊力、茶杯的材質。這些數(shù)據(jù),沒有任何互聯(lián)網(wǎng)圖文數(shù)據(jù)庫能給到。

這是一場前所未有的數(shù)據(jù)工廠戰(zhàn)爭。

特斯拉的Optimus團隊之所以被無數(shù)人盯著,除了馬斯克的明星光環(huán),更重要的是他們正在把汽車自動駕駛那套“影子模式”和數(shù)據(jù)引擎體系,遷移到機器人上。Optimus在工廠里擰螺絲的每一次成功和失敗,都會被自動標注、回流、迭代訓練。這是一個可怕的、能自我造血的數(shù)據(jù)飛輪。

相比之下,國內多數(shù)機器人公司還在用“堆人”的遠古模式。租一個幾千平米的場地,像當年數(shù)據(jù)標注村一樣,密集地請人來做遙操作。數(shù)據(jù)質量參差不齊,采集成本居高不下。

這直接導致了一個結果:VLA+世界模型的技術路線雖然會成為共識,但真正的技術壁壘,會從模型架構本身,迅速轉移到數(shù)據(jù)工廠的規(guī)模和效率上。

未來的競爭是分層級的。最高的一層,是能構建“物理世界基礎模型”的公司,如OpenAI、谷歌DeepMind、英偉達。它們提供最底層的、能理解基本物理規(guī)律的VLA基座。

中間的一層,是能擁有高效、海量且多樣的私有數(shù)據(jù)工廠的機器人公司。它們用自己場景里的“私域數(shù)據(jù)”,在基座模型上進行深度微調,形成特定領域(如3C組裝、餐飲服務)的超級專家模型。

沒有高效數(shù)據(jù)工廠的公司,會淪為基礎模型廠商的分銷商,或者只能在那些技術要求不高的巡檢、導引場景里卷生卷死。

數(shù)據(jù),物理交互的高質量數(shù)據(jù),是VLA最終能用的唯一彈藥。沒有彈藥,拿著最先進的槍也是燒火棍。

看看Physical Intelligence,這家由一群頂尖學術大佬創(chuàng)立的明星公司,今年以來瘋狂地跟各種制造業(yè)、物流企業(yè)簽合作協(xié)議。他們圖的不是那點服務費,而是那些場景里最真實、最骯臟、最充滿不確定性的物理交互數(shù)據(jù)。Uber當年的崛起,靠的不是算法,是那些在全世界城市街道上奔跑的私家車帶來的數(shù)據(jù)壟斷。

具身智能的Uber時刻,還沒來,但已經(jīng)在倒計時了。

結語

VLA沒死,它只是在長大。這個長大的標志,就是它必須從互聯(lián)網(wǎng)的溫室里被連根拔起,扔進物理世界的泥土里。

它需要長出世界模型這個新的認知器官,去理解和預測物理的因果。而這一切能否發(fā)生,取決于那些最不被鎂光燈照耀的角落——數(shù)據(jù)工廠里,工人的動作是不是標準,傳感器的噪音是不是被濾掉,那些失敗的操作有沒有被認真地記錄下來。

具身智能的宏大敘事已經(jīng)落幕,一場更枯燥、更殘酷的工程戰(zhàn),剛剛開場。

*本文圖片均來源于網(wǎng)絡

聲明:個人原創(chuàng),僅供參考

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
美軍開始空襲伊朗

美軍開始空襲伊朗

財聯(lián)社
2026-06-11 05:42:11
演都不演了?楊振寧離世7月,翁帆近況被爆,懷孕傳聞已真相大白

演都不演了?楊振寧離世7月,翁帆近況被爆,懷孕傳聞已真相大白

阿鰤科普記錄
2026-06-11 13:19:01
35歲墨西哥中鋒激動落淚 4戰(zhàn)世界杯終獲首球 6年前頭部重傷險喪命

35歲墨西哥中鋒激動落淚 4戰(zhàn)世界杯終獲首球 6年前頭部重傷險喪命

我愛英超
2026-06-12 05:37:01
于東來稱薪資上太溺愛員工,其實不值這么多錢

于東來稱薪資上太溺愛員工,其實不值這么多錢

界面新聞
2026-06-11 17:55:06
胰島“禍首”被揪出!是白糖的六倍,醫(yī)生:吃得越多,血糖越失控

胰島“禍首”被揪出!是白糖的六倍,醫(yī)生:吃得越多,血糖越失控

醫(yī)學科普匯
2026-06-11 21:20:08
撞壞幾節(jié)護欄索賠過萬!陜西通報:大部分屬實,暫停涉事公司業(yè)務

撞壞幾節(jié)護欄索賠過萬!陜西通報:大部分屬實,暫停涉事公司業(yè)務

聽心堂
2026-06-11 19:08:41
女孩吃席“搶獅子頭”,面目猙獰,終于理解了什么叫上不了臺面!

女孩吃席“搶獅子頭”,面目猙獰,終于理解了什么叫上不了臺面!

林林先生
2026-06-11 13:41:48
歷史罕見信號全部重合!這次不是回調,是全球性大危機要來了

歷史罕見信號全部重合!這次不是回調,是全球性大危機要來了

流蘇晚晴
2026-06-11 14:24:06
巴基斯坦軍機墜毀致22人喪生

巴基斯坦軍機墜毀致22人喪生

財聯(lián)社
2026-06-11 17:13:12
大博阿滕:我曾經(jīng)與女友每周纏綿至少七八次,上場后雙腿無力

大博阿滕:我曾經(jīng)與女友每周纏綿至少七八次,上場后雙腿無力

懂球帝
2026-06-11 10:02:52
紐約球迷朝文班扔雞蛋!G4逆轉后瘋狂鬧事:56人被捕10名警員受傷

紐約球迷朝文班扔雞蛋!G4逆轉后瘋狂鬧事:56人被捕10名警員受傷

羅說NBA
2026-06-12 05:57:40
特朗普稱美伊協(xié)議可能本周末在歐洲簽署

特朗普稱美伊協(xié)議可能本周末在歐洲簽署

新華社
2026-06-12 05:05:03
香港首位航天員黎家盈,人上天還不到10天,提出一個破天荒的請求

香港首位航天員黎家盈,人上天還不到10天,提出一個破天荒的請求

荊楚寰宇文樞
2026-06-11 22:52:46
醒醒吧!沒水平就別硬開演唱會,觀眾抵制聲一片

醒醒吧!沒水平就別硬開演唱會,觀眾抵制聲一片

一娛三分地
2026-06-09 21:37:49
太可怕!杭州35歲資深驢友在西湖徒步失溫,裹滿3張保溫毯才保命

太可怕!杭州35歲資深驢友在西湖徒步失溫,裹滿3張保溫毯才保命

魔都姐姐雜談
2026-06-11 12:45:55
泰國法院判處兩名中國籍男子死刑,外交部:中方支持泰方依法審判

泰國法院判處兩名中國籍男子死刑,外交部:中方支持泰方依法審判

第一財經(jīng)資訊
2026-06-11 16:18:12
湖南小伙舉報醉駕次日遭上門“精準”毆打!懷疑信息遭泄露

湖南小伙舉報醉駕次日遭上門“精準”毆打!懷疑信息遭泄露

聽心堂
2026-06-11 19:18:26
深度? 特朗普“用炸彈談判”,伊朗再“關”霍爾木茲:美伊爭的究竟是什么?

深度? 特朗普“用炸彈談判”,伊朗再“關”霍爾木茲:美伊爭的究竟是什么?

上觀新聞
2026-06-11 21:08:54
私生活混亂,從央視主持到勞改犯,如今靠直播打賞討生活

私生活混亂,從央視主持到勞改犯,如今靠直播打賞討生活

素衣讀史
2026-06-11 21:56:30
高中生自主研發(fā)火箭遭質疑!高能燃料哪里來?空域審批哪里來?

高中生自主研發(fā)火箭遭質疑!高能燃料哪里來?空域審批哪里來?

老郭在學習
2026-06-11 17:08:28
2026-06-12 07:07:00
智能相對論 incentive-icons
智能相對論
智能和車,邊評邊測;未來和家,且品且鑒
2558文章數(shù) 2412關注度
往期回顧 全部

科技要聞

淘寶、京東、拼多多、抖音、小紅書被約談

頭條要聞

中方對菲國防部長特奧多羅及其親屬實施制裁

頭條要聞

中方對菲國防部長特奧多羅及其親屬實施制裁

體育要聞

比起總冠軍,更大的懸念成了FMVP?

娛樂要聞

《花少8》陣容大揭秘!秒殺前一季

財經(jīng)要聞

干細胞生意:17萬一針的希望

汽車要聞

將搭云輦-M智能磁流變懸架 方程豹方程S系列信息曝光

態(tài)度原創(chuàng)

教育
家居
游戲
親子
數(shù)碼

教育要聞

陳都靈祝高考生像楚朝一樣清醒果決不留遺憾

家居要聞

空間微調 移形換境

《古墓麗影RE》難稱3A大作!外媒:只有2A水準

親子要聞

歷經(jīng)兩年治療,無精子癥患者家庭在滬迎健康寶寶

數(shù)碼要聞

傳聞稱蘋果首款觸控屏 MacBook 已“100% 確認”

無障礙瀏覽 進入關懷版