過去幾年,AI的戰(zhàn)場(chǎng)在屏幕里。GPT系列用參數(shù)堆出了驚人的語言能力,Sora用視頻生成震撼了全世界……但2026年,產(chǎn)業(yè)界達(dá)成了一組共識(shí):2026年,是物理AI的元年。
年初拉斯維加斯CES上,英偉達(dá)CEO黃仁勛用一場(chǎng)演講,17遍提及物理AI,用以宣布“物理AI的ChatGPT時(shí)刻已經(jīng)來了”。這也是他近兩年一直推崇備至的關(guān)鍵詞。而在過去的2年多時(shí)間里,物理AI在“大腦”(VLA模型)、“想象引擎”(世界模型)、訓(xùn)練場(chǎng)、本體及商業(yè)閉環(huán)五個(gè)維度取得關(guān)鍵進(jìn)展,行業(yè)已初步具備走出演示環(huán)境、向真實(shí)場(chǎng)景探索的技術(shù)基礎(chǔ)。
就在2026年上半年,全球物理AI領(lǐng)域的資本流動(dòng)呈現(xiàn)出驚人的密度和規(guī)模。光一季度,全球物理AI融資就超過了64億美元。其中不乏AMI Labs10.3億美元種子輪、World Labs10億美元融資,國內(nèi)千尋智能三月完成四輪45億元融資的案例。同時(shí),物理AI的技術(shù)路線也呈現(xiàn)出清晰的產(chǎn)業(yè)分化。基礎(chǔ)模型層呈現(xiàn)VLM、VLA與世界模型三條路徑收斂之勢(shì)。世界模型作為后臺(tái)數(shù)據(jù)工廠合成訓(xùn)練數(shù)據(jù),VLM承擔(dān)長(zhǎng)程規(guī)劃的“慢思考”,VLA則把指令與感知直接轉(zhuǎn)化為動(dòng)作。
技術(shù)路線似乎已然固化,核心觀點(diǎn)基本指向物理AI未來的核心技術(shù)架構(gòu)將是“VLA與世界模型的深度閉環(huán)”——VLA負(fù)責(zé)“說人話、做決策”,世界模型提供“內(nèi)嵌物理引擎”,提前模擬動(dòng)作的物理后果,驗(yàn)證計(jì)劃可行性。
不過,這些方案已經(jīng)是“物理世界需要什么樣的AI”這一核心問題的最終答案了嗎?
物理AI還是一場(chǎng)“開放競(jìng)爭(zhēng)”
資本洶涌、巨頭入局、量產(chǎn)捷報(bào)頻傳,物理AI被視為下一個(gè)萬億級(jí)市場(chǎng)。
據(jù)Future Markets預(yù)測(cè),全球物理AI市場(chǎng)規(guī)模將從2026年的約3830億美元增長(zhǎng)至2040年的3.26萬億美元,構(gòu)成有史以來最大的科技市場(chǎng)擴(kuò)張之一。Coatue Management的預(yù)計(jì)則更為激進(jìn),認(rèn)為物理AI市場(chǎng)規(guī)模至少可達(dá)6萬億美元,較數(shù)字AI高出約50%。
但是,不同于數(shù)字AI領(lǐng)域競(jìng)爭(zhēng)格局已日益明朗,物理AI當(dāng)下的特征可謂是“格局未定”,決定勝負(fù)的維度——制造能力、部署數(shù)據(jù)、監(jiān)管速度、供應(yīng)鏈控制、基礎(chǔ)模型智能——分布在不同的競(jìng)爭(zhēng)者手中。
作為物理AI的底層底座,被寄予厚望的世界模型,產(chǎn)業(yè)界對(duì)其定位也遠(yuǎn)未形成共識(shí)。智源研究院院長(zhǎng)王仲遠(yuǎn)曾指出,當(dāng)前世界模型主流路線已有四條:以語言為中心路線(如Gemini3):能感知多模態(tài)數(shù)據(jù),通過語言思考并描述下一狀態(tài),具備規(guī)劃決策能力;以像素為中心路線(如Sora):適合視頻生成,但不懂物理因果;以三維結(jié)構(gòu)為中心路線(如李飛飛World Labs的Marble):瞄準(zhǔn)元宇宙、游戲等數(shù)字世界仿真;以視覺表征為中心路線(如LeCun的V-JEPA系列):預(yù)測(cè)的是視覺表征的壓縮,但視覺嵌入演化不等于物理規(guī)律演化。
四類路線,各有擁躉,各有短板。而主流的VLA、世界模型的技術(shù)路線中,有觀點(diǎn)將VLA、世界模型放在了對(duì)立面,也有一部分企業(yè)選擇兩條技術(shù)路線并進(jìn)并探索融合。有人走“VLA為主、世界模型為輔”的嵌入路線,有人走“世界模型原生、強(qiáng)化學(xué)習(xí)驅(qū)動(dòng)”的獨(dú)立路線,還有人走“類腦算法+世界模型”的底層重構(gòu)路線。
不同技術(shù)路線,在產(chǎn)業(yè)層面體現(xiàn)得更加尖銳。
在“VLA路線”陣營,英偉達(dá)在GTC 2026展示了自研VLA模型Alpamayo,同時(shí)還有專為人形機(jī)器人設(shè)計(jì)的開源推理視覺語言動(dòng)作(VLA)模型Isaac GR00T N1.6;小鵬在CVPR 2026推出X-Foresight,把世界模型直接嵌進(jìn)VLA架構(gòu)……在“世界模型路線”陣營,吉利汽車集團(tuán)在GTC 2026發(fā)布WAM世界行為模型;World Labs持續(xù)押注空間智能(以三維結(jié)構(gòu)為中心的世界模型路線);谷歌DeepMind于2025年8月發(fā)布一款通用型世界模型Genie 3……在“VLA+世界模型融合路線”陣營,也不乏熱門企業(yè),智元機(jī)器人、宇樹科技、特斯拉Optimus等,其中,宇樹科技更是表示將同時(shí)保持對(duì)VLA技術(shù)路線的持續(xù)跟進(jìn)與對(duì)標(biāo),并探索“世界建模”能力與VLA架構(gòu)的合理化融入方式。
當(dāng)前物理AI尚無固定實(shí)現(xiàn)范式,或許將是最生動(dòng)的寫照。只是在基礎(chǔ)模型層技術(shù)路線的選擇上,似乎VLM、VLA與世界模型三條路徑已經(jīng)開始呈現(xiàn)收斂之勢(shì)。
事實(shí)上,VLA模型突破了過去將視覺、語言、動(dòng)作視為獨(dú)立領(lǐng)域的局限,主流VLA模型成功率已趨于穩(wěn)定,任務(wù)執(zhí)行能力快速提升。而世界模型本質(zhì)是對(duì)環(huán)境動(dòng)態(tài)的預(yù)測(cè)性表征,可為VLA注入想象力,提供內(nèi)嵌物理引擎,讓AI能夠提前模擬動(dòng)作后果、驗(yàn)證計(jì)劃可行性。
而純反應(yīng)式VLA僅能根據(jù)當(dāng)前觀測(cè)映射動(dòng)作,缺乏對(duì)未來的推理能力,長(zhǎng)時(shí)程規(guī)劃易翻車,世界模型是破局的核心。這也使得VLA與世界模型的融合成為主流之勢(shì)。
但值得思考的是,面向物理AI的模型,到底應(yīng)該是什么樣子?
答案或許既不在技術(shù)路線,也不在發(fā)布會(huì)的演示視頻里,而在真實(shí)場(chǎng)景的需求中。它的核心評(píng)價(jià)標(biāo)準(zhǔn),從來不是“生成的世界夠不夠逼真”,而是“能不能幫機(jī)器更好地在物理世界里行動(dòng)”,能不能降低試錯(cuò)成本、能不能提升泛化能力、能不能嵌入真實(shí)的業(yè)務(wù)閉環(huán)……
物理AI不缺“手”,缺的是看懂物理世界
當(dāng)行業(yè)熱衷于討論VLA與世界模型的路線之爭(zhēng)時(shí),一個(gè)更根本的問題被忽略了——對(duì)于絕大多數(shù)物理終端設(shè)備而言,真正缺失的不是“靈巧的操作”或是“對(duì)未來的預(yù)測(cè)”,而是“對(duì)空間的基本理解”。
曾有機(jī)器人在廚房“翻車”的視頻在社交平臺(tái)引發(fā)熱議。視頻中,一臺(tái)人形機(jī)器人不僅打翻沙拉碗、醬汁飛濺,甚至失控摔倒在地。然而這并非孤例,從會(huì)空翻、能跳舞的炫技表演,到連疊衣服、收拾桌子都做不好的真實(shí)表現(xiàn),“翻車”正在從個(gè)別現(xiàn)象變成行業(yè)普遍困境。
現(xiàn)象背后的邏輯很簡(jiǎn)單,舞臺(tái)上的流暢動(dòng)作,都是預(yù)設(shè)編排、反復(fù)調(diào)試的結(jié)果,環(huán)境絕對(duì)可控;而家庭場(chǎng)景充滿隨機(jī)變數(shù),雜物擺放、突發(fā)動(dòng)靜等不確定因素,都是機(jī)器人的技術(shù)難題。其根源,在于AI對(duì)物理空間的理解力遠(yuǎn)遠(yuǎn)跟不上硬件的能力。
物理AI并非與絕大多數(shù)人第一反應(yīng)的人形機(jī)器人、自動(dòng)駕駛等單一細(xì)分賽道,而是能夠全方位滲透物理世界的龐大產(chǎn)業(yè)生態(tài),應(yīng)用領(lǐng)域?qū)拸V,涵蓋自主機(jī)器人、自動(dòng)駕駛車輛、人機(jī)系統(tǒng)、工業(yè)自動(dòng)化、可穿戴設(shè)備以及支持AI的醫(yī)療和農(nóng)業(yè)系統(tǒng)。這里面還包含攝像頭、無人機(jī)、機(jī)器狗、巡檢設(shè)備、工業(yè)終端、AI眼鏡等大量具備視覺能力的終端。
這一現(xiàn)狀已引發(fā)全球AI巨頭關(guān)注,如Meta發(fā)布的Segment Anything Model 3、Google發(fā)布的Gemma 4和Vision Banana、英偉達(dá)Jim Fan提出的Vision-FIrst模型,這些模型雖然技術(shù)路線不同,但都指向一個(gè)共同的愿景:構(gòu)建真正的通用視覺能力。
實(shí)際上,對(duì)于固定環(huán)境、固定坐標(biāo)、標(biāo)準(zhǔn)化指令,只要求上萬次重復(fù)動(dòng)作零偏差的工業(yè)場(chǎng)景而言,傳統(tǒng)物理AI已足以應(yīng)付,但無規(guī)則雜物、隨機(jī)指令、上萬次場(chǎng)景各不相同的場(chǎng)景而言,真正缺少的不是靈巧手,而是持續(xù)感知、空間理解、精準(zhǔn)定位和自主導(dǎo)航能力。
比如,機(jī)器狗不需要靈巧手,它需要的是在開放空間中自主導(dǎo)航;無人機(jī)同樣不需要“手”,它需要的是在無GPS環(huán)境下持續(xù)視覺定位;AI眼鏡不需要抓取物體,它需要的是精準(zhǔn)的空間定位和實(shí)時(shí)環(huán)境理解;工業(yè)巡檢終端不需要仿人形態(tài),它需要的是在復(fù)雜環(huán)境中穩(wěn)定感知和自主決策……
當(dāng)前主流的VLA(視覺-語言-動(dòng)作模型)和世界模型技術(shù)路線,恰恰在“空間理解”這個(gè)維度上存在共同的盲區(qū)。VLA把VLM當(dāng)主干,動(dòng)作僅作為“頭”附加其后,語言部分吃掉90%以上算力與數(shù)據(jù),動(dòng)作部分長(zhǎng)期欠訓(xùn)練。世界模型試圖彌補(bǔ)這一缺陷,通過預(yù)測(cè)物理世界的下一個(gè)狀態(tài)來建立對(duì)物理規(guī)律的理解。但目前的瓶頸同樣尖銳:高質(zhì)量數(shù)據(jù)缺乏,遠(yuǎn)低于大模型所需規(guī)模。
翻車的本質(zhì),不是機(jī)器人不夠“聰明”,而是它還“看不懂”它所在這個(gè)連續(xù)、復(fù)雜且充滿不確定性的物理世界。
這正是Om AI聯(lián)匯過去五年里走了一條與主流不同的路。它沒有追逐當(dāng)時(shí)最熱門的“靈巧操作”方向,而是回到了物理AI最基礎(chǔ)的問題:如何讓AI先“看懂”物理世界,再談其他。其于6月27日—29日發(fā)布的VLX-Flow、VLX-Seek、VLX-Go系列模型,從物理AI最基礎(chǔ)、最通用的視覺能力切入,提出了流式多模態(tài)的新思路。
具體而言,VLX-Flow解決“持續(xù)感知”問題,其讓AI像人一樣持續(xù)觀察,而不是被動(dòng)等提問。傳統(tǒng)視頻理解是“截一幀、問一次、答一次”——AI看視頻就像翻連環(huán)畫,每一頁都要重新翻開、重新閱讀。Flow通過Linear Attention和雙層記憶(視覺緩存+文本carryover),讓視頻流“像水流一樣持續(xù)進(jìn)入模型”,AI自己一直在看、一直在記。
![]()
Flow推理速度優(yōu)勢(shì)
VLX-Seek解決“精準(zhǔn)定位”問題,讓AI實(shí)現(xiàn)從“大概看到”到“精準(zhǔn)鎖定”的轉(zhuǎn)變。VLX-Seek把定位從“坐標(biāo)生成”改成“區(qū)域指代”——前者是讓模型“猜坐標(biāo)”,后者是給模型真實(shí)區(qū)域讓它“選”,為機(jī)器人和設(shè)備提供毫米級(jí)空間錨點(diǎn)。方法不同,結(jié)果也天差地別:VLX-Seek能以更小的數(shù)據(jù)實(shí)現(xiàn)更優(yōu)的效果。
![]()
Seek技術(shù)架構(gòu)圖
VLX-Go解決“行動(dòng)決策”問題,讓AI從“會(huì)理解”?向“會(huì)移動(dòng)、會(huì)跟隨、會(huì)導(dǎo)航”。它不是輸出“往左走”這樣的文本建議,而是通過“短時(shí)航點(diǎn)預(yù)測(cè)+離線軌跡學(xué)習(xí)+在線RL優(yōu)化”的邏輯,直接輸出可執(zhí)行航點(diǎn)軌跡,讓設(shè)備自己走過去。
這一范式切換的關(guān)鍵假設(shè)是:物理世界的AI,不應(yīng)該是“等用戶提問才回答”的被動(dòng)系統(tǒng),而應(yīng)該是“一直看、持續(xù)記、隨時(shí)動(dòng)”的主動(dòng)系統(tǒng)。前者是數(shù)字AI的交互邏輯——對(duì)話由人類發(fā)起;后者是物理AI的工作邏輯——環(huán)境變化本身就是觸發(fā)信號(hào)。
在這個(gè)范式下,視覺信息不是以“截一幀”的方式進(jìn)入模型,而是以“連續(xù)流”的方式持續(xù)進(jìn)入。模型不是“看完再說”,而是“邊看邊理解、必要時(shí)主動(dòng)行動(dòng)”。這對(duì)應(yīng)的不是“更好的人機(jī)對(duì)話體驗(yàn)”,而是“AI自主工作能力的質(zhì)變”。
這一轉(zhuǎn)變的意義,或許不在于它讓模型“更好”,而在于它讓AI在物理世界中的存在方式發(fā)生了根本變化——從“等用戶來問”到“一直在線工作”。
當(dāng)數(shù)以億計(jì)的攝像頭、無人機(jī)、機(jī)器狗、可穿戴設(shè)備不再只是“拍攝工具”,而成為持續(xù)理解物理環(huán)境的“感知終端”,并自主完成感知、定位、決策的全閉環(huán)——這個(gè)轉(zhuǎn)變的產(chǎn)業(yè)價(jià)值,可能遠(yuǎn)大于機(jī)器人的驚艷演示。
讓物理AI走進(jìn)產(chǎn)業(yè)
物理AI從來不缺“技術(shù)高度”的敘事,但產(chǎn)業(yè)化的真正分水嶺,在于技術(shù)能否在真實(shí)約束下創(chuàng)造可量化的業(yè)務(wù)價(jià)值——這決定了它能走多高、走多遠(yuǎn)。
VLX系列模型有著許多技術(shù)創(chuàng)新,比如以Linear Attention替代標(biāo)準(zhǔn)Attention、雙層記憶機(jī)制、區(qū)域指代范式(Region Token)替代坐標(biāo)生成、短時(shí)航點(diǎn)設(shè)計(jì)替代?鏈路規(guī)劃等。這些技術(shù)創(chuàng)新提供了一個(gè)觀察樣本:當(dāng)一套技術(shù)架構(gòu)從實(shí)驗(yàn)室走向真實(shí)物理世界時(shí),它到底解決了什么真實(shí)問題?
首先看端側(cè),在工業(yè)巡檢、應(yīng)急管理等場(chǎng)景中,網(wǎng)絡(luò)斷連是常態(tài)而非例外。一臺(tái)在廠區(qū)飛行的無人機(jī)、一個(gè)在地鐵工地巡邏的機(jī)器人……如果每次決策都要等云端回傳,任何延遲都意味著“來不及”。端側(cè)讓決策在設(shè)備本地完成,延遲從秒級(jí)壓縮到0.1秒以內(nèi)——這不是體驗(yàn)問題,而是業(yè)務(wù)能否成立的根本問題。端側(cè)推理將決策閉環(huán)壓縮到設(shè)備本地,延遲從秒級(jí)降至0.1秒以內(nèi),在產(chǎn)業(yè)實(shí)操中,這直接將大量高危、高動(dòng)態(tài)場(chǎng)景從“技術(shù)不可行”推進(jìn)到了“商用可落地”的區(qū)間。
其次看原生架構(gòu),VLX-Go的決策路徑完全由其應(yīng)用場(chǎng)景所定義——精準(zhǔn)適配更輕量的短時(shí)航點(diǎn),這樣可以更快地應(yīng)對(duì)外界環(huán)境的變化。0.6B的參數(shù)規(guī)模下,它不做“深度推理”,只做“實(shí)時(shí)響應(yīng)”。這并非技術(shù)妥協(xié),而是對(duì)端側(cè)設(shè)備“能力邊界”的清醒認(rèn)知——工業(yè)級(jí)無人機(jī)和巡檢機(jī)器人往往搭載功耗受限的嵌入式芯片,算力頂多支撐數(shù)B級(jí)模型的實(shí)時(shí)推理。在此約束下,“更快行動(dòng)”的價(jià)值遠(yuǎn)大于“更深思考”。
![]()
Go架構(gòu)圖
更值得關(guān)注的是其研發(fā)范式的差異化:行業(yè)普遍將端側(cè)模型視為“云端模型的壓縮版”,通過蒸餾、剪枝向下移植;而VLX的邏輯是反向的——先明確端側(cè)硬件的算力天花板,再在邊界內(nèi)做能力最大化的原生架構(gòu)設(shè)計(jì)。這種“端側(cè)優(yōu)先”的研發(fā)理念,與邊緣計(jì)算走向“專用化、輕量化、硬實(shí)時(shí)”的產(chǎn)業(yè)趨勢(shì)高度同頻,也更契合物理AI對(duì)確定性時(shí)延的剛性需求。
這套模式已經(jīng)在產(chǎn)業(yè)上得以驗(yàn)證。其中,機(jī)器人側(cè),云深處、宇樹等具身頭部企業(yè)已完成部署;無人機(jī)側(cè),公安、海事、自然資源、園區(qū)、應(yīng)急、救援等低空?qǐng)鼍耙呀?jīng)商用落地;安防攝像頭側(cè),已經(jīng)完成百萬級(jí)攝像頭的商業(yè)化服務(wù)接入。
當(dāng)然,目前物理AI仍處于起步階段。不管是更豐富的人-機(jī)-環(huán)境交互、還是復(fù)雜環(huán)境的任務(wù)執(zhí)行,都仍是開放問題。但于物理AI而言,VLX帶來的最大沖擊,并非某幾項(xiàng)算法指標(biāo)的突破,而是一整套關(guān)于“智能存在方式”的思辨——在物理世界里,智能的度量衡不再是參數(shù)量的堆疊,而是決策時(shí)延的長(zhǎng)短與算力利用率的極致。
如果2026年是物理AI的元年,那它注定不會(huì)是一場(chǎng)路線清晰的馬拉松,而更像一次迷霧中的多路攀巖。有人押注“大腦”的深度推理,有人下注“想象力”的預(yù)測(cè)能力,也有人如Om AI聯(lián)匯這般,選擇了樸素卻剛需的切入點(diǎn)——讓機(jī)器持續(xù)看懂眼前的世界,并且可以做出準(zhǔn)確的決策。真正值得產(chǎn)業(yè)界思考的是:當(dāng)物理AI的終局形態(tài)尚是開放問題,我們究竟是在“用技術(shù)探索場(chǎng)景”,還是在“用場(chǎng)景重塑技術(shù)”?答案不在論文里,也不在演示中,而藏在每一次現(xiàn)場(chǎng)部署后的真實(shí)反饋里。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.