網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

萬億市場(chǎng)格局未定：「端側(cè)原生」，一家中國AI公司給物理AI拋了個(gè)新解法

2026-06-30 11:25:06　來源: 36氪

北京舉報(bào)

分享至

過去幾年，AI的戰(zhàn)場(chǎng)在屏幕里。GPT系列用參數(shù)堆出了驚人的語言能力，Sora用視頻生成震撼了全世界……但2026年，產(chǎn)業(yè)界達(dá)成了一組共識(shí)：2026年，是物理AI的元年。

年初拉斯維加斯CES上，英偉達(dá)CEO黃仁勛用一場(chǎng)演講，17遍提及物理AI，用以宣布“物理AI的ChatGPT時(shí)刻已經(jīng)來了”。這也是他近兩年一直推崇備至的關(guān)鍵詞。而在過去的2年多時(shí)間里，物理AI在“大腦”（VLA模型）、“想象引擎”（世界模型）、訓(xùn)練場(chǎng)、本體及商業(yè)閉環(huán)五個(gè)維度取得關(guān)鍵進(jìn)展，行業(yè)已初步具備走出演示環(huán)境、向真實(shí)場(chǎng)景探索的技術(shù)基礎(chǔ)。

就在2026年上半年，全球物理AI領(lǐng)域的資本流動(dòng)呈現(xiàn)出驚人的密度和規(guī)模。光一季度，全球物理AI融資就超過了64億美元。其中不乏AMI Labs10.3億美元種子輪、World Labs10億美元融資，國內(nèi)千尋智能三月完成四輪45億元融資的案例。同時(shí)，物理AI的技術(shù)路線也呈現(xiàn)出清晰的產(chǎn)業(yè)分化。基礎(chǔ)模型層呈現(xiàn)VLM、VLA與世界模型三條路徑收斂之勢(shì)。世界模型作為后臺(tái)數(shù)據(jù)工廠合成訓(xùn)練數(shù)據(jù)，VLM承擔(dān)長(zhǎng)程規(guī)劃的“慢思考”，VLA則把指令與感知直接轉(zhuǎn)化為動(dòng)作。

技術(shù)路線似乎已然固化，核心觀點(diǎn)基本指向物理AI未來的核心技術(shù)架構(gòu)將是“VLA與世界模型的深度閉環(huán)”——VLA負(fù)責(zé)“說人話、做決策”，世界模型提供“內(nèi)嵌物理引擎”，提前模擬動(dòng)作的物理后果，驗(yàn)證計(jì)劃可行性。

不過，這些方案已經(jīng)是“物理世界需要什么樣的AI”這一核心問題的最終答案了嗎？

物理AI還是一場(chǎng)“開放競(jìng)爭(zhēng)”

資本洶涌、巨頭入局、量產(chǎn)捷報(bào)頻傳，物理AI被視為下一個(gè)萬億級(jí)市場(chǎng)。

據(jù)Future Markets預(yù)測(cè)，全球物理AI市場(chǎng)規(guī)模將從2026年的約3830億美元增長(zhǎng)至2040年的3.26萬億美元，構(gòu)成有史以來最大的科技市場(chǎng)擴(kuò)張之一。Coatue Management的預(yù)計(jì)則更為激進(jìn)，認(rèn)為物理AI市場(chǎng)規(guī)模至少可達(dá)6萬億美元，較數(shù)字AI高出約50%。

但是，不同于數(shù)字AI領(lǐng)域競(jìng)爭(zhēng)格局已日益明朗，物理AI當(dāng)下的特征可謂是“格局未定”，決定勝負(fù)的維度——制造能力、部署數(shù)據(jù)、監(jiān)管速度、供應(yīng)鏈控制、基礎(chǔ)模型智能——分布在不同的競(jìng)爭(zhēng)者手中。

作為物理AI的底層底座，被寄予厚望的世界模型，產(chǎn)業(yè)界對(duì)其定位也遠(yuǎn)未形成共識(shí)。智源研究院院長(zhǎng)王仲遠(yuǎn)曾指出，當(dāng)前世界模型主流路線已有四條：以語言為中心路線（如Gemini3）：能感知多模態(tài)數(shù)據(jù)，通過語言思考并描述下一狀態(tài)，具備規(guī)劃決策能力；以像素為中心路線（如Sora）：適合視頻生成，但不懂物理因果；以三維結(jié)構(gòu)為中心路線（如李飛飛World Labs的Marble）：瞄準(zhǔn)元宇宙、游戲等數(shù)字世界仿真；以視覺表征為中心路線（如LeCun的V-JEPA系列）：預(yù)測(cè)的是視覺表征的壓縮，但視覺嵌入演化不等于物理規(guī)律演化。

四類路線，各有擁躉，各有短板。而主流的VLA、世界模型的技術(shù)路線中，有觀點(diǎn)將VLA、世界模型放在了對(duì)立面，也有一部分企業(yè)選擇兩條技術(shù)路線并進(jìn)并探索融合。有人走“VLA為主、世界模型為輔”的嵌入路線，有人走“世界模型原生、強(qiáng)化學(xué)習(xí)驅(qū)動(dòng)”的獨(dú)立路線，還有人走“類腦算法+世界模型”的底層重構(gòu)路線。

不同技術(shù)路線，在產(chǎn)業(yè)層面體現(xiàn)得更加尖銳。

在“VLA路線”陣營，英偉達(dá)在GTC 2026展示了自研VLA模型Alpamayo，同時(shí)還有專為人形機(jī)器人設(shè)計(jì)的開源推理視覺語言動(dòng)作（VLA）模型Isaac GR00T N1.6；小鵬在CVPR 2026推出X-Foresight，把世界模型直接嵌進(jìn)VLA架構(gòu)……在“世界模型路線”陣營，吉利汽車集團(tuán)在GTC 2026發(fā)布WAM世界行為模型；World Labs持續(xù)押注空間智能（以三維結(jié)構(gòu)為中心的世界模型路線）；谷歌DeepMind于2025年8月發(fā)布一款通用型世界模型Genie 3……在“VLA+世界模型融合路線”陣營，也不乏熱門企業(yè)，智元機(jī)器人、宇樹科技、特斯拉Optimus等，其中，宇樹科技更是表示將同時(shí)保持對(duì)VLA技術(shù)路線的持續(xù)跟進(jìn)與對(duì)標(biāo)，并探索“世界建模”能力與VLA架構(gòu)的合理化融入方式。

當(dāng)前物理AI尚無固定實(shí)現(xiàn)范式，或許將是最生動(dòng)的寫照。只是在基礎(chǔ)模型層技術(shù)路線的選擇上，似乎VLM、VLA與世界模型三條路徑已經(jīng)開始呈現(xiàn)收斂之勢(shì)。

事實(shí)上，VLA模型突破了過去將視覺、語言、動(dòng)作視為獨(dú)立領(lǐng)域的局限，主流VLA模型成功率已趨于穩(wěn)定，任務(wù)執(zhí)行能力快速提升。而世界模型本質(zhì)是對(duì)環(huán)境動(dòng)態(tài)的預(yù)測(cè)性表征，可為VLA注入想象力，提供內(nèi)嵌物理引擎，讓AI能夠提前模擬動(dòng)作后果、驗(yàn)證計(jì)劃可行性。

而純反應(yīng)式VLA僅能根據(jù)當(dāng)前觀測(cè)映射動(dòng)作，缺乏對(duì)未來的推理能力，長(zhǎng)時(shí)程規(guī)劃易翻車，世界模型是破局的核心。這也使得VLA與世界模型的融合成為主流之勢(shì)。

但值得思考的是，面向物理AI的模型，到底應(yīng)該是什么樣子？

答案或許既不在技術(shù)路線，也不在發(fā)布會(huì)的演示視頻里，而在真實(shí)場(chǎng)景的需求中。它的核心評(píng)價(jià)標(biāo)準(zhǔn)，從來不是“生成的世界夠不夠逼真”，而是“能不能幫機(jī)器更好地在物理世界里行動(dòng)”，能不能降低試錯(cuò)成本、能不能提升泛化能力、能不能嵌入真實(shí)的業(yè)務(wù)閉環(huán)……

物理AI不缺“手”，缺的是看懂物理世界

當(dāng)行業(yè)熱衷于討論VLA與世界模型的路線之爭(zhēng)時(shí)，一個(gè)更根本的問題被忽略了——對(duì)于絕大多數(shù)物理終端設(shè)備而言，真正缺失的不是“靈巧的操作”或是“對(duì)未來的預(yù)測(cè)”，而是“對(duì)空間的基本理解”。

曾有機(jī)器人在廚房“翻車”的視頻在社交平臺(tái)引發(fā)熱議。視頻中，一臺(tái)人形機(jī)器人不僅打翻沙拉碗、醬汁飛濺，甚至失控摔倒在地。然而這并非孤例，從會(huì)空翻、能跳舞的炫技表演，到連疊衣服、收拾桌子都做不好的真實(shí)表現(xiàn)，“翻車”正在從個(gè)別現(xiàn)象變成行業(yè)普遍困境。

現(xiàn)象背后的邏輯很簡(jiǎn)單，舞臺(tái)上的流暢動(dòng)作，都是預(yù)設(shè)編排、反復(fù)調(diào)試的結(jié)果，環(huán)境絕對(duì)可控；而家庭場(chǎng)景充滿隨機(jī)變數(shù)，雜物擺放、突發(fā)動(dòng)靜等不確定因素，都是機(jī)器人的技術(shù)難題。其根源，在于AI對(duì)物理空間的理解力遠(yuǎn)遠(yuǎn)跟不上硬件的能力。

物理AI并非與絕大多數(shù)人第一反應(yīng)的人形機(jī)器人、自動(dòng)駕駛等單一細(xì)分賽道，而是能夠全方位滲透物理世界的龐大產(chǎn)業(yè)生態(tài)，應(yīng)用領(lǐng)域?qū)拸V，涵蓋自主機(jī)器人、自動(dòng)駕駛車輛、人機(jī)系統(tǒng)、工業(yè)自動(dòng)化、可穿戴設(shè)備以及支持AI的醫(yī)療和農(nóng)業(yè)系統(tǒng)。這里面還包含攝像頭、無人機(jī)、機(jī)器狗、巡檢設(shè)備、工業(yè)終端、AI眼鏡等大量具備視覺能力的終端。

這一現(xiàn)狀已引發(fā)全球AI巨頭關(guān)注，如Meta發(fā)布的Segment Anything Model 3、Google發(fā)布的Gemma 4和Vision Banana、英偉達(dá)Jim Fan提出的Vision-FIrst模型，這些模型雖然技術(shù)路線不同，但都指向一個(gè)共同的愿景：構(gòu)建真正的通用視覺能力。

實(shí)際上，對(duì)于固定環(huán)境、固定坐標(biāo)、標(biāo)準(zhǔn)化指令，只要求上萬次重復(fù)動(dòng)作零偏差的工業(yè)場(chǎng)景而言，傳統(tǒng)物理AI已足以應(yīng)付，但無規(guī)則雜物、隨機(jī)指令、上萬次場(chǎng)景各不相同的場(chǎng)景而言，真正缺少的不是靈巧手，而是持續(xù)感知、空間理解、精準(zhǔn)定位和自主導(dǎo)航能力。

比如，機(jī)器狗不需要靈巧手，它需要的是在開放空間中自主導(dǎo)航；無人機(jī)同樣不需要“手”，它需要的是在無GPS環(huán)境下持續(xù)視覺定位；AI眼鏡不需要抓取物體，它需要的是精準(zhǔn)的空間定位和實(shí)時(shí)環(huán)境理解；工業(yè)巡檢終端不需要仿人形態(tài)，它需要的是在復(fù)雜環(huán)境中穩(wěn)定感知和自主決策……

當(dāng)前主流的VLA（視覺－語言－動(dòng)作模型）和世界模型技術(shù)路線，恰恰在“空間理解”這個(gè)維度上存在共同的盲區(qū)。VLA把VLM當(dāng)主干，動(dòng)作僅作為“頭”附加其后，語言部分吃掉90%以上算力與數(shù)據(jù)，動(dòng)作部分長(zhǎng)期欠訓(xùn)練。世界模型試圖彌補(bǔ)這一缺陷，通過預(yù)測(cè)物理世界的下一個(gè)狀態(tài)來建立對(duì)物理規(guī)律的理解。但目前的瓶頸同樣尖銳：高質(zhì)量數(shù)據(jù)缺乏，遠(yuǎn)低于大模型所需規(guī)模。

翻車的本質(zhì)，不是機(jī)器人不夠“聰明”，而是它還“看不懂”它所在這個(gè)連續(xù)、復(fù)雜且充滿不確定性的物理世界。

這正是Om AI聯(lián)匯過去五年里走了一條與主流不同的路。它沒有追逐當(dāng)時(shí)最熱門的“靈巧操作”方向，而是回到了物理AI最基礎(chǔ)的問題：如何讓AI先“看懂”物理世界，再談其他。其于6月27日—29日發(fā)布的VLX-Flow、VLX-Seek、VLX-Go系列模型，從物理AI最基礎(chǔ)、最通用的視覺能力切入，提出了流式多模態(tài)的新思路。

具體而言，VLX-Flow解決“持續(xù)感知”問題，其讓AI像人一樣持續(xù)觀察，而不是被動(dòng)等提問。傳統(tǒng)視頻理解是“截一幀、問一次、答一次”——AI看視頻就像翻連環(huán)畫，每一頁都要重新翻開、重新閱讀。Flow通過Linear Attention和雙層記憶（視覺緩存+文本carryover），讓視頻流“像水流一樣持續(xù)進(jìn)入模型”，AI自己一直在看、一直在記。

Flow推理速度優(yōu)勢(shì)

VLX-Seek解決“精準(zhǔn)定位”問題，讓AI實(shí)現(xiàn)從“大概看到”到“精準(zhǔn)鎖定”的轉(zhuǎn)變。VLX-Seek把定位從“坐標(biāo)生成”改成“區(qū)域指代”——前者是讓模型“猜坐標(biāo)”，后者是給模型真實(shí)區(qū)域讓它“選”，為機(jī)器人和設(shè)備提供毫米級(jí)空間錨點(diǎn)。方法不同，結(jié)果也天差地別：VLX-Seek能以更小的數(shù)據(jù)實(shí)現(xiàn)更優(yōu)的效果。

Seek技術(shù)架構(gòu)圖

VLX-Go解決“行動(dòng)決策”問題，讓AI從“會(huì)理解”?向“會(huì)移動(dòng)、會(huì)跟隨、會(huì)導(dǎo)航”。它不是輸出“往左走”這樣的文本建議，而是通過“短時(shí)航點(diǎn)預(yù)測(cè)+離線軌跡學(xué)習(xí)+在線RL優(yōu)化”的邏輯，直接輸出可執(zhí)行航點(diǎn)軌跡，讓設(shè)備自己走過去。

這一范式切換的關(guān)鍵假設(shè)是：物理世界的AI，不應(yīng)該是“等用戶提問才回答”的被動(dòng)系統(tǒng)，而應(yīng)該是“一直看、持續(xù)記、隨時(shí)動(dòng)”的主動(dòng)系統(tǒng)。前者是數(shù)字AI的交互邏輯——對(duì)話由人類發(fā)起；后者是物理AI的工作邏輯——環(huán)境變化本身就是觸發(fā)信號(hào)。

在這個(gè)范式下，視覺信息不是以“截一幀”的方式進(jìn)入模型，而是以“連續(xù)流”的方式持續(xù)進(jìn)入。模型不是“看完再說”，而是“邊看邊理解、必要時(shí)主動(dòng)行動(dòng)”。這對(duì)應(yīng)的不是“更好的人機(jī)對(duì)話體驗(yàn)”，而是“AI自主工作能力的質(zhì)變”。

這一轉(zhuǎn)變的意義，或許不在于它讓模型“更好”，而在于它讓AI在物理世界中的存在方式發(fā)生了根本變化——從“等用戶來問”到“一直在線工作”。

當(dāng)數(shù)以億計(jì)的攝像頭、無人機(jī)、機(jī)器狗、可穿戴設(shè)備不再只是“拍攝工具”，而成為持續(xù)理解物理環(huán)境的“感知終端”，并自主完成感知、定位、決策的全閉環(huán)——這個(gè)轉(zhuǎn)變的產(chǎn)業(yè)價(jià)值，可能遠(yuǎn)大于機(jī)器人的驚艷演示。

讓物理AI走進(jìn)產(chǎn)業(yè)

物理AI從來不缺“技術(shù)高度”的敘事，但產(chǎn)業(yè)化的真正分水嶺，在于技術(shù)能否在真實(shí)約束下創(chuàng)造可量化的業(yè)務(wù)價(jià)值——這決定了它能走多高、走多遠(yuǎn)。

VLX系列模型有著許多技術(shù)創(chuàng)新，比如以Linear Attention替代標(biāo)準(zhǔn)Attention、雙層記憶機(jī)制、區(qū)域指代范式（Region Token）替代坐標(biāo)生成、短時(shí)航點(diǎn)設(shè)計(jì)替代?鏈路規(guī)劃等。這些技術(shù)創(chuàng)新提供了一個(gè)觀察樣本：當(dāng)一套技術(shù)架構(gòu)從實(shí)驗(yàn)室走向真實(shí)物理世界時(shí)，它到底解決了什么真實(shí)問題？

首先看端側(cè)，在工業(yè)巡檢、應(yīng)急管理等場(chǎng)景中，網(wǎng)絡(luò)斷連是常態(tài)而非例外。一臺(tái)在廠區(qū)飛行的無人機(jī)、一個(gè)在地鐵工地巡邏的機(jī)器人……如果每次決策都要等云端回傳，任何延遲都意味著“來不及”。端側(cè)讓決策在設(shè)備本地完成，延遲從秒級(jí)壓縮到0.1秒以內(nèi)——這不是體驗(yàn)問題，而是業(yè)務(wù)能否成立的根本問題。端側(cè)推理將決策閉環(huán)壓縮到設(shè)備本地，延遲從秒級(jí)降至0.1秒以內(nèi)，在產(chǎn)業(yè)實(shí)操中，這直接將大量高危、高動(dòng)態(tài)場(chǎng)景從“技術(shù)不可行”推進(jìn)到了“商用可落地”的區(qū)間。

其次看原生架構(gòu)，VLX-Go的決策路徑完全由其應(yīng)用場(chǎng)景所定義——精準(zhǔn)適配更輕量的短時(shí)航點(diǎn)，這樣可以更快地應(yīng)對(duì)外界環(huán)境的變化。0.6B的參數(shù)規(guī)模下，它不做“深度推理”，只做“實(shí)時(shí)響應(yīng)”。這并非技術(shù)妥協(xié)，而是對(duì)端側(cè)設(shè)備“能力邊界”的清醒認(rèn)知——工業(yè)級(jí)無人機(jī)和巡檢機(jī)器人往往搭載功耗受限的嵌入式芯片，算力頂多支撐數(shù)B級(jí)模型的實(shí)時(shí)推理。在此約束下，“更快行動(dòng)”的價(jià)值遠(yuǎn)大于“更深思考”。

Go架構(gòu)圖

更值得關(guān)注的是其研發(fā)范式的差異化：行業(yè)普遍將端側(cè)模型視為“云端模型的壓縮版”，通過蒸餾、剪枝向下移植；而VLX的邏輯是反向的——先明確端側(cè)硬件的算力天花板，再在邊界內(nèi)做能力最大化的原生架構(gòu)設(shè)計(jì)。這種“端側(cè)優(yōu)先”的研發(fā)理念，與邊緣計(jì)算走向“專用化、輕量化、硬實(shí)時(shí)”的產(chǎn)業(yè)趨勢(shì)高度同頻，也更契合物理AI對(duì)確定性時(shí)延的剛性需求。

這套模式已經(jīng)在產(chǎn)業(yè)上得以驗(yàn)證。其中，機(jī)器人側(cè)，云深處、宇樹等具身頭部企業(yè)已完成部署；無人機(jī)側(cè)，公安、海事、自然資源、園區(qū)、應(yīng)急、救援等低空?qǐng)鼍耙呀?jīng)商用落地；安防攝像頭側(cè)，已經(jīng)完成百萬級(jí)攝像頭的商業(yè)化服務(wù)接入。

當(dāng)然，目前物理AI仍處于起步階段。不管是更豐富的人－機(jī)－環(huán)境交互、還是復(fù)雜環(huán)境的任務(wù)執(zhí)行，都仍是開放問題。但于物理AI而言，VLX帶來的最大沖擊，并非某幾項(xiàng)算法指標(biāo)的突破，而是一整套關(guān)于“智能存在方式”的思辨——在物理世界里，智能的度量衡不再是參數(shù)量的堆疊，而是決策時(shí)延的長(zhǎng)短與算力利用率的極致。

如果2026年是物理AI的元年，那它注定不會(huì)是一場(chǎng)路線清晰的馬拉松，而更像一次迷霧中的多路攀巖。有人押注“大腦”的深度推理，有人下注“想象力”的預(yù)測(cè)能力，也有人如Om AI聯(lián)匯這般，選擇了樸素卻剛需的切入點(diǎn)——讓機(jī)器持續(xù)看懂眼前的世界，并且可以做出準(zhǔn)確的決策。真正值得產(chǎn)業(yè)界思考的是：當(dāng)物理AI的終局形態(tài)尚是開放問題，我們究竟是在“用技術(shù)探索場(chǎng)景”，還是在“用場(chǎng)景重塑技術(shù)”？答案不在論文里，也不在演示中，而藏在每一次現(xiàn)場(chǎng)部署后的真實(shí)反饋里。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.