![]()
文|三少爺
2026年3月17日,英偉達(dá)GTC大會(huì)的聚光燈下,理想汽車(chē)基座模型負(fù)責(zé)人詹錕向全球展示了下一代自動(dòng)駕駛基礎(chǔ)模型MindVLA-o1。
3月18日,“智己超級(jí)智能體IM Ultra Agent”發(fā)布會(huì)上,智己汽車(chē)與Momenta聯(lián)合宣布推出IM AD ZETA,稱(chēng)其為“直接面向L4級(jí)自動(dòng)駕駛的基座模型”。無(wú)獨(dú)有偶,就在同一天,卓馭科技也發(fā)布了其面向移動(dòng)物理AI的原生多模態(tài)基礎(chǔ)模型。
一時(shí)間,基礎(chǔ)模型/基座模型這個(gè)在大語(yǔ)言模型、多模態(tài)生成等領(lǐng)域已被充分驗(yàn)證和廣泛宣傳的產(chǎn)業(yè)級(jí)范式,正式吹響了進(jìn)軍物理世界的號(hào)角,快步走向量產(chǎn)前線。一個(gè)清晰的信號(hào)正在釋放:打造一個(gè)強(qiáng)大的物理世界基礎(chǔ)模型,已成為躋身智能駕駛「真第一梯隊(duì)」的新門(mén)票,沒(méi)有基礎(chǔ)模型,就不要來(lái)湊第一梯隊(duì)的熱鬧了。
瞄準(zhǔn)物理AI的端側(cè)大腦
基礎(chǔ)模型的核心追求,在于鍛造一套面向物理世界的通用智能。這意味著,它不僅要能看懂紅綠燈和行人,更要能理解三維空間的幾何關(guān)系、物體運(yùn)動(dòng)的物理規(guī)律,并最終規(guī)劃出安全、舒適、高效的行動(dòng)軌跡。
簡(jiǎn)而言之,它要讓機(jī)器獲得在復(fù)雜、動(dòng)態(tài)的物理世界中自主移動(dòng)和操作所必需的空間直覺(jué)、物理常識(shí)與任務(wù)規(guī)劃能力。正因如此,它不再僅僅是“自動(dòng)駕駛專(zhuān)屬大腦”,而更像一個(gè)可以安裝在不同機(jī)器人身體上的“通用智慧內(nèi)核”。
在今年的GTC大會(huì)上,理想汽車(chē)自動(dòng)駕駛負(fù)責(zé)人詹錕就展示了這樣的一幕:同一個(gè)MindVLA-o1模型,不僅能熟練地駕駛車(chē)輛,在切換接口后,也能流暢地驅(qū)動(dòng)機(jī)器人完成操作任務(wù)。這一演示清晰地表明,基礎(chǔ)模型在設(shè)計(jì)之初,其視野就已超越了單一車(chē)輛的框架,內(nèi)嵌了對(duì)不同本體結(jié)構(gòu)、不同應(yīng)用場(chǎng)景的深刻理解與適應(yīng)潛力。
![]()
圖片來(lái)源:理想汽車(chē)
那么,基礎(chǔ)模型的核心特點(diǎn)到底是什么呢?我們可以從去年行業(yè)內(nèi)那場(chǎng)沸沸揚(yáng)揚(yáng)的VLA與世界模型之爭(zhēng)談起。當(dāng)時(shí)吵得多難聽(tīng)我們就不再?gòu)?fù)述了,不過(guò),那場(chǎng)有傷和氣的爭(zhēng)論到底在爭(zhēng)什么呢?這里既有技術(shù)路線的分歧,也包括對(duì)智能本質(zhì)的不同理解。
書(shū)說(shuō)簡(jiǎn)短。傳統(tǒng)VLA如同一位“語(yǔ)言大師”,依托大語(yǔ)言模型,擅長(zhǎng)將視覺(jué)信息轉(zhuǎn)化為文本進(jìn)行語(yǔ)義推理,能理解路牌、指令乃至手勢(shì)。但三維世界到一維語(yǔ)言的“翻譯”過(guò)程,難免丟失精確的空間細(xì)節(jié),它知道有行人,卻難以判斷那決定生死的幾十厘米。世界模型則更像一位“空間建筑師”,旨在內(nèi)部構(gòu)建動(dòng)態(tài)世界,直接理解物體的三維形狀、距離、速度與相互作用規(guī)律,能進(jìn)行更精細(xì)的環(huán)境感知與軌跡預(yù)測(cè)。但其表征往往是隱式的,在面對(duì)“潮汐車(chē)道”、“禮讓行人”等復(fù)雜社會(huì)規(guī)則時(shí),理解的靈活性不如VLA。
![]()
圖片來(lái)源:元戎啟行
基礎(chǔ)模型的核心特點(diǎn),正是彌合了VLA與世界模型之間的鴻溝,將語(yǔ)言智能的博聞強(qiáng)識(shí)與空間智能的精準(zhǔn)直覺(jué),統(tǒng)一到了同一個(gè)“智慧內(nèi)核”之中。它意味著,基礎(chǔ)模型必須同時(shí)學(xué)會(huì)用語(yǔ)言理解“潮汐車(chē)道”的復(fù)雜規(guī)則,也用空間直覺(jué)判斷“右前方三輪車(chē)切入”的精確軌跡與風(fēng)險(xiǎn)。而這種融合后的統(tǒng)一智能,恰恰是任何想要在物理世界中安全、靈活移動(dòng)的智能體(無(wú)論是自動(dòng)駕駛汽車(chē)、人形機(jī)器人還是未來(lái)的飛行汽車(chē))必須具備的基礎(chǔ)能力。它就像為機(jī)器安裝了一套通用的“感官與常識(shí)”系統(tǒng),使其能適應(yīng)不同本體,應(yīng)對(duì)萬(wàn)千場(chǎng)景。
基礎(chǔ)模型兼具VLA和世界模型能力且適應(yīng)不同本體的特點(diǎn),在小鵬汽車(chē)VLA的研發(fā)脈絡(luò)與公開(kāi)表述中,體現(xiàn)得尤為清晰。在2025年11月的發(fā)布會(huì)上,小鵬明確將其第二代VLA表述為“是VLA,也是世界模型”。這句看似矛盾的表述,恰恰表明,小鵬二代VLA已經(jīng)將語(yǔ)言智能的推理能力與空間智能的物理理解原生地糅合在了一起。
![]()
圖片來(lái)源:小鵬汽車(chē)
小鵬之所以沒(méi)有將其二代VLA高調(diào)地冠以“基礎(chǔ)模型/基座模型”這么吊炸天的名字,是因?yàn)樵谒脑捳Z(yǔ)體系里,真正的基座模型另有其人。那是一個(gè)位于云端的、更龐大的“母體”。
早在2025年4月,小鵬便推出了一個(gè)720億參數(shù)的“世界基座模型”,這個(gè)面向物理AI的通用“大腦”,作為一個(gè)知識(shí)淵博的“教師模型”,在云端消化海量的多模態(tài)數(shù)據(jù),理解通用的物理規(guī)律與社會(huì)規(guī)則。然后,通過(guò)針對(duì)性的微調(diào)與蒸餾,這個(gè)“教師模型”可以將自身的能力“灌注”到不同的端側(cè)模型之中。于是,車(chē)端那個(gè)能理解、能推演、能駕駛的VLA司機(jī)模型誕生了;未來(lái),一個(gè)能操控機(jī)器人手臂完成精細(xì)作業(yè)的模型,同樣可以由此孕育而來(lái)。
![]()
圖片來(lái)源:小鵬汽車(chē)
作為自動(dòng)駕駛賽道的新晉玩家,小米同樣在基礎(chǔ)模型的星辰大海中展開(kāi)了自己的探索。2025年11月,小米發(fā)布了“業(yè)界首個(gè)成功打通自動(dòng)駕駛與具身智能的跨域具身基座模型”MiMo-Embodied,在隨后推出的新一代SU 7上,首次搭載了“融入Xiaomi MiMo-Embodied具身智能基座模型”的XLA方案。
然而,仔細(xì)審視其技術(shù)報(bào)告會(huì)發(fā)現(xiàn),MiMo-Embodied采用的是“視覺(jué)編碼-投影對(duì)齊-語(yǔ)言推理”三段式架構(gòu),其核心架構(gòu)更加接近于傳統(tǒng)VLA,與前文所述的將語(yǔ)言智能與空間智能原生融合的統(tǒng)一表征思路仍存在清晰可辨的差異。這或許正揭示了當(dāng)前行業(yè)的一個(gè)現(xiàn)狀:“基礎(chǔ)模型”作為一個(gè)極具號(hào)召力的概念已被廣泛采納,但其具體的技術(shù)內(nèi)涵、架構(gòu)標(biāo)準(zhǔn)與能力邊界,仍在演進(jìn)之中。
![]()
圖片來(lái)源:小米
描繪一個(gè)統(tǒng)一的物理AI基礎(chǔ)模型的美好藍(lán)圖是一回事,真正將它鍛造出來(lái)并投入實(shí)戰(zhàn),則是另一回事。這道由基礎(chǔ)模型劃出的新戰(zhàn)線,其壁壘之高,遠(yuǎn)超單一算法的創(chuàng)新。它考驗(yàn)的是一家企業(yè)從模型、數(shù)據(jù)到軟硬協(xié)同部署的全棧體系化能力,將競(jìng)爭(zhēng)直接拉入了深水區(qū)。
難以逾越的三重鴻溝
一個(gè)強(qiáng)大的、面向物理AI的基礎(chǔ)模型,正在成為一道高聳的門(mén)檻。這并非單一技術(shù)的領(lǐng)先,而是體系化能力的代差,具體體現(xiàn)在三個(gè)相互關(guān)聯(lián)、卻又各自獨(dú)立的關(guān)鍵維度上。
第一重鴻溝,是模型規(guī)模與工程錘煉的能力代差。能夠理解并駕馭物理世界的基礎(chǔ)模型,參數(shù)量動(dòng)輒百億,這已非傳統(tǒng)用于感知或預(yù)測(cè)的專(zhuān)用小模型可比。而這種駕馭超大模型的能力,不是一蹴而就的。正所謂不積跬步無(wú)以至千里,它必須在之前完成徹底的、一段式端到端的架構(gòu)改造,并在視覺(jué)語(yǔ)言模型、世界模型等前沿方向上積累足夠的探索與實(shí)踐之后,才能夠逐步打磨出來(lái)。
端到端本身就是一個(gè)將感知、預(yù)測(cè)、規(guī)劃等任務(wù)不斷神經(jīng)網(wǎng)絡(luò)化,從而將模型參數(shù)越做越大的過(guò)程。從分段式端到端到一段式端到端,車(chē)企的算法團(tuán)隊(duì)正是在這個(gè)過(guò)程中,積累了處理海量數(shù)據(jù)、調(diào)試復(fù)雜網(wǎng)絡(luò)架構(gòu)、進(jìn)行超大規(guī)模分布式訓(xùn)練的核心工程能力。這種能力的積累是循序漸進(jìn)的,而模型參數(shù)規(guī)模的提升,正是這種能力積累到一定階段后的自然結(jié)果。
例如,理想汽車(chē)在2025年量產(chǎn)的VLA司機(jī)大模型參數(shù)約為40億級(jí)別,而其在GTC 2026發(fā)布的下一代MindVLA-o1,則明確指向百億參數(shù)以上的規(guī)模。小鵬汽車(chē)在2026年的技術(shù)規(guī)劃中也立下目標(biāo),計(jì)劃將其第二代VLA模型的參數(shù)量推向兩百億級(jí)別。沒(méi)有經(jīng)歷過(guò)這個(gè)漫長(zhǎng)“煉丹”過(guò)程的團(tuán)隊(duì),很難憑空掌握駕馭百億參數(shù)巨獸的秘訣,這構(gòu)成了第一道堅(jiān)實(shí)的壁壘。
![]()
圖片來(lái)源:小鵬汽車(chē)
第二重鴻溝,是數(shù)據(jù)閉環(huán)的深度與“煉金”效率。很多車(chē)企宣稱(chēng)不缺數(shù)據(jù),但自動(dòng)駕駛模型迭代的精髓在于針對(duì)性補(bǔ)齊短板,關(guān)鍵在于能否建立一套高效的機(jī)制,從充滿了無(wú)聊語(yǔ)料的數(shù)據(jù)海洋中篩選出真正的“黃金”。
這就像人的學(xué)習(xí)區(qū)分為舒適區(qū)和拉伸區(qū)一樣,大量簡(jiǎn)單、重復(fù)的行車(chē)數(shù)據(jù)是舒適區(qū),對(duì)能力提升貢獻(xiàn)有限,而那些復(fù)雜的交互、罕見(jiàn)的長(zhǎng)尾場(chǎng)景,才是讓模型能力得到拉伸的關(guān)鍵。數(shù)據(jù)挖掘的核心意義,就在于高效、精準(zhǔn)地找到這些拉伸區(qū)數(shù)據(jù)。而這,特別考驗(yàn)車(chē)企的數(shù)據(jù)閉環(huán)體系。
第三重鴻溝,是軟硬件協(xié)同的終極考驗(yàn)。 一個(gè)百億參數(shù)的基座模型,最終要部署到車(chē)端芯片上,在幾十毫秒內(nèi)完成推理,同時(shí)滿足功能安全、實(shí)時(shí)性和功耗的嚴(yán)苛要求,這是一場(chǎng)極致的工程挑戰(zhàn)。
![]()
圖片來(lái)源:理想汽車(chē)
它要求從芯片架構(gòu)、編譯器、運(yùn)行時(shí)到算法模型進(jìn)行深度協(xié)同設(shè)計(jì)。理想汽車(chē)在發(fā)布MindVLA-o1時(shí)強(qiáng)調(diào)的軟硬件協(xié)同設(shè)計(jì)定律,小鵬汽車(chē)與北京大學(xué)前沿計(jì)算研究中心聯(lián)合研究如何對(duì)視覺(jué)Token進(jìn)行高效動(dòng)態(tài)剪枝,以極致優(yōu)化車(chē)端推理效率,都是這個(gè)層面的攻堅(jiān)。
這不僅僅是算法層面的優(yōu)化,更是對(duì)車(chē)載計(jì)算平臺(tái)從底層硬件到頂層應(yīng)用的全棧掌控能力。采用標(biāo)準(zhǔn)化、黑盒化供應(yīng)鏈方案的玩家,在這一環(huán)上幾乎失去了參與頂級(jí)競(jìng)賽的資格,因?yàn)樾阅芘c效率的極限,往往就誕生在軟硬件縫隙被徹底抹平的地方。
李想曾將自動(dòng)駕駛的演進(jìn)生動(dòng)地比作生物智能的躍遷:依賴規(guī)則算法的昆蟲(chóng)智能、基于端到端方案的哺乳動(dòng)物智能、基于VLA大模型的人類(lèi)智能。如今,行業(yè)頭部玩家集體瞄準(zhǔn)的物理AI基礎(chǔ)模型,其野心正是實(shí)現(xiàn)哺乳動(dòng)物智能到人類(lèi)智能的躍遷。
不過(guò),這最后的躍遷遠(yuǎn)比想象中艱難,它并非單一算法的突破,而是由模型規(guī)模、數(shù)據(jù)閉環(huán)與軟硬協(xié)同的三重高墻,共同構(gòu)成的一項(xiàng)龐大的系統(tǒng)工程。這道全新的門(mén)檻,正將智能駕駛的競(jìng)爭(zhēng),從功能體驗(yàn)的比拼,拉入一場(chǎng)考驗(yàn)全棧能力的深度較量。
當(dāng)理想汽車(chē)用MindVLA-o1演示多模態(tài)思考,當(dāng)小鵬汽車(chē)宣布其第二代VLA在內(nèi)部測(cè)試中實(shí)現(xiàn)“領(lǐng)先行業(yè)一流選手5倍”的體驗(yàn)領(lǐng)先時(shí),他們展示的,正是基礎(chǔ)模型在系統(tǒng)體驗(yàn)上必然帶來(lái)的大踏步跨越。
這種跨越代表著競(jìng)爭(zhēng)的邏輯已經(jīng)改變,那些仍在依賴舊范式、停留在“猴子開(kāi)車(chē)”階段的玩家,面臨的不僅是體驗(yàn)的落差,更是技術(shù)代際的斷層。留給它們的時(shí)間真的不多了。
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.