網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

從“猴子開(kāi)車(chē)”到“人類(lèi)智能”：基礎(chǔ)模型定義智駕新賽點(diǎn)

2026-04-02 13:22:39　來(lái)源: autocarweekly

上海舉報(bào)

分享至

文｜三少爺

2026年3月17日，英偉達(dá)GTC大會(huì)的聚光燈下，理想汽車(chē)基座模型負(fù)責(zé)人詹錕向全球展示了下一代自動(dòng)駕駛基礎(chǔ)模型MindVLA-o1。

3月18日，“智己超級(jí)智能體IM Ultra Agent”發(fā)布會(huì)上，智己汽車(chē)與Momenta聯(lián)合宣布推出IM AD ZETA，稱(chēng)其為“直接面向L4級(jí)自動(dòng)駕駛的基座模型”。無(wú)獨(dú)有偶，就在同一天，卓馭科技也發(fā)布了其面向移動(dòng)物理AI的原生多模態(tài)基礎(chǔ)模型。

一時(shí)間，基礎(chǔ)模型/基座模型這個(gè)在大語(yǔ)言模型、多模態(tài)生成等領(lǐng)域已被充分驗(yàn)證和廣泛宣傳的產(chǎn)業(yè)級(jí)范式，正式吹響了進(jìn)軍物理世界的號(hào)角，快步走向量產(chǎn)前線。一個(gè)清晰的信號(hào)正在釋放：打造一個(gè)強(qiáng)大的物理世界基礎(chǔ)模型，已成為躋身智能駕駛「真第一梯隊(duì)」的新門(mén)票，沒(méi)有基礎(chǔ)模型，就不要來(lái)湊第一梯隊(duì)的熱鬧了。

瞄準(zhǔn)物理AI的端側(cè)大腦

基礎(chǔ)模型的核心追求，在于鍛造一套面向物理世界的通用智能。這意味著，它不僅要能看懂紅綠燈和行人，更要能理解三維空間的幾何關(guān)系、物體運(yùn)動(dòng)的物理規(guī)律，并最終規(guī)劃出安全、舒適、高效的行動(dòng)軌跡。

簡(jiǎn)而言之，它要讓機(jī)器獲得在復(fù)雜、動(dòng)態(tài)的物理世界中自主移動(dòng)和操作所必需的空間直覺(jué)、物理常識(shí)與任務(wù)規(guī)劃能力。正因如此，它不再僅僅是“自動(dòng)駕駛專(zhuān)屬大腦”，而更像一個(gè)可以安裝在不同機(jī)器人身體上的“通用智慧內(nèi)核”。

在今年的GTC大會(huì)上，理想汽車(chē)自動(dòng)駕駛負(fù)責(zé)人詹錕就展示了這樣的一幕：同一個(gè)MindVLA-o1模型，不僅能熟練地駕駛車(chē)輛，在切換接口后，也能流暢地驅(qū)動(dòng)機(jī)器人完成操作任務(wù)。這一演示清晰地表明，基礎(chǔ)模型在設(shè)計(jì)之初，其視野就已超越了單一車(chē)輛的框架，內(nèi)嵌了對(duì)不同本體結(jié)構(gòu)、不同應(yīng)用場(chǎng)景的深刻理解與適應(yīng)潛力。

圖片來(lái)源：理想汽車(chē)

那么，基礎(chǔ)模型的核心特點(diǎn)到底是什么呢？我們可以從去年行業(yè)內(nèi)那場(chǎng)沸沸揚(yáng)揚(yáng)的VLA與世界模型之爭(zhēng)談起。當(dāng)時(shí)吵得多難聽(tīng)我們就不再?gòu)?fù)述了，不過(guò)，那場(chǎng)有傷和氣的爭(zhēng)論到底在爭(zhēng)什么呢？這里既有技術(shù)路線的分歧，也包括對(duì)智能本質(zhì)的不同理解。

書(shū)說(shuō)簡(jiǎn)短。傳統(tǒng)VLA如同一位“語(yǔ)言大師”，依托大語(yǔ)言模型，擅長(zhǎng)將視覺(jué)信息轉(zhuǎn)化為文本進(jìn)行語(yǔ)義推理，能理解路牌、指令乃至手勢(shì)。但三維世界到一維語(yǔ)言的“翻譯”過(guò)程，難免丟失精確的空間細(xì)節(jié)，它知道有行人，卻難以判斷那決定生死的幾十厘米。世界模型則更像一位“空間建筑師”，旨在內(nèi)部構(gòu)建動(dòng)態(tài)世界，直接理解物體的三維形狀、距離、速度與相互作用規(guī)律，能進(jìn)行更精細(xì)的環(huán)境感知與軌跡預(yù)測(cè)。但其表征往往是隱式的，在面對(duì)“潮汐車(chē)道”、“禮讓行人”等復(fù)雜社會(huì)規(guī)則時(shí)，理解的靈活性不如VLA。

圖片來(lái)源：元戎啟行

基礎(chǔ)模型的核心特點(diǎn)，正是彌合了VLA與世界模型之間的鴻溝，將語(yǔ)言智能的博聞強(qiáng)識(shí)與空間智能的精準(zhǔn)直覺(jué)，統(tǒng)一到了同一個(gè)“智慧內(nèi)核”之中。它意味著，基礎(chǔ)模型必須同時(shí)學(xué)會(huì)用語(yǔ)言理解“潮汐車(chē)道”的復(fù)雜規(guī)則，也用空間直覺(jué)判斷“右前方三輪車(chē)切入”的精確軌跡與風(fēng)險(xiǎn)。而這種融合后的統(tǒng)一智能，恰恰是任何想要在物理世界中安全、靈活移動(dòng)的智能體（無(wú)論是自動(dòng)駕駛汽車(chē)、人形機(jī)器人還是未來(lái)的飛行汽車(chē)）必須具備的基礎(chǔ)能力。它就像為機(jī)器安裝了一套通用的“感官與常識(shí)”系統(tǒng)，使其能適應(yīng)不同本體，應(yīng)對(duì)萬(wàn)千場(chǎng)景。

基礎(chǔ)模型兼具VLA和世界模型能力且適應(yīng)不同本體的特點(diǎn)，在小鵬汽車(chē)VLA的研發(fā)脈絡(luò)與公開(kāi)表述中，體現(xiàn)得尤為清晰。在2025年11月的發(fā)布會(huì)上，小鵬明確將其第二代VLA表述為“是VLA，也是世界模型”。這句看似矛盾的表述，恰恰表明，小鵬二代VLA已經(jīng)將語(yǔ)言智能的推理能力與空間智能的物理理解原生地糅合在了一起。

圖片來(lái)源：小鵬汽車(chē)

小鵬之所以沒(méi)有將其二代VLA高調(diào)地冠以“基礎(chǔ)模型/基座模型”這么吊炸天的名字，是因?yàn)樵谒脑捳Z(yǔ)體系里，真正的基座模型另有其人。那是一個(gè)位于云端的、更龐大的“母體”。

早在2025年4月，小鵬便推出了一個(gè)720億參數(shù)的“世界基座模型”，這個(gè)面向物理AI的通用“大腦”，作為一個(gè)知識(shí)淵博的“教師模型”，在云端消化海量的多模態(tài)數(shù)據(jù)，理解通用的物理規(guī)律與社會(huì)規(guī)則。然后，通過(guò)針對(duì)性的微調(diào)與蒸餾，這個(gè)“教師模型”可以將自身的能力“灌注”到不同的端側(cè)模型之中。于是，車(chē)端那個(gè)能理解、能推演、能駕駛的VLA司機(jī)模型誕生了；未來(lái)，一個(gè)能操控機(jī)器人手臂完成精細(xì)作業(yè)的模型，同樣可以由此孕育而來(lái)。

圖片來(lái)源：小鵬汽車(chē)

作為自動(dòng)駕駛賽道的新晉玩家，小米同樣在基礎(chǔ)模型的星辰大海中展開(kāi)了自己的探索。2025年11月，小米發(fā)布了“業(yè)界首個(gè)成功打通自動(dòng)駕駛與具身智能的跨域具身基座模型”MiMo-Embodied，在隨后推出的新一代SU 7上，首次搭載了“融入Xiaomi MiMo-Embodied具身智能基座模型”的XLA方案。

然而，仔細(xì)審視其技術(shù)報(bào)告會(huì)發(fā)現(xiàn)，MiMo-Embodied采用的是“視覺(jué)編碼-投影對(duì)齊-語(yǔ)言推理”三段式架構(gòu)，其核心架構(gòu)更加接近于傳統(tǒng)VLA，與前文所述的將語(yǔ)言智能與空間智能原生融合的統(tǒng)一表征思路仍存在清晰可辨的差異。這或許正揭示了當(dāng)前行業(yè)的一個(gè)現(xiàn)狀：“基礎(chǔ)模型”作為一個(gè)極具號(hào)召力的概念已被廣泛采納，但其具體的技術(shù)內(nèi)涵、架構(gòu)標(biāo)準(zhǔn)與能力邊界，仍在演進(jìn)之中。

圖片來(lái)源：小米

描繪一個(gè)統(tǒng)一的物理AI基礎(chǔ)模型的美好藍(lán)圖是一回事，真正將它鍛造出來(lái)并投入實(shí)戰(zhàn)，則是另一回事。這道由基礎(chǔ)模型劃出的新戰(zhàn)線，其壁壘之高，遠(yuǎn)超單一算法的創(chuàng)新。它考驗(yàn)的是一家企業(yè)從模型、數(shù)據(jù)到軟硬協(xié)同部署的全棧體系化能力，將競(jìng)爭(zhēng)直接拉入了深水區(qū)。

難以逾越的三重鴻溝

一個(gè)強(qiáng)大的、面向物理AI的基礎(chǔ)模型，正在成為一道高聳的門(mén)檻。這并非單一技術(shù)的領(lǐng)先，而是體系化能力的代差，具體體現(xiàn)在三個(gè)相互關(guān)聯(lián)、卻又各自獨(dú)立的關(guān)鍵維度上。

第一重鴻溝，是模型規(guī)模與工程錘煉的能力代差。能夠理解并駕馭物理世界的基礎(chǔ)模型，參數(shù)量動(dòng)輒百億，這已非傳統(tǒng)用于感知或預(yù)測(cè)的專(zhuān)用小模型可比。而這種駕馭超大模型的能力，不是一蹴而就的。正所謂不積跬步無(wú)以至千里，它必須在之前完成徹底的、一段式端到端的架構(gòu)改造，并在視覺(jué)語(yǔ)言模型、世界模型等前沿方向上積累足夠的探索與實(shí)踐之后，才能夠逐步打磨出來(lái)。

端到端本身就是一個(gè)將感知、預(yù)測(cè)、規(guī)劃等任務(wù)不斷神經(jīng)網(wǎng)絡(luò)化，從而將模型參數(shù)越做越大的過(guò)程。從分段式端到端到一段式端到端，車(chē)企的算法團(tuán)隊(duì)正是在這個(gè)過(guò)程中，積累了處理海量數(shù)據(jù)、調(diào)試復(fù)雜網(wǎng)絡(luò)架構(gòu)、進(jìn)行超大規(guī)模分布式訓(xùn)練的核心工程能力。這種能力的積累是循序漸進(jìn)的，而模型參數(shù)規(guī)模的提升，正是這種能力積累到一定階段后的自然結(jié)果。

例如，理想汽車(chē)在2025年量產(chǎn)的VLA司機(jī)大模型參數(shù)約為40億級(jí)別，而其在GTC 2026發(fā)布的下一代MindVLA-o1，則明確指向百億參數(shù)以上的規(guī)模。小鵬汽車(chē)在2026年的技術(shù)規(guī)劃中也立下目標(biāo)，計(jì)劃將其第二代VLA模型的參數(shù)量推向兩百億級(jí)別。沒(méi)有經(jīng)歷過(guò)這個(gè)漫長(zhǎng)“煉丹”過(guò)程的團(tuán)隊(duì)，很難憑空掌握駕馭百億參數(shù)巨獸的秘訣，這構(gòu)成了第一道堅(jiān)實(shí)的壁壘。

圖片來(lái)源：小鵬汽車(chē)

第二重鴻溝，是數(shù)據(jù)閉環(huán)的深度與“煉金”效率。很多車(chē)企宣稱(chēng)不缺數(shù)據(jù)，但自動(dòng)駕駛模型迭代的精髓在于針對(duì)性補(bǔ)齊短板，關(guān)鍵在于能否建立一套高效的機(jī)制，從充滿了無(wú)聊語(yǔ)料的數(shù)據(jù)海洋中篩選出真正的“黃金”。

這就像人的學(xué)習(xí)區(qū)分為舒適區(qū)和拉伸區(qū)一樣，大量簡(jiǎn)單、重復(fù)的行車(chē)數(shù)據(jù)是舒適區(qū)，對(duì)能力提升貢獻(xiàn)有限，而那些復(fù)雜的交互、罕見(jiàn)的長(zhǎng)尾場(chǎng)景，才是讓模型能力得到拉伸的關(guān)鍵。數(shù)據(jù)挖掘的核心意義，就在于高效、精準(zhǔn)地找到這些拉伸區(qū)數(shù)據(jù)。而這，特別考驗(yàn)車(chē)企的數(shù)據(jù)閉環(huán)體系。

第三重鴻溝，是軟硬件協(xié)同的終極考驗(yàn)。一個(gè)百億參數(shù)的基座模型，最終要部署到車(chē)端芯片上，在幾十毫秒內(nèi)完成推理，同時(shí)滿足功能安全、實(shí)時(shí)性和功耗的嚴(yán)苛要求，這是一場(chǎng)極致的工程挑戰(zhàn)。

圖片來(lái)源：理想汽車(chē)

它要求從芯片架構(gòu)、編譯器、運(yùn)行時(shí)到算法模型進(jìn)行深度協(xié)同設(shè)計(jì)。理想汽車(chē)在發(fā)布MindVLA-o1時(shí)強(qiáng)調(diào)的軟硬件協(xié)同設(shè)計(jì)定律，小鵬汽車(chē)與北京大學(xué)前沿計(jì)算研究中心聯(lián)合研究如何對(duì)視覺(jué)Token進(jìn)行高效動(dòng)態(tài)剪枝，以極致優(yōu)化車(chē)端推理效率，都是這個(gè)層面的攻堅(jiān)。

這不僅僅是算法層面的優(yōu)化，更是對(duì)車(chē)載計(jì)算平臺(tái)從底層硬件到頂層應(yīng)用的全棧掌控能力。采用標(biāo)準(zhǔn)化、黑盒化供應(yīng)鏈方案的玩家，在這一環(huán)上幾乎失去了參與頂級(jí)競(jìng)賽的資格，因?yàn)樾阅芘c效率的極限，往往就誕生在軟硬件縫隙被徹底抹平的地方。

李想曾將自動(dòng)駕駛的演進(jìn)生動(dòng)地比作生物智能的躍遷：依賴規(guī)則算法的昆蟲(chóng)智能、基于端到端方案的哺乳動(dòng)物智能、基于VLA大模型的人類(lèi)智能。如今，行業(yè)頭部玩家集體瞄準(zhǔn)的物理AI基礎(chǔ)模型，其野心正是實(shí)現(xiàn)哺乳動(dòng)物智能到人類(lèi)智能的躍遷。

不過(guò)，這最后的躍遷遠(yuǎn)比想象中艱難，它并非單一算法的突破，而是由模型規(guī)模、數(shù)據(jù)閉環(huán)與軟硬協(xié)同的三重高墻，共同構(gòu)成的一項(xiàng)龐大的系統(tǒng)工程。這道全新的門(mén)檻，正將智能駕駛的競(jìng)爭(zhēng)，從功能體驗(yàn)的比拼，拉入一場(chǎng)考驗(yàn)全棧能力的深度較量。

當(dāng)理想汽車(chē)用MindVLA-o1演示多模態(tài)思考，當(dāng)小鵬汽車(chē)宣布其第二代VLA在內(nèi)部測(cè)試中實(shí)現(xiàn)“領(lǐng)先行業(yè)一流選手5倍”的體驗(yàn)領(lǐng)先時(shí)，他們展示的，正是基礎(chǔ)模型在系統(tǒng)體驗(yàn)上必然帶來(lái)的大踏步跨越。

這種跨越代表著競(jìng)爭(zhēng)的邏輯已經(jīng)改變，那些仍在依賴舊范式、停留在“猴子開(kāi)車(chē)”階段的玩家，面臨的不僅是體驗(yàn)的落差，更是技術(shù)代際的斷層。留給它們的時(shí)間真的不多了。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.