无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

為什么很多車企都青睞VLA模型?

0
分享至

[首發(fā)于智駕最前沿微信公眾號(hào)]就在最近,小鵬發(fā)布了第二代視覺—語(yǔ)言—?jiǎng)幼鳎╒LA)模型。其實(shí)隨著自動(dòng)駕駛技術(shù)的發(fā)展,行業(yè)正處于從手工規(guī)則體系向物理世界大模型的深層跨越。早期的自動(dòng)駕駛方案高度依賴于模塊化的架構(gòu)設(shè)計(jì),將感知、預(yù)測(cè)與規(guī)劃拆分為獨(dú)立的環(huán)節(jié)。

但隨著行駛場(chǎng)景復(fù)雜度的增加,模塊間信息流失和規(guī)則局限導(dǎo)致的瓶頸日益凸顯。其實(shí)不僅僅是小鵬,理想、吉利等車企也都將VLA模型用于量產(chǎn)車,為何那么多車企都依賴VLA模型?

相較于模塊化,VLA有何優(yōu)勢(shì)?

傳統(tǒng)的自動(dòng)駕駛架構(gòu)采用級(jí)聯(lián)設(shè)計(jì)。傳感器采集數(shù)據(jù)后,由感知模塊進(jìn)行目標(biāo)檢測(cè)與語(yǔ)義分割,輸出物體標(biāo)簽;隨后,預(yù)測(cè)模塊計(jì)算周圍參與者的可能軌跡;規(guī)劃模塊再根據(jù)預(yù)設(shè)的數(shù)學(xué)模型生成車輛的行駛路線。

在這種模式下,任何前端感知的微小誤差都會(huì)在后續(xù)環(huán)節(jié)中被放大,且由于各模塊之間采用的是預(yù)定義的手工接口,系統(tǒng)很難捕捉到環(huán)境中微妙的非結(jié)構(gòu)化信息。



模塊化架構(gòu)示意圖,圖片源自:網(wǎng)絡(luò)

VLA模型的引入徹底改變了這一流程。視覺—語(yǔ)言—?jiǎng)幼髂P停╒ision-Language-Action,VLA)本質(zhì)上是一種端到端的智能系統(tǒng),它通過(guò)統(tǒng)一的神經(jīng)網(wǎng)絡(luò)將多模態(tài)感知與高層邏輯推理、底層動(dòng)作執(zhí)行融為一體。

其核心價(jià)值是將原本相互獨(dú)立的感知模塊(看)、邏輯模塊(想)與執(zhí)行模塊(做)在同一個(gè)語(yǔ)義空間內(nèi)完成了對(duì)齊。與傳統(tǒng)的自動(dòng)駕駛系統(tǒng)相比,VLA不僅能夠識(shí)別環(huán)境中的像素點(diǎn)或幾何結(jié)構(gòu),更能理解這些信號(hào)背后的語(yǔ)義邏輯。

VLA模型由視覺編碼器、大語(yǔ)言模型(LLM)骨干網(wǎng)絡(luò)以及動(dòng)作解碼器三個(gè)核心組件構(gòu)成。視覺編碼器將攝像頭采集的多視角圖像轉(zhuǎn)化為高維的特征向量,這些向量包含了環(huán)境的空間布局與物體特征;LLM骨干網(wǎng)絡(luò)則作為決策中心,利用預(yù)訓(xùn)練過(guò)程中積累的海量世界知識(shí)對(duì)視覺特征進(jìn)行邏輯加工;動(dòng)作解碼器則將這些抽象的推理結(jié)果轉(zhuǎn)化為如轉(zhuǎn)向角度、加減速數(shù)值等具體的物理動(dòng)作。



VLA架構(gòu)示意圖,圖片源自:網(wǎng)絡(luò)

這種一體化的映射方式使得系統(tǒng)能夠以一種更接近人類認(rèn)知的方式來(lái)處理駕駛?cè)蝿?wù)。在人類駕駛過(guò)程中,大腦并不會(huì)先在意識(shí)里標(biāo)出每一個(gè)行人的精確坐標(biāo)再進(jìn)行計(jì)算,而是基于對(duì)場(chǎng)景的整體理解(如“這個(gè)行人可能要過(guò)馬路”)直接產(chǎn)生避讓動(dòng)作。VLA模型通過(guò)共享的Transformer架構(gòu),對(duì)語(yǔ)言、視覺和動(dòng)作模態(tài)進(jìn)行協(xié)同編碼,構(gòu)建了統(tǒng)一的語(yǔ)義空間,實(shí)現(xiàn)了從感知理解到動(dòng)作決策的無(wú)縫銜接。

語(yǔ)言轉(zhuǎn)譯重要嗎?

看到諸多文章介紹小鵬第二代VLA模型時(shí),都提及其去掉了“語(yǔ)言轉(zhuǎn)譯”這一環(huán)節(jié),那語(yǔ)言轉(zhuǎn)譯到底有什么作用?對(duì)于自動(dòng)駕駛來(lái)說(shuō)重要嗎?

所謂語(yǔ)言轉(zhuǎn)譯,是指將視覺信號(hào)“翻譯”成自然語(yǔ)言描述(例如“前方路口有交警在指揮”),然后再根據(jù)這段文字描述推導(dǎo)出動(dòng)作指令。這種設(shè)計(jì)在早期是為了借用大語(yǔ)言模型的邏輯推理能力,但隨著技術(shù)向量產(chǎn)端推進(jìn),其弊端也愈發(fā)明顯。

自然語(yǔ)言雖然適合表達(dá)抽象邏輯,但在描述極其復(fù)雜的三維物理世界時(shí),其精度可能不足。將高維的、連續(xù)的視覺流壓縮成離散的文字標(biāo)簽,不可避免地會(huì)丟失大量的空間細(xì)節(jié)和運(yùn)動(dòng)趨勢(shì)。

此外,在VLA的訓(xùn)練中,研發(fā)人員需要為海量的視頻數(shù)據(jù)配上詳盡的人工旁白,告訴模型畫面中發(fā)生了什么,以及為什么要做這個(gè)動(dòng)作。這種“保姆式”的監(jiān)督學(xué)習(xí)不僅成本高昂,且標(biāo)注的速度遠(yuǎn)遠(yuǎn)無(wú)法滿足模型進(jìn)化的需求。



圖片源自:網(wǎng)絡(luò)

小鵬第二代VLA模型之所以拆掉語(yǔ)言這根“拐杖”,轉(zhuǎn)向了更極致的自監(jiān)督學(xué)習(xí)模式,是因?yàn)樵谶@種體系下,模型可以直接從原始視頻和真實(shí)的駕駛軌跡中學(xué)習(xí),只要有視頻輸入和對(duì)應(yīng)的物理動(dòng)作輸出,模型就能自主學(xué)習(xí)其中的因果關(guān)系,無(wú)需人工中間介入。

去語(yǔ)言化還可以大幅提升系統(tǒng)的實(shí)時(shí)性。在自動(dòng)駕駛中,毫秒級(jí)的延遲決定了安全性。VLA模型因?yàn)榇嬖诙嗖酵评恚ㄒ曈X->語(yǔ)言->動(dòng)作),計(jì)算鏈路長(zhǎng),有時(shí)難以滿足毫秒級(jí)的響應(yīng)要求。若將視覺信號(hào)直接映射為動(dòng)作,則可以消除中間解碼和生成的耗時(shí)。

為了實(shí)現(xiàn)這一目標(biāo),動(dòng)作的表征方式也將發(fā)生變化,將連續(xù)的軌跡預(yù)測(cè)轉(zhuǎn)化為離散的動(dòng)作Token,并整合進(jìn)大模型的詞表,是目前可行的路徑之一。通過(guò)這種方式,動(dòng)作生成就像語(yǔ)言預(yù)測(cè)下一個(gè)單詞一樣,能夠充分復(fù)用大模型已有的序列建模能力。

這種從“語(yǔ)言理解”向“物理直覺”的轉(zhuǎn)變,實(shí)際上是自動(dòng)駕駛向更高級(jí)智能形式的演化。它可以讓模型變成一個(gè)擁有多年駕齡、通過(guò)肌肉記憶進(jìn)行決策的老司機(jī)。

VLA的優(yōu)勢(shì)在哪里?

自動(dòng)駕駛的技術(shù)發(fā)展,已經(jīng)讓自動(dòng)駕駛系統(tǒng)在高速路或城市路段有了較好的表現(xiàn),現(xiàn)在最難處理的其實(shí)是“長(zhǎng)尾場(chǎng)景”。所謂長(zhǎng)尾,是指那些在正常行駛中極少出現(xiàn)、難以通過(guò)窮舉規(guī)則覆蓋的極端情況,像是馬路上突然出現(xiàn)的異形掉落物、復(fù)雜的施工路障、交警不規(guī)范的手勢(shì)指揮等都屬于長(zhǎng)尾場(chǎng)景。

在傳統(tǒng)架構(gòu)中,遇到此類未見過(guò)的場(chǎng)景,感知模塊可能會(huì)報(bào)錯(cuò),或者規(guī)控模塊會(huì)因?yàn)闆](méi)有匹配的規(guī)則而采取僵硬的緊急制動(dòng)。

VLA模型的優(yōu)勢(shì)在于它將“理解”引入駕駛決策。基于大規(guī)模預(yù)訓(xùn)練的大模型擁有強(qiáng)大的知識(shí)庫(kù)和情景理解能力。舉個(gè)例子,即便模型沒(méi)有在訓(xùn)練集中見過(guò)某種特定形狀的施工圍欄,但它通過(guò)在互聯(lián)網(wǎng)海量數(shù)據(jù)中學(xué)習(xí)到的通識(shí)知識(shí),能夠理解“紅白相間的物體通常代表障礙物”或者“身穿反光背心的人通常是工作人員”。



圖片源自:網(wǎng)絡(luò)

這種基于知識(shí)的決策模式,使得VLA能夠處理復(fù)雜的交互邏輯。在潮汐車道或無(wú)圖小路等場(chǎng)景下,VLA可以分析周圍車輛的意圖和環(huán)境的細(xì)微變化,做出更擬人化的規(guī)劃。它不會(huì)僅是避讓障礙物,而是能夠理解“此時(shí)前車減速可能是為了禮讓行人”,從而提前做出預(yù)判,避免了傳統(tǒng)系統(tǒng)常見的頻繁急剎或頓挫感。

VLA模型還具備“雙系統(tǒng)思維”的能力。它既能通過(guò)快速路徑實(shí)現(xiàn)類似于本能的駕駛反應(yīng)(快思考),也能在遇到極端復(fù)雜情況時(shí),調(diào)動(dòng)增強(qiáng)的推理邏輯進(jìn)行深度分析(慢思考)。這種靈活性確保了系統(tǒng)在保證效率的同時(shí),擁有處理高難度決策的上限。

為了解決長(zhǎng)尾數(shù)據(jù)的稀缺性,有些技術(shù)方案還引入了“世界模型”(World Models)。世界模型可以被看作是自動(dòng)駕駛系統(tǒng)的“模擬大腦”,它能夠預(yù)測(cè)動(dòng)作對(duì)未來(lái)的影響,并仿真出大量極端的、在現(xiàn)實(shí)中難以收集的危險(xiǎn)場(chǎng)景進(jìn)行自我訓(xùn)練。VLA與世界模型的結(jié)合,可以讓自動(dòng)駕駛從“在現(xiàn)實(shí)中試錯(cuò)”轉(zhuǎn)向“在想象中進(jìn)化”。

這種能力的提升,意味著自動(dòng)駕駛系統(tǒng)正在從一個(gè)“稱職的司機(jī)”向“智慧的駕駛專家”轉(zhuǎn)變。VLA不僅解決了“怎么開”的問(wèn)題,更在底層邏輯上解決了“為什么這么開”的理解問(wèn)題。

VLA落地的難點(diǎn)在哪里?

大模型一般需要擁有數(shù)十億甚至數(shù)百億的參數(shù),要在車載嵌入式平臺(tái)上實(shí)現(xiàn)毫秒級(jí)的推理響應(yīng),需要非常多的工程優(yōu)化。

混合專家架構(gòu)(MoE)可以將模型拆分為多個(gè)專業(yè)領(lǐng)域的小模塊,在每一時(shí)刻僅激活最相關(guān)的部分專家,可以在不犧牲模型容量的前提下,大幅降低推理時(shí)的計(jì)算量。理想就將32B的大模型蒸餾為3.2B的MoE架構(gòu),成功部署在Thor芯片上。



圖片源自:網(wǎng)絡(luò)

推理步數(shù)的壓縮也很關(guān)鍵,傳統(tǒng)的路徑生成需要多次迭代(如Diffusion模型),而通過(guò)引入流匹配(Flow Matching)等算法,可以將原本10步的推理過(guò)程壓縮至2步甚至1步,從而在10Hz的幀率下實(shí)現(xiàn)完整的交互響應(yīng)。此外,混合精度推理(如INT8/FP8/FP4)和底層算子魔改,也可以進(jìn)一步利用硬件的有效性能。

雖然VLA模型作為“大腦”負(fù)責(zé)復(fù)雜的認(rèn)知決策,但行業(yè)普遍共識(shí)是需要保留一個(gè)經(jīng)過(guò)嚴(yán)格驗(yàn)證的傳統(tǒng)控制系統(tǒng)作為“安全基座”。這種混合架構(gòu)確保了即使大模型在某些罕見情況下出現(xiàn)幻覺或推理錯(cuò)誤,底層的安全網(wǎng)也能守住最后一道防線。

最后的話

VLA的普及標(biāo)志著自動(dòng)駕駛數(shù)據(jù)競(jìng)爭(zhēng)重心的轉(zhuǎn)移。以前,企業(yè)比拼的是人工標(biāo)注的數(shù)據(jù)量;而現(xiàn)在,競(jìng)爭(zhēng)的核心變成了算力儲(chǔ)備、世界模型的仿真效率以及對(duì)大規(guī)模無(wú)標(biāo)簽視頻數(shù)據(jù)的利用能力。

VLA從邏輯理解到物理行動(dòng)的閉環(huán),不僅加速了端到端技術(shù)的成熟,也讓自動(dòng)駕駛系統(tǒng)距離真正的“擬人化”更近了一步。隨著算法、算力和數(shù)據(jù)三要素的持續(xù)提升,基于VLA架構(gòu)的物理人工智能將在更廣泛的移動(dòng)場(chǎng)景中展現(xiàn)其價(jià)值,重塑未來(lái)出行的安全與效率標(biāo)準(zhǔn)。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
希勒:阿諾德不首發(fā)也該進(jìn)世界杯名單

希勒:阿諾德不首發(fā)也該進(jìn)世界杯名單

懂球帝
2026-05-22 06:56:16
諾蘭爭(zhēng)議新片《奧德賽》片長(zhǎng)曝光!剛公布就被撤除

諾蘭爭(zhēng)議新片《奧德賽》片長(zhǎng)曝光!剛公布就被撤除

3DM游戲
2026-05-22 10:48:13
主角:看完原著才發(fā)現(xiàn),大家痛恨的楚嘉禾,一輩子過(guò)得有多瀟灑

主角:看完原著才發(fā)現(xiàn),大家痛恨的楚嘉禾,一輩子過(guò)得有多瀟灑

容妃
2026-05-21 13:42:48
西洋參的“好搭檔”找到了,堅(jiān)持泡水喝,肝變干凈,睡眠也好

西洋參的“好搭檔”找到了,堅(jiān)持泡水喝,肝變干凈,睡眠也好

芹姐說(shuō)生活
2026-05-22 16:19:57
少年打球得罪富二代,被砍斷雙手身亡,家長(zhǎng):給我砍,老子不差錢

少年打球得罪富二代,被砍斷雙手身亡,家長(zhǎng):給我砍,老子不差錢

就一點(diǎn)
2026-05-18 00:00:54
忍無(wú)可忍,薩拉丈夫出手反擊,小馬科斯的彈劾算盤要落空了

忍無(wú)可忍,薩拉丈夫出手反擊,小馬科斯的彈劾算盤要落空了

娛樂(lè)小可愛蛙
2026-05-22 14:37:58
兩性關(guān)系:55-65歲這十年,惜命最好的方式,不是鍛煉,做好這6點(diǎn)

兩性關(guān)系:55-65歲這十年,惜命最好的方式,不是鍛煉,做好這6點(diǎn)

三農(nóng)老歷
2026-04-13 17:10:06
看完馬刺113-122輸雷霆,1-1!我必須承認(rèn)6個(gè)現(xiàn)實(shí):東部要撿漏了

看完馬刺113-122輸雷霆,1-1!我必須承認(rèn)6個(gè)現(xiàn)實(shí):東部要撿漏了

籃球掃地僧
2026-05-21 20:13:31
孫浩最紅的時(shí)候,把在北京漂著的張嘉益接家里住,一住就是十年。

孫浩最紅的時(shí)候,把在北京漂著的張嘉益接家里住,一住就是十年。

草莓解說(shuō)體育
2026-05-22 07:25:56
黃埔最邪門的一塊地要?jiǎng)恿耍核娜喂蓶|全栽過(guò),現(xiàn)任董事長(zhǎng)是個(gè)"老賴"

黃埔最邪門的一塊地要?jiǎng)恿耍核娜喂蓶|全栽過(guò),現(xiàn)任董事長(zhǎng)是個(gè)"老賴"

地產(chǎn)與星空
2026-05-21 18:11:45
美國(guó)沒(méi)想到,俄羅斯也沒(méi)料到,當(dāng)今中國(guó)已經(jīng)成為全世界的驕傲

美國(guó)沒(méi)想到,俄羅斯也沒(méi)料到,當(dāng)今中國(guó)已經(jīng)成為全世界的驕傲

共工之錨
2026-05-21 18:57:49
曝天津港網(wǎng)紅車商卷走千萬(wàn)購(gòu)車款跑路 攜女助手潛逃至塞爾維亞

曝天津港網(wǎng)紅車商卷走千萬(wàn)購(gòu)車款跑路 攜女助手潛逃至塞爾維亞

音樂(lè)時(shí)光的娛樂(lè)
2026-05-22 10:32:02
北京理工大學(xué)珠海學(xué)院擬轉(zhuǎn)設(shè)為廣東江門南粵學(xué)院

北京理工大學(xué)珠海學(xué)院擬轉(zhuǎn)設(shè)為廣東江門南粵學(xué)院

粵見世界
2026-05-21 23:30:36
人社部長(zhǎng)最新撰文!2026年養(yǎng)老金調(diào)整方向已明確!低收入享福了?

人社部長(zhǎng)最新撰文!2026年養(yǎng)老金調(diào)整方向已明確!低收入享福了?

巢客HOME
2026-05-22 04:45:03
汪寶兒的保姆曝光,比小楊阿姨有文化,看起來(lái)親和不張揚(yáng)

汪寶兒的保姆曝光,比小楊阿姨有文化,看起來(lái)親和不張揚(yáng)

鄉(xiāng)野小珥
2026-05-22 14:05:03
麥基:給我足夠長(zhǎng)的上場(chǎng)時(shí)間我會(huì)作出貢獻(xiàn),今晚會(huì)傾盡所有

麥基:給我足夠長(zhǎng)的上場(chǎng)時(shí)間我會(huì)作出貢獻(xiàn),今晚會(huì)傾盡所有

懂球帝
2026-05-22 14:47:08
多地520結(jié)婚登記數(shù)據(jù)爆了,網(wǎng)友說(shuō):出生人口穩(wěn)了!

多地520結(jié)婚登記數(shù)據(jù)爆了,網(wǎng)友說(shuō):出生人口穩(wěn)了!

黯泉
2026-05-22 14:47:24
艾滋病新增130萬(wàn)!很多人中招很冤枉!在外“5不碰”一定要記死

艾滋病新增130萬(wàn)!很多人中招很冤枉!在外“5不碰”一定要記死

今朝牛馬
2025-12-31 19:31:04
一盤紅燒肉撕開“宗教捆綁”的幕布,擁抱現(xiàn)代文明

一盤紅燒肉撕開“宗教捆綁”的幕布,擁抱現(xiàn)代文明

西域都護(hù)
2026-05-17 22:09:33
笑死了!記者暗訪貴陽(yáng)各臺(tái)球城的女陪練,直接問(wèn)有沒(méi)有特殊服務(wù)…

笑死了!記者暗訪貴陽(yáng)各臺(tái)球城的女陪練,直接問(wèn)有沒(méi)有特殊服務(wù)…

娛樂(lè)洞察點(diǎn)點(diǎn)
2026-05-22 13:20:46
2026-05-22 17:59:00
智駕最前沿
智駕最前沿
自動(dòng)駕駛領(lǐng)域?qū)I(yè)的技術(shù)、資訊分享平臺(tái)。我們的slogan是:聚焦智能駕駛 ,緊盯行業(yè)前沿。
455文章數(shù) 11關(guān)注度
往期回顧 全部

汽車要聞

舒適智能配置滿 昊鉑S600開著沒(méi)那么運(yùn)動(dòng)也挺好

頭條要聞

80后地產(chǎn)女王自殺倒在樓市黎明前 曾稱或面臨刑事責(zé)任

頭條要聞

80后地產(chǎn)女王自殺倒在樓市黎明前 曾稱或面臨刑事責(zé)任

體育要聞

最糟糕裁判?他想要退役當(dāng)市長(zhǎng)

娛樂(lè)要聞

周也戀情曝光!對(duì)象身份不簡(jiǎn)單

財(cái)經(jīng)要聞

證監(jiān)會(huì)擬對(duì)老虎、富途、長(zhǎng)橋依法嚴(yán)厲處罰

科技要聞

雷軍:輸給特斯拉不丟人

態(tài)度原創(chuàng)

健康
數(shù)碼
教育
房產(chǎn)
親子

外泌體與干細(xì)胞竟是“快遞”與“工廠”的關(guān)系?

數(shù)碼要聞

AOC新款27寸OLED顯示器首發(fā)3499元:4K 165Hz屏 五層堆棧結(jié)構(gòu)設(shè)計(jì)

教育要聞

全國(guó)示范校名單公示!北京這8所學(xué)校上榜

房產(chǎn)要聞

瘋搶511輪!今年海南最魔幻的地塊,被福建能源企業(yè)搶了!

親子要聞

多家國(guó)際奶粉召回事件頻發(fā),國(guó)內(nèi)奶粉市場(chǎng)影響幾何

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版