[首發(fā)于智駕最前沿微信公眾號(hào)]在自動(dòng)駕駛的技術(shù)路徑中,純視覺(jué)一直是非常重要的方向,在之前的內(nèi)容中,我們探討過(guò)小鵬汽車(chē)轉(zhuǎn)向純視覺(jué)的技術(shù)底氣,還聊過(guò)特斯拉FSD V14.3的升級(jí)。同樣作為純視覺(jué)智駕,小鵬和特斯拉在技術(shù)上有區(qū)別嗎?
端到端是唯一解嗎?
純視覺(jué)方案需要解決的,是如何從二維圖像中還原三維世界的信息,再據(jù)此做出駕駛決策。傳統(tǒng)做法是把任務(wù)拆成感知、預(yù)測(cè)、規(guī)劃、控制等多個(gè)獨(dú)立模塊,各模塊之間會(huì)傳遞處理好的數(shù)據(jù)。這種方式結(jié)構(gòu)清晰、便于調(diào)試,但每個(gè)環(huán)節(jié)都不可避免地會(huì)丟失一些原始信息,而且需要工程師為各種場(chǎng)景逐一編寫(xiě)規(guī)則,面對(duì)數(shù)不清的異常路況,規(guī)則是永遠(yuǎn)寫(xiě)不完的。隨著技術(shù)提升,端到端方案得到了應(yīng)用,在特斯拉和小鵬的純視覺(jué)方案中,都不約而同地使用了端到端。
![]()
圖片源自:網(wǎng)絡(luò)
特斯拉在FSD V12上就率先做了減法,它把感知到控制的整個(gè)流程整合進(jìn)一個(gè)統(tǒng)一的神經(jīng)網(wǎng)絡(luò),從攝像頭畫(huà)面輸入到方向盤(pán)、剎車(chē)指令輸出,全部由一個(gè)模型完成。這相當(dāng)于跳過(guò)了所有中間環(huán)節(jié),讓模型直接從海量駕駛視頻中學(xué)習(xí)看到什么該怎么開(kāi)。V13之后,特斯拉又在模型中引入了時(shí)序處理能力,讓車(chē)輛能記住過(guò)去十幾秒內(nèi)周?chē)矬w的運(yùn)動(dòng)軌跡,即便行人暫時(shí)被遮擋,系統(tǒng)也能根據(jù)消失前的速度和方向推斷其當(dāng)前位置和意圖。
小鵬則走了一條不同的路,它的端到端方案由三個(gè)獨(dú)立訓(xùn)練的神經(jīng)網(wǎng)絡(luò)協(xié)同工作,即XNet負(fù)責(zé)視覺(jué)感知,XPlanner負(fù)責(zé)軌跡規(guī)劃,大語(yǔ)言模型XBrain負(fù)責(zé)場(chǎng)景理解與決策,三者各有分工,通過(guò)內(nèi)部接口串聯(lián)在一起。這種設(shè)計(jì)的優(yōu)勢(shì)在于每個(gè)模塊可以獨(dú)立優(yōu)化,排錯(cuò)更簡(jiǎn)單,而且XBrain能利用語(yǔ)言模型的泛化能力來(lái)處理潮汐車(chē)道、ETC車(chē)道、路牌文字等不常見(jiàn)的場(chǎng)景。
到了2025年底,小鵬又向前邁了一步,它發(fā)布的第二代VLA(視覺(jué)-語(yǔ)言-動(dòng)作)大模型放棄了此前多模塊串聯(lián)的中間環(huán)節(jié),直接讓視覺(jué)信號(hào)生成駕駛動(dòng)作指令,從架構(gòu)形式上向特斯拉的一段式端到端靠攏。不過(guò),兩者在世界模型這個(gè)核心概念上的理解仍然不同,這是下一個(gè)要討論的問(wèn)題。
![]()
圖片源自:網(wǎng)絡(luò)
同一個(gè)詞,兩種理解
世界模型是當(dāng)前自動(dòng)駕駛領(lǐng)域的重要技術(shù)方向,所謂世界模型,指的是系統(tǒng)在做出駕駛決策前,先在內(nèi)部構(gòu)建一個(gè)對(duì)道路環(huán)境的理解。特斯拉和小鵬都在做這件事,但實(shí)現(xiàn)方式有明顯區(qū)別。
特斯拉的方式更隱式,在FSD的內(nèi)部,占用網(wǎng)絡(luò)(Occupancy Network)將車(chē)身周?chē)娜S空間切成無(wú)數(shù)細(xì)小的立方體,神經(jīng)網(wǎng)絡(luò)逐一判斷每個(gè)立方體是否被物體占據(jù)、是否在移動(dòng)、屬于哪一類(lèi)物體。這套方法最核心的優(yōu)勢(shì)是不依賴物體識(shí)別,無(wú)論前方是標(biāo)準(zhǔn)車(chē)輛還是側(cè)翻的貨車(chē)、散落的貨物,只要是空間中的實(shí)體,都會(huì)被標(biāo)記出來(lái)。
![]()
圖片源自:網(wǎng)絡(luò)
2025年特斯拉又申請(qǐng)了更高精度的占用網(wǎng)絡(luò)專(zhuān)利,把空間劃分從約30厘米一格細(xì)化到約10厘米一格,在停車(chē)場(chǎng)等低速場(chǎng)景能對(duì)地面標(biāo)記、車(chē)位線等細(xì)節(jié)做更精確的重建。這些空間信息直接參與端到端模型的決策過(guò)程,對(duì)駕駛員來(lái)說(shuō)是不可見(jiàn)的中間狀態(tài)。
小鵬則提出了物理世界大模型的概念,它的第二代VLA不僅能輸出駕駛動(dòng)作,還能對(duì)環(huán)境進(jìn)行顯式建模,生成世界模型表征。小鵬強(qiáng)調(diào)這是一套原生多模態(tài)的大模型,能同時(shí)處理視覺(jué)、聽(tīng)覺(jué)和文字信息,跨域應(yīng)用于汽車(chē)、機(jī)器人和飛行汽車(chē)。在性能指標(biāo)上,該模型參數(shù)達(dá)720億,訓(xùn)練數(shù)據(jù)接近1億個(gè)視頻片段,每5天完成一次全鏈路迭代。配合自研的圖靈AI芯片和定制化編譯器,模型在車(chē)端的推理效率提升了12倍。
簡(jiǎn)單理解,特斯拉的世界模型更像神經(jīng)網(wǎng)絡(luò)的內(nèi)部狀態(tài),是決策的中間產(chǎn)物;而小鵬則試圖把世界模型變成一個(gè)可以跨任務(wù)復(fù)用的通用底層能力。
看得更遠(yuǎn),還是看得更細(xì)
感知是純視覺(jué)方案的基礎(chǔ),小鵬和特斯拉在技術(shù)架構(gòu)上都采用了BEV(鳥(niǎo)瞰視角)+Transformer的方案,即先把多路攝像頭的畫(huà)面融合成一個(gè)從俯視角度理解的三維空間,再在此基礎(chǔ)上做決策,不過(guò)兩者在細(xì)節(jié)實(shí)現(xiàn)上存在差異。
特斯拉長(zhǎng)期使用8顆攝像頭實(shí)現(xiàn)車(chē)身360度覆蓋,輸入分辨率在AI4硬件上達(dá)36Hz全分辨率。占用網(wǎng)絡(luò)的體素判斷讓系統(tǒng)不依賴事先定義的白名單來(lái)辨認(rèn)障礙物,通用性很強(qiáng)。
小鵬在感知精度上則做了有針對(duì)性的強(qiáng)化,其AI鷹眼視覺(jué)方案采用Lofic技術(shù)攝像頭,能在暗光、逆光等場(chǎng)景獲得更清晰的成像。它量產(chǎn)的2K純視覺(jué)占用網(wǎng)絡(luò)用超過(guò)200萬(wàn)個(gè)網(wǎng)格重構(gòu)三維空間,建模精度達(dá)5立方厘米/體素。相比特斯拉當(dāng)前約30厘米的體素分辨率,小鵬在感知細(xì)節(jié)上更加精細(xì),可以區(qū)分道路上的裂縫和坑洼。
![]()
圖片源自:網(wǎng)絡(luò)
此外,小鵬的XNet架構(gòu)整合了動(dòng)態(tài)BEV、靜態(tài)BEV和占用網(wǎng)絡(luò)三套體系,在統(tǒng)一的框架下同時(shí)處理運(yùn)動(dòng)物體的預(yù)測(cè)、靜態(tài)環(huán)境的結(jié)構(gòu)理解和空間的占位判斷。相比之下,特斯拉的動(dòng)態(tài)物體預(yù)測(cè)和靜態(tài)占用判斷分別由占用網(wǎng)絡(luò)內(nèi)部的不同輸出維度承擔(dān),并非三套獨(dú)立網(wǎng)絡(luò),但在功能覆蓋面上大致對(duì)應(yīng)。
數(shù)據(jù)驅(qū)動(dòng)的兩種策略
數(shù)據(jù)和算力是純視覺(jué)方案的生命線,所有技術(shù)架構(gòu)的差異最終都要靠數(shù)據(jù)來(lái)體現(xiàn)效果。
特斯拉的優(yōu)勢(shì)在于數(shù)據(jù)規(guī)模,截至2024年底,F(xiàn)SD累計(jì)行駛里程已超過(guò)20億公里,遠(yuǎn)高于同類(lèi)系統(tǒng)。它的車(chē)隊(duì)在全球多個(gè)地區(qū)行駛,能接觸到差異化的交通環(huán)境和邊緣場(chǎng)景。
在訓(xùn)練策略上,特斯拉近年做了重要調(diào)整,它構(gòu)建了一個(gè)云端世界模型來(lái)批量生成合成駕駛數(shù)據(jù),再將合成數(shù)據(jù)與一定比例的真實(shí)道路數(shù)據(jù)混合,用于訓(xùn)練新的FSD模型。這種做法能快速覆蓋現(xiàn)實(shí)中難以遇到的極端天氣、罕見(jiàn)事故形態(tài)等長(zhǎng)尾場(chǎng)景,也為后續(xù)AI5/AI6芯片實(shí)現(xiàn)訓(xùn)練與推理一體化的分布式計(jì)算平臺(tái)提供了支撐。
![]()
圖片源自:網(wǎng)絡(luò)
小鵬的累積里程則相對(duì)較少,但迭代速度很快,依賴折算超過(guò)10億公里的視頻訓(xùn)練數(shù)據(jù),它的端到端模型能做到約2天迭代一次。第二代VLA的視覺(jué)數(shù)據(jù)總量約50PB,每秒處理約53億字節(jié)的信息。
有一點(diǎn)需要提一下的是,小鵬的模型專(zhuān)注于中國(guó)道路場(chǎng)景,對(duì)人車(chē)混行、非機(jī)動(dòng)車(chē)穿行、狹窄街道等復(fù)雜路況有更深度的訓(xùn)練覆蓋。實(shí)際路測(cè)顯示,第二代VLA在窄路、復(fù)雜博弈等中國(guó)特有場(chǎng)景下的穩(wěn)定性和處理能力已展現(xiàn)出局部?jī)?yōu)勢(shì)。
相比之下,特斯拉盡管在上海建有數(shù)據(jù)中心,但核心算法仍由北美團(tuán)隊(duì)主導(dǎo),在中國(guó)開(kāi)放的實(shí)際迭代速度落后于北美版本,在面對(duì)外賣(mài)騎手穿行、復(fù)雜混合車(chē)道等場(chǎng)景時(shí)還存在適應(yīng)性不足的問(wèn)題。
最后的話
概括下這兩家純視覺(jué)方案的區(qū)別,特斯拉是一個(gè)高度一體化的神經(jīng)網(wǎng)絡(luò),用海量的全球化數(shù)據(jù)和極簡(jiǎn)的架構(gòu)來(lái)讓模型自己學(xué)會(huì)駕駛,世界模型內(nèi)嵌于神經(jīng)網(wǎng)絡(luò)的權(quán)重之中;小鵬則是從模塊化出發(fā)逐步收斂到更統(tǒng)一的架構(gòu),在感知精度上做得更精細(xì),并以中國(guó)道路的復(fù)雜場(chǎng)景為核心進(jìn)行深度優(yōu)化,同時(shí)試圖把世界模型打造成一個(gè)可復(fù)用的通用能力層。兩條路線在技術(shù)底層上正在趨近,但架構(gòu)上仍然各具特色。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.