網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

都是純視覺(jué)智駕，小鵬和特斯拉技術(shù)上有何區(qū)別？

2026-05-25 09:50:03　來(lái)源: 智駕最前沿

江蘇舉報(bào)

分享至

[首發(fā)于智駕最前沿微信公眾號(hào)]在自動(dòng)駕駛的技術(shù)路徑中，純視覺(jué)一直是非常重要的方向，在之前的內(nèi)容中，我們探討過(guò)小鵬汽車(chē)轉(zhuǎn)向純視覺(jué)的技術(shù)底氣，還聊過(guò)特斯拉FSD V14.3的升級(jí)。同樣作為純視覺(jué)智駕，小鵬和特斯拉在技術(shù)上有區(qū)別嗎？

端到端是唯一解嗎？

純視覺(jué)方案需要解決的，是如何從二維圖像中還原三維世界的信息，再據(jù)此做出駕駛決策。傳統(tǒng)做法是把任務(wù)拆成感知、預(yù)測(cè)、規(guī)劃、控制等多個(gè)獨(dú)立模塊，各模塊之間會(huì)傳遞處理好的數(shù)據(jù)。這種方式結(jié)構(gòu)清晰、便于調(diào)試，但每個(gè)環(huán)節(jié)都不可避免地會(huì)丟失一些原始信息，而且需要工程師為各種場(chǎng)景逐一編寫(xiě)規(guī)則，面對(duì)數(shù)不清的異常路況，規(guī)則是永遠(yuǎn)寫(xiě)不完的。隨著技術(shù)提升，端到端方案得到了應(yīng)用，在特斯拉和小鵬的純視覺(jué)方案中，都不約而同地使用了端到端。

圖片源自：網(wǎng)絡(luò)

特斯拉在FSD V12上就率先做了減法，它把感知到控制的整個(gè)流程整合進(jìn)一個(gè)統(tǒng)一的神經(jīng)網(wǎng)絡(luò)，從攝像頭畫(huà)面輸入到方向盤(pán)、剎車(chē)指令輸出，全部由一個(gè)模型完成。這相當(dāng)于跳過(guò)了所有中間環(huán)節(jié)，讓模型直接從海量駕駛視頻中學(xué)習(xí)看到什么該怎么開(kāi)。V13之后，特斯拉又在模型中引入了時(shí)序處理能力，讓車(chē)輛能記住過(guò)去十幾秒內(nèi)周?chē)矬w的運(yùn)動(dòng)軌跡，即便行人暫時(shí)被遮擋，系統(tǒng)也能根據(jù)消失前的速度和方向推斷其當(dāng)前位置和意圖。

小鵬則走了一條不同的路，它的端到端方案由三個(gè)獨(dú)立訓(xùn)練的神經(jīng)網(wǎng)絡(luò)協(xié)同工作，即XNet負(fù)責(zé)視覺(jué)感知，XPlanner負(fù)責(zé)軌跡規(guī)劃，大語(yǔ)言模型XBrain負(fù)責(zé)場(chǎng)景理解與決策，三者各有分工，通過(guò)內(nèi)部接口串聯(lián)在一起。這種設(shè)計(jì)的優(yōu)勢(shì)在于每個(gè)模塊可以獨(dú)立優(yōu)化，排錯(cuò)更簡(jiǎn)單，而且XBrain能利用語(yǔ)言模型的泛化能力來(lái)處理潮汐車(chē)道、ETC車(chē)道、路牌文字等不常見(jiàn)的場(chǎng)景。

到了2025年底，小鵬又向前邁了一步，它發(fā)布的第二代VLA（視覺(jué)-語(yǔ)言-動(dòng)作）大模型放棄了此前多模塊串聯(lián)的中間環(huán)節(jié)，直接讓視覺(jué)信號(hào)生成駕駛動(dòng)作指令，從架構(gòu)形式上向特斯拉的一段式端到端靠攏。不過(guò)，兩者在世界模型這個(gè)核心概念上的理解仍然不同，這是下一個(gè)要討論的問(wèn)題。

圖片源自：網(wǎng)絡(luò)

同一個(gè)詞，兩種理解

世界模型是當(dāng)前自動(dòng)駕駛領(lǐng)域的重要技術(shù)方向，所謂世界模型，指的是系統(tǒng)在做出駕駛決策前，先在內(nèi)部構(gòu)建一個(gè)對(duì)道路環(huán)境的理解。特斯拉和小鵬都在做這件事，但實(shí)現(xiàn)方式有明顯區(qū)別。

特斯拉的方式更隱式，在FSD的內(nèi)部，占用網(wǎng)絡(luò)（Occupancy Network）將車(chē)身周?chē)娜S空間切成無(wú)數(shù)細(xì)小的立方體，神經(jīng)網(wǎng)絡(luò)逐一判斷每個(gè)立方體是否被物體占據(jù)、是否在移動(dòng)、屬于哪一類(lèi)物體。這套方法最核心的優(yōu)勢(shì)是不依賴物體識(shí)別，無(wú)論前方是標(biāo)準(zhǔn)車(chē)輛還是側(cè)翻的貨車(chē)、散落的貨物，只要是空間中的實(shí)體，都會(huì)被標(biāo)記出來(lái)。

圖片源自：網(wǎng)絡(luò)

2025年特斯拉又申請(qǐng)了更高精度的占用網(wǎng)絡(luò)專(zhuān)利，把空間劃分從約30厘米一格細(xì)化到約10厘米一格，在停車(chē)場(chǎng)等低速場(chǎng)景能對(duì)地面標(biāo)記、車(chē)位線等細(xì)節(jié)做更精確的重建。這些空間信息直接參與端到端模型的決策過(guò)程，對(duì)駕駛員來(lái)說(shuō)是不可見(jiàn)的中間狀態(tài)。

小鵬則提出了物理世界大模型的概念，它的第二代VLA不僅能輸出駕駛動(dòng)作，還能對(duì)環(huán)境進(jìn)行顯式建模，生成世界模型表征。小鵬強(qiáng)調(diào)這是一套原生多模態(tài)的大模型，能同時(shí)處理視覺(jué)、聽(tīng)覺(jué)和文字信息，跨域應(yīng)用于汽車(chē)、機(jī)器人和飛行汽車(chē)。在性能指標(biāo)上，該模型參數(shù)達(dá)720億，訓(xùn)練數(shù)據(jù)接近1億個(gè)視頻片段，每5天完成一次全鏈路迭代。配合自研的圖靈AI芯片和定制化編譯器，模型在車(chē)端的推理效率提升了12倍。

簡(jiǎn)單理解，特斯拉的世界模型更像神經(jīng)網(wǎng)絡(luò)的內(nèi)部狀態(tài)，是決策的中間產(chǎn)物；而小鵬則試圖把世界模型變成一個(gè)可以跨任務(wù)復(fù)用的通用底層能力。

看得更遠(yuǎn)，還是看得更細(xì)

感知是純視覺(jué)方案的基礎(chǔ)，小鵬和特斯拉在技術(shù)架構(gòu)上都采用了BEV（鳥(niǎo)瞰視角）+Transformer的方案，即先把多路攝像頭的畫(huà)面融合成一個(gè)從俯視角度理解的三維空間，再在此基礎(chǔ)上做決策，不過(guò)兩者在細(xì)節(jié)實(shí)現(xiàn)上存在差異。

特斯拉長(zhǎng)期使用8顆攝像頭實(shí)現(xiàn)車(chē)身360度覆蓋，輸入分辨率在AI4硬件上達(dá)36Hz全分辨率。占用網(wǎng)絡(luò)的體素判斷讓系統(tǒng)不依賴事先定義的白名單來(lái)辨認(rèn)障礙物，通用性很強(qiáng)。

小鵬在感知精度上則做了有針對(duì)性的強(qiáng)化，其AI鷹眼視覺(jué)方案采用Lofic技術(shù)攝像頭，能在暗光、逆光等場(chǎng)景獲得更清晰的成像。它量產(chǎn)的2K純視覺(jué)占用網(wǎng)絡(luò)用超過(guò)200萬(wàn)個(gè)網(wǎng)格重構(gòu)三維空間，建模精度達(dá)5立方厘米/體素。相比特斯拉當(dāng)前約30厘米的體素分辨率，小鵬在感知細(xì)節(jié)上更加精細(xì)，可以區(qū)分道路上的裂縫和坑洼。

圖片源自：網(wǎng)絡(luò)

此外，小鵬的XNet架構(gòu)整合了動(dòng)態(tài)BEV、靜態(tài)BEV和占用網(wǎng)絡(luò)三套體系，在統(tǒng)一的框架下同時(shí)處理運(yùn)動(dòng)物體的預(yù)測(cè)、靜態(tài)環(huán)境的結(jié)構(gòu)理解和空間的占位判斷。相比之下，特斯拉的動(dòng)態(tài)物體預(yù)測(cè)和靜態(tài)占用判斷分別由占用網(wǎng)絡(luò)內(nèi)部的不同輸出維度承擔(dān)，并非三套獨(dú)立網(wǎng)絡(luò)，但在功能覆蓋面上大致對(duì)應(yīng)。

數(shù)據(jù)驅(qū)動(dòng)的兩種策略

數(shù)據(jù)和算力是純視覺(jué)方案的生命線，所有技術(shù)架構(gòu)的差異最終都要靠數(shù)據(jù)來(lái)體現(xiàn)效果。

特斯拉的優(yōu)勢(shì)在于數(shù)據(jù)規(guī)模，截至2024年底，F(xiàn)SD累計(jì)行駛里程已超過(guò)20億公里，遠(yuǎn)高于同類(lèi)系統(tǒng)。它的車(chē)隊(duì)在全球多個(gè)地區(qū)行駛，能接觸到差異化的交通環(huán)境和邊緣場(chǎng)景。

在訓(xùn)練策略上，特斯拉近年做了重要調(diào)整，它構(gòu)建了一個(gè)云端世界模型來(lái)批量生成合成駕駛數(shù)據(jù)，再將合成數(shù)據(jù)與一定比例的真實(shí)道路數(shù)據(jù)混合，用于訓(xùn)練新的FSD模型。這種做法能快速覆蓋現(xiàn)實(shí)中難以遇到的極端天氣、罕見(jiàn)事故形態(tài)等長(zhǎng)尾場(chǎng)景，也為后續(xù)AI5/AI6芯片實(shí)現(xiàn)訓(xùn)練與推理一體化的分布式計(jì)算平臺(tái)提供了支撐。

圖片源自：網(wǎng)絡(luò)

小鵬的累積里程則相對(duì)較少，但迭代速度很快，依賴折算超過(guò)10億公里的視頻訓(xùn)練數(shù)據(jù)，它的端到端模型能做到約2天迭代一次。第二代VLA的視覺(jué)數(shù)據(jù)總量約50PB，每秒處理約53億字節(jié)的信息。

有一點(diǎn)需要提一下的是，小鵬的模型專(zhuān)注于中國(guó)道路場(chǎng)景，對(duì)人車(chē)混行、非機(jī)動(dòng)車(chē)穿行、狹窄街道等復(fù)雜路況有更深度的訓(xùn)練覆蓋。實(shí)際路測(cè)顯示，第二代VLA在窄路、復(fù)雜博弈等中國(guó)特有場(chǎng)景下的穩(wěn)定性和處理能力已展現(xiàn)出局部?jī)?yōu)勢(shì)。

相比之下，特斯拉盡管在上海建有數(shù)據(jù)中心，但核心算法仍由北美團(tuán)隊(duì)主導(dǎo)，在中國(guó)開(kāi)放的實(shí)際迭代速度落后于北美版本，在面對(duì)外賣(mài)騎手穿行、復(fù)雜混合車(chē)道等場(chǎng)景時(shí)還存在適應(yīng)性不足的問(wèn)題。

最后的話

概括下這兩家純視覺(jué)方案的區(qū)別，特斯拉是一個(gè)高度一體化的神經(jīng)網(wǎng)絡(luò)，用海量的全球化數(shù)據(jù)和極簡(jiǎn)的架構(gòu)來(lái)讓模型自己學(xué)會(huì)駕駛，世界模型內(nèi)嵌于神經(jīng)網(wǎng)絡(luò)的權(quán)重之中；小鵬則是從模塊化出發(fā)逐步收斂到更統(tǒng)一的架構(gòu)，在感知精度上做得更精細(xì)，并以中國(guó)道路的復(fù)雜場(chǎng)景為核心進(jìn)行深度優(yōu)化，同時(shí)試圖把世界模型打造成一個(gè)可復(fù)用的通用能力層。兩條路線在技術(shù)底層上正在趨近，但架構(gòu)上仍然各具特色。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.