歡迎星標 果殼硬科技
2016年特斯拉啟動自動駕駛自主研發,到2024年6月V12.4版本推出,8年時間迭代4代硬件計算平臺和12個軟件算法版本。
V12版本采用端到端自動駕駛技術路線,產品具備擬人化的體驗,被業界認為是自動駕駛“chatGPT”時刻。
本文給大家詳細解答下特斯拉自動駕駛硬件計算平臺和軟件算法平臺的演化歷史,以及驅動自動駕駛方案必然進化到端到端背后的動力。
計算平臺演進
HW1.0
1個前置攝像頭
1個前置Radar (博世中程雷達傳感器) 160米
12個超聲波傳感器
計算芯片:Mobileye EyeQ3芯片,采用傳統CV算法解決問題,沒有AI能力
生產時間:2014年-2016年
主要功能:基礎ADAS功能,比如車道保持 AEB
HW2.0
前視攝像頭:3個, 周視攝像頭:4個,后置攝像頭:1個
前方雷達:1個,探測距離160米(博世中程雷達傳感器)
1超聲波傳感器:12個,探測距離8米
計算芯片:NVIDIA DRIVE PX 2 AI computing platform,21Tops
生產時間:2016年-2019年
支持功能:TACC,高速NOA, 自動變道, 自動泊車等
特斯拉從2016年開始自研智能駕駛算法,2年時間內性能一直弱于mobileye基于傳統CV算法的性能,一直到2017年底才逐步趕上mobileye算法水平。
從基于傳統CV算法實現ADAS功能過渡基于AI算法實現ADAS功能,是一種非連續性創新。如克里斯坦森在《創新者的窘境》中所描述的:很多非連續性創新剛開始用戶體驗不如老的方案,但是方案潛力比較大,迭代幾輪后性能和成本很快會超越傳統方案。
HW3.0
2016年1月,Jim Keller加入特斯拉擔任Autopilot硬件副總裁。2月特斯拉啟動了HW3研發,自研了車載推理芯片,設計用時18個月,2017年12月chip back,2019年正式裝車。HW3硬件傳感器系統兼容HW2,搭載HW2的車輛可以換裝HW3硬件系統,特斯拉免費用HW3替換了很多HW2的硬件。
Tesla HW3 FSD 芯片規格:
BPU: 72 Tops (int8 量化)
CPU: 12xA72 2.2GHz
三星代工,14nm工藝
整板功耗:小于100w
安全性:雙FSD芯片獨立運行,功能安全冗余備份,任何一個系統出現問題,可以切換到另外一個系統上繼續運行。
生產時間:2019年-至今
支持功能:ADAS, FSD,自動泊車等。
HW4.0
HW4.0啟動設計在2020年,2023年開始裝車,主要裝在Cybertruck,改款的model-Y,model-3上。HW4.0硬件系統不兼容HW3.0,安裝HW3.0的汽車沒法換裝HW4.0設備。HW4.0只能安裝在特斯拉23年之后改款的車或者是新車上。
當前階段特斯拉HW4.0和HW3.0跑的是一樣模型,HW4.0推理能力強的優勢沒有發揮出來。馬斯克表示在今年下半年會在HW4.0適配更大的模型。采用技術路線是訓練更大的模型跑在HW4.0上,對這個大模型做壓縮來適配HW3.0。
從HW4.0看硬件芯片設計前瞻性:HW4.0啟動設計時特斯拉還沒走通端到端,導致HW4.0設計的算力不夠,HW4.0會變成一個過渡產品,很快會被HW5.0取代。
HW4.0和HW3.0性能指標對比,從下圖指標可以看出HW4.0的性能是HW3.0性能的約3倍的增加。
HW3 (& FSD Computer 1)
HW4 (& FSD Computer 2)
Samsung Exynos-IP Based
Samsung Exynos-IP Based
12 CPU Cores A72:146KDMIPS
20 CPU Cores A78:286KDMIPS
CPU Frequency: 2.2 Ghz
CPU Frequency: 2.35 Ghz
2 Neural Network (NN) Processors
3 Neural Network (NN) Processors
NN Processor Frequency: 2.0 Ghz
NN Processor Frequency: 2.2 Ghz
14 nm Process
Estimated 5-7nm
36 TOPS *2 = 72TOP
50 TOPS * 3 = 150TOP
1.2MP cameras around the car
5MP cameras around the car
DDR: 8G 128b LPDDR4 63.58GB/s
DDR:16G GDDR6 256b 896GB/s
HW5.0
HW5.0 模型推理性能是HW4.0十倍,可以更好的支撐端到端大模型,預計robotaix車型將來會大批量搭載HW5.0。
25年底開始裝車,適配HW5.0重新訓練的模型預計要到26年。按照AI芯片行業3年量產上車經驗,猜測特斯拉是在23年看到端到端模型效果大幅提升之后,立即著手設計HW5.0,HW4.0作為過渡。
特斯拉Robotaix 需要更大的模型和HW5.0來支撐更好的體驗,猜測2026年特斯拉才會大規模運營Robotaix。
有傳言HW5.0 FSD芯片會在臺積電代工,使用臺積電最先進的N3P 工藝。
產品功能
特斯拉在北美地區支持的產品功能如下表,FSD功能當前在中國還不支持,特斯拉已經在推進FSD功能進入中國,預計FSD最快24年年底進入國內。
產品
功能
標配版Autopilot(ADAS)
L2 ADAS: 按照SAE標準要求L2 都支持,包括AEB,自動變道,自動跟車,車道保持等。
增強版Autopilot(NOA)
Navigate on Autopilot:高速自動駕駛。
Autopark:側方停車,倒車入庫。
Smart Summon:車輛在復雜的環境和停車位中導航,必要時繞過障礙物,來到指定地點找你。
FSD
FSD:城市全自動駕駛。
算法功能演進
特斯拉從V9版本過渡到V12端到端架構,有幾個關鍵階段:
2020年: 引入BEV Transformer
2021年: 引入HydraNets
2022年: 引入Occupancy Network
2023年: 過渡到end to end
從特斯拉算法演化來看,特斯拉自動駕駛團隊一直嘗試使用AI取代基于規則的編碼解決自動駕駛問題,進化到端到端是一種必然。
2020 引入bev Transformer
感知系統解決的問題是使用8個Camera感知環境的信息,包括周圍車輛的位置、速度、車道線、標志牌、信號燈、行人等,然后在一個向量空間中表示出來。
在2020年以前,特斯拉使用C++編程語言創建了一個名為Occupancy Tracker的系統。該系統通過圖像中的路緣檢測,跨攝像頭進行拼接,該設計有很多限制:
每個攝像頭的檢測結果并將其融合,雖然每個攝像頭的預測都很準確,但當它們投影到向量空間時,準確性會降低。為了正確投影圖像,每個像素都需要極其精確。
無法解決預測被遮擋區域和預測跨越兩個以上攝像頭的較大物體。
特斯拉通過單個神經網絡同時處理所有圖像,并直接輸出到向量空間,引入了Bev Transformer,通過單個神經網絡同時處理8路圖像,把圖像空間檢測目標“Transformer”成向量空間,如下圖所示:
2021引入HydraNets,規劃部分模型化
8個Camera使用共享的骨干網絡進行同步和融合的,再使用了幾個“頭”,這種結構就是特斯拉所稱的HydraNet:多個頭,一個主體。
這種結構的優點是:可以針對特定用例(如車輛檢測)微調頭的神經網絡,而不會干擾其他任務(如車道線檢測等)。
2021年特斯拉在規劃部分也做了重大更新,引入Value NN和Policy NN和蒙特卡洛樹搜索(C++編碼)結合來解決規劃問題,如下圖:
2022引入Occupancy Network
引入Occupancy Network后,感知模塊分為2部分:
HydraNet:檢測車輛、標志牌、車道線等。
Occupancy Network:尋找三維空間中的占用情況。圖像空間轉換為立體占用,每個立體塊分配一個空閑/占用值的網絡。
Occupancy Network模型預測哪些物體(甚至物體的哪個部分)會移動。如下圖前面有一輛公交車,公交車的前部在向量空間中變為藍色,表示模型預測它會移動,公交車的后部是紅色,表示尚未預測到它會移動。
創建一個將圖像空間轉換為立體占用,并為每個立體塊分配一個空閑/占用值的網絡,可以增強感知模塊,幫助他們找到更多相關的特征,增加了很好的上下文理解,尤其是在3D方面。
Occupancy Network解決了如下問題:
解決現實物理世界目標物體不可窮舉的問題:比如馬路上一灘水,燃燒的汽油瓶,一只野生動物,HydraNet不能做到完全分類。
使用HydraNet物體檢測失敗會導致的許多錯誤,占用網絡在檢測物體方面比HydraNet物體檢測系統要好得多。
可以檢測三維空間占用的3D信息(類似激光雷達),對非標準化目標可以檢測。比如路卡限高橫梁,半掛的公交,陷下去的馬路。
2023 走向end to end
22年 12 月:End2end FSD v12 立項。
23 年 4 月:v12 的demo表現打動了 馬斯克,決定追加資源來加速end to end 的工程化。
23年8 月:特斯拉內部開始準備使用v12 取代 v11。
24年4月:開始大范圍推送給終端用戶。
如上圖所示,進化到端到端需要完成下面幾個工作:
規劃模塊:模型來實現,基于C++的代碼規則代碼不再需要,比如說:看到紅燈減速停車等。
感知模塊和規劃模塊,不能分開訓練,每個模塊不能單獨優化的,需要考慮整個系統的目標。
兩個模塊之間用feature map數據(不是人類可理解的含義)傳遞信息,訓練時用一個lost函數做收斂,反向傳播的梯度可以從規劃模塊延伸到感知模塊。
機器通過學習1000萬+人類駕駛視頻片段,模型在面對未知情況時可以更好地進行泛化——它只需在訓練中找到最接近的行為來采用。
驅動力
單位成本購買算力增長曲線
如下圖所示,過去100年間每隔5年單位價格購買的算力翻10倍。
計算公司(芯片或者硬件)是一場和單位價格購買算力指數增長賽跑的游戲,跑不過這條曲線的公司都會被市場淘汰。
90年代1TOPS算力大約100萬美金,
2020年1TOPS算力約8-10美金,
2024年1TOPS小于1美金(NV Orin-X 254TOPS 市場售價約250美金)。
自動駕駛摩爾定律
摩爾定律驅動了信息科技行業過去70年的高速發展,在自動駕駛行業,摩爾定律同樣顯現威力,自動駕駛摩爾定律:同等算力下,每兩年自動駕駛硬件成本減半。下面有一些重要數據:
2022年實現城市FSD的BOM(物料)成本是15000-20000元。
2024年大約是7000-10000元。
2026年預計是3500-5000元。
特斯拉FSD的HW3 BOM成本是4000元,特斯拉一開始成本就控制的很好。
車載推理FSD AI 芯片單位算力價格大幅下降,20年1Tops算力約8美金,24年小于1美金。
支持自動駕駛行業傳感器,如激光雷達,GPS 價格大幅下降,國內64線激光雷達最低到了1000元人民幣,車載Camera價格也大幅下降。
AI吞噬軟件
特斯拉從ADAS到FSD的發展是一個AI吞噬軟件的例子:AI含量從10%到AI含量100%,基于規則的軟件代碼逐步被AI模型取代。
Tesla 自動駕駛關鍵人物Andrej Karpathy(已離開) 在自動駕駛行業的貢獻媲美Tim Berners-Lee在萬維網的貢獻:堅決的推進特斯拉自動駕駛團隊使用AI解決問題,引領全球自動駕駛技術路線朝著AI含量100%發展。
Andrej Karpathy 2017年在雄文《software 2.0》(https://karpathy.medium.com/software-2-0-a64152b37c35)非常有前瞻性:提到基于數據驅動的深度學習是解決問題的重要思路,基于深度學習的方案比基于邏輯編程的方案具備諸多優勢:
底層硬件計算簡單:矩陣乘法和零閾值(ReLU)處理,傳統CPU指令集非常復雜。
運行態確定性:每一輪的運算需要運算量和內存量是確定的,不會有邏輯跳轉。
靈活性高:如果推理算力不夠,可以做模型壓縮直接砍掉一部分網絡,重新微調后立馬可以工作。
方便融合:多個模型可以融合在一起變成多任務模型,訓練時通過反向傳播聯動多個模型的訓練。
通用方法解決問題有效性
計算機科學家Rich Sutton 2019年發表雄文《The Bitter Lesson》(http://www.incompleteideas.net/IncIdeas/BitterLesson.html[1]),總結了過去70年驅動人工智能發展的底層規律:
使用通用的方法,減少人為認知的歸納和復雜模型結構假設,只有使用通用的方法才有可擴展性。
不斷增加更多的數據和算力( Scaling Law )。
用大白話總結如下:
當算力越來越大時,采用簡單的模型結構,帶來的可擴展性會越來越強,如下圖紅線所示。
當算力較低時,選用一些人為歸納的模型結構效果比較明顯,但是隨著算力的增加,歸納的模型結構擴展性變差,增大算力時,歸納的模型結構帶來的效果增加有限,如下圖藍線所示。
Scaling Law(規模擴張定律)
Scaling law定義:把通用模型變得更大,使用更多的訓練數據,模型的推理能力就越強。
動物大腦新皮質層具備智力能力,新皮質層使用通用算法去學習世界上所有的知識的。人腦和猴子智力差異就是新皮質層規模不一樣,人類大腦有更大的新皮質層,具備更強的學習能力和理解世界的能力。
Tesla 在V12 版本上找到了自動駕駛能力快速提升的“煉金術”,Tesla后續會逐步增大模型,指數級增大訓練的數據量,自動駕駛體驗會越來越好。
HW3推理運算能力終究會出現瓶頸,個人猜測robotaix會在hw5硬件上推出。支持HW3 HW4 HW5的模型會分開訓練,HW5支持推理更大的模型,效果必然是更好,個人猜測這也是特斯拉著急推測HW5原因,用于支撐robotaix大范圍的運營。
Tesla近期在德州搭建新的計算中心,主要用于訓練可以在HW4上運行的更大模型。
端到端自動駕駛路線放大了特斯拉優勢
Tesla 積累自動駕駛數據是waymo的100倍,如下圖。更多高質量的數據可以持續迭代完善更高質量的end to end駕駛模型,形成自動駕駛技術迭代的網絡效應。
特斯拉有大量的汽車在路上運行,可以收集大量的badcase,用badcase解決問題的視頻持續優化模型,模型的性能會越來越好。如馬斯克所言,沒有100萬輛以上的實車持續收集數據迭代端到端模型,就不可能做成自動駕駛。
可擴展性
高精地圖沒有可擴展性:Tesla技術路線沒有采用高精地圖,采用高精地圖方案的自動駕駛廠商(比如waymo),自動駕駛可行駛的范圍必須是高精地圖覆蓋的范圍,擴展性差。高精地圖的采集制作成本很高,需要持續的定期更新。物理世界的道路每一天都在發生大量的變化,每一處變化實時體現到高精地圖的變化中不具備可行性。很多自動駕駛問題引入都是因為高精地圖和實際物理世界不一致導致的。
Tesla FSD 在不同國家擴展:end to end 方案在不同國家擴展時可以采用模型微調技術來解決,使用北美的end to end模型作為一個基礎模型,把基礎模型拿到中國,使用中國路況采集的數據做微調,微調后的模型跑在中國的tesla車上。微調的算力需求大約是基礎模型訓練的總算力的5%-10%左右。Tesla FSD在全球有擴展性,但也有一定的成本,預計Tesla FSD會優先考慮在北美,中國,歐洲三個地方落地。
End to end 可擴展性:預計Tesla FSD 會在今年年底或者明年引入中國運營,使用end to end 技術上已經具備了可落地性。基于end2end方案,擴展到全世界對模型微調處理的流程一致,收集當地的數據,使用機器去執行微調基礎模型,不需要太多的工程師參與。如果基于規則編碼的自動駕駛方案在全球擴展,需要大量的工程師去理解不同國家的交通習慣,用代碼重新實現一部分規劃控制算法,不具備可維護性,技術上也沒有可擴展性。
國內端到端方案的挑戰
tesla技術路線未公開:特斯拉在 2021 年 和 2022 年舉辦的 AI Day 確定了 BEV 和 Occupancy Network 的網絡結構的標準,而其端到端的網絡結構至今為止還沒有對外披露,各家自動駕駛廠商需要自行摸索技術路線的細節,也許在未來 1~2 年內技術路線會逐步收斂。
數據:tesla FSD 訓練使用上千萬個視頻片段,大約是幾萬小時自動駕駛數據,這些數據是從超過20億英里的FSD里程數據中挖掘出來的,既有全面性,又有多樣化,這種規模的數據類型只有幾家汽車廠商可以做到。
訓練算力:擁有的訓練算力越大,完成端到端模型訓練的時間就越短,越能搶占市場先機。當自動駕駛廠商擁有更大訓練算力時,才有可能研發出性能更強(參數量更大)的自動駕駛end to end 模型。華為現在算力規模相當于4000張H100卡算力,4000張H100卡部署下來需要接近1億美金。tesla現有3萬張H100卡,年底預計部署到8萬張H100的卡。
推理算力:推理側算力越大可以支撐更大的模型運行,在現有的算力下部署端到端模型,需要對模型優化壓縮來適配。
參考資料
[1]http://www.incompleteideas.net/IncIdeas/BitterLesson.html
閔祖濤 | 作者
公眾號“閔祖濤” | 來源
如果你是投資人、創業團隊成員或科研工作者,對果殼硬科技組織的閉門會或其它科創服務活動感興趣,歡迎掃描下方二維碼,或在微信公眾號后臺回復“企業微信”添加我們的活動服務助手,我們將通過該渠道組織活動——
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.