過去幾年,智能駕駛行業的競爭重心經歷了幾次明顯變化。
最早比的是硬件:激光雷達要不要上、攝像頭裝幾個、算力做到多少 TOPS;隨后進入大模型時代,競爭開始轉向端到端、VLA(Vision-Language-Action)、World Model(世界模型)等路線。
到了今天,越來越多公司發現,僅僅擁有更大的模型已經不足以形成代際優勢,真正決定上限的,開始變成模型、數據、算力和芯片之間能否形成一個持續迭代的閉環。
這也是為什么越來越多車企開始走向自研。
特斯拉幾乎覆蓋了從數據采集、訓練基礎設施、FSD模型到Dojo、自研芯片的全部環節。國內,無論小鵬、蔚來,還是理想,也都在不斷向更底層延伸。
今年發布的 L8、L9 車型上,理想已經用上了自研的馬赫M100芯片,這個采用數據流架構的芯片被理想認為是for AI的一個大的技術方向。在馬赫M100上,理想也跑了自研的馬赫 VLA 模型。
但對于行業而言,更值得關注的問題并不是"有沒有自研",而是這些投入究竟能夠解決什么問題。
帶著這一疑問,我們與理想汽車自動駕駛負責人詹錕、芯片負責人謝炎進行了交流。他們談到了理想對于下一代自動駕駛技術路線的判斷,也解釋了自研芯片、數據體系以及AI基礎設施背后的設計邏輯,以下為部分訪談紀要,經編輯:
問:四季度要達到特斯拉FSD V14的效果,理想還需要做哪些工作?
詹錕:我認為追上FSD有兩個層面。
第一是基礎體驗,具體是三方面:安全感、效率、舒適度是否能達到FSD的同等水平。FSD的安全感非常足,效率很好,舒適度很好,這是它的基本功。我不一定跑很難的路,但這些基本功可以達到這個水平。
第二是能力,這一點也很難追。比如特斯拉會禮讓特殊車輛,有極窄通行時的感知精準度,它會識別交警指揮,這些能力非常強。
能力有架構升級的機會。為什么別人沒有、只有特斯拉有?可能是以前的范式限制了這些能力,有架構的原因,有數據的原因。我們在這個層面做了很多嘗試。
問:我理解馬赫VLA是一套技術體系而不是一個單獨的模型,比如Mind-Edge是端側的、服務于智能座艙的模型,那現在的智能駕駛模型中還有“L”(Language語言)的部分嗎?
詹錕:現在自動駕駛的架構都會有一個共同的趨勢,就是把VLA(視覺-語言-行為模型)和World Model(世界模型)整合在一起。
從長遠來看,沒有誰不往這個方向走。無論做VLA還是World Model,里面的Prompt(提示)都要用Language。所以一定有Language,只是Language怎么用的問題。
機器智能來說,我覺得Vision Based(基于視覺)是更合理的,它是對空間理解、對3D空間的感知、對環境服務是更合理的。Language肯定有用,對理解環境、理解交通、理解指導、理解復雜的思考決策都是有價值的。
從長遠來看,基于Vision和Language原生的基礎模型,可能是長遠的未來趨勢。
謝炎:如果你要走向L3、L4,要解決更泛化的問題時,你的模型需要具備像人類一樣的思考能力。語言的重要性會越突出,這也是未來需要很大算力的原因。
如果它只有Vision和Action(視覺和動作),它有很多數據,碰到分布以外的情況就會不知道怎么辦。一個動物哪怕學會了所有常見情況,碰到這種從未見過的情況完全不會處理,它不知道做什么選擇是對的。
我們認為越往L3、L4走,解決的問題越來越接近90%、95%、98%之后的問題——那些你從來沒見過的問題,需要模型具備像人類一樣思考的能力。而得到像人一樣推理和思考能力的來源是語言模型。比如有個警察在做手勢,你要理解他是讓你走還是不讓你走,這不是靠收集數據或生成數據就能解決的問題。
問:隨著理想車隊規模的躍升,從理想內部來看,數據的邊際效應是不是出現了衰減?我們是怎么定義價值數據的?
詹錕:第一,數據的量要足夠大,本質是希望收集到更多的Corner Case(長尾場景)。現在大家有很多方法在車端做出很好的neural trigger(神經網絡觸發器),來判斷這個場景是難場景還是簡單場景,然后把這些關鍵數據傳回來。這也是現在特斯拉很強的重要原因之一。
第二,質量要高,主要指行為質量高。現在大家逐漸收斂到端到端的范式,無論做VLA(視覺-語言-行為模型)、World Model(世界模型)還是Vision-Action(視覺-動作模型)都可以,但是你一定得知道Action的行為,這時候行為質量就非常重要,行為的干凈程度、一致性很重要。
至于數據規模上去以后的邊際效應有沒有衰減,首先,只要模型上去了,只要我們能力往100分去夠,一定是個“對數曲線”,一定是慢慢衰減,不可能線性增長,哪個公司做AI都不是這樣的。雖然確實越往后面,數據收斂的作用就沒那么快了,但我們也希望通過規模,把它的速度加起來。
問:馬赫M100可以跑在不同的AI場景下,五年后或者再往后看兩代產品,理想汽車車內的算力中心有沒有可能全部使用自研的馬赫芯片?
謝炎:雖然業內有一個說法叫“艙駕一體”,我們認為艙駕一體最核心的是AI算力部分,其他部分是不是一體沒那么關鍵。因為座艙系統跟AI智駕系統可以完全獨立,但AI算力可以集中在一起,這樣分配效率會高很多。
我們路線圖的最終形態是車內一個AI計算中心,所有AI任務都可以到這個計算中心去計算。就像筆記本上跑OpenClaw一樣,AI的計算不在筆記本上,而是在Token Provider Server(Token供應服務器)上,車里也類似,有一個Token Server(Token服務器)。
這個Token Server的優勢:第一,效率非常高。第二,能做到不同任務互相隔離、互不影響。比如智駕任務的確定性——無論是內存還是帶寬,能夠保證不被其他任務干擾,這是軟件和硬件一起設計才能實現的。
問:是否因為M100是數據流架構的AI推理芯片,所以相較其他友商的自動駕駛芯片,對帶寬需求沒那么高,對片上存儲需求更高?
謝炎:我們對帶寬的要求會低,但這也并不是設計SRAM容量(不是顯存)的直接原因。現在HBM(高帶寬內存)很火,很多人覺得帶寬越高越好。計算,帶寬,SRAM等等都是需要晶體管代價來實現,最終的設計都是成本/綜合性能等多方面的綜合設計考量后的一種選擇。
不同的架構設計,僅僅靠一兩個指標來做簡單對比,既不合理也不專業。這就像打拳擊比賽,高有高的優勢,體重大有體重大的優勢,但不是由單一指標決定了勝負,最終比的是拳擊這個運動的結果。
問:為什么現在的大算力芯片方案,比如英偉達、小鵬、理想自研的這些,都沒有做芯片級的艙駕融合,反倒是高通在低算力的芯片上做了這件事?這是為什么?
謝炎:從本質上講,艙和駕是兩個獨立系統。特別是對高端的L3往L4走,智駕需要一個更高確定性的系統,內存是專屬、計算資源是專屬,這時融合的意義就小了很多。因為資源不能實時切換,實時切換會降低確定性。如果變成越來越獨占的方向,融合的價值就不大了——你只是把芯片拼在一起,但資源還是兩份,并不會帶來成本的降低,甚至會影響效率。
你看現在那些艙駕融合系統,它肯定還是分開的,今天做不到一會兒跑這個一會兒跑那個,做不到的話,把兩個芯片放成一個芯片,晶體管數目也許不變,只是省了一次封裝的成本。對中低端芯片來說這部分錢可以省,但也省不了太多。
我的觀點是,越往后走智駕越來越高端,艙駕融合這件事可能意義并不大。如果把這些芯片做得更近一點,在一塊板上做成很小體積的集成化方案,這是可以的,并不一定要做成一塊芯片,也可以多塊芯片放在一起。
問:自研芯片背后需要什么條件,比如銷量、營收、研發投入。目前自動駕駛迭代速度很快,芯片要持續迭代的話,需要什么樣的條件?
謝炎:芯片先期投入的確不小,可能一年要好幾億。
第一個條件是達到一定的營收規模。對車企來說,營收規模一年1000億以上,研發投入至少10%,就有大幾十億到上百億,每年投錢研發芯片是可以的。第二個條件是,你研發芯片解決的問題,要能讓你的產品能力更強。
很多人說芯片要有很大的出貨規模才行。其實芯片的成本和面積相關。一輛車上的智駕芯片,比如Livis是2顆馬赫M100,加起來800平方毫米。而一部高端手機芯片大概100平方毫米,所以一輛車的智駕芯片相當于8臺手機的芯片面積。
這樣算下來,大幾十萬輛車需要的晶圓面積非常大,完全可以攤薄成本。所以成本不能僅用顆數來衡量。
問:動態數據流編譯器到底難在哪,花了多長時間攻克?
謝炎:在流片前,甚至設計時,就開始做編譯器工作了,在流片前,已經把很多模型給跑通了。
數據流是完全不同的架構,它要解決的問題非常類似于超級計算機或大規模計算機集群要解決的問題——當規模擴大到幾十萬臺計算機、上百萬顆核,它們之間互相通信、互相協作時,你無法有一個中央管理員去管幾十萬顆核。傳統馮·諾依曼架構的調度方式在這個規模上就不可行了,這是一個超大規模的并行調度問題。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.