網易首頁 > 網易號 > 正文申請入駐

對話理想汽車謝炎、詹錕：年底追上特斯拉FSD，自研只為解決問題

2026-06-19 11:18:28　來源: 光子星球

北京舉報

分享至

按照傳統，原本應該在理想L9 Livis上市發布會中披露的技術細節，被單獨拎出來成為了理想Livis Day。

其背后或許來自兩方面原因：一是理想更加聚焦了，李想曾表示L9 Livis發布會那一個小時最重要的任務是講清“如何向上”；二是隨著理想AI戰略逐步進入“深水區”，其有必要建立一個類似于AI科技日的節點，以加深外界對其的AI認知。

因此在6月15日的理想Livis Day上，賣車成為了次要任務，重點更多放在展示軟件和具身智能領域的全面升級上，包括自研芯片、新一代座艙、車載模型架構、全年OTA路線等。

6月16日的媒體溝通會上，理想汽車CTO謝炎、基座模型負責人詹錕也對芯片、模型，以及智駕路線等細節做了進一步詳細闡釋。通過兩個小時的深度對話，理想的差異化突圍路徑也開始越來越清晰。

關于“四季度趕上特斯拉FSD”目標，理想的優勢在于整合效率更高，在相似的組織規模下，理想最大程度打破了“部門墻”；此外特斯拉團隊背景相對單一，而理想在技術邊界上把分工打破，重新做整合，團隊成員相互之間的合作更加緊密。

更明確的拆分，一是基礎體驗，包括安全感、效率、舒適；二是能力方面，例如倒車禮讓、極窄通行下的感知精準度。由于芯片很多性能還沒有釋放，完成目標在詹錕看來“非常有信心”。

作為自動駕駛“燃料”的數據同樣是重心所在，目前理想Livis版本的數據質量已達到L4公司采集車隊水平。謝炎強調足夠大的車隊基數是前提，同時必須重視“行為質量”，盡管收斂作用會隨模型提升呈對數曲線衰減，但通過擴大車隊規模和提升數據質量可以有效抵抗這種衰減。

當然這種追趕遵循的不是一條線性路徑，事實上不少用戶對于L9 Livis的體驗是智駕體感變“肉”了，例如加速不夠積極，博弈中也較為膽小。謝炎表示下一個版本將改進加速邏輯，提升博弈能力和積極性，預計模型上限比上一版有大幅提升。

可以認為，基于具身汽車理念所進行的改變，滲透到產品的方方面面，智駕更多需要在“硅基家人”的框架下去實現更優質的表現，包括如何在安全舒適性和智駕激進性之間去做取舍，也是一個需要長期平衡的命題。

理想已經在智駕路線上做出了一些調整，整體呈現出向純視覺靠攏、激光雷達并重的趨勢，基于CVPR最佳論文的3D-VIT技術已經證明了純視覺可以學習完整3D空間結構，也是追趕特斯拉的關鍵。當然激光雷達依然存在，但更多是作為L3、L4的安全兜底，以解決一些極端情況下的問題，以及更好的數據采集。

馬赫M100芯片無疑是拉開理想“下半場”序幕的核心，但其實4年前就已經立項，一是為了成本，二是通過自研提升上限，“如果做不到比外購的更好，那么做的意義就不大”。

理想“上半場”的價值，體現為給芯片“鋪路”。謝炎認為自研芯片的基本條件是年營收千億，才有可能花幾億去做芯片。

馬赫M100一開始的目標定為了Orin X的4倍性能，同時還要實現更低的成本。沿用英偉達的路線顯然不可能完成，路線的差異成為了破局關鍵，即打破架構依賴，用謝炎的話來說就是“拿掉中間的翻譯”。

事實上就目前的智駕需求，一顆馬赫M100芯片已經完全足夠，多出來的一顆更多是為下一階段做“預備”。對于當下眾多車企紛紛自研芯片，謝炎仍舊對馬赫M100芯片的競爭力表達了高度的自信。

在行業趨勢判斷上，理想認為在L3/L4階段，全域軟硬一體能避免冗余和高延遲，是領先企業擺脫同質化競爭、達到更高智能化標準的必然選擇。雖然未來技術達到平臺期后可能出現分工，但在當前技術未收斂期，垂直整合仍是核心競爭力。

以下是溝通會內容節選，部分內容經編輯梳理，不影響核心觀點與表達邏輯：

Q：理想經過很多次智能化體系調整，最終把芯片、基座模型和智能輔助駕駛整合成統一的團隊，這種“三位一體”和特斯拉的FSD、HW、xAI相比，差異化的護城河在哪？

謝炎：跟特斯拉相比，大家出發點是一樣的。如果想圍繞AI做出強競爭力有兩方面。

第一是，需要快速迭代。今天的AI發展很快。從芯片領域來說，英偉達也迭代很快，不僅是自己迭代快，還不斷收購公司補充自己的技術，說明這個行業競爭非常激烈。所以迭代快，是我們進行組織整合的一個目標，幾個團隊更緊密地合作，迭代速度會上去。

第二是，需要垂直整合。理想汽車推崇構建垂直整合的競爭力。在這個時代，如果沒有自己的芯片，只做自己的模型，那么如果遇到需要芯片和模型聯合設計，才能把問題解決得更好的情況下，我們就失去了這樣的機會，特別是一些大的創新。

我個人觀點是，當技術發展到平臺期時，這時分工會很細。比如PC（計算機）發展到2010年時，分工非常細了，操作系統歸操作系統、應用歸應用、芯片歸芯片、制造歸制造。但是如果技術處于高速發展期，斜率非常高時，你會發現很多公司又回過頭來做整合，因為需要在技術邊界上把分工打破，重新做整合。

我認為技術快速發展的時代，這是有志于領先的公司肯定要走的一條路。當然這個投入肯定不小，很多公司不具備這種能力。在我們團隊，以我個人為例，我的背景是做過操作系統、架構、應用層等AI各個方向，所以我們的整合效率相對更高一些。

除此之外，組織規模小一點也是優勢。如果需要高密度、高整合度，組織規模不能太大，如果組織規模太大，就會導致很多部門墻。這是為什么我在公司強調要保證比較小的組織規模的原因，就是想讓大家合作得更緊密些。如果團隊規模很大，每個團隊都給自己立一道墻，自己成為一道閉環，相互之間的合作就會很難。

Q：四年前當時整個行業都還在馮·諾依曼架構的路徑依賴中，你們看到了什么、堅持了什么？昨天提到整個鏈條要從頭到尾全部變短才是真正的全棧優化，背后的組織是怎么實現的？

謝炎：四年前，我們給自己立了一個很高的目標，這個目標也是一個非常合理的目標——就是自研。我們為什么要自研？我和李想有一個非常一致的意見：自研不是為了證明自己有能力做，而是真正去解決問題。

四年前我們看到的問題：一是算力成本非常高，而且會不斷變高，因為車內需要越來越多的AI算力。二是我們希望通過自研做得更好。當時我們用英偉達和地平線，我們給自己定的目標是，如果做不到比外購芯片更好，那做的意義不大。當時定的目標是4倍Orin的性能。

當然這個目標不是瞎定的，我們花了半年時間進行分析。如果要達到這個目標，背后有一套邏輯——你要做得比英偉達更好，用英偉達的技術路線是不可行的。因為英偉達比你早啟動幾十年，積累比你深，資源比你多幾個數量級。就像你跟博爾特在100米賽道上，他比你早跑2秒，你不可能超過。你唯一的機會就是跑另外一條路徑。

在這個思路的指引下，我們開始看其他技術路線。就是扔掉所有以前的架構依賴，回到本質，從第一性原理看AI計算本身還有什么機會。我在讀研究生時，我導師高光榮教授是數據流架構的奠基人之一，他在MIT時就做這個事。當然在通用計算時代并不成功。我們發現他的思想本質是：你要做的是計算，馮·諾依曼架構相當于幫人類做一個中介去實現計算，中間有翻譯層，這個翻譯幫助人類更好地去編程，但這個中介和翻譯會降低效率。如果回到計算的本質，可以把中間的翻譯拿掉。當然的確很少有企業做過實踐，中國也是如此。所以大家看到的機會都是一樣的，關鍵是如何極致地解決這個問題，從第一性原理來倒推。我們四年前定了這樣的目標，并且覺得是可行的。

關于組織協作。為什么垂直整合比較重要？因為要做到這一點，只有硬件團隊不夠，還必須有模型團隊。我們設計芯片時，軟件團隊、模型團隊坐在一起分析。可能跟其他公司不一樣，我們是這幾個團隊坐在一起，而且大家比較興奮——之前很多做軟件的人根本沒有機會直接對硬件團隊提需求。

在組織上，我們希望以某一個核心的、有挑戰的目標為中心，圍繞它構建項目團隊。實際團隊是分開的，但像一團篝火一樣，有硬件的人、有軟件的人、有模型的人，大家在大目標下一起共創、一起實現。我們內部越來越多的項目會往這個方向走。它不是一個硬的組織隔離，而是一種軟的合作機制。

Q：自研芯片背后需要什么條件？比如銷量、營收、研發投入。目前自動駕駛迭代速度很快，芯片要持續迭代的話，需要什么樣的條件？

謝炎：如果你的業務需要自研核心技術，比如芯片，先期投入的確不小，可能一年要好幾億。

第一個條件是達到一定的營收規模。對車企來說，營收規模一年1000億以上，研發投入至少10%，就有大幾十億到上百億，每年投錢研發芯片是可以的。

第二個條件是，你研發芯片解決的問題，要能讓你的產品能力更強。回到十年前，一些房地產公司也做高科技，問題是它投入的高科技對主營業務幫助非常小。比如我是房地產公司去投芯片，這個意義不大，芯片對賣房子沒幫助，對未來也沒幫助，更多是象征意義，而沒有實際意義。

這里有個誤區，很多人說芯片要有很大的出貨規模才行。其實芯片的成本和面積相關。一輛車上的智駕芯片，比如Livis是2顆馬赫M100，加起來800平方毫米。而一部高端手機芯片大概100平方毫米，所以一輛車的智駕芯片相當于8臺手機的芯片面積。你會說車的量比較少，但成本不僅僅跟數量有關，也跟面積有關。這樣算下來，大幾十萬輛車需要的晶圓面積非常大，完全可以攤薄成本。所以成本不能僅用顆數來衡量。有的IT公司說一年出貨好幾億顆，但其實每顆面積非常小。不能脫離背景只談量，這是不完整的。

我們在馬赫M100立項時算過，做這個芯片不會讓公司的效益變差，而是會變好。我們不是為了證明自己能做而做，不僅性能要做到最好，在成本上也要幫助公司省錢。

Q：昨天理想說是全世界性能最強的AI芯片，引起了很大的討論，小鵬、蔚來、比亞迪都說自己很領先。跟這些友商相比，理想的領先性體現在哪些方面，或者被市場低估了哪些方面？

謝炎：我們為什么敢說自己是世界第一呢？因為我們跟市面上標準可以獲得的芯片做對比，它是英偉達Thor-U三倍的性能。我們可以拿出Benchmark（基準測試），甚至可以讓第三方做測試。我們也跟一個第三方測試機構聊過，測試機構說其它家都不愿意拿出來做比較。如果要公平地比較，可以拿到一個公平、綜合的Benchmark去做合適的比較。

對于上車時間我們已經做得很快了。做芯片基本要5年時間，而我們基本快4年年時間就上車，而且把所有模型都跑起來，這已經很快了。

至于在過程中遇到的困難，肯定是有的。軟件、編譯、模型適配，這都是有很多困難在里面，而且這些坑只有你做了才知道。昨天有些同行說，看了我們的論文以后，說你們把論文寫得那么詳細，別人家拿你的論文是不是就可以復刻。但我們不擔心，因為把這個架構要落地是非常長的距離，而且中間有很多坑，只有真正做才知道，才能邁過去，邁不過去，就停在那兒了。

Q：現在的大算力芯片方案，比如英偉達、小鵬、理想自研的這些，都沒有做芯片級的艙駕融合，反倒是高通在低算力的驍龍8650上做了這件事，這是為什么？

謝炎：從本質上講，艙和駕是兩個獨立系統。特別是對高端的L3往L4走，智駕需要一個更高確定性的系統，內存是專屬、計算資源是專屬，這時融合的意義就小了很多。因為資源不能實時切換，實時切換會降低確定性。如果變成越來越獨占的方向，融合的價值就不大了——你只是把芯片拼在一起，但資源還是兩份，并不會帶來成本的降低，甚至會影響效率。

對低端來說，L2對切換的實時性要求不高，有一部分確實可以有限地共享，但我認為也不多，未來會證明這一點，因為今天只是個概念。

我認為真正的艙駕融合是艙需要的資源和駕需要的資源在物理上完全是一塊，可以動態共享。不是形式上放在一起，但實際切成兩半，這不叫融合。融合就像你的筆記本跑瀏覽器和其他應用程序，筆記本的內存完全可以共用，一會兒跑這個，一會兒跑那個。你看現在那些艙駕融合系統，它肯定還是分開的，今天做不到一會兒跑這個一會兒跑那個。如果做到的話，融合的價值確實很大，但做不到的話，只是減少一定的成本——因為把兩個芯片放成一個芯片，晶體管數目也許不變，只是省了一次封裝的成本。對中低端芯片來說這部分錢可以省，但也省不了太多。我的觀點是，越往后走智駕越來越高端，艙駕融合這件事可能意義并不大。

Q：馬赫VLA，我理解這是一套技術體系而不是一個單獨的模型。比如Mind-Edge是端側的、服務于智能座艙的模型。現在的智能駕駛模型中還有“L”的部分嗎？

詹錕：現在自動駕駛的架構，只要往后面走，大家都會有一個共同的趨勢，就是把VLA（視覺-語言-行為模型）和World Model（世界模型）整合在一起。從長遠來看，沒有誰不往這個方向走。而且你說的Language問題，無論做VLA還是World Model，里面的Prompt（提示）都要用Language。所以一定有Language，只是Language怎么用的問題。

我覺得更本質的問題是馬赫VLA到底是Language Based Model還是Vision Based Model？昨天說的機器智能和語言智能，我覺得這兩個可能正好是兩個不同方向的base。機器智能來說，我覺得Vision Based（基于視覺）是更合理的，它是對空間理解、對3D空間的感知、對環境服務是更合理的。Language肯定有用，對理解環境、理解交通、理解指導、理解復雜的思考決策都是有價值的。馬斯克一直在說要把Reasoning（推理）上車，雖然還沒上，但大家都在往這方向做，而且Language一直是我們很重要的一個中間監督項。

但對于語言智能來說，Language Based（基于語言）永遠是最好的，沒有哪個語言智能是用Vision Based的。但要不要Vision（視覺）？那必須要，否則怎么能看到車內你拿了手機、拿了電腦呢？所以這個問題就是你以哪個為base。從長遠來看，基于Vision和Language原生的基礎模型，可能是長遠的未來趨勢。

Q：基座模型怎么從車擴展到其他終端？它的瓶頸是數據、運控，還是模型本身的范式？所以能不能真正統一車和機器人這兩種不同的終端形態？

詹錕：我認為這個gap（差距）很大。切換到機器人的導航沒問題，但如果切換到操作上，模型不是那么一樣。或者說Foundation（基座）只是一個非常基本的，它后面一定是千差萬別，這一點要確認。

車里面包含了Language語言智能，這直接遷移到機器人的概率是非常大的——交互、思考、長程規劃。DeepMind Robotics團隊有個ER模型（Gemini Robotics-ER），就是來自Gemini的，把語言思考上的能力從通用場景遷移到機器人上。

我們把物理機器人分成三個關鍵任務。一是具身交互，我們跟它溝通、交流、思考，讓它做任務規劃。二是移動，自動駕駛能不能從A點到B點，無碰撞、安全、高效地到達目的地。三是操作，狹義的具身，是一個獨立任務，是開放性場景，業界很多人都在探索，包括硬件、數據都是不完善的。這三個任務任意的組合，都會形成非常有價值的商業模式與價值形態。

這是我們的想法，我們的車有機會把這三點都涵蓋。涵蓋以后，我們想長成任何一個物理的具身本體都有非常大的機會。你說我們有沒有共同基座？我們肯定有云端的共同基座。但這個基座是不是放在任何任務上就能直接用？我覺得比較難。

但它作為基座，提供海量的數據支持、訓練環境，能提供Foundation Model（基座模型）的baseline（基線），幫助你快速做下個任務的收斂，這是很有幫助的。所以這也是我們成立基座模型團隊的原因，我們會有基座來支撐各個業務，但每個業務有自己的特點。

Q：3DViT我們大概是什么時候開始研發這個技術路徑的？3DViT目前能達到跟激光雷達一樣的效果嗎？

詹錕：3DViT來自于去年的CVPR的論文VGGT（VGGT: Visual Geometry Grounded Transformer），這證明了2D視覺也能學會完整的3D空間結構，證明了Scaling Law在3D空間的全新可行性。

第二，之前團隊一直在往這方面探索和嘗試，中間做了很多方案的取舍和權衡。最后因為我們看到3D ViT對空間深度的理解、物體精細度的理解能達到激光雷達級別的效果，我們去年才正式從研究探索階段轉入產品開發階段。在這個過程中，我們把它變成一個真實項目，放到最新的馬赫VLA里面來。原來馬赫VLA不一定使用3D ViT，但有了會更好。3D ViT后續還有更大的改進與優化空間，這也是追上FSD V14很重要的一環，中間的視覺信息能不能表征清楚，這是非常關鍵的。

3D ViT是一個純視覺方案，它不依賴于激光雷達。它基于視覺，把空間建模成帶有色彩信息的全彩點云，基于更強的視覺編碼器和空間視覺表征，做到更豐富的3D理解。

關于幀率和激光雷達效果，這其實是兩個問題。高幀率主要是提高反應速度，因為激光雷達幀率有限，只有10Hz，視覺能做到30Hz甚至更高，我們基于視覺能做到更高的反應速度。

能不能達到激光雷達的效果？我們是有信心的。因為我們最新所有的車都標配了激光雷達，激光雷達對純視覺方案有非常強的監督和校驗作用。一定要達到跟激光雷達完全一樣的精度嗎？不一定。特別是看遠處時，人也分不清大貨車是20.8米還是19.8米。但在極近處，人對深度的感知非常敏感，我們也是如此，在極近處能達到激光雷達的水平，這是上線的標準。另外，理解空間以后更重要的是做出更擬人的行為決策。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.