網易首頁 > 網易號 > 正文申請入駐

32問理想AI轉型：從輔助駕駛、自研芯片到具身智能，高管集中回應外界質疑

2026-06-18 20:22:19　來源: 車東西

北京舉報

分享至

車東西（公眾號：chedongxi）
作者｜國仁、頤圣
編輯｜志豪

車東西6月18日消息，在日前舉行的Livis Day理想汽車軟件與具身智能發布會上，理想汽車正式發布了圍繞軟件、AI芯片、基座模型和具身智能的一系列技術進展。

理想汽車介紹了自研AI推理芯片馬赫M100 Ultra、馬赫 VLA、3D ViT、馬赫Mind等核心能力，并進一步闡釋了其從電動車向“具身智能汽車”演進的技術路徑。

發布會后，理想汽車CTO謝炎、理想汽車基座模型負責人詹錕接受了包括車東西在內的媒體采訪。

▲理想汽車CTO謝炎

兩位高管圍繞L9 Livis上市后的輔助駕駛體驗反饋、理想追趕特斯拉FSD V14的路徑、自研芯片馬赫M100的架構和量產挑戰、車內AI算力中心、艙駕融合、基座模型以及具身智能汽車等話題進行了詳細回應。

▲理想汽車基座模型負責人詹錕

車東西在不改變原意的情況下進行了部分編輯，以下為采訪實錄：

一、用戶體驗關怎么過？正視與FSD差距、苦練輔助駕駛基本功

1、（車東西總編張國仁提問）L9 Livis上市后，有不少用戶反饋智駕變道和加速度不夠積極。請問這主要是什么因素影響？芯片和平臺遷移后，怎么才能恢復并超越此前的體驗水平？要達到特斯拉FSD V14的效果，我們還需要做哪些工作？

謝炎：其實（輔助駕駛）的整體能力，內部評分比之前高很多，這個模型現在的上限非常高，變道切換非常類人。您講到加速度，后續版本就會改進。這不是真正難的問題，真正難的問題是要擴大模型的感知與認知能力的上限。

看這個版本的模型在很短時間內，已經達到了量產水平。很多公司都是先發芯片，再花一段時間適配上車。我們不僅提供了高階的智駕、城市NOA（城區領航輔助駕駛），而且比上一版本能力強很多。當前版本在特別小的路上開，能夠繞開所有的車，在非常窄的3米路況上也可以通行。

詹錕：我承認當前版本有一些特性，不一定那么討好。“慢”這個反饋，實際上是我們這個版本的選擇，這不是一個難的事情，只是風格的選擇。我相信你能感受到它的舒適性非常好，包括加減速、平順度比之前高很多，這一代確實比上一代好不少。

真正的難題是能不能追上FSD，我認為追上FSD有兩個層面。

第一是基礎體驗，具體是三方面：安全感、效率、舒適度是否能達到FSD的同等水平。相信大家如果開過FSD，它的安全感非常足，效率很好，舒適度很好，這是它的基本功。我不一定跑很難的路，但這些基本功可以達到這個水平。

第二是能力，這一點也很難追。FSD有哪些能力是別人沒有的？比如特斯拉會禮讓特殊車輛，有極窄通行時的感知精準度，它會識別交警指揮，這些能力非常強。

如果我們能做到這兩項，就能追上FSD。在基礎體驗上，這需要非常好的評價體系。我們希望從自己的測試團隊和產品團隊開始，跟用戶和媒體一起想，怎么去評價我們的模型——它的安全感、舒適和效率怎么平衡。這里有很多方法，我們很有信心可以追上FSD V14的水平。再加上我們芯片性能還沒完全釋放，我們可以效率更高、反應更快，所以這個問題不大。

第二個關于能力，這里有架構升級的機會。為什么別人沒有、只有特斯拉有？這里有我們的一些思考。我們會去做這樣的改進，把這些能力提升上來。大家想想，這些能力是怎么來的？為什么別人沒有？可能是以前的范式限制了這些能力，有架構的原因，有數據的原因。它怎么就能找到這么多倒車數據？這是采集的還是合成的？怎么把這些坑坑洼洼的信息傳回去？這在架構上有很好的設計。我們在這個層面做了很多嘗試，目前也有一些初步的實踐結果。如果這兩個方面能追上FSD V14，就是一個很厲害的結果。

2、數據是這個時代最寶貴的資產。隨著理想車隊規模的躍升，從理想內部來看，數據的邊際效應是不是出現了衰減？我們是怎么定義價值數據的？

詹錕：現在大家對于自動駕駛來說，數據的理解逐漸收斂了。

第一，數據的量要足夠大，數據量足夠大的本質是希望收集到更多的Corner Case（長尾場景）。從Normal Case來看，現在的供應商都已經可以采集了，找個幾百人的車隊就可以去采，Normal Case是足夠的。但是采集Corner Case非常難，必須要足夠大的車隊才行。

基數大，但不是說把所有數據都傳回來，這沒有意義。現在大家有很多方法在車端做出很好的neural trigger（神經網絡觸發器），來判斷這個場景是難場景還是簡單場景，然后把這些關鍵數據傳回來。這也是現在特斯拉很強的重要原因之一。

對我們來說，我們現在規模已經很大了，主要來源于我們很早就做了很好的基建統一。我們從理想ONE（參數丨圖片）開始就可以回傳數據了。但從理想L9開始，是全棧所有數據回傳。現在到了Livis具身智能更強了，現在回傳的數據可以理解為達到了L4自動駕駛的公司采集車隊的數據質量，360°點云和攝像頭數據做了精準的對齊，這些數據給了我們長尾收斂、思考問題的機會。

第二點，質量要高，主要指行為質量高。現在大家逐漸收斂到端到端的范式，無論做VLA（視覺-語言-行為模型）、World Model（世界模型）還是Vision-Action（視覺-動作模型）都可以，但是一定得知道Action的行為，這時候行為質量就非常重要，行為的干凈程度、一致性很重要。這對于使用眾包車隊的公司來說很有挑戰。

因為每個人的開車習慣不一樣，怎么在這么多的眾包用戶中找到一致行。這是我們努力做的事，而且也看到了很多機會點。這相比于采集車隊來說，難度就在這里。采集車隊的眾包行為沒那么好控制，但我通過算法可以迅速把好的行為留下來，壞的行為去掉。比如每次過紅綠燈時，是不是穩定的加速度；遇到丁字路口時，能否穩定減速；每次超車時是否合理變道，這些都需要清晰的判斷。

正因為我們有很大的車隊，所以可以篩選出很多高質量的用戶行為和用戶數據。我們用后面的方法來篩選，就簡單很多。因為他在發起行為時，我不確定他的行為好不好。但他開完以后，通過看他的后車距離、變道幅度和角度，就知道是否合理。所以我通過后面完整的數據來看，就可以知道他的每一個行為是不是合理。這對于我們來說非常重要，也是我們現在投入最大力度做的事情。

現在數據規模上去以后的邊際效應有沒有衰減？首先，模型能力要朝著100分去努力，而這一定是個“對數曲線”，是慢慢衰減的，不可能線性增長。但是我們的數據質量，能隨著車隊規模的增大而增長，其實也在抵抗這個對數，我們有更多的機會采集到我們想要的數據。雖然確實越往后面，數據收斂的作用就沒那么快了，但我們也希望通過規模，把它的速度加起來。

3、前年有一個共識，理想、華為、小鵬處于自動駕駛的第一梯隊。接下來VLA、世界模型、數據驅動，大家投入了很大的數據、算力和資金。大家認為隨著時間延長，各家的能力差距會越來越大。但從最近的表現來看，差距反而在縮小，自動駕駛的Scaling Law似乎沒有起來。接下來理想要拉大差距的話，會做什么事？

詹錕：一年前到現在，智駕格局確實發生了變化，感覺差距變小了。但從另一個角度看，從一年前到現在，很多玩家已經不在了，現在至少智駕的玩家收斂了。

有幾個原因。一是智駕是重投入，它不是把一個公司的算法帶到另一個公司就能轉起來，它是一個系統，涉及到系統、人、技術、算力、平臺，這是很大的壁壘，無法在短期內建起來。

為什么感覺第一梯隊差距沒拉大？這里要思考，我們如何建立護城河，靠什么能讓別人無法快速追上。我認為要參考特斯拉。

第一，全棧才能建立真正的護城河。算力、芯片、基礎設施能不能完全統一在自己的可控范圍內，這很重要。如果只是算法，中美之間的人才流動很快，很容易被遷移。但如果整套技術是全棧的，遷移成本很高，也很難。

第二，下苦功夫。（也就是）愿不愿意把精力投入到苦功夫上，是護城河。哪些是苦功夫？比如精細地洗數據。這里有很多細節，這些細節并不高大上，但這些一點一滴的細節才能形成護城河。我們也會在這方面持續加大投入，逐步把護城河建起來。現在已經有全棧自研的機會了，我們會加大投入，把這些苦功夫做下來。

雖然第一梯隊之間的差距感覺變小了，但大家跟特斯拉的距離并沒有縮小，特斯拉還是很強。如果我們完成年底追上特斯拉的計劃，是有機會脫穎而出的，也是我們一直想做的事情。

4、昨天介紹的馬赫VLA，我理解這是一套技術體系而不是一個單獨的模型，現在的智能駕駛模型中還有“L”（Language語言）的部分嗎？

詹錕：現在自動駕駛的架構，只要往后面走，大家都會有一個共同的趨勢，就是把VLA（視覺-語言-行為模型）和World Model（世界模型）整合在一起。從長遠來看，沒有誰不往這個方向走。而且Language問題，無論做VLA還是World Model，里面的Prompt（提示）都要用Language。所以肯定有Language，只是Language怎么用的問題。

我覺得更本質的問題是馬赫VLA到底是Language Based Model還是Vision Based Model？昨天說的機器智能和語言智能，我覺得這兩個可能正好是兩個不同方向的base。機器智能來說，我覺得Vision Based（基于視覺）是更合理的，它是對空間理解、對3D空間的感知、對環境服務是更合理的。Language肯定有用，對理解環境、理解交通、理解指導、理解復雜的思考決策都是有價值的。馬斯克一直在說要把Reasoning（推理）上車，雖然還沒上，但大家都在往這方向做，而且Language一直是我們很重要的一個中間監督項。

但對于語言智能來說，Language Based（基于語言）永遠是最好的，沒有哪個語言智能是用Vision Based的。但要不要Vision（視覺）？那必須要，否則怎么能看到車內人的動作呢？從長遠來看，基于Vision和Language原生的基礎模型，可能是長遠的未來趨勢。

謝炎：我再補充一下。大家問Language的問題比較多，回歸到本質，這都是方法。如果要走向L3、L4，要解決更泛化的問題時，模型需要具備像人類一樣的思考能力。

如果它只有Vision和Action（視覺和動作），它有很多數據，碰到分布以外的情況就會不知道怎么辦。比如出現一頭鴕鳥和一頭大象時，應該怎么處理？如果是鴕鳥，碰一下沒事；如果碰到大象，碰一下可能就會翻車。這只能通過大量的數據，給它幾十億公里的數據。

而一個動物，哪怕學會了所有常見情況，碰到這種從未見過的情況完全不會處理，它不知道做什么選擇是對的。

我們認為越往L3、L4走，解決的問題越來越接近90%、95%、98%之后的問題——這些從來沒見過的問題，需要模型具備像人類一樣思考的能力。而得到像人一樣推理和思考能力的來源是語言模型。

人和動物的最大區別，是人以語言作為符號進行高層次的思考，這些能力來自于語言，而不是來自于視覺。我們認為越往后走，語言的重要性會越突出，這也是未來需要很大算力的原因。因為如果只有Vision-Action，算力到了一定程度就夠了。但如果要往后走，模型需要理解各種場景，比如有個警察在做手勢，系統要理解他是在讓你做什么，這不是靠收集數據或生成數據就能解決的問題。

5、今年理想新做的3DViT技術，之前的智駕感知是先做BEV，先拍圖，后面再做OCC立起來，再到3DViT，更接近于人類的感知。倒著看有點像彎路，為什么會走這個彎路？什么條件達成了，到了今天的地步，以后會不會有新的方向進展？

詹錕：我認為這不叫技術的彎路。無論是做模型還是三維空間建模，我們把OCC定義為空間建模，這些思想都來自于上世紀。CNN（卷積神經網絡）是80年代的東西，只不過2012年GPU發展時才爆發。LSTM（長短期記憶網絡）也是1997的東西，到了2010年才逐漸應用。Transformer也是如此，稠密計算很早就有了，但之前沒有爆發。本質原因是思想要隨著當前的基礎設施、硬件、算力統籌升級，不是說有一個想法就能直接用起來。所以技術迭代會一直跟隨當前的環境、硬件、任務需要在變。

從自動駕駛來說，2022年特斯拉在發布會上講BEV方案，方案也不是新的，只是基于它的強大算力，在特征級把場景做融合，這是大家沒有想到的。那會兒由于算力就那么大，不能做很深的稠密高度估計，只能變成單層或者采樣很稀疏的BEV。到了OCC階段，是把稀疏變密，這是算力或硬件的一次升級帶來的東西。

3DViT是什么？可以理解為基于3DGS（三維高斯濺射）或全新稠密三維空間的新的三維表示。從2025年到2026年，CVPR（計算機視覺與模式識別會議）的Best Paper都是這個領域。去年的論文是劍橋大學老師做的，基于圖像直接投射出三維空間，直接預測三維深度。2026年的CVPR是DeepMind基于傳感器把三維空間動靜分離。所以我們未來三年內，就是基于這個路徑做。我們把大家之前認為的柵格化、需要人類表征的東西，變成不用表征。OCC先不定義類別，任何物體和任何元素我都可以投射三維空間，它有外觀、RGB、紋理、屬性。這樣的建模方式需要隨著下一代的算力增加才能做到。

它不是繞彎路，而是思想隨著條件的成熟才能用起來。隨著大家相信Scaling Law（規模定律），把模型規模和參數規模越提越高，讓這些思考發揮越來越大的作用。如果算力不夠用，規模不夠，想法再好也實現不了效果。

謝炎：我補充一下。高科技技術產品的商業化落地是一步一步的。比如特斯拉早期沒有Mobileye，就沒有今天的FSD，它不可能做到今天這種程度。今天來看，有人會說Mobileye的方法太古老了，為什么它不能一下子做到今天的端到端呢？因為當時的條件完全不具備。而條件完全不具備時去做，不能完全落地，也不能商業化。所以肯定先從Mobileye的技術棧開始，再到FSD的第一代，再不斷完善。它在2021年有很多規則，現在規則越來越少。商業化是一步一步做的，大家認為有好的想法就應該一步到位，這不太現實。

6、3DViT我們大概是什么時候開始研發這個技術路徑的？3DViT目前能達到跟激光雷達一樣的效果嗎？

詹錕：3DViT來自于去年的CVPR的論文VGGT（VGGT: Visual Geometry Grounded Transformer），這證明了2D視覺也能學會完整的3D空間結構，證明了Scaling Law在3D空間的全新可行性。

第二，之前團隊一直在往這方面探索和嘗試，中間做了很多方案的取舍和權衡。最后因為我們看到3D ViT對空間深度的理解、物體精細度的理解能達到激光雷達級別的效果，我們去年才正式從研究探索階段轉入產品開發階段。在這個過程中，我們把它變成一個真實項目，放到最新的馬赫VLA里面來。原來馬赫VLA不一定使用3D ViT，但有了會更好。3D ViT后續還有更大的改進與優化空間，這也是追上FSD V14很重要的一環，中間的視覺信息能不能表征清楚，這是非常關鍵的。

3D ViT是一個純視覺方案，它不依賴于激光雷達。它基于視覺，把空間建模成帶有色彩信息的全彩點云，基于更強的視覺編碼器和空間視覺表征，做到更豐富的3D理解。

關于幀率和激光雷達效果，這其實是兩個問題。高幀率主要是提高反應速度，因為激光雷達幀率有限，只有10Hz，視覺能做到30Hz甚至更高，我們基于視覺能做到更高的反應速度。

能不能達到激光雷達的效果？我們是有信心的。因為我們最新所有的車都標配了激光雷達，激光雷達對純視覺方案有非常強的監督和校驗作用。不一定要達到跟激光雷達完全一樣的精度嗎？特別是看遠處時，人也分不清大貨車是20.8米還是19.8米。但在極近處，人對深度的感知非常敏感，我們也是如此，在極近處能達到激光雷達的水平，這是上線的標準。另外，理解空間以后更重要的是做出更擬人的行為決策。

7、3DViT先開始是基于Thor芯片，然后是過來才融合的馬赫M100？

詹錕：3D ViT一開始就是在馬赫M100做的驗證，不是從Thor遷移過來的。

8、3DViT能識別近處物體。在融合了3DViT，它以后會對低矮物體進行識別嗎？

詹錕：低矮物體的識別涉及兩方面：一是能不能識別，二是識別精度多高。近處物體的數據精度一定更高，通過激光雷達采集回來做監督，可以很好地提升識別精度。另外，其實不只是能不能識別的問題，更關鍵的是識別后能不能做出合理的避讓動作，這是個綜合問題，不但要能理解，理解后還要做出合理的行動。在最新的馬赫VLA里，這方面會做得更好，昨天發布會上也展示了很多VLA在復雜場景下的避讓案例。

9、第一，關于3D ViT，3D結構對人來說很直觀，但對模型來說完全不直觀，3D ViT對智駕行為的改善，具體體現在哪些方面？第二，昨天發布會上提到強化學習數據提升了15倍，在馬赫M100平臺上，具體會在哪些場景去做強化學習？

詹錕：先說第一個問題。人眼有兩個非常重要的特性：第一是實時雙目，雙目天然就帶了3D結構，這一點很厲害；第二是前額葉很強，能抽取非常高維特征的表征。做深度學習本質上是在做表征學習，就是把信息映射到高維空間的特征，這個特征長什么樣子我們沒法直觀描述，但它要包含所有下游想要的信息，這是大腦在做的事。

人的雙眼時刻去觀察3D物理空間以后，大腦中整個物理空間會有很強烈的3D感。但是攝像頭，特別是單目攝像頭，天然是沒有3D感的。人眼如果遮住一只，當習慣了雙眼訓練以后，單目也能看到3D結構，因為前額葉已經把這種能力固化下來了。

對機器來說也是這個思路：用很高維的3D空間數據去訓練它。即便攝像頭在移動中，也能構建出三維空間，這就是典型的3D建模思路。任何一段視頻進來，通過三維建模構建出三維空間，任何一個單目攝像頭就可以知道三維空間是什么樣，跟人的思路一模一樣。通過這種方式，3D ViT就可以深刻理解3D環境。

補充一點，激光雷達也能理解3D環境，它是主動光。但3D ViT的特點是，除了理解環境的3D結構外，還能理解3D物體的屬性、紋理、類型，因為它有RGB（色彩信息），保留了所有信息。甚至還能做tracking（目標追蹤），就是對移動物體做動靜分離，在3D環境中很容易判斷目標是動還是不動，這就是光流的作用。把這些能力結合以后，高維的視覺表征就非常豐富，不會有遺漏。比如地面有個坑和溝，就很容易識別出來。

如果我拿BEV來表達的話，我沒有定義什么是溝和坑，對下游決策來說就缺少了這個信息，這就叫高維表征的缺失。所以只有解決了這個問題，才能給下游提供更完整的信息，下游才能根據這些表征做出正確的動作。

以前大家熟知的“The Bitter Lesson”（苦澀的教訓），是指機器不要加任何人為先驗，用數據訓練，一定做得比人更好。現在最新的理念是“Vision Bitter Lesson”（視覺苦澀教訓），就是怎么判斷視覺表征好不好？看有沒有做出對應的動作。

我們通過構建一個非常好的三維空間表征標準，讓下游把動作真正理解好，這樣視覺能力就得到了充分的展現。

第二個問題，強化學習。強化學習最重要的是決策和行為的聯合優化。現在所有訓練范式中，強化學習都是post-training（后訓練）階段的一部分，主要針對訓練中的弱勢場景、數據分布不好的場景、或者混淆度高的場景。這需要有很精細的拆分方法，把這些場景識別出來后，讓模型在里面自主探索，通過reward（獎勵信號）給它反饋探索的結果對不對，對決策和行為做聯合強化。具體場景非常多，比如繞行、變道等，都是通過這套方法論，找到post-training中的弱勢場景來做強化，不是一概而論的。

二、馬赫M100已量產上車架構、編譯器和持續迭代是難點

10、昨天看到馬赫M100推出來很驚喜，您四年前看到了什么、堅持了什么？當時整個行業都還在馮·諾依曼架構的路徑依賴中，您當時看到了什么需求和變化？

第二，您昨天提到整個鏈條要從頭到尾全部變短才是真正的全棧優化，背后的組織是怎么實現的？從產品到技術到組織，您作為CTO是如何重構協作體系的？

謝炎：四年前，我們給自己立了一個很高的目標，這個目標也是一個非常合理的目標——就是自研。我們為什么要自研？我和李想有一個非常一致的意見：自研不是為了證明自己有能力做，而是真正去解決問題。

四年前我們看到的問題：一是算力成本非常高，而且會不斷變高，因為車內需要越來越多的AI算力。二是我們希望通過自研做得更好。當時我們用英偉達和地平線，我們給自己定的目標是，如果做不到比外購芯片更好，那做的意義不大。當時定的目標是4倍Orin的性能。

當然這個目標不是瞎定的，我們花了半年時間進行分析。如果要達到這個目標，背后有一套邏輯——要做得比英偉達更好，用英偉達的技術路線是不可行的。因為英偉達早啟動幾十年，積累深，資源還多幾個數量級。就像跟博爾特在100米賽道上，他比你早跑2秒，那你不可能超過，唯一的機會就是跑另外一條路徑。

在這個思路的指引下，我們開始看其他技術路線。就是扔掉所有以前的架構依賴，回到本質，從第一性原理看AI計算本身還有什么機會。我在讀研究生時，我導師高光榮教授是數據流架構的奠基人之一，他在MIT時就做這個事。當然在通用計算時代并不成功。我們發現他的思想本質是：要做的是計算，馮·諾依曼架構相當于幫人類做一個中介去實現計算，中間有翻譯層，這個翻譯幫助人類更好地去編程，但這個中介和翻譯會降低效率。如果回到計算的本質，可以把中間的翻譯拿掉。當然的確很少有企業做過實踐，中國也是如此。所以大家看到的機會都是一樣的，關鍵是如何極致地解決這個問題，從第一性原理來倒推。我們四年前定了這樣的目標，并且覺得是可行的。

關于組織協作。為什么垂直整合比較重要？因為要做到這一點，只有硬件團隊不夠，還必須有模型團隊。我們設計芯片時，軟件團隊、模型團隊坐在一起分析。可能跟其他公司不一樣，我們是這幾個團隊坐在一起，而且大家比較興奮——之前很多做軟件的人根本沒有機會直接對硬件團隊提需求。

在組織上，我們希望以某一個核心的、有挑戰的目標為中心，圍繞它構建項目團隊。實際團隊是分開的，但像一團篝火一樣，有硬件的人、有軟件的人、有模型的人，大家在大目標下一起共創、一起實現。我們內部越來越多的項目會往這個方向走。它不是一個硬的組織隔離，而是一種軟的合作機制。

11、第一，馬赫M100是否因為沒設計PCIe接口，導致對自動駕駛來說兩顆芯片協同用處不大？額外一顆芯片的核心用處是什么？第二，馬赫M100是不是對帶寬需求不，對片上存儲需求更高？第三，兩位老師怎么看一些人覺得“理想太喜歡類比是因為技術判斷力不足”這個觀點？

謝炎：我認為未來智駕需要更多的算力。回到2022年我們設計芯片時的目標，它的性能是當時最好芯片的4倍，我們覺得夠了。PCIe控制器本身也占一些面積和成本，所以就沒有加，覺得四年以后怎么也夠了。某種程度來說，我認為加上會更好，因為有可能未來智駕需要更多的算力。但沒有PCIe不代表這個芯片不行，其實是完全可行的。

可以想象當未來的智駕能力更強時，也許不是幾年，也許是兩年后，需求就不一樣了，這也是我們設計未來芯片時會考慮到的點。

按照昨天發布的場景，今天有一些云端的大模型最終要落到本地，特別是跟艙內視覺相關的。很多人會敏感，覺得艙內攝像頭把車內信息都上傳到云端不安全，所以這些信息應該在本地處理。比如在地庫跟一輛車像跟機器人一樣交流，而地庫沒有信號，所以需要很強的本地大模型，幾B到幾十B的模型。所以會有另外一顆芯片，更好地承擔這部分工作。

關于第二個問題，我們對帶寬的要求會低，但這也并不是設計SRAM容量（不是顯存）的直接原因。現在HBM（高帶寬內存）很火，很多人覺得帶寬越高越好。計算，帶寬，SRAM等等都是需要晶體管代價來實現，最終的設計都是成本/綜合性能等多方面的綜合設計考量后的一種選擇。不同的架構設計，僅僅靠一兩個指標來做簡單對比，既不合理也不專業。這就像打拳擊比賽，高有高的優勢，體重大有體重大的優勢，但不是由單一指標決定了勝負，最終比的是拳擊這個運動的結果。泰森，既不是最高也不是最重的，卻是拳擊最強的那一個。

M100 通過編譯器顯式編排數據搬運與計算時序，絕大多數張量數據在片上流動完成算子運算與中間結果傳遞，大幅減少了對于直接進出 DDR 的訪存次數，因此對外部 DDR 帶寬依賴更低。

關于第三個問題。我在內部也希望給大家做類比，因為類比是幫助大家理解，只有理解的比較深，才能做出合適的類比。類比不等于我們不知道背后的原因，相反，我們希望通過類比把復雜的原理講得更清楚。大家如果關注理想汽車的技術，會發現無論是在芯片還是智駕領域，我們都有大量公開的技術論文。每年我們都會發表幾十篇頂會論文，覆蓋從模型、系統到芯片的完整技術鏈路，而且這些論文對技術思考和實現路徑都有比較清晰的闡述。

如果大家感興趣，可以去看一下我們的論文，會看到我們背后的技術思考到底是什么。所以我們的類比并不是憑空產生的，也不是為了包裝概念，而是建立在真實技術原理之上的。一個有技術根基、有原理支撐的類比，才是有效的類比。

詹錕：關于類比的問題，我來補充一下。類比有兩種。

第一種是幫助對外宣傳和溝通，幫助大家理解。類比成人、類比成大腦，這是為了幫助大家更好地理解技術。

第二種類比，大家也要關注。從第一性原理出發，我們在思考為什么要造未來的硅基人或具身智能，這個類比是從第一性原理看到的，而不是生硬地從技術上對應到一個簡單的事物。其實技術思考很深刻，我們有很多深入的工作、精細的工作在做。從2022年到現在，我們發了近200篇論文或技術報告，這個數量非常多。雖然不是所有頂會都有中稿的文章，但投稿的文章更是不知道有多少篇了，我們在這方面有非常深的研究。

類比只是為了幫助大家理解，深入淺出地做一些說明而已。但其實技術思考是很深入的，并不是簡單類比一個簡單的事物。

12、看了芯片設計的架構之后，理想的核心思路是針對很多場景做特定的優化與加速。如果未來同時引入了大量的Agent應用，這套架構能不能很好地應對Agent爆發式的流量？模型的通用性是一方面，帶寬和并行能力能不能應對Agent的爆發？

謝炎：您可能想問它的通用性問題。我們芯片第一個重要的業務毫無疑問是自動駕駛，但我們沒有做成只能跑一個模型。它的數據流可以跑任何模型算子，不僅可以跑自動駕駛，也可以跑語言模型，昨天我介紹了我們能跑Qwen 35B（通義千問350億參數模型）。

我們是個端側芯片。作為端側芯片，它的服務query（請求）不會很多。如果我們設計一個云端芯片，是同時服務1000個用戶。但端側芯片的要求不一樣，它服務的對象往往只有一兩個任務，它要求的是更短的延時，而不是服務更多的對象。如果是云端芯片，架構還是數據流，但設計和端側芯片就不一樣了。

13、馬赫M100芯片對編譯器的要求非常高，編譯任務非常重。跟傳統編譯器相比，有什么不一樣？做這個編譯器對人才的要求有什么不一樣？未來芯片的競爭會不會變成對新型編譯器人才的競爭？

謝炎：我自己在研究生時代就做編譯器。像通用CPU的編譯器，其實也很難。一直以來，編譯器就不是一個容易的事，如果學計算機會知道編譯器是計算機里最難的課，比操作系統還難。

數據流和傳統的馮諾伊曼架構不同。馮諾伊曼架構是為了適應人類的思考，把計算抽象成順序的指令，這樣人可以一步步做推理。而數據流是大規模的并發，多條數據流同時在進行，它不僅在時間上往前推，在空間上也要布局，叫時間空間編譯。再加上我們沒有指令順序，基本上是用消費者-生產者的模式，大量的消費者和生產者在同步進行，這需要完全不一樣的編譯框架。我們做這個事花了大量的時間。

▲數據流架構

我們對人才的要求是，不僅要懂編譯，也要懂架構。反過來講，做硬件的人也要懂軟件編譯器怎么用。所以我們的編譯團隊也是架構團隊，這個芯片是軟件、硬件、架構團隊一起設計的。

關于未來的人才競爭，我非常同意Jack B.Dennis教授的一句話，他是數據流的鼻祖，我的導師是他的學生。他在2000年講了一句話，他說現在計算機分工太細了，硬件的人不懂軟件，芯片的人不懂編譯器，軟件的人不知道硬件怎么work（運作）。大家沒有意識到，當同時看到硬件與軟件，本質就是計算機完整的圖景，當看到所有東西時，就可以創造更大的創新。看計算機理論的話，它本身不分硬件軟件，本質就是如何讓一個計算任務完成。為什么后面分出了硬件與軟件？因為有一部分用軟件來抽象效率更高，有一部分用硬件來抽象效率更高。但當需要更大的創新時，應該打破這個邊界，重新看計算機是怎么設計的。

今天美國非常創新的公司，他們思考的東西是從根本上打破軟硬件的邊界——把傳統認為是軟件的東西放到硬件上，把傳統認為是硬件的東西放到軟件上，這樣才能得到劃時代的創新。如果原來怎么做，今天還是怎么做，性能的提升速度遠遠趕不上需求。今天摩爾定律越來越弱了，縮放定律已經失效了很多年，會拖慢整個AI發展的速度。

14、馬赫M100芯片在理想的定義里是一款AI推理芯片，而不是AI訓練芯片，這兩者的邊界是什么，背后的思考是什么？在AI訓練領域英偉達已經很壟斷了，跟它做競爭是不是很難追上？AI推理是個非常好的市場，你們怎么看AI芯片領域未來的市場格局或規模？

謝炎：我認為AI計算的算力市場，最終會出現99%的推理，訓練只占很小的部分。從這個角度來講，今天中國和美國大量的公司在為了更高的效率專門做推理芯片，也是這個原因，因為最終推理市場更大。如果推理市場沒起來，說明AI沒有真正落地。

從我們的角度而言，我們公司先要解決推理問題。訓練的話，用市場上好的訓練芯片，目前夠我們用了。

從經濟模型角度來講，訓練要的是效率，它對成本不太敏感。訓練要的是在足夠短的時間內迭代。至于成本高了50%，甚至高了100%，也沒關系。英偉達最高端的芯片，很多公司以翻倍的價格也愿意買。但是推理芯片不一樣，它要同時考慮成本與效率，而且考慮成本的比重非常高。從解決公司和業務問題來講，推理問題更大，它跟我們想要達到目標的gap（差距）更大。如果我們做一件事的話，我們就解決機會最大的問題。

15、第一，昨天理想說是全世界性能最強的AI芯片，引起了很大的討論，有一些質疑的聲音。跟這些友商相比，理想的領先性體現在哪些方面？第二，去年M100流片，為什么今年才量產上車，有什么考量？在做芯片過程中，有什么挑戰或故事可以分享下嗎？你們評估過理想自研芯片預計達到多少的出貨量，才能回本呢？

謝炎：我們為什么敢說自己是世界第一呢？因為我們跟市面上標準可以獲得的芯片做對比，它是英偉達Thor-U三倍的性能。我們可以拿出Benchmark（基準測試），甚至可以讓第三方做測試。我們也跟一個第三方測試機構聊過，測試機構說其它家都不愿意拿出來做比較。如果要公平地比較，可以拿到一個公平、綜合的Benchmark去做合適的比較。

對于上車時間我們已經做得很快了。做芯片基本要5年時間，而我們用了近4年時間就實現了上車，而且模型都可以正常跑起來。

至于在過程中遇到的困難，肯定是有的。軟件、編譯、模型適配，這都是有很多困難在里面，而且這些坑只有實際做了才知道。昨天有些同行說，看了我們的論文以后，說把論文寫得那么詳細，別人家著論文是不是就可以復刻。但我們不擔心，因為把這個架構要落地是非常長的距離，而且中間有很多坑，只有真正做才知道，才能邁過去，邁不過去，就停在那兒了。

第二，我覺得數據流架構for AI是一個大的技術方向，它比其它架構更適合，我希望更多的同行能跟隨這條路。就像馮·諾伊曼提出來技術路線，很多公司跟隨。從更長時間來看，這不是一件壞事。

16、動態數據流編譯器到底難在哪，我們花了多長時間，最后是怎么攻克的？

謝炎：我們從一開始設計時就開始了，并不是流片回來再做編譯器。在流片前，甚至設計時，就開始做編譯器工作了，在流片前，已經把很多模型給跑通了。至于難點，傳統的CPU編譯器經過幾十年發展，已經有一套成熟的理論，follow就好，像英偉達的上層架構、谷歌的架構，已經非常成熟，前人已經把樓的基礎建得很好了，大家只要在此基礎上做差異化的東西就可以。

而數據流是完全不同的架構，它要解決的問題非常類似于超級計算機或大規模計算機集群要解決的問題——當規模擴大到幾十萬臺計算機、上百萬顆核，它們之間互相通信、互相協作時，沒辦法通過一個中央管理員去管幾十萬顆核。傳統馮·諾依曼架構的調度方式在這個規模上就不可行了，這是一個超大規模的并行調度問題。

17、去年年中，為什么還要重新做編譯器開發？去年年中迭代的那一版主要是解決什么問題？

謝炎：編譯器工作不是做完就結束了。從流片前、回片后、部署上車后，一直會持續迭代，因為編譯器的核心任務是把硬件效率發揮出來，需要一版一版不斷優化。去年年中那一版主要是把性能優勢充分發揮出來。

我在20多年前學編譯課時，老師第一課就講：編譯問題是個NP-Complete（NP完全）問題，是計算機理論里最難的問題之一。大家并不知道最佳性能點在哪，但可以不斷逼近。所以“跑通”跟“跑到最好”距離非常大，而且最好永遠不可及，只能不斷逼近。我們在跑馬赫VLA模型時，性能已經是ThorU的三倍了，但我們覺得依然有潛力可挖，依然在繼續迭代編譯器。

18、我想問幾個芯片相關的問題。首先關于數據流架構的局限性，之前的CNN模型映射到數據流架構會比較好，但現在模型進化到了Transformer和MoE結構，芯片是否還適合模型架構的進化？

謝炎：我認為數據流架構比馮·諾依曼架構更貼近計算的本質。馮·諾依曼做的事情是為了人類編程方便，抽象了數據的順序指令流，GPGPU（通用圖形處理器）也是多個指令流，做SIMT（Single Instruction Multiple Threads，單指令多線程模型）。為了人類編程方便，用指令流順序表達，又要有高并行度，所以需要做很多硬件額外開銷，把并行度重新挖出來。

我認為數據流最重要的一個思想是：假設對人類編程的方便性降低，我靠很強的編譯器，甚至靠AI編譯器，能不能拿掉這部分額外開銷？CPU和GPU架構里有大量的晶體管開銷用在cache coherence（緩存一致性），比如instruction reordering（指令重排序）、branch prediction（分支預測）。一個CPU，30%的晶體管開銷在這上面。如果不用馮·諾依曼架構，這些都可以拿掉。

cache coherence（緩存一致性）也是同樣的道理，不僅緩存一致性本身會占用晶體管規模，更大的問題是，為了做到緩存一致性，并行規模不會特別大。如果把scalability（可擴展性）拉起來的話，緩存一致性就是個災難，這是不可行的。早期有研究表明，8到16核做緩存一致性就非常困難了，時間開銷很大，效率開銷也很大。

講到本質，就是這些額外開銷能不能拿掉。這樣做的代價就是編譯難度會變大，調度難度會變大。在過去這不可行，首先并行度沒那么高，除了高性能計算，就是所謂的超級計算機，模擬核爆炸或預測天氣，這種場景并行度非常高，這種場景下用programming model（編程模型）是有意義的。

AI有大量的并行，需要分配到不同的計算單元時，這個架構就有優勢了。我昨天講了，幫把晶體管利用率提升。

MoE和Transformer的計算密度沒那么高，特別是decode階段可能計算密度沒那么高，帶寬瓶頸會更大，這的確是需要解決的問題。在計算密度不高的workload（工作負載）里，斯坦福去年有一篇論文講Mega kernel（一項針對大語言模型低延遲推理的系統級優化技術），它把kernel做大，就是為了避免數據頻繁進出。Groq和Cerebras為什么要做那么大的片上內存？就是因為數據全放在片上的效率更高，可以不進出DDR（雙倍速率內存），因為DDR的瓶頸很高，而且成本也很高。今天大家都要用HBM（高帶寬內存），但都不想用HBM，因為太貴了。回到車上更是如此，我們用不了HBM。我們通過架構的方式把進出DDR變少，讓效率進一步提升，不僅是晶體管利用率提升，計算效率也提升。

19、芯片上有24核CPU的結構，包括NPU里面也有RISC-V的CPU核存在，這些是不是用來處理動態數據流或動態決策，就是靜態編譯沒辦法處理的情況下，會轉到CPU上？

謝炎：其實24核的CPU只用來跑Linux，因為它是個SOC（片上系統），需要一個操作系統來控制AI的workload（工作負載），還要跟外界通訊，還要做IO（輸入輸出）。今天的自動駕駛除了AI推理還有其他任務，這些任務更適合CPU做，所以CPU不可缺。再往后走，Agent場景中30%是AI推理，30%是CPU，30%是IO。如果到了Agent的intensive workload（密集型負載），我的觀點是CPU和AI都重要，這不矛盾。但AI是計算最需要解決的問題，因為模型的規模會變大，主要增大的部分就是AI的推理部分。

20、這兩年有很多車企都發布了自己的芯片，正常來講芯片是高投入、長研發、需要驗證的產品，但這兩年頭部車企都在做芯片。從理想的角度來講，您覺得未來有多少車企會真正做成自研芯片？在當下芯片產業鏈快速發展的情況下，哪些環節是被加速的，哪些過程是必須要經歷的？

謝炎：第一，為什么這么多車企都發布芯片，是不是這件事很容易？我想說其實挺不容易。我們自己做這顆芯片花了4年，在新勢力里我們啟動最晚。大家要看發布芯片后，最終結果是最領先的模型什么時候真正落到車上。從這個時間來看，除了我們以外，其他家一般要5年時間甚至更長，我們是最快的。所以要有點耐心，第一顆芯片如果真的自己做的話，沒那么容易，一般要花5年時間。

做一顆芯片和做一顆領先的芯片，難度又是不一樣的。有些公司做了芯片，但這顆芯片不夠領先。我跟李想說過，我最擔心的事不是做不出來，最糟糕的事情是做出來了但它不領先，那公司這個錢就白花了，這是我最不想看到的結局。

我們看業界，并不是每一家公司都能做到。現在很多公司宣布做了，但并沒有真正落到車上。要看它什么時候落到車上，什么時候把最高端的智駕用自研芯片跑起來，并且還能做好用戶體驗。再者，看是不是所有車都能用。有的公司為了證明自己能用，只用了一款車型，出貨量只有幾千輛，其他車還是用外購芯片，說明它也知道這件事并沒有幫它解決真正的問題。

我認為要看幾個指標：全量的車能不能用上，能不能快速上車，能不能跑最先進或最新一代模型，并且部署到所有車上。另外一個指標是能不能持續迭代。做一代芯片不說明問題，最終要做出第二代、第三代。很多公司只做了第一代，第二代就不做了。有些公司也可能買個IP就做了，也可以宣傳自己自研。

但我們不是，因為我們連論文都可以看到，這個世界上沒有第二個芯片跟我們做的一樣，完全沒有，甚至連這個思路都是我們提出來的，沒有任何已有的IP可以follow。

▲理想自研芯片論文入選ISCA2026

21、在芯片產業鏈里，哪些環節是可以被加速的，哪些環節是必須要自己踩坑的？

謝炎：有些技術是成熟的，比如偏后端的部分，有點像造房子，找工程隊壘磚，是可以找到供應鏈加速的。但是真正要做到量產、做到最領先，設計肯定要自己做，軟件要自己做。如果連軟件都外包給別人的話，就不可能迭代芯片性能。當然生產一般都是fabless，大家不會自己再去造工廠，這是另外一回事，生產今天是成熟的。

回到國內，我們會越做越深。如果做芯片要持續領先的話，僅僅做芯片設計，做成GDS2（版圖數據庫），交給Fab（晶圓廠）去做流片，這也不夠。很多部分要跟封裝廠聯合設計，要垂直整合。有些技術不僅僅是貨架商品，由別人提供就可以，但要深入到封裝制造領域才能領先。我們不會停留于此，會越做越深。

三、艙駕融合不是芯片融合車內AI算力要統一調度

22、五年后或者再往后看兩代產品，理想汽車車內的算力中心有沒有可能全部使用自研的馬赫芯片？第二，我們看到提升模型幀率對系統體驗有明顯改善，什么時候能看到更高幀率的模型上車，是7月、9月還是12月？

謝炎：我先回答第一個問題。您說得很對，我們就是這么思考的。雖然業內有一個說法叫“艙駕一體”，我們認為艙駕一體最核心的是AI算力部分，其他部分是不是一體沒那么關鍵。因為座艙系統跟AI智駕系統可以完全獨立，但AI算力可以集中在一起，這樣分配效率會高很多。所以我們路線圖的最終形態是車內一個AI計算中心，所有AI任務都可以到這個計算中心去計算。就像筆記本上跑OpenClaw一樣，AI的計算不在筆記本上，而是在Token Provider Server（Token供應服務器）上，車里也類似，有一個Token Server（Token服務器）。

這個Token Server的優勢：第一，效率非常高。第二，能做到不同任務互相隔離、互不影響。比如智駕任務的確定性——無論是內存還是帶寬，能夠保證不被其他任務干擾，這是軟件和硬件一起設計才能實現的。只靠芯片提供商做不到這一點，需要軟件跟硬件一起配合設計。

我們的優勢在于，可以把一些計算單元完全隔離給智駕用，另一部分給其他任務用。如果是通用的SRT（Secure Reliable Transport，安全可靠傳輸協議）?架構，它不能完全做到這一點，因為這些東西藏在硬件里，而硬件并不知道上層應用的語義。它不知道下面跑的線程是智駕任務還是其他任務，或者說它做這些事情的代價非常高。就像我昨天發布會說的，我們走向數據流架構有很多原因，有效率的原因，也有AI場景下多任務需要并行運行、對時延非常敏感、對資源確定性要求很高的原因。

詹錕：首先，LiDAR（激光雷達）我們不是去掉了。但LiDAR能不能作為前融合的主傳感器，這需要我們思考。如果我想提高幀率，LiDAR的幀率有物理限制，因為機械結構的原因，10到15赫茲就到頂了，不能再高。如果想做到更高的輸入頻率，只能靠視覺。更高的輸入頻率對細節反應有很大提升，像特斯拉的細節反應速度就是這么來的，這是上限。所以我們必須拉高上限，基于純視覺把輸入上限拉高。我們正在往這個方向做，大概率會在某一個節點切入到類似的水平。

我們內部有很多版本的純視覺方案，最難的是看效果怎么樣，這不是拍腦袋的事，要以實踐結果來證明。特斯拉是36赫茲的輸入，輸出不一定是36赫茲。所以我們肯定要提高幀率，接下來會先上15赫茲、20赫茲。將來一定會以更高的幀率做輸入，純視覺帶來更好效果以后，我們就會替換上來。

第二，我們認為LiDAR有一個很大的優勢，就是對L3和L4場景下的安全兜底。我們會一直往 L4 這些方向去努力。我們能不能在真正的安全底線下做得更好，這是很重要的事。畢竟純視覺輸入信息有限，而LiDAR在極端情況下可以解決很多問題，所以LiDAR的作用很重要，我們會通過其他方式保證更強的安全。

基于這樣的判斷，下半年最重要的兩件事：第一，用純視覺提高幀率，把芯片性能發揮到更大，反應速度大幅提升。第二，LiDAR會承擔很重要的數據采集環節，它對L3、L4各種極端場景很有幫助，我們會持續提升安全，安全不能妥協。

23、為什么現在的大算力芯片方案，比如英偉達、小鵬、理想自研的這些，都沒有做芯片級的艙駕融合，反倒是高通在低算力的驍龍8650上做了這件事？這是為什么？

謝炎：這個問題很好，好多年前就和一些芯片同行討論過。從本質上講，艙和駕是兩個獨立系統。特別是對高端的L3往L4走，智駕需要一個更高確定性的系統，內存是專屬、計算資源是專屬，這時融合的意義就小了很多。因為資源不能實時切換，實時切換會降低確定性。如果變成越來越獨占的方向，融合的價值就不大了——畢竟只是把芯片拼在一起，但資源還是兩份，并不會帶來成本的降低，甚至會影響效率。

對低端來說，L2對切換的實時性要求不高，有一部分確實可以有限地共享，但我認為也不多，未來會證明這一點，因為今天只是個概念。

我認為真正的艙駕融合是艙需要的資源和駕需要的資源在物理上完全是一塊，可以動態共享。不是形式上放在一起，但實際切成兩半，這不叫融合。融合就像筆記本跑瀏覽器和其他應用程序，筆記本的內存完全可以共用，一會兒跑這個，一會兒跑那個。

現在的艙駕融合系統肯定還是分開的，今天做不到一會兒跑這個一會兒跑那個。如果做到的話，融合的價值確實很大，但做不到的話，只是減少一定的成本——因為把兩個芯片放成一個芯片，晶體管數目也許不變，只是省了一次封裝的成本。對中低端芯片來說這部分錢可以省，但也省不了太多。我的觀點是，越往后走智駕越來越高端，艙駕融合這件事可能意義并不大。

如果把這些芯片做得更近一點，在一塊板上做成很小體積的集成化方案，這是可以的，并不一定要做成一塊芯片，也可以多塊芯片放在一起。

24、做基座模型是不是汽車公司想站在AI前沿的必要基礎能力？基座模型有沒有可能也出現類似的外部統一生態，可以給所有公司去適用？

第二個問題關于艙駕融合，怎么確保智駕鏈路的可靠性不受影響？在算力分配上，座艙運行大模型推理時需要較大的算力和內存，怎么確保智駕的算力不受擠占？另外在產品開發節奏上，座艙需要快速迭代，智駕需要更長的驗證周期，兩者怎么協調？

詹錕：關于基座模型，我認為答案是肯定的。只要想走具身智能和AI方向，基座模型一定是必爭之地。基座模型不太可能像OS（操作系統）一樣有一個標準件，因為每個人的場景任務不一樣，需求也不一樣，所以基座模型需要自己建。特別是語言模型的基座，做汽車有汽車的基座，我們對視覺語言的重視更多，參數量的分配比例也跟通用模型不同。

所以基座模型一定要做。現在大家都講基座模型，其實每個公司表述的意思都不一樣，要看具體是什么含義。核心有兩種類型的任務——語言智能和機器智能，這兩個對基座模型的需求是不一樣的。可以共用一個云端大模型做基礎，但實際使用中一定是有區分、有差異化的，我們也是在往這個方向做。我們已經有非常強大的統一基座模型，可以構建物理環境，我們對它有很多反饋和評價機制。但真正落到車上時，需要有裁剪、有取舍、有參數量的適配、芯片能否承載，我們要做不同的改造。

至于將來會不會有一個技術收斂的外部模型給所有廠商直接用？如果說有開源的pre-training（預訓練）模型，這是有可能的。但想讓一個pre-training模型就直接給大家當基座用，我覺很難。大概率大家還是要做很強的post-training（后訓練），才能變成真正能用的基座模型。

謝炎：我來回答第二個問題。簡單說，你可以想象一個職業司機和一個生活助手，這是兩個角色，不是一個人。不是說一個人可以一會兒開車，一會兒放音樂。算力和相關軟硬件基礎設施也是獨立的，這是兩套系統。我們的算力可以靈活分配給不同角色使用，但在使用時，兩者不會互相干擾。

25、第一，能否透露一下馬赫Mind-Pro模型的架構和參數量？未來有沒有考慮過像小米MIMO那樣對外開源？

第二，李想總在羅永浩的節目中聊過，想基于下一代馬赫芯片做一個家庭算力中心，類似英偉達DGX Spark的理念。這個項目現在是否在推進中？出于什么考慮？適用于怎樣的場景？

詹錕：第一個問題，Mind-Pro是一個性能不錯的主流模型。模型架構采用了MHA（多頭注意力）、GQA（分組查詢注意力）之類的架構設計。

要不要對外輸出？這是一個商業選擇問題。我們自己車的本體有強烈的優化傾向性，沒有必要對外去卷coding（代碼能力）這個賽道。現在大家賣token主要還是往coding方向走，我們沒必要卷這個方向。

但我們為什么在這些benchmark（基準測試）上取得了不錯的成績？因為我們對自己的硬件本體有非常深刻的理解。我們車上有很多硬件資源需要調度，如果用其他第三方大模型去試，效果不會比我們好，反應還很慢，常識錯誤也很多。我們通過強化學習以后，模型對車身運動有很強的理解——知道車身如何晃動，里面有很多tools（工具接口）可以調用。只有基于自己的本體做了強化以后，才會有非常深刻的優勢。我們不一定要跟別人去卷coding，因為那是另一個賽道了，不符合理想汽車的主路徑。

▲馬赫Mind-Pro跑分

如果有機會往具身應用方向做開源的話，從長遠來看可能有這個機會，但目前各家硬件差異較大，并不一定完全能通用。這是我們想做的方向——把我們的模型跟Agent和物理世界結合得更好，這就是馬赫Mind要解決的問題。

▲馬赫Mind-Pro性能對比

謝炎：我來回答第二個問題。我們做的M100本質上是一個通用AI推理芯片，理論上講，它能很好地推理自動駕駛模型，也可以推理語言模型。有同事說這個芯片這么好，能不能裝到家里面，因為他需要一個私人的家庭算力。出發點是從這里開始的。下一代芯片毫無疑問會更強，經過一定的改造，我相信放在家里非常有競爭力。

四、全棧自研有門檻要看組織、數據和工程投入

26、理想汽車這幾年經過很多次智能化的體系調整，最終把芯片、基座模型和智能輔助駕駛整合成統一的團隊，您作為CTO視角來看，理想的“三位一體”和特斯拉的FSD、HW、xAI相比，差異化的護城河在哪？是組織效率，還是技術路徑的差異？

謝炎：這個問題很好。跟特斯拉相比，大家出發點是一樣的。如果想圍繞AI做出強競爭力有兩方面。

第一是，需要快速迭代。今天的AI發展很快。從芯片領域來說，英偉達也迭代很快，不僅是自己迭代快，還不斷收購公司補充自己的技術，說明這個行業競爭非常激烈。所以迭代快，是我們進行組織整合的一個目標，幾個團隊更緊密地合作，迭代速度會上去。

第二是，需要垂直整合。理想汽車推崇構建垂直整合的競爭力。在這個時代，如果沒有自己的芯片，只做自己的模型，那么如果遇到需要芯片和模型聯合設計，才能把問題解決得更好的情況下，我們就失去了這樣的機會，特別是一些大的創新。

我個人觀點是，當技術發展到平臺期時，這時分工會很細。比如PC（計算機）發展到2010年時，分工非常細了，操作系統歸操作系統、應用歸應用、芯片歸芯片、制造歸制造。但是如果技術處于高速發展期，斜率非常高時，就會發現很多公司又回過頭來做整合，因為需要在技術邊界上把分工打破，重新做整合。

比如英偉達之前只做芯片，現在英偉達連封裝和機架都開始收購公司來做。所以英偉達要解決更進一步的問題時，需要上下游一起來做，如果分成多家公司來做，其實效率是非常低的，甚至是不可能的。英偉達做Vera Rubin（AI超級芯片平臺）時，可以看到不僅是多種處理器，而且機架、散熱技術、互聯技術都是英偉達來做。雖然英偉達是做計算的公司，但現在全拓展開了。我認為技術快速發展的時代，這是有志于領先的公司肯定要走的一條路。當然這個投入肯定不小，很多公司不具備這種能力。在我們團隊，以我個人為例，我的背景是做過操作系統、架構、應用層等AI各個方向，所以我們的整合效率相對更高一些。

除此之外，組織規模小一點也是優勢。如果需要高密度、高整合度，組織規模不能太大，如果組織規模太大，就會導致很多部門墻。這是為什么我在公司強調要保證比較小的組織規模的原因，就是想讓大家合作得更緊密些。如果團隊規模很大，每個團隊都給自己立一道墻，自己成為一道閉環，相互之間的合作就會很難。

27、垂直整合和水平分工在歷史上會不停地重復發生。特斯拉最早用Mobileye方案，接下來軟件自研、硬件用英偉達，最后全部自研。請問自研芯片背后需要什么條件？比如銷量、營收、研發投入。目前自動駕駛迭代速度很快，芯片要持續迭代的話，需要什么樣的條件？

謝炎：如果業務需要自研核心技術，比如芯片，先期投入的確不小，可能一年要好幾億。

第一個條件是達到一定的營收規模。對車企來說，營收規模一年1000億以上，研發投入至少10%，就有大幾十億到上百億，每年投錢研發芯片是可以的。

第二個條件是，研發芯片解決的問題，要能讓產品能力更強。回到十年前，一些房地產公司也做高科技，問題是它投入的高科技對主營業務幫助非常小。比如我是房地產公司去投芯片，這個意義不大，芯片對賣房子沒幫助，對未來也沒幫助，更多是象征意義，而沒有實際意義。

以上是最重要的兩個條件。

這里有個誤區，很多人說芯片要有很大的出貨規模才行。其實芯片的成本和面積相關。一輛車上的芯片，比如Livis是2顆馬赫M100，加起來800平方毫米。而一部高端手機芯片大概100平方毫米，所以一輛車的智駕芯片相當于8臺手機的芯片面積。會有人說車的量比較少，但成本不僅僅跟數量有關，也跟面積有關。這樣算下來，大幾十萬輛車需要的晶圓面積非常大，完全可以攤薄成本。所以成本不能僅用顆數來衡量。有的IT公司說一年出貨好幾億顆，但其實每顆面積非常小。不能脫離背景只談量，這是不完整的。

我們在馬赫M100立項時算過，做這個芯片不會讓公司的效益變差，而是會變好。我們不是為了證明自己能做而做，不僅性能要做到最好，在成本上也要幫助公司省錢。

28、理想說的全域一體，到底有什么核心優勢？放到中長期來說，這是不是一個趨勢性的東西？另外，現在技術路線迭代非常快，全域一體中長期能給理想帶來什么樣的差異化賦能？

第二個問題，從您的實踐來看，一家車企要做哪些事，從組織架構、人員、到技術上，才能說明他是真正在往具身智能方向走，有真實的投入？能否給我們一個評判的參考維度？

謝炎：全域到底解決什么問題？假設我們停留在L2、L2+，以自動駕駛為例，不做垂直整合也可以，無非是從供應商采買。車還是人類監督，人類隨時準備接管，開得慢一點、效率低一點也沒關系，要求不高。但昨天（發布會上）理想希望它像機器人一樣獨立地完成任務，那對它的智能要求就非常高了。不僅是腦子，對手腳的掌握、對加速、輪子、縱向橫向的控制，要求都很高。

從L2往L3走的時候有很多問題，今天沒有供應商可以解決。分開采買，可以買系統、買線控，但加在一起，有大量的冗余，成本又高，延遲又高，出了問題還很難定位。所以要解決未知問題、想達到更高標準時，領先企業一定會選擇一起做。當然我不排除20年后技術進入平臺期時，會拆分出各種供應商。但在技術還沒收斂的階段，要達到這個目標，必須自己整合。

就是因為一些問題不好解決，我們才要自己出手，而且這些問題是長期性、重要性的問題。比如L3、L4，今天沒有人完全做到，特斯拉也沒完全做到，這是無人區，我們需要解決這些問題，需要投入巨大的資源。

車的內卷就是因為同質化。要擺脫同質化，就是要做別人不好做或做不到的事。這些事如果供應商能做到，那又同質化了。這就是基本邏輯。

29、您剛才提到不擔心把論文的技術細節公開出來，別人把技術學走。能否舉一個具體的例子說明？

謝炎：理想的論文非常多，但論文只有幾千個字，只是架構的思想。比如芯片要在合理成本下實現，流片的話面積很重要，面積不能太大。如何把我們講的算力和架構落到可控的面積內，這里面有大量的工程工作。我們一開始認為面積控制比較難，甚至認為不可能控制住，這些都需要工程去克服，而這些細節在論文里是看不到的。打個比方，這張桌子有四條腿，但真正去做的時候有很多細節。

30、會有發論文數量方面的KPI嗎？

謝炎：發論文更多是為了跟業界做交流，思想的交流很重要。往前做的時候，有更多的交流，也幫我們看看想法有什么不足，也可以去業界吸收別人的優點。因為不講自己的東西，對別人深入了解、給你提建議也是不利的，所以這是有益的。當然我們沒有把它當做指標，因為當做指標就變味了。

五、車是具身智能第一站基座模型和具身智能模型不能復用

31、詹錕老師也是基座模型的負責人，我想問一個技術方向的問題。基座模型怎么從車擴展到其他終端？它的瓶頸是數據、運控，還是模型本身的范式？所以能不能真正統一車和機器人這兩種不同的終端形態？

詹錕：我認為這個gap（差距）很大。切換到機器人的導航沒問題，但如果切換到操作上，模型不是那么一樣。或者說Foundation（基座）只是一個非常基本的，它后面一定是千差萬別，這一點要確認。

車里面包含了Language語言智能，這直接遷移到機器人的概率是非常大的——交互、思考、長程規劃。DeepMind Robotics團隊有個ER模型（Gemini Robotics-ER），就是來自Gemini的，把語言思考上的能力從通用場景遷移到機器人上。

我們把物理機器人分成三個關鍵任務。一是具身交互，我們跟它溝通、交流、思考，讓它做任務規劃。二是移動，自動駕駛能不能從A點到B點，無碰撞、安全、高效地到達目的地。三是操作，狹義的具身，是一個獨立任務，是開放性場景，業界很多人都在探索，包括硬件、數據都是不完善的。這三個任務任意的組合，都會形成非常有價值的商業模式與價值形態。

這是我們的想法，我們的車有機會把這三點都涵蓋。涵蓋以后，我們想長成任何一個物理的具身本體都有非常大的機會。我們肯定有云端的共同基座，但這個基座是不是放在任何任務上就能直接用？我覺得比較難。

但它作為基座，提供海量的數據支持、訓練環境，能提供Foundation Model（基座模型）的baseline（基線），可以快速做下個任務的收斂，這是很有幫助的。所以這也是我們成立基座模型團隊的原因，我們會有基座來支撐各個業務，但每個業務有自己的特點。

32、昨天理想提出了具身智能汽車的定義——電動車、職業司機、AI計算機、生活助手四位一體。但從用戶感知來說，這四個方面的價值點和感知清晰度肯定不太一樣。汽車本身又特別同質化，如果看未來三年，從具身智能汽車的角度，這四塊拆開來看，哪部分的競爭最關鍵？最大的差異化在哪？

謝炎：我覺得這四個能力其實不是割裂存在的，而是共同構成具身智能汽車的完整能力體系。

電動車解決的是移動能力，讓智能真正能夠進入物理世界；職業司機解決的是執行能力，讓車輛能夠安全可靠地完成出行和任務；AI計算機提供的是算力和系統基礎，支撐越來越復雜的模型和能力運行；生活助手則是交互入口，讓用戶能夠以最自然的方式使用這些能力。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.