網易首頁 > 網易號 > 正文 申請入駐

理想汽車發布下一代自動駕駛基礎模型MindVLA-o1

0
分享至

2026年3月17日,理想汽車基座模型負責人詹錕出席NVIDIA GTC 2026,發表主題演講《MindVLA-o1:開啟全能范式——下一代統一視覺-語言-動作自動駕駛大模型探索》,發布下一代自動駕駛基礎模型MindVLA-o1。MindVLA-o1通過五大技術創新,構建了面向物理世界智能的自動駕駛基礎模型,讓自動駕駛看得更遠、想得更深、行得更穩、進化更快、部署更高效。

詹錕表示:“當我們把視覺、語言和行動統一到一個模型中時,它已不再只是自動駕駛模型,而是在逐漸演化為面向物理世界的通用智能體。基于同一套VLA模型,不僅可以控制車輛,也能夠擴展到機器人。因此,自動駕駛只是物理AI的起點,未來這類基礎模型將驅動新的具身智能范式。”

從規則時代到AI時代 理想輔助駕駛持續演進

自2021年啟動輔助駕駛自研以來,理想輔助駕駛技術架構經歷了多輪關鍵迭代,持續的技術探索與工程實踐,為理想汽車在軟硬件一體化研發領域積累了深厚的基礎研究能力與研發實力。2024年是理想輔助駕駛的重要分水嶺,隨著端到端+VLM(視覺語言模型)雙系統架構量產交付,輔助駕駛首次真正具備了跨場景、跨任務的統一理解能力。2025年,理想汽車進一步將空間理解、語言理解與行動決策統一到同一模型框架,構建了基于VLA、世界模型與強化學習三大技術棧的VLA司機大模型,并于8月隨理想i8交付正式推送,9月向AD Max用戶全量推送。

截至2025年底,VLA司機大模型月使用率達到80%,VLA指令累計使用1225.4萬次;春節期間理想輔助駕駛總里程達2.5億公里,VLA指令使用次數達130.3萬次。規模化的用戶驗證與持續積累的真實場景數據,為理想汽車推進下一代自動駕駛技術演進提供了堅實基礎。

MindVLA-o1五大技術創新:看得更遠、想得更深、行得更穩、進化更快、部署更高效

理想汽車提出下一代統一架構——MindVLA-o1。該架構以原生多模態MoE Transformer為核心,通過五大技術創新——3D空間理解、多模態思考、統一行為生成、閉環強化學習(Closed-loop RL)和軟硬件協同設計(Hardware–Software Co-Design),構建了面向物理世界智能的自動駕駛基礎模型。


在感知層面,理想汽車采用以視覺為核心的 3D ViT Encoder(3D視覺模型編碼器),并利用激光雷達點云作為三維幾何提示,引導模型理解真實空間結構,使其在單一表示中同時具備語義理解與三維感知能力。同時引入前饋式3DGS表示(Feedforward 3D Representation),將場景拆分為靜態環境與動態物體分別建模,并通過下一幀預測(Next-state prediction)作為自監督信號,使模型同時學習深度信息、語義結構與物體運動,最終形成融合空間結構與時間上下文的高質量3D表示。具備3D空間理解能力,使模型看得更遠。


在思考層面,自動駕駛既要理解當前環境,也要預測未來幾秒的場景演化。在語言模型承擔語義理解、常識知識和交互能力的基礎上,理想汽車還引入了預測式隱世界模型,在隱空間中高效模擬未來。訓練分三階段:第一,用海量視頻數據預訓練Latent World Token(隱世界詞元),構建未來表征;第二,在MindVLA-o1中持續世界模型的推演,形成隱空間的未來推理能力;第三,將世界模型、多模態推理能力及駕駛行為進行聯合訓練與對齊。由此,模型不僅能理解當前場景并進行邏輯判斷,還能在隱空間中提前“想象”未來畫面,將駕駛決策具象化。理想汽車將這種能力定義為多模態思考(Generative Multimodal Thinking)。擁有多模態思考能力,讓模型想得更深。


在行為層面,理想汽車構建了統一行為生成(Unified Action Generation)機制。首先,MindVLA-o1使用VLA-MoE(混合專家模型)架構,并引入專門的Action Expert(動作專家),從3D場景特征、導航目標、駕駛指令等多維輸入中提取信息,并結合多模態思考生成高精度駕駛軌跡。其次,為滿足實時性要求,系統采用并行解碼(Parallel Decoding),同時生成所有軌跡點,大幅提升效率。最后,引入Discrete Diffusion(離散擴散)進行多輪迭代優化,類似逐步去噪,確保軌跡空間連續、時間穩定,并符合車輛動力學約束。形成統一行為生成機制,使模型行得更穩。


在模型迭代層面,理想汽車構建了閉環強化學習框架,讓模型不僅能從真實數據學習,還能在世界模擬器(World Simulator)中持續探索和優化策略。為此,理想汽車將傳統逐步優化式重建升級為Feed-forward(前饋)場景重建,使系統能夠瞬時生成大規模、高保真駕駛場景,支持大規模并行訓練。同時,結合生成式模型(Generative Models),模擬環境可擴展、編輯并生成全新場景。為支持大規模模擬與訓練,理想汽車開發了統一的3D Gaussian Splatting(3D高斯潑濺)渲染引擎和分布式訓練框架,渲染速度提升近2倍,整體訓練成本降低約75%,實現低成本、高效率的強化學習閉環。在閉環強化學習框架下,模型實現更快進化。


為解決傳統端側大模型部署耗時長、調試頻繁的問題,理想汽車提出面向端側大模型的軟硬件協同設計定律,將模型結構與驗證損失建模,并結合Roofline模型刻畫硬件計算能力與內存帶寬限制,在模型性能與硬件約束之間建立統一的分析框架。理想汽車基座模型團隊評估了近2000種模型架構配置,在英偉達Orin與Thor平臺上完成驗證,找到了模型精度與推理延遲之間的Pareto Front(帕累托前沿),將架構探索時間從數月縮短至數天,大幅提升端側VLA模型的設計與部署效率。在軟硬件協同設計定律下,模型部署更高效。


自動駕駛只是起點,為具身智能構建“數字大腦”

MindVLA-o1是理想汽車面向物理世界智能核心AI框架的重要組成部分。這套AI框架由四大核心模塊組成:MindData,統一的VLA數據引擎,負責大規模數據的采集、清洗和自動標注;MindVLA-o1,統一的原生多模態VLA模型,可以理解環境、進行推理,并生成駕駛行為;MindSim,可控的多模態世界模型,用于生成復雜駕駛場景并支持大規模閉環訓練;RL Infra(強化學習基礎設施),通過獎勵模型和策略學習,使系統在仿真與真實環境中自我進化。

四部分協同形成完整閉環,使AI能夠感知、理解并在物理世界中自主行動,并持續學習。從結構上看,這套系統如同一個“數字大腦”:感知層對應視覺皮層,推理與規劃如前額葉,場景生成似運動皮層,強化學習則類似多巴胺反饋,實現了感知、理解、行動和持續優化的完整閉環。

該框架不僅服務于汽車,也可擴展至機器人及各種物理系統。對理想汽車而言,車是最大號的機器人,其本質是在構建硅基生命體的軀干與大腦。


理想汽車在持續推進技術創新的同時,在人工智能領域頂級學術會議和期刊發表了大量研究成果,其中MindVLA-o1相關的多篇論文已在CVPR、ICLR、ICRA、AAAI等國際頂會上發表。未來,理想汽車將繼續以用戶價值為導向,投入前沿研究以及核心技術自研,持續構建面向物理世界智能的完整AI系統,堅定邁向全球領先的具身智能企業。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
11999元!OPPO Find X9 Ultra哈蘇大地探索家大師套裝閃電售罄:黃牛加價賣

11999元!OPPO Find X9 Ultra哈蘇大地探索家大師套裝閃電售罄:黃牛加價賣

快科技
2026-04-22 00:43:27
與李晨分手6年后嫁普通人,以為是好牌打爛,其實她才是人生贏家

與李晨分手6年后嫁普通人,以為是好牌打爛,其實她才是人生贏家

悅君兮君不知
2026-04-20 21:07:31
57集諜戰大作,僅播2天,收視率直接破2,生死角逐,一觸即發

57集諜戰大作,僅播2天,收視率直接破2,生死角逐,一觸即發

樂楓電影
2026-04-21 18:54:25
蘋果新掌門是個“硅谷透明人”:社交媒體空白,曾是游泳冠軍,熱愛騎行和賽車

蘋果新掌門是個“硅谷透明人”:社交媒體空白,曾是游泳冠軍,熱愛騎行和賽車

紅星新聞
2026-04-21 15:59:03
楊成武之子見岳父時意外得知,對方竟是開國名將,你知道這段事嗎

楊成武之子見岳父時意外得知,對方竟是開國名將,你知道這段事嗎

鶴羽說個事
2026-04-21 22:46:07
馬克龍:霍爾木茲海峽再被封,美伊雙方都有責任

馬克龍:霍爾木茲海峽再被封,美伊雙方都有責任

看看新聞Knews
2026-04-21 10:52:33
中國代表在安理會當場駁斥美方抹黑,“向戰場提供武器的不是中國

中國代表在安理會當場駁斥美方抹黑,“向戰場提供武器的不是中國

上觀新聞
2026-04-21 13:48:07
為什么觀眾明知有毒卻嗑到上頭?

為什么觀眾明知有毒卻嗑到上頭?

晚風也遺憾
2026-04-21 11:54:52
1991年中央派人請張學良回大陸,張:回大陸可以,但我有三個要求

1991年中央派人請張學良回大陸,張:回大陸可以,但我有三個要求

史之銘
2026-04-14 18:16:07
到了季后賽依然狀態不佳!騎士后場新援依然沒有辦法找到狀態?

到了季后賽依然狀態不佳!騎士后場新援依然沒有辦法找到狀態?

稻谷與小麥
2026-04-21 22:56:41
擔心的事還是發生,跑丟編制的女護士張水華,又回到了她的怪圈

擔心的事還是發生,跑丟編制的女護士張水華,又回到了她的怪圈

金風說
2026-04-15 14:42:59
2026年女籃世界杯抽簽:中國、美國、意大利、捷克同組 前二名晉級

2026年女籃世界杯抽簽:中國、美國、意大利、捷克同組 前二名晉級

狼叔評論
2026-04-22 01:04:07
沉默1天,中國準時發話,“高市下臺”傳遍全境,石破茂判斷沒錯

沉默1天,中國準時發話,“高市下臺”傳遍全境,石破茂判斷沒錯

地球記
2026-04-22 03:11:31
丈夫騎車躲狗摔倒致妻死亡,家屬起訴違停車主124萬,法院判了

丈夫騎車躲狗摔倒致妻死亡,家屬起訴違停車主124萬,法院判了

大魚簡科
2026-04-20 19:38:39
賺錢的第一性原理,就是不干活。

賺錢的第一性原理,就是不干活。

流蘇晚晴
2026-04-20 20:08:05
2200萬美元成本,《木乃伊》奪得季軍,溫子仁和華納兄弟小賺一筆

2200萬美元成本,《木乃伊》奪得季軍,溫子仁和華納兄弟小賺一筆

電影票房預告片
2026-04-21 23:32:00
酒駕超速撞死15歲少年!美國籃球傳奇“老K教練”孫子被捕

酒駕超速撞死15歲少年!美國籃球傳奇“老K教練”孫子被捕

全景體育V
2026-04-21 09:03:55
原雷神山院長落馬,其“權色交易”的背后,坑害了多少女醫護家庭

原雷神山院長落馬,其“權色交易”的背后,坑害了多少女醫護家庭

長安一孤客
2026-04-20 18:58:28
罕見!7.7級地震把半個日本都震醒了,日網民:快請發達中國救我

罕見!7.7級地震把半個日本都震醒了,日網民:快請發達中國救我

夢史
2026-04-21 13:00:08
保姆為300萬拆遷款嫁老頭,丈夫剛死喜笑顏開,翻開房產證后崩潰

保姆為300萬拆遷款嫁老頭,丈夫剛死喜笑顏開,翻開房產證后崩潰

談史論天地
2026-04-05 22:15:03
2026-04-22 04:35:00
燃擎頻道 incentive-icons
燃擎頻道
中國汽車自媒體前30強!
8713文章數 231288關注度
往期回顧 全部

科技要聞

創造4萬億帝國、訪華20次,庫克留下了什么

頭條要聞

三國取消飛航許可 賴清德無法竄訪斯威士蘭

頭條要聞

三國取消飛航許可 賴清德無法竄訪斯威士蘭

體育要聞

一到NBA季后賽,四屆DPOY就成了主角

娛樂要聞

宋承炫曬寶寶B超照,宣布老婆懷孕

財經要聞

現實是最大的荒誕:千億平臺的沖突始末

汽車要聞

全新坦克700正式上市 售價42.8萬-50.8萬元

態度原創

數碼
親子
時尚
本地
健康

數碼要聞

大疆發布Osmo Mobile 8P:售899元 分體式遙控器設計

親子要聞

針對兒童青少年近視防控、心理行為發育監測等,上海發布行動計劃

頂流復工,已判若兩人

本地新聞

春色滿城關不住|白鵑梅浪漫盛放,吳山藏了一片四月雪

干細胞抗衰4大誤區,90%的人都中招

無障礙瀏覽 進入關懷版