无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

理想狂砸150億研發!連甩12篇頂會論文,把自動駕駛的“家底”都亮出來了

0
分享至


車東西(公眾號:chedongxi)
作者 | Janson
編輯 | 志豪

理想汽車12篇論文入選計算機視覺頂會CVPR!

車東西6月8日消息,日前,計算機視覺與模式識別領域的頂級會議CVPR 2026召開,理想汽車12篇論文入選,同時還有多篇論文參與了現場討論和發表。

作為與ICCV、ECCV并稱為計算機視覺三大頂會,一次入選12篇論文的含金量不言而喻。

此次理想汽車入選的12篇論文,覆蓋世界模型、端到端規劃、多模態感知、強化學習、認知模型、語言與視覺智能等關鍵方向。

可以說,理想汽車的智能化競爭正在從產品功能,進一步深入到底層模型、仿真、安全和推理能力。

而這背后,也是理想汽車近幾年持續加碼研發的結果。

據理想汽車方面透露,截至2026年一季度末,理想汽車已連續5個季度保持30億元左右的研發投入,相當于理想汽車五個季度就投入了約150億的研發費用,2025年全年研發費用也是達到113億元。

近5年來,理想汽車已在CVPR、ICCV、ECCV、NeurIPS、SIGGRAPH、IROS、ICRA等頂級會議和期刊上發表近百篇論文。

不過,相比單純看“發了多少篇”,更值得關注的是,這12篇論文分別解決了什么問題。

對此,車東西拆解了這12篇論文,幫你總結理想汽車在自動駕駛底層技術上的四條主線。

一、拿下世界模型四項突破 仿真與安全基座升級

在自動駕駛領域,世界模型要解決的,是車輛能否在行動前先理解和推演這個世界。

此次理想汽車共有四篇世界模型方向論文入選CVPR 2026,分別從深度估計、三維重建、交通規則認知評估和安全風險預判四個層面展開,形成了從“還原真實世界”到“理解交通規則”,再到“預判危險后果”的技術鏈路。

道路結構會如何變化,其他交通參與體可能怎樣運動,一條軌跡會不會帶來風險,復雜交通規則之間又該如何取舍。

對面向真實道路的自動駕駛來說,世界模型不僅是仿真的基礎,也是提升安全性和長尾場景處理能力的重要底座。


▲InfiniDepth高精度連續深度估計方法示意

在幾何理解層面,InfiniDepth(一種高精度連續深度估計方法)關注的是車輛理解三維世界時最基礎也最關鍵的問題——深度。

傳統深度估計方法通常在固定分辨率的圖像網格上預測結果,容易受分辨率限制,細小結構和幾何邊界不夠精細。

InfiniDepth將深度表示為連續的神經隱式場,使模型可以在任意二維坐標上查詢深度,從而支持更高分辨率、更細粒度的深度估計,并在精細區域和新視角合成任務中表現出優勢。

對于車輛場景而言,這類能力有助于更準確地恢復道路、車輛、障礙物等三維結構,為后續仿真和環境建模提供更可靠的幾何基礎。

如此一來,車輛能更精細地判斷畫面中每個物體離自己有多遠,為三維環境還原和仿真建模打基礎。


▲Unposed-to-3D真實駕駛圖像生成三維車輛能力

在仿真資產構建層面,Unposed-to-3D(一種真實駕駛圖像生成三維車輛能力)解決的是另一個現實問題,高質量三維車輛資產從哪里來。

論文指出,現有三維車輛生成方法往往依賴合成數據訓練,和真實道路圖像存在域差距,生成結果還可能存在姿態不統一、尺度不準確等問題,難以直接放入駕駛仿真環境。

Unposed-to-3D通過兩階段框架,從真實駕駛圖像中學習三維車輛重建,并引入尺度感知和外觀協調模塊,使生成車輛在尺寸、姿態和光照外觀上更適合真實駕駛場景仿真。

這意味著,未來構建大規模、多樣化的仿真交通環境,可以更少依賴人工建模,更高效地從真實世界中獲取可用資產。


▲DriveCombo復雜交通規則推理評測框架

世界模型不僅要“看得準”“建得真”,還要能理解交通世界里的規則,對此,理想發布的DriveCombo正是面向復雜交通規則推理提出的評測基準。

論文指出,已有交通規則評測往往停留在單一規則場景,例如識別交通標志或簡單路權判斷,但真實駕駛中更常見的是多條規則同時出現,甚至發生沖突。

DriveCombo構建了文本與視覺結合的組合式交通規則推理基準,并提出五級認知階梯,從單規則理解逐步提升到多規則整合和沖突消解。

對14個主流多模態大模型的評估顯示,隨著任務復雜度提升,模型性能會系統性下降,尤其在規則沖突場景中更明顯。

簡單說,DriveCombo不是一個駕駛模型,而是一套“考試題”,用來測試多模態大模型能不能理解復雜交通規則,尤其是多條規則沖突時該怎么判斷。


▲AD-R1面向安全預判的公正世界模型整體框架

除此之外,安全預判則是世界模型走向閉環訓練的關鍵一步。AD-R1聚焦端到端駕駛強化學習中的一個核心難題:如果世界模型只在安全專家數據上訓練,它可能會形成“樂觀偏差”——面對危險軌跡時,仍然傾向于預測一個看似安全的未來,例如忽略碰撞或道路邊界風險。

AD-R1提出“公正世界模型”的概念,通過反事實合成生成碰撞、駛離道路等風險場景,讓模型學會真實預測危險后果,并將其作為閉環強化學習中的內部評論器,為候選動作提供安全反饋。

換句話說,模型不只是學習“好司機怎么開”,也要學會“錯誤動作會導致什么后果”。這對于提升系統在長尾風險場景下的可靠性,具有直接意義。

如此一來,世界模型不再只是生成逼真的畫面或場景,而是在向更完整的“可推演、可評估、可用于訓練”的智能系統演進。

這四項研究共同構成了理想汽車在世界模型方向的系統性布局,也為智駕從“看見世界”走向“理解世界、推演世界并規避風險”提供了更堅實的技術支撐。

二、認知對齊與語言、視覺智能 讓模型推理更準更快

在訓練側世界模型是關鍵,而在推理側,認知對齊、語言、視覺智能也是十分重要的一環。

要讓車輛從“看見道路”進一步走向“理解道路”,模型需要具備的不只是識別能力,還包括連續認知、語言理解、動作生成以及高效部署能力。

如何讓模型不只是“識別得準”,而是能夠連續地理解、準確地對齊、高效地推理,并最終可靠地執行是關鍵。

針對上述問題,理想拿出了5篇關鍵研究。CogDriver提升駕駛決策的時序穩定性,LinkVLA打通語言理解與動作生成,FastMMoE降低多模態大模型推理成本,CoV-Align提升視覺與語言的細粒度對齊效率,Switch-KD則讓大模型能力更容易遷移到輕量模型。

它們共同構成了理想汽車在認知模型、語言智能和視覺智能方向的技術積累,也讓車輛從“看見和判斷”進一步走向“理解、推理和行動”。


▲CogDriver提升駕駛決策時序穩定性的方法示意

在駕駛認知層面,CogDriver關注的是當前視覺語言模型在時序理解上的短板,有助于讓系統更好的理解駕駛場景。很多模型處理駕駛場景時,更像是在逐幀“看圖說話”,缺乏對歷史狀態和持續意圖的記憶,容易造成決策抖動,難以完成復雜連續動作。

CogDriver引入“認知慣性”機制,通過大規模視覺—語言—動作數據集提供時序監督,并在智能體中加入稀疏時序記憶模塊,讓模型能夠形成更穩定的內部狀態。

實驗顯示,CogDriver在Bench2Drive閉環駕駛得分上提升22%,在nuScenes上將平均軌跡誤差降低21%,說明時序一致性對于提升規劃穩定性具有直接價值。

不難看出,CogDriver就是給駕駛模型加入“記憶”和“慣性”,讓它做決策時不再只看當前一幀,而是結合前后狀態保持判斷穩定。

如果說CogDriver解決的是“連續理解”的問題,那么LinkVLA更進一步面向“理解之后如何行動”。

視覺語言動作模型被認為是端到端駕駛的重要方向,但現有方法常常存在兩個問題:一是語言指令和動作輸出之間對不齊,二是逐步生成動作序列導致推理效率較低。


▲LinkVLA打通語言理解與動作生成的整體框架

LinkVLA通過把語言和動作統一到共享離散碼本中,從結構上強化跨模態一致性;同時引入動作理解輔助任務,讓模型既能從語言到動作,也能從軌跡反推語義描述。

它還采用由粗到細的兩步生成方式替代傳統逐步解碼,在閉環駕駛基準中提升指令遵循和駕駛表現的同時,節省了86%的推理時間。

如此一來,通過LinkVLA就可以讓系統延遲更低,更聰明。

模型變得更聰明之后,另一個現實問題是:能不能跑得更快、更輕。


▲FastMMoE多模態大模型免訓練加速方法示意

FastMMoE面向MoE架構多模態大模型提出免訓練加速框架,從路由行為入手,一方面減少視覺Token不必要的專家激活,另一方面根據路由概率分布識別并裁剪冗余視覺Token。

相比單純從注意力權重判斷哪些Token可以刪除,FastMMoE更貼近MoE模型本身的計算機制。

實驗表明,在DeepSeek-VL2、InternVL3.5等模型上,FastMMoE最高可減少55%的FLOPs,同時保留約95.5%的原始性能。

這類方法對于車端、座艙等對延遲和算力敏感的場景很有幫助,讓多模態大模型“減負”,在盡量不損失能力的前提下減少計算量,讓模型跑得更快。

與此同時,在多模態理解中,語言和視覺之間能否精準對齊,同樣決定了模型是否真正“看懂了”。


▲CoV-Align圖像區域與語言描述細粒度對齊方法示意

CoV-Align聚焦圖像區域與文字描述之間的細粒度對齊。傳統方法往往依賴文本引導去聚合圖像區域,容易產生冗余的patch-word匹配,計算成本也較高。

CoV-Align提出“內聚視覺語義優先”的思路,先在不依賴文本的情況下,把語義一致的視覺區域聚合起來,再進行跨模態對齊。這樣既減少了噪聲,也提升了效率。

論文顯示,CoV-Align在Flickr30K和MS-COCO等圖文評測基準上達到領先表現,并帶來3至5倍計算加速,為大規模多模態任務提供了更高效的對齊路徑。

最后,Switch-KD關注的是大模型能力如何遷移到小模型。


▲Switch-KD面向視覺語言小模型的知識蒸餾框架

視覺語言模型能力強,但參數規模大、部署成本高;傳統知識蒸餾又常常把視覺和語言分開監督,容易造成跨模態知識傳遞不充分。

Switch-KD提出視覺切換蒸餾框架,將視覺—語言知識統一到共享的文本概率空間中,讓小模型能夠更有效地學習大模型的多模態理解能力。

論文顯示,0.5B TinyLLaVA在3B教師模型指導下,在10個多模態基準上平均提升3.6分,且無需改變模型結構。

對于需要在有限算力下運行的車端邊緣計算和智能座艙場景,這類輕量化能力同樣關鍵,可以讓小模型也能具備更強的視覺語言理解能力。

三、端到端規劃升級 讓模型從“看懂場景”走向“形成目標”

相比把感知、預測、規劃拆成多個獨立模塊,端到端方法希望模型能夠直接從傳感器輸入中理解道路環境,并生成可執行的駕駛軌跡。

但現實駕駛場景并不只是簡單的圖像識別問題:車輛需要理解三維空間關系、交通參與體行為、道路結構變化,以及自身下一步應該達到的短期目標。

理想汽車提出的SGDrive,正是圍繞這一問題展開。


▲SGDrive場景、交通參與體、目標層級規劃框架

論文指出,SGDrive可以將駕駛理解拆解為更接近人類駕駛認知的層級結構:先理解整體場景,再關注關鍵交通參與體及其行為,最后形成短期目標并執行動作。

論文將這一結構概括為Scene-Agent-Goal,也就是“場景—交通參與體—目標”的層級認知框架。

這種設計的價值在于,它不是簡單地讓模型“看圖后直接輸出軌跡”,而是給模型補上了駕駛任務所需的中間認知過程。


▲SGDrive的構成

人類駕駛員在復雜路口或擁堵道路中,也不會只根據單幀畫面做判斷,而是會先把握道路整體格局,再判斷哪些車輛、行人或障礙物會影響自身行駛,最后形成一個可執行的短期目標。

SGDrive將這種過程結構化地注入模型,使通用視覺語言模型能夠圍繞駕駛知識進行表示學習,從而更好地服務軌跡規劃。

從實驗結果看,SGDrive在NAVSIM基準上取得了純視覺方法中的領先表現,驗證了層級化駕駛知識結構對于端到端規劃的有效性。

簡單來說,SGDrive就是讓模型像人類駕駛員一樣,先看整體道路環境,再判斷關鍵車輛和行人,最后形成下一步駕駛目標。

四、多模態感知與強化學習 提升環境預判與規劃優化能力

在端到端規劃中,模型需要從復雜道路環境中形成合理駕駛目標,而要讓這一目標真正可靠,前提是系統既要能提前預判環境變化,也要能在不斷試錯和反饋中優化規劃策略。

此次理想汽車入選CVPR的SparseWorld-TC和PlannerRFT,分別從多模態感知和強化學習兩個方向切入。

前者關注車輛如何更準確地理解未來場景,后者關注規劃器如何在閉環訓練中生成更優軌跡。


▲SparseWorld-TC未來三維場景占據預測方法示意

SparseWorld-TC解決的是未來三維場景預測問題。對于車輛而言,僅僅識別當前一刻的道路、車輛和障礙物并不夠,更關鍵的是判斷接下來幾秒鐘內環境會如何演化。

傳統方法通常依賴鳥瞰圖投影或離散化占據token,這類中間表示雖然便于建模,但也可能帶來信息壓縮和表達能力限制。

SparseWorld-TC則采用稀疏占據表示,直接從原始圖像特征出發,端到端預測未來多幀三維場景占據情況,從而繞開BEV投影和離散token表示的雙重瓶頸。

畢竟,真實道路上的風險往往不是靜態出現的,而是在車輛、行人、道路結構和自身軌跡共同變化中逐步形成的。

SparseWorld-TC通過軌跡條件化的方式,讓車輛提前預測未來幾秒周圍三維空間會發生什么變化,從而為后續規劃提供更可靠的環境預判。

如果說SparseWorld-TC讓系統更好地“預判世界”,那么PlannerRFT則進一步關注如何讓規劃器在反饋中變得更強。

近年來,擴散模型被用于生成更接近人類駕駛習慣的軌跡,但在強化微調過程中,如何生成多樣化、場景自適應的軌跡,仍然是一個難點。


▲PlannerRFT擴散規劃器強化微調整體框架

PlannerRFT提出面向擴散規劃器的樣本高效強化微調框架,通過雙分支優化同時調整軌跡分布,并自適應引導去噪過程,在不改變原始推理流程的前提下,讓規劃器更有效地探索高價值軌跡。

更重要的是,PlannerRFT還同步開發了nuMax仿真器,用于支撐大規模并行學習。

論文顯示,nuMax的軌跡推演速度相比原生nuPlan提升10倍,為強化學習訓練提供了更高效的閉環環境。

如此一來,通過強化學習不斷優化軌跡規劃器,可以讓PlannerRFT在仿真反饋中學會生成更合理、更適應場景的駕駛軌跡。

結語:理想全方位布局自動駕駛

從這12篇入選論文可以看到,理想汽車的技術布局并非停留在單點能力突破,而是圍繞智駕構建一套更完整的能力鏈條。

世界模型負責還原、推演與評估真實道路環境,認知對齊與語言、視覺智能提升理解和推理效率。

端到端規劃讓模型形成駕駛目標,多模態感知與強化學習則進一步強化環境預判和閉環優化能力。

對于理想汽車而言,這些研究共同指向同一個方向:讓車輛不僅能看見世界,更能理解世界、推演未來,并在復雜場景中做出更可靠的行動選擇。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
清華副教授蔣勁松去世,享年61歲

清華副教授蔣勁松去世,享年61歲

大風新聞
2026-06-12 16:05:15
韓國逆轉開門紅創7紀錄!黃仁范賽后比心硬漢柔情 韓媒:最大功臣

韓國逆轉開門紅創7紀錄!黃仁范賽后比心硬漢柔情 韓媒:最大功臣

顏小白的籃球夢
2026-06-12 12:31:34
世界杯開幕式!labubu嚇了全球一跳

世界杯開幕式!labubu嚇了全球一跳

李東陽朋友圈
2026-06-12 08:35:34
韓國2-1逆轉出線在望,女球迷又火了,身材顏值都在線,笑容很甜

韓國2-1逆轉出線在望,女球迷又火了,身材顏值都在線,笑容很甜

球盲百小易
2026-06-12 19:28:00
山東醫藥大學再通報“展某某學位證無法認證”

山東醫藥大學再通報“展某某學位證無法認證”

界面新聞
2026-06-12 20:30:09
意外打死個“俄羅斯英雄”!都是陣亡軍人遺孀,她們的臉上不一樣

意外打死個“俄羅斯英雄”!都是陣亡軍人遺孀,她們的臉上不一樣

鷹眼Defence
2026-06-12 16:28:06
“人生第一次被槍頂著腦門!”中國球迷講述驚魂一刻:到墨西哥看世界杯,剛出機場就遇飛車黨,“槍頂在我們頭上,搶完坐摩托就跑了……”

“人生第一次被槍頂著腦門!”中國球迷講述驚魂一刻:到墨西哥看世界杯,剛出機場就遇飛車黨,“槍頂在我們頭上,搶完坐摩托就跑了……”

都市快報橙柿互動
2026-06-12 14:54:28
CCTV5直播!世界杯“重頭戲”,超21億歐元對決,姆巴佩PK哈蘭德

CCTV5直播!世界杯“重頭戲”,超21億歐元對決,姆巴佩PK哈蘭德

麥子的籃球故事
2026-06-12 17:40:17
患者因腹瀉等癥狀入院6小時后死亡?官方通報

患者因腹瀉等癥狀入院6小時后死亡?官方通報

極目新聞
2026-06-12 20:21:19
美加墨世界杯第二場比賽就現空座,票價爭議浮出水面

美加墨世界杯第二場比賽就現空座,票價爭議浮出水面

澎湃新聞
2026-06-12 17:40:29
數據出爐,爆了!世界杯在中國收視率,讓所有 FIFA 領導層后怕

數據出爐,爆了!世界杯在中國收視率,讓所有 FIFA 領導層后怕

酷侃體壇
2026-06-12 18:57:16
重慶市農業投資集團原黨委書記何勇接受審查調查

重慶市農業投資集團原黨委書記何勇接受審查調查

界面新聞
2026-06-12 21:01:50
釘釘CEO無招被開除,一切都結束了

釘釘CEO無招被開除,一切都結束了

科技頭版Pro
2026-06-12 14:15:22
珠峰向導遭客戶遺棄,7500米絕壁上演極限自救,家人以為他死了

珠峰向導遭客戶遺棄,7500米絕壁上演極限自救,家人以為他死了

探謎未知世界
2026-06-12 16:10:17
曝美團大裁員:連外賣基本盤都動刀 網友:后悔當初編壓榨算法嗎?

曝美團大裁員:連外賣基本盤都動刀 網友:后悔當初編壓榨算法嗎?

火鍋局
2026-06-12 11:18:14
A股:2.5億股民,今晚可能要興奮得睡不著覺了,你知道為什么嗎?

A股:2.5億股民,今晚可能要興奮得睡不著覺了,你知道為什么嗎?

夜深愛雜談
2026-06-12 19:38:12
馬寧出征世界杯,沒有“軟肋”,全是商務?

馬寧出征世界杯,沒有“軟肋”,全是商務?

中國新聞周刊
2026-06-12 21:18:21
句句精辟!黃健翔四句點評韓國2-1逆轉捷克,精準戳透比賽本質!

句句精辟!黃健翔四句點評韓國2-1逆轉捷克,精準戳透比賽本質!

田先生籃球
2026-06-12 14:15:21
捷克球迷怒斥韓國!沒有裁判你們贏不了,如果輸給了中國我們認了

捷克球迷怒斥韓國!沒有裁判你們贏不了,如果輸給了中國我們認了

酷侃體壇
2026-06-12 18:57:01
這4個行業,已經發不出工資了!真的很嚴重了

這4個行業,已經發不出工資了!真的很嚴重了

職場資深秘書
2026-06-11 16:00:48
2026-06-12 21:59:00
車東西
車東西
未來汽車看這里。
6226文章數 6419關注度
往期回顧 全部

汽車要聞

標配激光雷達/雙動力可選 昊鉑S600限時售17.99萬起

頭條要聞

內塔尼亞胡:特朗普不打伊朗了 沒提前告訴我

頭條要聞

內塔尼亞胡:特朗普不打伊朗了 沒提前告訴我

體育要聞

歐洲恐韓?肉德維德?

娛樂要聞

一天4個瓜,肖戰熱巴最意外

財經要聞

萬億美元順差背后,透露這些信號

科技要聞

鴻蒙7發布,余承東:首個完成AI化改造系統

態度原創

健康
教育
游戲
親子
家居

老人、小孩、孕婦,吃粽子有啥風險

教育要聞

綿陽中考作文題公布!直擊綿陽中考首日

《羊蹄山之魂》PS5銷量近500萬 《馬拉松》不到35萬

親子要聞

給孩子報個幼兒園還要工資流水?難道這就是傳說中的“因財施教”

家居要聞

空間微調 移形換境

無障礙瀏覽 進入關懷版