5月26日消息,小米技術(shù)官方宣布小米汽車正式推出Xiaomi Auto World Model全新框架,將三維重建與視頻生成深度耦合,為業(yè)界輔助駕駛世界模型提供了新的整合路徑。
這一框架打破了行業(yè)長期將重建與生成獨立拆分的做法,在Waymo、nuScenes等主流基準(zhǔn)測試中全面取得SOTA,并已在小米汽車合成數(shù)據(jù)、仿真測試、智能座艙三大核心場景完成落地。
世界模型本質(zhì)上是為智能駕駛構(gòu)建一個可預(yù)測、可推理的“數(shù)字平行世界”。行業(yè)此前存在兩條主要技術(shù)路線:重建路線(WorldRec)從多視角觀測恢復(fù)幾何精確的3D場景,高保真但只能還原已見內(nèi)容,缺乏想象能力;生成路線(WorldGen)通過擴散模型直接預(yù)測未來畫面,能“想象”未觀測視角,但缺乏顯式3D結(jié)構(gòu),長時序下容易漂移失真。
小米的方案讓二者深度耦合:重建模塊提供3D幾何結(jié)構(gòu)化錨點約束生成穩(wěn)定性,生成模塊將預(yù)測能力延伸到觀測之外彌補重建邊界,形成閉環(huán)互相增益。
技術(shù)指標(biāo)上,重建模塊WorldRec采用稀疏三維錨點表征,替代傳統(tǒng)逐像素稠密高斯方法,10秒視頻重建僅需10秒。生成模塊WorldGen經(jīng)兩階段訓(xùn)練(全雙向時序注意力預(yù)訓(xùn)練加因果微調(diào)與蒸餾加速),僅需4步去噪、0.19秒生成一幀,支持最長1分鐘視頻,可模擬罕見動物闖入、極端天氣等長尾場景。
在Waymo數(shù)據(jù)集上重建精度PSNR達28.48,超越此前最佳方法;nuScenes上生成質(zhì)量FVD達64.97,單視角生成速度較同類自回歸方法快約5.6倍。
落地方面,已交付超過10萬clips高質(zhì)量合成數(shù)據(jù)用于感知模型訓(xùn)練;仿真測試可在系統(tǒng)中復(fù)現(xiàn)真實事故進行定向優(yōu)化;輔助駕駛學(xué)堂已上線全車型實景模擬功能,可動態(tài)生成第一人稱駕駛教學(xué)視頻。
行業(yè)趨勢上,如果說2025年的技術(shù)熱詞是“端到端”,2026年的焦點就是“世界模型”。傳統(tǒng)端到端模型通過感知輸入直出軌跡,實現(xiàn)“直覺”式反應(yīng),但世界模型能理解物理規(guī)律和因果關(guān)系,預(yù)測未來狀態(tài)變化。
英偉達副總裁吳新宙在2026北京車展上表示,世界模型是自動駕駛最本質(zhì)的一環(huán),會與VLA(視覺語言行動模型)在高階輔助駕駛階段深度融合。清華大學(xué)鄧志東教授也指出,未來智駕系統(tǒng)將是“世界模型為底、VLA為表”的融合架構(gòu)。
不過,世界模型并非沒有瓶頸。技術(shù)路線上,行業(yè)仍分為VLA與世界模型兩大陣營,2026年3月英偉達GTC大會上分歧已公開激化。
算力架構(gòu)上,世界模型的核心是DiT架構(gòu),而市面上幾乎沒有為DiT量身定制的芯片,傳統(tǒng)TOPS算力指標(biāo)正在失效。
量產(chǎn)上,世界模型加擴散動作專家路線目前還沒有量產(chǎn)上車的案例,商業(yè)化落地時間可能比預(yù)期更長。
從公開投訴信息來看,小米SU7智駕系統(tǒng)在實際使用中的可靠性仍有提升空間。車質(zhì)網(wǎng)、中國投訴平臺等多起投訴顯示,AEB自動緊急制動系統(tǒng)無故觸發(fā)且無預(yù)警驟停、輔助駕駛限速識別錯亂并超速行駛、高速NOA狀態(tài)下無故緊急變道避險等問題均有車主反映。
2025年9月,小米因部分車輛L2高速領(lǐng)航輔助駕駛功能在極端特殊場景下識別、預(yù)警或處置不足存在安全隱患,召回約11.7萬輛SU7,通過OTA升級解決。2025年1月,湖北高速還發(fā)生一起端到端智駕模式下AEB未及時介入致追尾事故的案例。這些事故和安全事件反映出,世界模型能否切實改善實際道路上的安全性,仍需后續(xù)實車驗證。
總體而言,小米的一體化框架為世界模型技術(shù)路徑提供了新的參考樣本,三項SOTA指標(biāo)和三項業(yè)務(wù)落地在行業(yè)內(nèi)具有一定示范性。但行業(yè)共識正在形成:物理世界的基座模型是趨勢,融合架構(gòu)才是終局,單點技術(shù)突破仍需經(jīng)得起時間檢驗和實際道路考驗。
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.