【CNMO科技消息】5月26日,小米汽車正式發(fā)布Xiaomi Auto World Model全新框架,為業(yè)界輔助駕駛世界模型提供了新的框架路徑,推動(dòng)行業(yè)從“場(chǎng)景感知”向“認(rèn)知推演、場(chǎng)景進(jìn)化”的高階形態(tài)躍遷。
![]()
小米汽車
該框架是小米首次將三維重建與視頻生成深度耦合的一體化架構(gòu),以“重建錨定幾何、生成填補(bǔ)想象”的新范式,打破行業(yè)長(zhǎng)期采用的重建與生成分離的技術(shù)路線。在 Waymo、nuScenes 等主流基準(zhǔn)測(cè)試中全面取得 SOTA,并已在小米汽車合成數(shù)據(jù)、仿真測(cè)試、智能座艙三大核心場(chǎng)景完成業(yè)務(wù)落地。
![]()
CNMO科技注意到,該框架將重建模塊(WorldRec)與生成模塊(WorldGen)深度耦合。WorldRec通過稀疏三維錨點(diǎn)表征,高效構(gòu)建精確的 3D 場(chǎng)景幾何;WorldGen則在重建約束下補(bǔ)全未觀測(cè)區(qū)域和未來幀,支持最長(zhǎng)1分鐘的視頻生成。兩者互相增益,實(shí)現(xiàn)了高穩(wěn)定性、高一致性、高真實(shí)性的協(xié)同效果。
在重建領(lǐng)域,WorldRec在公開的Waymo數(shù)據(jù)集上全面領(lǐng)先此前SOTA方法DGGT,PSNR達(dá)到28.48,超出約1個(gè)點(diǎn);在nuScenes零樣本泛化測(cè)試中依然保持領(lǐng)先,對(duì)新場(chǎng)景適應(yīng)能力強(qiáng)。在生成領(lǐng)域,WorldGen在H20 GPU上單視角生成速度達(dá)0.19秒/幀,三視角為0.46秒/幀,比同為自回歸方法的Epona(1.06秒/幀)快5.6倍。支持高達(dá)81幀連續(xù)生成(10Hz/30Hz,最長(zhǎng)1分鐘),而大多數(shù)公開基線僅能生成8-16幀。在nuScenes數(shù)據(jù)集上,WorldGen取得FVD 64.97和FID 7.04的成績(jī),F(xiàn)VD指標(biāo)超越了所有對(duì)比的同類模型。
![]()
![]()
值得一提的是,Xiaomi Auto World Model已在小米汽車三大實(shí)際場(chǎng)景中落地:
合成數(shù)據(jù)生成:已交付超過10萬clips高質(zhì)量合成數(shù)據(jù),直接用于感知模型訓(xùn)練,提升車輛在危險(xiǎn)場(chǎng)景下的識(shí)別能力。
仿真測(cè)試:構(gòu)建閉環(huán)仿真環(huán)境,優(yōu)化測(cè)試效率,可在仿真中復(fù)現(xiàn)真實(shí)事故進(jìn)行定向優(yōu)化。
輔助駕駛學(xué)堂:利用世界模型動(dòng)態(tài)生成第一人稱駕駛教學(xué)視頻,目前已上線小米全車型的輔助駕駛學(xué)堂 - 實(shí)景模擬場(chǎng)景。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.