一凡 發(fā)自 副駕寺
智能車參考 | 公眾號 AI4Auto
Momenta,也押注世界模型了。
就在剛剛,Momenta劇透下一代飛輪大模型R7,將世界模型引入強(qiáng)化學(xué)習(xí),讓AI看懂物理世界,理解物理規(guī)律。
據(jù)說引入世界模型后,R7性能暴漲,表現(xiàn)驚艷,以至于上汽大眾總經(jīng)理陶海龍親測R7后,直接給曹旭東打電話:
- 必須我們首發(fā)
上汽大眾爭取首發(fā)R7的產(chǎn)品,名為ID.ERA 9X。這是上汽大眾的最新旗艦,一款車長超5.2米的全尺寸增程SUV,集成了德系機(jī)械素質(zhì)和中國AI技術(shù)。
![]()
Momenta押注世界模型,劇透下一代R7大模型
在劇透世界模型前,Momenta CEO曹旭東首先介紹了行業(yè)過去的技術(shù)瓶頸。曹旭東表示,業(yè)內(nèi)此前普遍采用模仿學(xué)習(xí)范式,這種范式通過模仿人類老司機(jī)軌跡來提升模型性能,無法超越人類老司機(jī)的駕駛水平。這就像咱們在學(xué)校里亦步亦趨地跟著老師學(xué)習(xí),當(dāng)然很難超越老師。
為了打破技術(shù)瓶頸,讓AI司機(jī)有希望超越人類司機(jī),Momenta轉(zhuǎn)向了強(qiáng)化學(xué)習(xí),Momenta認(rèn)為強(qiáng)化學(xué)習(xí)大模型有希望超越人,甚至大幅超越人,在去年推出了基于強(qiáng)化學(xué)習(xí)的一段式端到端大模型R6
R6能夠在開放的環(huán)境中自主探索試錯,不再只是簡單地模仿人類軌跡,而是從綜合安全、舒適和效率等多個維度考慮,從多個可能軌跡中篩選出最好的那條。
R6代表著Momenta過去的技術(shù)探索,面向未來Momenta押注了世界模型,即將推出R7強(qiáng)化學(xué)習(xí)世界模型
這里簡單解釋一下,關(guān)于世界模型的定義有很多種,目前大體可以分為兩類:
一類是生成世界模型,一般作為自動駕駛和具身智能的“云端訓(xùn)練場”,訓(xùn)練端側(cè)算法。自動駕駛行業(yè)目前基本對這條路線形成了共識,只有個別玩家還在堅持真實(shí)數(shù)據(jù)為王。
另一類是表征世界模型,代表著車端真正驅(qū)動車輛的AI算法,負(fù)責(zé)理解物理世界并進(jìn)行推理。目前行業(yè)在這條路線和VLA之間存在爭論,Momenta押注的正是這條路線,與Momenta同一陣營的還有蔚來華為
![]()
為什么Momenta在此時轉(zhuǎn)向了世界模型?
曹旭東認(rèn)為,物理AI時代已經(jīng)到來,因此自動駕駛技術(shù)必須要擁有對于物理世界的認(rèn)知能力,所以Momenta在強(qiáng)化學(xué)習(xí)的基礎(chǔ)上,引入了世界模型,讓AI能夠基于更完整的物理世界信息,做出更符合物理世界的預(yù)測和規(guī)劃。只有這樣大模型才有機(jī)會真正地理解物理規(guī)律,理解運(yùn)動之間的因果關(guān)系,以及物體之間交互的潛在可能。
那為什么Momenta不選VLA?
“VLA好鋼沒用刀刃上,傳感器重要性排第三梯隊”
在發(fā)布會后,曹旭東還對話了智能車參考等媒體,在群訪中回答了很多問題,最值得關(guān)注的是兩大路線之爭
第一大路線之爭圍繞VLA和世界模型之間展開。
曹旭東從直覺和技術(shù)兩個角度,解釋了為什么Momenta不選VLA。
首先從直覺上來說,曹旭東認(rèn)為雖然LLM現(xiàn)在什么都能干,比如會寫代碼、寫詩歌、解數(shù)學(xué)題,但這對開車來說幫助不大。類比人類司機(jī),把車開好不需要一個人會寫代碼或者解數(shù)學(xué)題,只需要ta能理解物理世界的規(guī)律,在各種各樣的場景及時做出反應(yīng),并做出安全的預(yù)判。
而只有世界模型才具有這樣的能力,能夠?qū)W習(xí)物理規(guī)律,并且可以通過強(qiáng)化學(xué)習(xí)收集到大量的長尾場景,反復(fù)鍛煉“肌肉記憶”。
而從技術(shù)角度來看,曹旭東介紹稱VLA的訓(xùn)練側(cè)重點(diǎn)與自動駕駛的需求有偏差。VLA訓(xùn)練起源于LLM,底座模型的參數(shù)量一般在100B左右,然后再通過視覺和語言對齊,最后用行動去和視覺-語言組合對齊。這樣看來在VLA的訓(xùn)練過程中,語義的優(yōu)先級高于駕駛,很多參數(shù)也沒用于駕駛?cè)蝿?wù),“好鋼沒用在刀刃上”。總結(jié)起來就是“VLA對自動駕駛是錦上添花,很難雪中送炭”
![]()
VLA和世界模型,是軟件算法層面的爭議,而在底層硬件上,行業(yè)此前還一直存在著純視覺和多傳感器冗余(激光雷達(dá))的爭論,但這已經(jīng)是過去時了
曹旭東認(rèn)為,傳感器選型的重要性只能排在第三位。前兩位是什么?
首先,Momenta最重視的是算法架構(gòu)、數(shù)據(jù)和體系能力
數(shù)據(jù)不必多說,這是AI迭代的基石。先說算法架構(gòu),曹旭東表示單一算法本身的壁壘很低,更重要的是架構(gòu),即把很多算法整合形成合力,并長期積累的能力。
再往上層是研發(fā)體系能力,要像神經(jīng)網(wǎng)絡(luò)一樣可以反向傳播,就是識別到用戶高價值的任務(wù),并將其傳播給產(chǎn)品和研發(fā)團(tuán)隊。這樣團(tuán)隊才能知道什么事情產(chǎn)出最高,在方案選型時選出提升用戶體驗最快的方案。
曹旭東透露,數(shù)據(jù)、架構(gòu)和體系能力是Momenta內(nèi)部第一梯隊重要的事情,而緊隨其后的是芯片算力。因為芯片算力直接決定模型能力上限。
在這些要素之后,排在第三梯隊的是傳感器。曹旭東認(rèn)為哪怕只用純視覺,即傳感器都用攝像頭,相比人類雙眼已經(jīng)是“超配”了。因為人的雙眼并不是360°環(huán)視的,攝像頭的覆蓋程度已經(jīng)非常全面,有足夠的冗余。
所以傳感器當(dāng)然是越多越好,但隨著數(shù)據(jù)、算法架構(gòu)和研發(fā)體系能力提升,堆傳感器數(shù)量、堆激光雷達(dá)的邊際效應(yīng)會減弱。
“這已經(jīng)逐漸成為行業(yè)共識了”
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.