網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

剛剛，LeCun團(tuán)隊(duì)讓世界模型學(xué)會(huì)持續(xù)學(xué)習(xí)！

2026-07-05 14:50:03　來源: 量子位

河北舉報(bào)

分享至

henry 發(fā)自凹非寺
量子位 | 公眾號(hào) QbitAI

世界模型，也能持續(xù)學(xué)習(xí)了！

剛剛，紐約大學(xué)聯(lián)合LeCun初創(chuàng)AMI帶來JEPA系列的最新成果——

AdaJEPA

與過去在預(yù)訓(xùn)練結(jié)束后就凍結(jié)參數(shù)的世界模型不同，AdaJEPA能夠在與環(huán)境交互中，基于測(cè)試時(shí)自適應(yīng)（Test-Time Adaptation, TTA），實(shí)時(shí)調(diào)整世界模型的編碼器和預(yù)測(cè)器參數(shù)，從而實(shí)現(xiàn)持續(xù)學(xué)習(xí)。

具體而言，AdaJEPA通過計(jì)劃、執(zhí)行、觀測(cè)、更新、再規(guī)劃的閉環(huán)，在每次交互中只執(zhí)行MPC規(guī)劃出的第一段動(dòng)作，然后把真實(shí)觀察到的下一幀狀態(tài)，當(dāng)成自監(jiān)督信號(hào)來更新世界模型。

由此，在下一輪規(guī)劃時(shí)用的就不再是剛部署時(shí)那個(gè)凍結(jié)模型，而是已經(jīng)被當(dāng)前環(huán)境“校準(zhǔn)”過的模型。

這個(gè)思路有點(diǎn)像經(jīng)典強(qiáng)化學(xué)習(xí)里的Dyna

模型不是一次訓(xùn)練完就結(jié)束，而是在真實(shí)交互中不斷修正自己對(duì)世界的理解。

實(shí)驗(yàn)結(jié)果也表明，無論是在分布內(nèi)環(huán)境，還是面對(duì)各類分布外偏移，AdaJEPA的規(guī)劃成功率都明顯優(yōu)于固定世界模型。

這是怎么做到的？

計(jì)劃、執(zhí)行、觀測(cè)、更新、再規(guī)劃

一直以來，基于JEPA路線的隱空間世界模型，都有一個(gè)默認(rèn)前提，就是模型訓(xùn)練完，就凍結(jié)參數(shù)。

整個(gè)流程大致是這樣：

模型先在離線軌跡上學(xué)習(xí)把高維圖像壓進(jìn)latent space，然后再在這個(gè)隱空間里預(yù)測(cè)未來。

到了測(cè)試階段，MPC（Model Predictive Control，模型預(yù)測(cè)控制）就會(huì)調(diào)用這個(gè)凍結(jié)的世界模型，在隱空間里向前滾動(dòng)“想象”未來，優(yōu)化出一串動(dòng)作，再把第一步動(dòng)作拿到真實(shí)環(huán)境里執(zhí)行。

（注：MPC的核心思想是每次只往前預(yù)測(cè)一小段，算出一串動(dòng)作，但先只執(zhí)行第一步。等真實(shí)環(huán)境反饋回來，再重新預(yù)測(cè)、重新規(guī)劃）

但問題在于，環(huán)境一變，凍結(jié)世界模型就容易失準(zhǔn)。

當(dāng)系統(tǒng)面臨測(cè)試時(shí)分布偏移（Test-time Distribution Shift）時(shí)，在latent space里看起來能到達(dá)目標(biāo)的動(dòng)作，落到真實(shí)環(huán)境里，可能一步都不對(duì)。

更麻煩的是，MPC本來就靠短時(shí)域滾動(dòng)規(guī)劃，單步誤差往后滾幾步，就會(huì)被放大。

為解決這一問題，論文提出AdaJEPA框架。

它的核心判斷是：世界模型不該訓(xùn)練完就固定在那里。它應(yīng)該像真正部署中的智能體一樣，一邊行動(dòng)，一邊用新經(jīng)驗(yàn)校準(zhǔn)自己。

具體來說，AdaJEPA的循環(huán)可以分為四步：

：模型先把當(dāng)前觀測(cè)編碼成latent state，然后用當(dāng)前世界模型進(jìn)行MPC，在隱空間里向前滾動(dòng)預(yù)測(cè)，找出一串最接近目標(biāo)狀態(tài)的動(dòng)作。
執(zhí)行：模型不會(huì)一次性執(zhí)行完整動(dòng)作序列，而是只執(zhí)行第一段動(dòng)作。隨后，真實(shí)環(huán)境返回下一幀觀測(cè)。
更新：把這次真實(shí)狀態(tài)轉(zhuǎn)移存進(jìn)在線緩存區(qū)。AdaJEPA再讓模型根據(jù)觀測(cè)和動(dòng)作預(yù)測(cè)下一步latent state，并和真實(shí)狀態(tài)預(yù)測(cè)編碼出的latent state對(duì)齊。預(yù)測(cè)錯(cuò)在哪里，梯度就從哪里回來。
再規(guī)劃：更新后的世界模型立刻進(jìn)入下一輪MPC。論文里默認(rèn)只更新視覺編碼器和預(yù)測(cè)器的最后幾層，每次重規(guī)劃只做1步梯度下降。

由此，AdaJEPA的循環(huán)不再只是傳統(tǒng) MPC 的：規(guī)劃，執(zhí)行，再規(guī)劃。

而是變成了：規(guī)劃，執(zhí)行，觀測(cè)，更新，再規(guī)劃。

世界模型也因此不再只是一個(gè)被動(dòng)調(diào)用的“想象器”，而變成了一個(gè)會(huì)在部署過程中持續(xù)校準(zhǔn)自己的模塊。

實(shí)現(xiàn)細(xì)節(jié)

在實(shí)現(xiàn)上，AdaJEPA的底座依然是JEPA（Joint-Embedding Predictive Architectures），聯(lián)合嵌入預(yù)測(cè)架構(gòu)。

和傳統(tǒng)像素級(jí)預(yù)測(cè)世界模型不同，JEPA并不直接預(yù)測(cè)未來圖像，而是先把圖像壓進(jìn)一個(gè)更緊湊的隱空間，只在latent space里預(yù)測(cè)未來狀態(tài)。

具體來說，整個(gè)模型由三個(gè)核心組件組成：

狀態(tài)編碼器，把當(dāng)前觀測(cè)編碼成隱狀態(tài)。
動(dòng)作編碼器，把動(dòng)作編碼成動(dòng)作嵌入。
預(yù)測(cè)器，根據(jù)當(dāng)前隱狀態(tài)和動(dòng)作嵌入，預(yù)測(cè)下一步隱狀態(tài)。

AdaJEPA的在線更新，就發(fā)生在這個(gè)隱空間里。

每次執(zhí)行動(dòng)作后，系統(tǒng)都會(huì)把真實(shí)狀態(tài)轉(zhuǎn)移存入在線緩存區(qū)。這個(gè)緩存區(qū)不會(huì)無限增長，論文里默認(rèn)只保留最近N條轉(zhuǎn)移。

更新時(shí)，AdaJEPA會(huì)讓模型根據(jù)當(dāng)前觀測(cè)和動(dòng)作預(yù)測(cè)下一時(shí)刻的隱狀態(tài)，再和真實(shí)下一幀觀測(cè)編碼出的隱狀態(tài)對(duì)齊。

為了防止在線更新把原本的表征空間拉崩，論文做了兩個(gè)限制：

一是對(duì)目標(biāo)表征使用stop-gradient；二是只更新少量參數(shù)。

實(shí)驗(yàn)?zāi)J(rèn)只更新視覺編碼器和預(yù)測(cè)器的最后幾層，并且每次MPC重規(guī)劃只進(jìn)行1步梯度下降。

所以，這并不是把整個(gè)世界模型在線重訓(xùn)一遍。

它更像是每走一步，就用剛剛從真實(shí)環(huán)境里獲得的新反饋，把世界模型往當(dāng)前環(huán)境上輕輕校準(zhǔn)一下。

實(shí)驗(yàn)測(cè)試

為了驗(yàn)證測(cè)試時(shí)自適應(yīng)能否讓凍結(jié)世界模型在環(huán)境變化中重新校準(zhǔn)自己，論文在PushT/PushObjPointMaze兩個(gè)基準(zhǔn)上做了實(shí)驗(yàn)。

實(shí)驗(yàn)表明，在 PushObj未見過形狀上，AdaJEPA幾乎把規(guī)劃成功率翻倍。

而在PointMaze的未見過布局中，提升同樣明顯。

其中，GD規(guī)劃成功率從53.3%提到 78.7%，CEM從49.3%提到70.7%。

更關(guān)鍵的是，這種在線更新帶來的額外延遲并不高。

論文默認(rèn)只更新視覺編碼器和預(yù)測(cè)器的最后幾層，每次MPC重規(guī)劃只做1步梯度下降，額外延遲只有 0.01到0.03秒。

也就是說，AdaJEPA并不是用很重的在線訓(xùn)練，強(qiáng)行換來更高成功率。

它更像是在原有世界模型的基礎(chǔ)上，加入了一個(gè)輕量的“部署時(shí)自我校準(zhǔn)”機(jī)制。

總體來看，這篇論文想說明的是：

世界模型不必訓(xùn)練完就被凍結(jié)，只要讓它在部署時(shí)利用真實(shí)交互結(jié)果做輕量更新，就已經(jīng)能顯著提升面對(duì)環(huán)境變化時(shí)的魯棒性。

作者介紹

最后，讓我們來簡單介紹一下這篇論文的作者們。

作者Ying Wang目前是紐約大學(xué)數(shù)據(jù)科學(xué)中心CILVR Lab 的博士生，研究方向是世界模型，導(dǎo)師是Mengye RenYann LeCun

另一位作者Oumayma Bounou目前是紐約大學(xué)博士后研究員，她的研究興趣集中在世界模型、控制和優(yōu)化。

目前，她正與LeCun合作研究世界模型。

此外，紐約大學(xué)計(jì)算機(jī)科學(xué)與數(shù)據(jù)科學(xué)助理教授Mengye Ren和圖靈獎(jiǎng)獲得者Yann LeCun共同擔(dān)任指導(dǎo)作者。

參考鏈接[1]https://arxiv.org/pdf/2606.32026

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.