允中 發(fā)自 凹非寺
量子位 | 公眾號(hào) QbitAI
當(dāng)前視頻世界模型在單智能體設(shè)定下已經(jīng)走得相對(duì)成熟。
但多智能體場景——多個(gè)玩家共享同一個(gè)演化世界,在架構(gòu)層面一直缺乏系統(tǒng)性的解決方案。
問題不在于算力不夠,而在于現(xiàn)有的位置編碼和注意力機(jī)制,從設(shè)計(jì)上就沒有為多個(gè)主體預(yù)留接口。
近日,NVIDIA聯(lián)合清華大學(xué)、多倫多大學(xué)和Vector Institute發(fā)布Gamma-World(γ-World),從RoPE擴(kuò)展和注意力拓?fù)鋬蓚€(gè)底層組件入手,給出了一套系統(tǒng)性的答案。
論文標(biāo)題:Gamma-World: Generative Multi-Agent World Modeling Beyond Two Players
![]()
為什么多智能體世界建模是一個(gè)困難問題
現(xiàn)有視頻世界模型幾乎都建立在單智能體假設(shè)之上:
給定一個(gè)玩家的動(dòng)作序列,預(yù)測該視角下的未來觀測。
多智能體設(shè)定從根本上改變了這個(gè)問題的性質(zhì)——模型不再只需預(yù)測「這個(gè)智能體接下來看到什么」,而是需要同時(shí)回答:
玩家A的移動(dòng)應(yīng)當(dāng)在玩家B的視野中如何呈現(xiàn)?兩名玩家同時(shí)操作同一個(gè)物體,狀態(tài)應(yīng)當(dāng)如何演化?
這不是「生成N段獨(dú)立視頻」的問題,而是「生成N個(gè)耦合視角對(duì)同一個(gè)演化世界的不同投影」。
在技術(shù)層面,這意味著模型必須同時(shí)維護(hù)三重一致性:
- 時(shí)間一致性:畫面在時(shí)序上連貫;
- 跨視角一致性:A在B視野中的呈現(xiàn)與A自身軌跡吻合;
- 交互一致性:多個(gè)智能體對(duì)共享環(huán)境的操作在所有視角中產(chǎn)生一致的狀態(tài)變化。
單智能體框架在設(shè)計(jì)上只保證了時(shí)間一致性,后兩者從未被納入考量——
這是架構(gòu)層面的結(jié)構(gòu)性缺失,無法通過增加數(shù)據(jù)量或模型規(guī)模來彌補(bǔ)。
在Gamma-World之前,這個(gè)方向并非沒有人嘗試。
Solaris已經(jīng)在雙人Minecraft上取得了不錯(cuò)的結(jié)果,但它暴露出的兩個(gè)結(jié)構(gòu)性問題,恰恰說明了為什么將單智能體框架直接「擴(kuò)展」到多智能體,是一條走不通的路。
其一,身份編碼破壞了對(duì)稱性
Solaris為每個(gè)玩家分配固定的可學(xué)習(xí)槽位身份向量,實(shí)質(zhì)上將「1號(hào)槽」和「2號(hào)槽」學(xué)成了兩種不同的角色類型。
在真實(shí)的多智能體世界中,能力相同的玩家本質(zhì)上可互換,這種對(duì)稱性的缺失使模型學(xué)到的是「特定角色的交互模式」,而非「多個(gè)平等主體共享世界的規(guī)律」,泛化性從根本上受限,且一旦需要支持新的玩家數(shù)就必須重新訓(xùn)練。
其二,全連接注意力存在擴(kuò)展性天花板
讓所有玩家的token兩兩直接交互,計(jì)算成本隨玩家數(shù)量平方增長——
從2人擴(kuò)展到8人,計(jì)算量從477.8G增至7.6T,增長約16倍。
這是算法復(fù)雜度決定的天花板,無法通過工程優(yōu)化解決。
兩個(gè)問題指向同一個(gè)結(jié)論:多智能體世界模型需要的不是修補(bǔ),而是對(duì)兩個(gè)核心組件的重新設(shè)計(jì)。
有關(guān)如何表示智能體身份,以及如何設(shè)計(jì)跨智能體通信。
核心設(shè)計(jì)一:Simplex Rotary Agent Encoding,讓玩家「身份等距、地位平等」
這個(gè)設(shè)計(jì)要解決的核心矛盾是:
如何讓模型既能區(qū)分不同的玩家,又不讓任何玩家在表示上比其他玩家「更特殊」。
視頻Transformer用RoPE(旋轉(zhuǎn)位置編碼)來表達(dá)位置關(guān)系——給每個(gè)信息片段分配一個(gè)旋轉(zhuǎn)角度,兩個(gè)片段之間的位置差異通過旋轉(zhuǎn)角度的差來表達(dá)。
標(biāo)準(zhǔn)視頻RoPE編碼三個(gè)軸:時(shí)間、高度、寬度。
Gamma-World加了第四個(gè)軸——玩家軸,在不改變?cè)袝r(shí)空編碼的前提下,為智能體身份單獨(dú)留出一個(gè)維度。
軸加起來容易,難的是這個(gè)玩家軸上的編碼怎么設(shè)計(jì)。
直接編號(hào)行不通。
給玩家按序號(hào)分配角度,會(huì)導(dǎo)致不同玩家對(duì)之間的旋轉(zhuǎn)距離不等:1號(hào)和2號(hào)差1,1號(hào)和3號(hào)差2。
「1號(hào)與2號(hào)的關(guān)系」和「1號(hào)與3號(hào)的關(guān)系」在表示空間中并不等距,盡管物理上完全等價(jià)。置換對(duì)稱性被編碼方式本身直接破壞。
可學(xué)習(xí)的槽位嵌入也不行。
每個(gè)座位綁定一個(gè)固定的可訓(xùn)練向量,模型被鎖死在訓(xùn)練時(shí)的玩家數(shù)量上,無法擴(kuò)展,這正是Solaris的核心局限。
正單純形:所有玩家天然等距
Gamma-World的解法很優(yōu)雅:把所有玩家放在一個(gè)正單純形(regular simplex)的頂點(diǎn)上。
什么意思?
想象一個(gè)正三角形,所有頂點(diǎn)之間的距離完全相等,沒有哪個(gè)頂點(diǎn)更特殊。
- 2個(gè)玩家 → 線段的兩端
- 3個(gè)玩家 → 等邊三角形的三個(gè)頂點(diǎn)
- 4個(gè)玩家 → 正四面體的四個(gè)頂點(diǎn)
無論哪兩個(gè)玩家,他們?cè)谛D(zhuǎn)角空間里的距離完全一樣。模型看到任意兩個(gè)玩家,他們之間的幾何關(guān)系是對(duì)稱的,誰也不比誰特殊。
![]()
這個(gè)編碼不需要任何可學(xué)習(xí)的參數(shù)
訓(xùn)練時(shí),活躍玩家被隨機(jī)分配到頂點(diǎn)池里的不同位置,模型只能靠幾何坐標(biāo)來認(rèn)人。
推理時(shí)想支持更多玩家,從同一個(gè)頂點(diǎn)池里多取幾個(gè)頂點(diǎn)就行,架構(gòu)不用改,也不用重新訓(xùn)練
這也是Gamma-World能做到「雙人數(shù)據(jù)訓(xùn)練、四人場景直接跑通」的根本原因。
![]()
核心設(shè)計(jì)二:Sparse Hub Attention,從「全連接」到「樞紐廣播」
跨智能體通信是多智能體世界模型繞不過去的需求,但以往方案的做法代價(jià)過高——
讓所有玩家的所有token兩兩直接交互,計(jì)算成本隨玩家數(shù)量平方增長:從2人擴(kuò)展到8人,計(jì)算量從477.8G漲至7.6T,增長約16倍。
這是算法復(fù)雜度決定的天花板,無法通過工程優(yōu)化解決。
問題的根源在于一個(gè)錯(cuò)誤的假設(shè):每個(gè)token級(jí)別的細(xì)節(jié)都需要在所有玩家之間直接傳遞。
事實(shí)上,玩家A放下方塊,玩家B需要感知的只是「世界里出現(xiàn)了一個(gè)方塊」——這是一個(gè)緊湊的世界狀態(tài)變化,而非A的全部視覺細(xì)節(jié)。
但玩家之間真的需要「直接說話」嗎?
全連接注意力隱含了一個(gè)假設(shè):每個(gè)token級(jí)別的細(xì)節(jié)都需要在所有玩家之間直接傳遞。而這個(gè)假設(shè)在絕大多數(shù)場景下是錯(cuò)誤的。
Gamma-World引入一組可學(xué)習(xí)的hub token(樞紐token),構(gòu)成輪輻式拓?fù)洌?/p>
- 每個(gè)智能體只與自身歷史及hub token交互;
- hub token匯聚所有智能體的信息壓縮為共享狀態(tài)摘要,再廣播回各智能體流;
- 不同智能體之間的直接注意力被完全屏蔽,信息經(jīng)由兩跳傳遞:智能體→hub→智能體
這一結(jié)構(gòu)將計(jì)算成本從平方復(fù)雜度壓至線性復(fù)雜度。
![]()
△Sparse Hub Attention(藍(lán)線)vs Dense Attention(紅線),隨玩家數(shù)量增加FLOPs差距接近8倍
值得強(qiáng)調(diào)的是,稀疏樞紐注意力不只是節(jié)省了算力,它本身也是一個(gè)更合理的歸納偏置——在架構(gòu)層面顯式編碼了「跨智能體信息應(yīng)經(jīng)過共享世界狀態(tài)瓶頸」這一先驗(yàn),而非期待模型從數(shù)據(jù)中隱式學(xué)習(xí)。
推理時(shí)通過獨(dú)立的KV cache保留稀疏通信拓?fù)洌罱K實(shí)現(xiàn)24 FPS實(shí)時(shí)動(dòng)作響應(yīng)推演
方法總覽
![]()
(注:方法總覽,左側(cè)為同步多智能體輸入,中間為Tokenization,右側(cè)為Causal Multi-Agent DiT,下方分別展示Simplex Rotary Agent Encoding和Sparse Hub Attention的示意圖)
整體架構(gòu)輸入同步的多智能體觀測和動(dòng)作序列,用共享的視覺編碼器和動(dòng)作編碼器對(duì)每個(gè)玩家流分別tokenize,再通過帶稀疏樞紐注意力的因果多智能體DiT生成未來多路rollout。
推理時(shí)使用KV cache實(shí)現(xiàn)流式生成,每個(gè)玩家流和樞紐各維護(hù)獨(dú)立緩存。
核心設(shè)計(jì)三:三階段蒸餾,從「看得全」到「跑得快」
生成質(zhì)量和推理實(shí)時(shí)性在擴(kuò)散模型里天然是一對(duì)矛盾:雙向模型質(zhì)量最高但無法流式推理,因果模型支持實(shí)時(shí)生成但質(zhì)量下降。
Gamma-World用三階段訓(xùn)練在兩者之間架橋。
第一階段:訓(xùn)練雙向教師。
教師模型可訪問完整序列(包括未來幀),提供最高質(zhì)量的生成分布,僅用于訓(xùn)練階段,不參與推理。
第二階段:訓(xùn)練因果學(xué)生。
學(xué)生模型只能看到當(dāng)前及過去的幀,結(jié)合稀疏樞紐注意力適配流式推理。
關(guān)鍵在于將學(xué)生完整訓(xùn)練為多步擴(kuò)散模型,而非僅作為蒸餾熱身——蒸餾之前學(xué)生已能產(chǎn)生合理的推演結(jié)果,為下一階段提供穩(wěn)定起點(diǎn)。
第三階段:條件Self-Forcing蒸餾。
以因果學(xué)生為起點(diǎn)、雙向教師為目標(biāo),通過分布匹配蒸餾(DMD)將多步采樣壓縮為4步采樣
蒸餾在自回歸self-rollout下進(jìn)行,訓(xùn)練分布與推理分布對(duì)齊,有效緩解誤差累積。
全程保留初始幀與逐智能體動(dòng)作序列作為條件信號(hào),確保壓縮后的模型動(dòng)作可控性不退化,最終實(shí)現(xiàn)24 FPS流式推演
實(shí)驗(yàn)結(jié)果
1、全面超越現(xiàn)有最強(qiáng)
在多人Minecraft環(huán)境的五類場景中,對(duì)比幀拼接方案和目前最強(qiáng)的多智能體世界模型Solaris,Gamma-World在記憶、空間定位、移動(dòng)、建造、跨視角一致性五個(gè)場景全面領(lǐng)先,關(guān)鍵指標(biāo)FVD(視頻生成質(zhì)量的評(píng)估指標(biāo))平均降幅超過40%。
2、消融:每一步設(shè)計(jì)都有實(shí)際效果
消融結(jié)果說明從「學(xué)習(xí)槽位身份」換成「單純形編碼」,F(xiàn)VD從256.3降至228.5,沒有增加任何參數(shù),僅通過改變編碼方式就帶來了整個(gè)消融中最大的單步增益
這個(gè)結(jié)果的意義不只是「單純形編碼更好」,而是證明了一件更根本的事:
在架構(gòu)中顯式編碼置換對(duì)稱性約束,比讓模型從數(shù)據(jù)中隱式學(xué)習(xí)這種結(jié)構(gòu),在樣本效率和最終性能上都有顯著優(yōu)勢
對(duì)稱性是一個(gè)先驗(yàn)知識(shí),把先驗(yàn)知識(shí)編進(jìn)架構(gòu)比讓模型自己去發(fā)現(xiàn),本來就更有效率——消融實(shí)驗(yàn)用數(shù)字驗(yàn)證了這一點(diǎn)。
3、雙人訓(xùn)練,四人直接跑通
![]()
△零樣本四人泛化,模型僅用雙人數(shù)據(jù)訓(xùn)練,推理時(shí)直接生成四路同步視角
模型僅在雙人數(shù)據(jù)上訓(xùn)練,推理時(shí)從頂點(diǎn)池中啟用兩個(gè)新頂點(diǎn),直接生成四路同步視角,無需修改任何架構(gòu)參數(shù),四路畫面維持共享世界狀態(tài)的一致性。
這個(gè)結(jié)果直接驗(yàn)證了單純形編碼的核心設(shè)計(jì)目標(biāo):泛化到任意玩家數(shù),不需要見過那個(gè)玩家數(shù)的訓(xùn)練數(shù)據(jù)。
無論是Solaris、Enigma Labs的Multiverse還是Odyssey的Agora-1,這些工作都證明了多智能體世界模型可以做,但同時(shí)都缺乏這樣的拓展泛化能力。
4、兩種典型任務(wù)的定性展示
![]()
△兩智能體交互示例——兩路視角保持同步,Agent 1的行為在Agent 2的視角中被正確反映
在「放置與挖掘」任務(wù)中,兩路視角實(shí)時(shí)同步,一方的操作在另一方畫面中得到正確反映。
在「建造塔樓」任務(wù)中,雙方協(xié)同搭建的方塊在各自視角里位置一致,共享世界狀態(tài)完整維護(hù)。
當(dāng)玩家暫時(shí)移出對(duì)方視野時(shí),模型仍能維持正確的空間定位——這說明模型追蹤的是共享的潛在世界狀態(tài),而非獨(dú)立生成各路視頻后拼在一起。
5、從游戲到真實(shí)機(jī)器人
![]()
△從游戲agent到真實(shí)雙臂機(jī)器人協(xié)同,模型生成保持協(xié)同運(yùn)動(dòng)的未來幀
研究團(tuán)隊(duì)將Gamma-World應(yīng)用于RealOmin-Open數(shù)據(jù)集的真實(shí)雙臂機(jī)器人協(xié)同任務(wù),以左右兩條機(jī)械臂分別作為獨(dú)立智能體。
生成的未來幀保持了雙臂的協(xié)同運(yùn)動(dòng)與空間布局,同一套框架從Minecraft多人場景直接遷移至真實(shí)物理操作,無需額外適配。
這一結(jié)果驗(yàn)證了多智能體世界模型框架本身的通用性,而非針對(duì)特定場景的專項(xiàng)方案。
這也讓人忍不住往更遠(yuǎn)處想:現(xiàn)實(shí)世界中幾乎所有有價(jià)值的場景,本質(zhì)上都是多個(gè)主體在共享環(huán)境中協(xié)作或博弈——手術(shù)室里的多臂協(xié)同、工廠產(chǎn)線上的多機(jī)器人調(diào)度、自動(dòng)駕駛中的多車交互。
如果一套統(tǒng)一的多智能體世界模型框架能夠覆蓋這些場景,它所代表的就不只是仿真能力的提升,而是為整個(gè)Physical AI領(lǐng)域提供了一個(gè)全新的數(shù)據(jù)生產(chǎn)和策略訓(xùn)練基礎(chǔ)設(shè)施。
小結(jié)
Gamma-World的三項(xiàng)核心設(shè)計(jì),單純形旋轉(zhuǎn)智能體編碼、稀疏樞紐注意力、條件師生蒸餾,分別對(duì)應(yīng)多智能體世界建模中三個(gè)長期懸而未決的問題:
身份的對(duì)稱表示、交互的高效建模、質(zhì)量與實(shí)時(shí)性的同時(shí)兼顧。
每一項(xiàng)都不是修補(bǔ),而是在確認(rèn)原有路徑走不通之后,從更底層的建模原則重新給出的答案。
三項(xiàng)設(shè)計(jì)背后有一個(gè)共同的方法論:將對(duì)問題結(jié)構(gòu)的理解直接編碼進(jìn)架構(gòu),而非期待模型從數(shù)據(jù)中自行發(fā)現(xiàn)。
一個(gè)真正理解多智能體世界的模型,應(yīng)當(dāng)在結(jié)構(gòu)上就是對(duì)稱的,而不是見過足夠多的數(shù)據(jù)之后,碰巧學(xué)出了近似對(duì)稱的行為。
前者是理解,后者只是擬合。
Gamma-World零樣本泛化到四人場景的結(jié)果,正是對(duì)這一判斷最直接的實(shí)驗(yàn)驗(yàn)證。
這一方法論也指向一個(gè)更大的可能性:當(dāng)多智能體世界模型的生成質(zhì)量足以忠實(shí)還原真實(shí)物理規(guī)律,訓(xùn)練數(shù)據(jù)的采集方式本身就會(huì)發(fā)生根本性轉(zhuǎn)變——
從依賴真實(shí)場景的物理采集,轉(zhuǎn)向由神經(jīng)網(wǎng)絡(luò)驅(qū)動(dòng)的大規(guī)模模擬生成
受限于人力、空間和時(shí)間的數(shù)據(jù)瓶頸,將有可能被無限可擴(kuò)展的神經(jīng)仿真所替代。
從方塊世界到機(jī)械臂,Gamma-World邁出的是驗(yàn)證性的第一步。
真正的世界模型,學(xué)會(huì)的不該只是「畫面」,而是「規(guī)則」。
論文:Gamma-World: Generative Multi-Agent World Modeling Beyond Two Players
機(jī)構(gòu):NVIDIA/清華大學(xué)/多倫多大學(xué)/Vector Institute
項(xiàng)目主頁:https://research.nvidia.com/labs/sil/projects/gamma-world/
GitHub:https://github.com/nv-tlabs/Gamma-World
Huggingface: https://huggingface.co/papers/2605.28816
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.