網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

英偉達(dá)提出Gamma-World：世界模型從「一個(gè)人玩」到「多人共處」

2026-05-30 11:16:51　來源: 量子位

北京舉報(bào)

分享至

允中發(fā)自凹非寺
量子位 | 公眾號(hào) QbitAI

當(dāng)前視頻世界模型在單智能體設(shè)定下已經(jīng)走得相對(duì)成熟。

但多智能體場景——多個(gè)玩家共享同一個(gè)演化世界，在架構(gòu)層面一直缺乏系統(tǒng)性的解決方案。

問題不在于算力不夠，而在于現(xiàn)有的位置編碼和注意力機(jī)制，從設(shè)計(jì)上就沒有為多個(gè)主體預(yù)留接口。

近日，NVIDIA聯(lián)合清華大學(xué)、多倫多大學(xué)和Vector Institute發(fā)布Gamma-World（γ-World），從RoPE擴(kuò)展和注意力拓?fù)鋬蓚€(gè)底層組件入手，給出了一套系統(tǒng)性的答案。

論文標(biāo)題：Gamma-World: Generative Multi-Agent World Modeling Beyond Two Players

為什么多智能體世界建模是一個(gè)困難問題

現(xiàn)有視頻世界模型幾乎都建立在單智能體假設(shè)之上：

給定一個(gè)玩家的動(dòng)作序列，預(yù)測該視角下的未來觀測。

多智能體設(shè)定從根本上改變了這個(gè)問題的性質(zhì)——模型不再只需預(yù)測「這個(gè)智能體接下來看到什么」，而是需要同時(shí)回答：

玩家A的移動(dòng)應(yīng)當(dāng)在玩家B的視野中如何呈現(xiàn)？兩名玩家同時(shí)操作同一個(gè)物體，狀態(tài)應(yīng)當(dāng)如何演化？

這不是「生成N段獨(dú)立視頻」的問題，而是「生成N個(gè)耦合視角對(duì)同一個(gè)演化世界的不同投影」。

在技術(shù)層面，這意味著模型必須同時(shí)維護(hù)三重一致性：

時(shí)間一致性：畫面在時(shí)序上連貫；
跨視角一致性：A在B視野中的呈現(xiàn)與A自身軌跡吻合；
交互一致性：多個(gè)智能體對(duì)共享環(huán)境的操作在所有視角中產(chǎn)生一致的狀態(tài)變化。

單智能體框架在設(shè)計(jì)上只保證了時(shí)間一致性，后兩者從未被納入考量——

這是架構(gòu)層面的結(jié)構(gòu)性缺失，無法通過增加數(shù)據(jù)量或模型規(guī)模來彌補(bǔ)。

在Gamma-World之前，這個(gè)方向并非沒有人嘗試。

Solaris已經(jīng)在雙人Minecraft上取得了不錯(cuò)的結(jié)果，但它暴露出的兩個(gè)結(jié)構(gòu)性問題，恰恰說明了為什么將單智能體框架直接「擴(kuò)展」到多智能體，是一條走不通的路。

其一，身份編碼破壞了對(duì)稱性

Solaris為每個(gè)玩家分配固定的可學(xué)習(xí)槽位身份向量，實(shí)質(zhì)上將「1號(hào)槽」和「2號(hào)槽」學(xué)成了兩種不同的角色類型。

在真實(shí)的多智能體世界中，能力相同的玩家本質(zhì)上可互換，這種對(duì)稱性的缺失使模型學(xué)到的是「特定角色的交互模式」，而非「多個(gè)平等主體共享世界的規(guī)律」，泛化性從根本上受限，且一旦需要支持新的玩家數(shù)就必須重新訓(xùn)練。

其二，全連接注意力存在擴(kuò)展性天花板

讓所有玩家的token兩兩直接交互，計(jì)算成本隨玩家數(shù)量平方增長——

從2人擴(kuò)展到8人，計(jì)算量從477.8G增至7.6T，增長約16倍。

這是算法復(fù)雜度決定的天花板，無法通過工程優(yōu)化解決。

兩個(gè)問題指向同一個(gè)結(jié)論：多智能體世界模型需要的不是修補(bǔ)，而是對(duì)兩個(gè)核心組件的重新設(shè)計(jì)。

有關(guān)如何表示智能體身份，以及如何設(shè)計(jì)跨智能體通信。

核心設(shè)計(jì)一：Simplex Rotary Agent Encoding，讓玩家「身份等距、地位平等」

這個(gè)設(shè)計(jì)要解決的核心矛盾是：

如何讓模型既能區(qū)分不同的玩家，又不讓任何玩家在表示上比其他玩家「更特殊」。

視頻Transformer用RoPE（旋轉(zhuǎn)位置編碼）來表達(dá)位置關(guān)系——給每個(gè)信息片段分配一個(gè)旋轉(zhuǎn)角度，兩個(gè)片段之間的位置差異通過旋轉(zhuǎn)角度的差來表達(dá)。

標(biāo)準(zhǔn)視頻RoPE編碼三個(gè)軸：時(shí)間、高度、寬度。

Gamma-World加了第四個(gè)軸——玩家軸，在不改變?cè)袝r(shí)空編碼的前提下，為智能體身份單獨(dú)留出一個(gè)維度。

軸加起來容易，難的是這個(gè)玩家軸上的編碼怎么設(shè)計(jì)。

直接編號(hào)行不通。

給玩家按序號(hào)分配角度，會(huì)導(dǎo)致不同玩家對(duì)之間的旋轉(zhuǎn)距離不等：1號(hào)和2號(hào)差1，1號(hào)和3號(hào)差2。

「1號(hào)與2號(hào)的關(guān)系」和「1號(hào)與3號(hào)的關(guān)系」在表示空間中并不等距，盡管物理上完全等價(jià)。置換對(duì)稱性被編碼方式本身直接破壞。

可學(xué)習(xí)的槽位嵌入也不行。

每個(gè)座位綁定一個(gè)固定的可訓(xùn)練向量，模型被鎖死在訓(xùn)練時(shí)的玩家數(shù)量上，無法擴(kuò)展，這正是Solaris的核心局限。

正單純形：所有玩家天然等距

Gamma-World的解法很優(yōu)雅：把所有玩家放在一個(gè)正單純形（regular simplex）的頂點(diǎn)上。

什么意思？

想象一個(gè)正三角形，所有頂點(diǎn)之間的距離完全相等，沒有哪個(gè)頂點(diǎn)更特殊。

2個(gè)玩家 → 線段的兩端
3個(gè)玩家 → 等邊三角形的三個(gè)頂點(diǎn)
4個(gè)玩家 → 正四面體的四個(gè)頂點(diǎn)

無論哪兩個(gè)玩家，他們?cè)谛D(zhuǎn)角空間里的距離完全一樣。模型看到任意兩個(gè)玩家，他們之間的幾何關(guān)系是對(duì)稱的，誰也不比誰特殊。

這個(gè)編碼不需要任何可學(xué)習(xí)的參數(shù)

訓(xùn)練時(shí)，活躍玩家被隨機(jī)分配到頂點(diǎn)池里的不同位置，模型只能靠幾何坐標(biāo)來認(rèn)人。

推理時(shí)想支持更多玩家，從同一個(gè)頂點(diǎn)池里多取幾個(gè)頂點(diǎn)就行，架構(gòu)不用改，也不用重新訓(xùn)練

這也是Gamma-World能做到「雙人數(shù)據(jù)訓(xùn)練、四人場景直接跑通」的根本原因。

核心設(shè)計(jì)二：Sparse Hub Attention，從「全連接」到「樞紐廣播」

跨智能體通信是多智能體世界模型繞不過去的需求，但以往方案的做法代價(jià)過高——

讓所有玩家的所有token兩兩直接交互，計(jì)算成本隨玩家數(shù)量平方增長：從2人擴(kuò)展到8人，計(jì)算量從477.8G漲至7.6T，增長約16倍。

這是算法復(fù)雜度決定的天花板，無法通過工程優(yōu)化解決。

問題的根源在于一個(gè)錯(cuò)誤的假設(shè)：每個(gè)token級(jí)別的細(xì)節(jié)都需要在所有玩家之間直接傳遞。

事實(shí)上，玩家A放下方塊，玩家B需要感知的只是「世界里出現(xiàn)了一個(gè)方塊」——這是一個(gè)緊湊的世界狀態(tài)變化，而非A的全部視覺細(xì)節(jié)。

但玩家之間真的需要「直接說話」嗎？

全連接注意力隱含了一個(gè)假設(shè)：每個(gè)token級(jí)別的細(xì)節(jié)都需要在所有玩家之間直接傳遞。而這個(gè)假設(shè)在絕大多數(shù)場景下是錯(cuò)誤的。

Gamma-World引入一組可學(xué)習(xí)的hub token（樞紐token），構(gòu)成輪輻式拓?fù)洌?/p>

每個(gè)智能體只與自身歷史及hub token交互；
hub token匯聚所有智能體的信息壓縮為共享狀態(tài)摘要，再廣播回各智能體流；
不同智能體之間的直接注意力被完全屏蔽，信息經(jīng)由兩跳傳遞：智能體→hub→智能體

這一結(jié)構(gòu)將計(jì)算成本從平方復(fù)雜度壓至線性復(fù)雜度。

△Sparse Hub Attention（藍(lán)線）vs Dense Attention（紅線），隨玩家數(shù)量增加FLOPs差距接近8倍

值得強(qiáng)調(diào)的是，稀疏樞紐注意力不只是節(jié)省了算力，它本身也是一個(gè)更合理的歸納偏置——在架構(gòu)層面顯式編碼了「跨智能體信息應(yīng)經(jīng)過共享世界狀態(tài)瓶頸」這一先驗(yàn)，而非期待模型從數(shù)據(jù)中隱式學(xué)習(xí)。

推理時(shí)通過獨(dú)立的KV cache保留稀疏通信拓?fù)洌罱K實(shí)現(xiàn)24 FPS實(shí)時(shí)動(dòng)作響應(yīng)推演

方法總覽

（注：方法總覽，左側(cè)為同步多智能體輸入，中間為Tokenization，右側(cè)為Causal Multi-Agent DiT，下方分別展示Simplex Rotary Agent Encoding和Sparse Hub Attention的示意圖）

整體架構(gòu)輸入同步的多智能體觀測和動(dòng)作序列，用共享的視覺編碼器和動(dòng)作編碼器對(duì)每個(gè)玩家流分別tokenize，再通過帶稀疏樞紐注意力的因果多智能體DiT生成未來多路rollout。

推理時(shí)使用KV cache實(shí)現(xiàn)流式生成，每個(gè)玩家流和樞紐各維護(hù)獨(dú)立緩存。

核心設(shè)計(jì)三：三階段蒸餾，從「看得全」到「跑得快」

生成質(zhì)量和推理實(shí)時(shí)性在擴(kuò)散模型里天然是一對(duì)矛盾：雙向模型質(zhì)量最高但無法流式推理，因果模型支持實(shí)時(shí)生成但質(zhì)量下降。

Gamma-World用三階段訓(xùn)練在兩者之間架橋。

第一階段：訓(xùn)練雙向教師。

教師模型可訪問完整序列（包括未來幀），提供最高質(zhì)量的生成分布，僅用于訓(xùn)練階段，不參與推理。

第二階段：訓(xùn)練因果學(xué)生。

學(xué)生模型只能看到當(dāng)前及過去的幀，結(jié)合稀疏樞紐注意力適配流式推理。

關(guān)鍵在于將學(xué)生完整訓(xùn)練為多步擴(kuò)散模型，而非僅作為蒸餾熱身——蒸餾之前學(xué)生已能產(chǎn)生合理的推演結(jié)果，為下一階段提供穩(wěn)定起點(diǎn)。

第三階段：條件Self-Forcing蒸餾。

以因果學(xué)生為起點(diǎn)、雙向教師為目標(biāo)，通過分布匹配蒸餾（DMD）將多步采樣壓縮為4步采樣

蒸餾在自回歸self-rollout下進(jìn)行，訓(xùn)練分布與推理分布對(duì)齊，有效緩解誤差累積。

全程保留初始幀與逐智能體動(dòng)作序列作為條件信號(hào)，確保壓縮后的模型動(dòng)作可控性不退化，最終實(shí)現(xiàn)24 FPS流式推演

實(shí)驗(yàn)結(jié)果

1、全面超越現(xiàn)有最強(qiáng)

在多人Minecraft環(huán)境的五類場景中，對(duì)比幀拼接方案和目前最強(qiáng)的多智能體世界模型Solaris，Gamma-World在記憶、空間定位、移動(dòng)、建造、跨視角一致性五個(gè)場景全面領(lǐng)先，關(guān)鍵指標(biāo)FVD（視頻生成質(zhì)量的評(píng)估指標(biāo)）平均降幅超過40%。

2、消融：每一步設(shè)計(jì)都有實(shí)際效果

消融結(jié)果說明從「學(xué)習(xí)槽位身份」換成「單純形編碼」，F(xiàn)VD從256.3降至228.5，沒有增加任何參數(shù)，僅通過改變編碼方式就帶來了整個(gè)消融中最大的單步增益

這個(gè)結(jié)果的意義不只是「單純形編碼更好」，而是證明了一件更根本的事：

在架構(gòu)中顯式編碼置換對(duì)稱性約束，比讓模型從數(shù)據(jù)中隱式學(xué)習(xí)這種結(jié)構(gòu)，在樣本效率和最終性能上都有顯著優(yōu)勢

對(duì)稱性是一個(gè)先驗(yàn)知識(shí)，把先驗(yàn)知識(shí)編進(jìn)架構(gòu)比讓模型自己去發(fā)現(xiàn)，本來就更有效率——消融實(shí)驗(yàn)用數(shù)字驗(yàn)證了這一點(diǎn)。

3、雙人訓(xùn)練，四人直接跑通

△零樣本四人泛化，模型僅用雙人數(shù)據(jù)訓(xùn)練，推理時(shí)直接生成四路同步視角

模型僅在雙人數(shù)據(jù)上訓(xùn)練，推理時(shí)從頂點(diǎn)池中啟用兩個(gè)新頂點(diǎn)，直接生成四路同步視角，無需修改任何架構(gòu)參數(shù)，四路畫面維持共享世界狀態(tài)的一致性。

這個(gè)結(jié)果直接驗(yàn)證了單純形編碼的核心設(shè)計(jì)目標(biāo)：泛化到任意玩家數(shù)，不需要見過那個(gè)玩家數(shù)的訓(xùn)練數(shù)據(jù)。

無論是Solaris、Enigma Labs的Multiverse還是Odyssey的Agora-1，這些工作都證明了多智能體世界模型可以做，但同時(shí)都缺乏這樣的拓展泛化能力。

4、兩種典型任務(wù)的定性展示

△兩智能體交互示例——兩路視角保持同步，Agent 1的行為在Agent 2的視角中被正確反映

在「放置與挖掘」任務(wù)中，兩路視角實(shí)時(shí)同步，一方的操作在另一方畫面中得到正確反映。

在「建造塔樓」任務(wù)中，雙方協(xié)同搭建的方塊在各自視角里位置一致，共享世界狀態(tài)完整維護(hù)。

當(dāng)玩家暫時(shí)移出對(duì)方視野時(shí)，模型仍能維持正確的空間定位——這說明模型追蹤的是共享的潛在世界狀態(tài)，而非獨(dú)立生成各路視頻后拼在一起。

5、從游戲到真實(shí)機(jī)器人

△從游戲agent到真實(shí)雙臂機(jī)器人協(xié)同，模型生成保持協(xié)同運(yùn)動(dòng)的未來幀

研究團(tuán)隊(duì)將Gamma-World應(yīng)用于RealOmin-Open數(shù)據(jù)集的真實(shí)雙臂機(jī)器人協(xié)同任務(wù)，以左右兩條機(jī)械臂分別作為獨(dú)立智能體。

生成的未來幀保持了雙臂的協(xié)同運(yùn)動(dòng)與空間布局，同一套框架從Minecraft多人場景直接遷移至真實(shí)物理操作，無需額外適配。

這一結(jié)果驗(yàn)證了多智能體世界模型框架本身的通用性，而非針對(duì)特定場景的專項(xiàng)方案。

這也讓人忍不住往更遠(yuǎn)處想：現(xiàn)實(shí)世界中幾乎所有有價(jià)值的場景，本質(zhì)上都是多個(gè)主體在共享環(huán)境中協(xié)作或博弈——手術(shù)室里的多臂協(xié)同、工廠產(chǎn)線上的多機(jī)器人調(diào)度、自動(dòng)駕駛中的多車交互。

如果一套統(tǒng)一的多智能體世界模型框架能夠覆蓋這些場景，它所代表的就不只是仿真能力的提升，而是為整個(gè)Physical AI領(lǐng)域提供了一個(gè)全新的數(shù)據(jù)生產(chǎn)和策略訓(xùn)練基礎(chǔ)設(shè)施。

小結(jié)

Gamma-World的三項(xiàng)核心設(shè)計(jì)，單純形旋轉(zhuǎn)智能體編碼、稀疏樞紐注意力、條件師生蒸餾，分別對(duì)應(yīng)多智能體世界建模中三個(gè)長期懸而未決的問題：

身份的對(duì)稱表示、交互的高效建模、質(zhì)量與實(shí)時(shí)性的同時(shí)兼顧。

每一項(xiàng)都不是修補(bǔ)，而是在確認(rèn)原有路徑走不通之后，從更底層的建模原則重新給出的答案。

三項(xiàng)設(shè)計(jì)背后有一個(gè)共同的方法論：將對(duì)問題結(jié)構(gòu)的理解直接編碼進(jìn)架構(gòu)，而非期待模型從數(shù)據(jù)中自行發(fā)現(xiàn)。

一個(gè)真正理解多智能體世界的模型，應(yīng)當(dāng)在結(jié)構(gòu)上就是對(duì)稱的，而不是見過足夠多的數(shù)據(jù)之后，碰巧學(xué)出了近似對(duì)稱的行為。

前者是理解，后者只是擬合。

Gamma-World零樣本泛化到四人場景的結(jié)果，正是對(duì)這一判斷最直接的實(shí)驗(yàn)驗(yàn)證。

這一方法論也指向一個(gè)更大的可能性：當(dāng)多智能體世界模型的生成質(zhì)量足以忠實(shí)還原真實(shí)物理規(guī)律，訓(xùn)練數(shù)據(jù)的采集方式本身就會(huì)發(fā)生根本性轉(zhuǎn)變——

從依賴真實(shí)場景的物理采集，轉(zhuǎn)向由神經(jīng)網(wǎng)絡(luò)驅(qū)動(dòng)的大規(guī)模模擬生成

受限于人力、空間和時(shí)間的數(shù)據(jù)瓶頸，將有可能被無限可擴(kuò)展的神經(jīng)仿真所替代。

從方塊世界到機(jī)械臂，Gamma-World邁出的是驗(yàn)證性的第一步。

真正的世界模型，學(xué)會(huì)的不該只是「畫面」，而是「規(guī)則」。

論文：Gamma-World: Generative Multi-Agent World Modeling Beyond Two Players
機(jī)構(gòu)：NVIDIA/清華大學(xué)/多倫多大學(xué)/Vector Institute
項(xiàng)目主頁：https://research.nvidia.com/labs/sil/projects/gamma-world/
GitHub：https://github.com/nv-tlabs/Gamma-World
Huggingface: https://huggingface.co/papers/2605.28816

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.