无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

Nvidia都在點贊的LoopWM世界模型,竟然來自一家中國初創FaceMind

0
分享至



在世界模型這條路上,行業一直卡在一個幾乎無解的矛盾里:想要更真實的長程模擬,就必須給模型更深的計算;可一旦把模型做得更深,部署成本、參數規模和誤差累積又會迅速抬頭。結果就是,大家都知道世界模型要 “想得更久”,卻很難讓它在現實系統里 “算得起、跑得穩”。

臉譜心智的這份技術報告想解決的,正是這個老問題。為此,他們提出了 Looped World Model (LoopWM):一種面向世界建模的循環式架構。它不靠無止境地堆參數來換能力,而是讓同一個參數共享的 Transformer 模塊在潛空間里反復迭代,對環境狀態進行逐步精煉。換句話說,不是簡單把模型 “做大”,而是讓模型在關鍵時刻 “多想幾輪”。

如果把這件事說得更直白一點:傳統世界模型更像是一錘子買賣 —— 每個狀態轉移都分配固定計算量,不管這個轉移是簡單還是復雜;而 LoopWM 想做的,是讓模型擁有一種 “按需思考” 的能力。簡單步子少算一點,復雜步子多算幾輪,把計算真正花在需要它的地方。



  • 論文標題: Looped World Models
  • 論文類型: Technical Report
  • 論文鏈接: https://arxiv.org/abs/2606.18208
  • PDF: https://arxiv.org/pdf/2606.18208

核心結論:通過參數共享的循環 Transformer 塊迭代優化潛狀態,LoopWM 將 “迭代潛深度” 引入為世界模型新的 scaling axis,并在保持穩定長程 rollout 的同時,實現最高可達100× 參數效率

Looped World Models:臉譜心智到底做了什么?

LoopWM 的整體架構并不花哨,但非常明確:它由觀測編碼器、動作嵌入器、循環動力學核心,以及預測頭四部分組成。真正關鍵的是中間這套Looped Dynamics Core。臉譜心智把它拆成了三個部分:Prelude、Recurrent Block 和 Coda。Prelude 負責把前一時刻狀態、當前觀測和動作先整理成適合推理的表示;Recurrent Block 是核心,負責用同一組共享參數反復更新潛狀態;Coda 則在循環結束后,把最終的潛表示整理成可供預測頭解碼的輸出。



這里最重要的變化,是臉譜心智把 “模型深度” 從參數層面解耦出來了。傳統更深的模型,往往意味著更多層、更多參數、更多顯存和更高推理成本;而在 LoopWM 里,更深的計算不再必然對應更大的模型,因為臉譜心智是在重復使用同一個塊。這讓 “計算深度” 第一次可以作為一種相對獨立的擴展維度存在,而不必總是綁定在參數膨脹上。

第一層關鍵:不是多堆層,而是反復 “打磨” 潛狀態

世界模型最怕的,不是某一步預測稍微錯一點,而是這個誤差一路滾下去,最后把整條軌跡帶偏。LoopWM 的思路是,不把下一狀態看成 “一次前向傳播立即拍板” 的結果,而是把它看成一個可以在潛空間里逐步逼近、不斷修正的對象。循環式更新的價值就在這里:它讓模型能夠把一次狀態轉移,當成一個需要多步精煉的計算過程,而不是一次性決定的輸出。

這件事聽上去像工程技巧,實質上卻觸到了世界建模的核心。真實環境的演化本來就不是 “一步到位” 的,它更像是某種穩定規律被持續施加的結果。LoopWM 借由共享更新算子反復作用于潛狀態,某種程度上讓模型的計算圖,和環境動力學的迭代結構更接近了。

第二層關鍵:循環可以很強,但前提是必須穩定

循環模型的美妙之處,在于它能反復推;循環模型最危險的地方,也在于它能反復推。因為只要狀態更新稍有失控,隱藏狀態就可能在多輪迭代中迅速爆炸。為了解決這個問題,臉譜心智在 LoopWM 里加入了譜穩定性約束。具體來說,臉譜心智對狀態保持矩陣做了特殊參數化,使其特征值被限制在穩定區間內,從而保證循環更新在數值上是收縮的,而不是發散的。

這一步的意義,不只是 “訓練更穩” 這么簡單。它實際上為長程 rollout 提供了一個底層保證:即使內循環次數增加,潛狀態也不會輕易失控。對于世界模型而言,這種穩定性非常關鍵,因為長時間模擬最怕的不是局部誤差,而是誤差在不斷自回歸中被層層放大。

第三層關鍵:讓解碼別太勤快,先在潛空間里把事情想明白

除了循環本身,臉譜心智還提出了一個很實用的設計:Deferred Decoding。直白說,就是在多步 rollout 時,不再每走一步都急著把潛狀態還原成觀測,而是先在潛空間里連續推演,等到真正需要輸出的時候再做解碼。



這背后的邏輯很樸素:如果模型每一步都要把內部狀態翻譯回顯式觀測,它的計算就會被頻繁打斷,推理成本也會上去。而延遲解碼讓模型可以把更多精力放在潛空間中的長期結構建模上。論文實驗也表明,隨著 rollout 步數增加,Deferred Decoding 的收益會更加明顯,它不是一個 “錦上添花” 的小優化,而是長程推演能力中的關鍵拼圖之一。

第四層關鍵:不是所有狀態都值得算一樣久

LoopWM 還有一個很重要的能力,是early exit。模型在推理時可以通過一個輕量門控機制,動態判斷當前狀態是否已經 “想夠了”。如果一個轉移足夠簡單,模型就提前結束循環;如果是更復雜的交互,比如需要更精細的狀態修正,就繼續多迭代幾輪。



這意味著,LoopWM 不僅把計算深度變成了新擴展軸,還讓這條軸具備了自適應屬性。它不是對所有輸入一視同仁地加算力,而是讓不同難度的狀態轉移匹配不同的計算預算。放在真實部署里,這種 “按復雜度付費” 的計算方式,比固定深度模型更有現實意義。

結果說明了一件事:世界模型的 scaling,不只有 “做大” 這一條路

在實驗部分,臉譜心智把 LoopWM 放到了ScienceWorldAlfWorld等任務環境中進行評估,并與多種強基線做比較,包括Claude-opus-4-6-max、Qwen-3.5-flash、Gemini-3-flash-preview-thinking等模型。

結果很直接。在 ScienceWorld 上,約1B 參數規模的 LoopWM 取得了68.4% EM、85.3% Token F1、80.7% BLEU-4、83.9% Entity的成績,整體上顯著超過了Claude-opus-4-6-max 的 47.2% EM 和 72.8% F1。更值得注意的是,在Lifespan這樣的任務上,論文報告 LoopWM 將得分從0% 提升到 100%。這不是那種 “邊角料式” 的改善,而是說明循環潛深度對某些長程推理場景,可能確實帶來了結構性收益。

在 AlfWorld 上,LoopWM 也拿到了51.6% EM、80.4% Token F1、71.6% BLEU-4,并在 BLEU 指標上表現突出。更關鍵的是,這些結果不是靠一個超大閉源模型換來的,而是在約 1B 參數量級上實現的。換句話說,論文真正想證明的,不只是 “我臉譜心智又把榜單刷高了一點”,而是:在世界模型里,參數效率和模擬質量未必天然對立

真正值得關注的,不是 “100× 參數效率” 這句口號本身

論文摘要里最吸睛的一句話,是 LoopWM 相比傳統做法最高可實現100×參數效率。這當然很亮眼,但我認為更值得行業認真看的,其實是背后的方法論:世界模型也許需要一條不同于語言模型 “堆參數、堆數據” 的擴展路徑

過去我們談 scaling,通常只盯著兩件事:模型有多大、數據有多少。LoopWM 提出的,是第三個方向 ——迭代潛深度。它與參數規模、訓練數據規模正交,意味著即便在參數預算有限的情況下,模型仍可能通過更合理的內部計算過程獲得能力提升。這一點對資源受限部署尤其關鍵,因為它提供的不是 “更貴的上限”,而是 “更聰明的計算方式”。

這篇技術報告最后想回答的問題其實很簡單

如果你把世界模型理解成 “一個學習環境規律、并在內部復現環境演化的系統”,那么它不應該只會更快地輸出答案,它還應該會在需要的時候多做幾輪內部推演。LoopWM 的意義,就在于把這種能力從直覺變成了架構。它首次把 looped transformer 真正帶進世界建模,把 “共享參數 + 迭代精煉 + 穩定循環 + 自適應計算” 組合成了一套完整方案。

這項工作提供的,不只是一個新模型,更是一種新的看法:世界模型的未來,不一定是永遠更大;也可能是讓同樣的參數,學會更有層次地思考

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
意外!申花久違的外援有可能在下一周復出亮相,深受斯盧茨基器重

意外!申花久違的外援有可能在下一周復出亮相,深受斯盧茨基器重

冷桂零落
2026-06-29 18:45:37
心跳決定壽命?研究發現:心率超過這個數,或致死亡風險飆升!

心跳決定壽命?研究發現:心率超過這個數,或致死亡風險飆升!

名醫在線網
2026-06-27 16:05:03
電影《四渡》票房破7000萬

電影《四渡》票房破7000萬

界面新聞
2026-06-28 10:55:42
完美適配文班亞馬!馬刺全力爭搶湖人季后賽爆發的2700萬側翼

完美適配文班亞馬!馬刺全力爭搶湖人季后賽爆發的2700萬側翼

夜白侃球
2026-06-28 23:00:39
民眾瘋搶空調,政府不準,熱死也不能買?徳媒怒斥中國正摧毀歐洲

民眾瘋搶空調,政府不準,熱死也不能買?徳媒怒斥中國正摧毀歐洲

嫹筆牂牂
2026-06-29 11:35:39
CBA一夜雙炸!山東男籃大手筆引援,韓碩成為北控隊教練

CBA一夜雙炸!山東男籃大手筆引援,韓碩成為北控隊教練

論事的老樞
2026-06-29 11:07:27
中紀委再出大招!公務員這4類行為將被大數據盯死,沾上就完蛋!

中紀委再出大招!公務員這4類行為將被大數據盯死,沾上就完蛋!

細說職場
2026-06-29 15:42:13
羅馬里奧:我非常尊重C羅,他是有史以來最偉大的球員之一

羅馬里奧:我非常尊重C羅,他是有史以來最偉大的球員之一

懂球帝
2026-06-29 12:09:50
他690分考入北大,大學沉迷游戲被北大勸退,復讀712分考入清華,如今發展如何?

他690分考入北大,大學沉迷游戲被北大勸退,復讀712分考入清華,如今發展如何?

大愛三湘
2026-06-28 20:37:38
1.5T增程賣百萬?這輛被全網嘲笑的車,9個月連續銷冠

1.5T增程賣百萬?這輛被全網嘲笑的車,9個月連續銷冠

大佬灼見
2026-06-26 22:21:51
Here we go!羅馬諾:朗格萊加盟本菲卡,雙方將簽約三年

Here we go!羅馬諾:朗格萊加盟本菲卡,雙方將簽約三年

懂球帝
2026-06-29 01:10:12
韓媒:中國媒體稱韓國足球“淪為笑柄”,身為世界勁旅卻“心存傲慢”

韓媒:中國媒體稱韓國足球“淪為笑柄”,身為世界勁旅卻“心存傲慢”

林子說事
2026-06-29 10:31:08
凌晨沒回家長消息被罵"裝什么裝",老師第二天搬出法條,網友炸了

凌晨沒回家長消息被罵"裝什么裝",老師第二天搬出法條,網友炸了

教育人看世界
2026-06-25 21:23:27
看完阿根廷3-1約旦!不得不承認的5個事實,梅西再刷史詩級紀錄!

看完阿根廷3-1約旦!不得不承認的5個事實,梅西再刷史詩級紀錄!

小青年淥淥
2026-06-28 20:07:17
吳月娘:我這浪肉,被男人摸一下真好

吳月娘:我這浪肉,被男人摸一下真好

老達子
2026-06-26 06:50:03
田中斗莉王:日本隊正走在正確的道路上;日本巴西誰贏我都接受

田中斗莉王:日本隊正走在正確的道路上;日本巴西誰贏我都接受

懂球帝
2026-06-29 05:45:08
穆里尼奧半路截胡!皇馬搶世界杯天才,利物浦 1.2 億報價懸了

穆里尼奧半路截胡!皇馬搶世界杯天才,利物浦 1.2 億報價懸了

瀾歸序
2026-06-29 06:48:42
在派出所能聽到多少八卦?網友:一個比一個狗血

在派出所能聽到多少八卦?網友:一個比一個狗血

另子維愛讀史
2026-06-27 22:18:43
中國汽車全部變成電動汽車后,我國每年石油消費量能降到多少?

中國汽車全部變成電動汽車后,我國每年石油消費量能降到多少?

趣味萌寵的日常
2026-06-29 18:39:12
演員沒戲,回家種地?

演員沒戲,回家種地?

中國新聞周刊
2026-06-29 07:30:10
2026-06-29 20:07:00
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
13388文章數 142683關注度
往期回顧 全部

科技要聞

殺瘋了!深圳一天出兩家200億具身智能公司

頭條要聞

媒體:中國再對日本出重拳 一紅一黃兩張牌同時打出

頭條要聞

媒體:中國再對日本出重拳 一紅一黃兩張牌同時打出

體育要聞

他和伊朗隊,再次贏得全世界的尊重

娛樂要聞

跟風電影《給阿公的牛肉丸》開機

財經要聞

近20家半導體企業開啟新一輪漲價潮

汽車要聞

全新寶馬iX3長軸版將于成都車展預售 四季度交付

態度原創

時尚
教育
藝術
旅游
公開課

伊姐周日熱推:電視劇《千香》;電視劇《非份之罪》......

教育要聞

【資訊】2026年春季第8場課堂教學數字化評價省級教研活動在福田舉辦

藝術要聞

趙孟頫行書的巔峰之作,水平超越《圣教序》

旅游要聞

告別盛夏燥熱!云中河溫泉旅游度假區,承包您一整個夏天的清涼

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版