網易首頁 > 網易號 > 正文申請入駐

騰訊王騰飛：從生成內容到生成環境，世界模型的3D落地之路

2026-06-23 14:38:00　來源: AI前線

北京舉報

分享至

嘉賓 | 王騰飛

編輯 | 李忠良

6 月 26-27 日，AICon 全球人工智能開發與應用大會?2026 上海站，即將盛大開幕。大會前夕，InfoQ 專訪了騰訊混元世界模型團隊負責人王騰飛，深度解讀 HY-World 2.0 背后的技術架構與產品思考。從李飛飛提出的 "渲染器、仿真器、規劃器" 三層框架，到騰訊選擇的 3D 落地路徑，從 WorldMirror 的幾何重建到 WorldLens 的實時渲染，這場對話將帶你重新理解 "世界模型"—— 它究竟是下一代內容生成工具，還是真正能跑起來的可運行環境？

核心觀點速覽：

世界模型不是 "更好的視頻生成"，而是一次范式躍遷：視頻生成交付的是 "內容"，世界模型交付的是 "可運行環境"，門檻遠高于把畫面做好看。
3D 不是目的，是世界模型落地的一條重要路徑：視頻生成有想象力，但只有 3D 能真正接入現有生產管線、形成可編輯復用的資產。
游戲數字世界是物理世界的 "可控代理"：游戲與具身智能本質是同一個問題，核心技術框架（感知、仿真、推理、規劃）可直接復用。
世界模型生態最缺的不是模型，是評測標準：誰能量化清楚 "一個生成的世界好不好"，誰的貢獻最大 —— 它會成為整個領域的公共標尺。

世界模型不是 "更好的視頻生成"，而是一次范式躍遷

InfoQ：怎么看待幾周前李飛飛給世界模型下的定義？你們認同嗎？系統介紹下你們的理解和研發布局？

王騰飛：李飛飛將世界模型劃分為渲染器、仿真器、規劃器三層，構成了一套清晰的認知框架。我們的理解略有不同 —— 更傾向于將渲染與仿真兩層合并看待，而非截然分開。

目前團隊在上述各層均有布局，并已將各模塊能力整合推出首款產品。

在世界仿真與渲染層，我們研發了 WorldPlay、WorldStereo 等視頻模型，用于直接模擬和預測世界狀態；同時通過 WorldMirror、HY 3D 等仿真資產生成模型，豐富仿真環境的資產儲備。在世界規劃層，我們也推出了 WorldNav 及后續系列模型，支撐導航與操作類任務。

在系統整合層面，我們將空間感知、空間推理規劃、空間生成、仿真、渲染等單體能力打通，推出了 HY World 產品 —— 用戶僅需輸入簡單的文本或圖像，即可生成一個完整、可交互、可仿真的 3D 世界。配套的專用渲染器 WorldLens，支持用戶在生成的世界中自由放置道具與角色進行交互，并實現高效、高保真的實時渲染。

從單點模型到系統化產品，我們遵循的是一條"能力積木化、最終系統化"的技術路徑 —— 每個模塊都能獨立輸出價值，整合后又能涌現出更大的能力邊界。

InfoQ：您認為世界模型和普通視頻生成、3D 生成最本質的區別是什么？

王騰飛：普通視頻生成與 3D 生成交付的是 "內容"，而世界模型交付的是 "可運行環境"，二者的核心差異在于可交互性與可維護的世界狀態。

視頻生成的表現力固然強大，但其本質交付的是二維畫面序列，背后并不存在一個穩定存續的世界。例如向前行進一段距離后回頭，此前的山體與建筑可能發生變化甚至消失 —— 這是因為模型僅在逐幀預測，并不真正 "記憶" 空間結構。單體 3D 生成則聚焦于單個物體的生成，如一把椅子、一個人物，約束條件相對簡單。

世界模型需要回應的是更具挑戰性的問題：能否生成一個自洽、可持續存在、可進入并可運行的三維空間。它至少需要滿足三個核心特征：

? 狀態持續：繞行一周后返回原點，世界仍保持原貌；

? 物理準確：具備真實的深度與結構，而非僅停留在 "視覺逼真" 的層面；

? 可交互：支持交互、可體驗、可仿真。

因此我常說，世界模型是將 "生成一段好看的內容" 推進到 "生成一個能運行的環境"，這一步跨越的門檻遠高于單純提升畫面質量。

InfoQ：一個團隊今天想判斷自己是否真的需要世界模型，應該看哪些需求信號？

王騰飛：這里提供一個較為實用的判斷方法 —— 不妨先自問：應用場景是否需要交互？

如果需求僅在于產出可供觀看的內容，視頻生成通常足以滿足，例如當前的 AI 短劇。

而指向 "交互" 需求的信號有三個，滿足的條件越多，對世界模型的需求就越強：

? 第一，持久的世界狀態。需要支持自由切換視角、反復瀏覽、響應各類操控指令，且世界不能 "變臉"。典型場景如具身智能及部分類型的互動游戲。

? 第二，可編輯、可復用的資產。生成結果并非最終交付物，而需進入美術、引擎等下游生產環節 —— 此時需要的是結構化的 3D 資產，而非僅像素幀。

? 第三，物理交互。涉及碰撞、重力、角色在場景中行走（如上下樓梯、室內漫游）等物理行為，必須有真實幾何結構作為支撐。我們從 3DGS 中提取 mesh 作為碰撞代理，正是為了滿足這一需求。

換言之，若僅需 "觀看" 內容，視頻生成或單體 3D 即可滿足；一旦需要 "進去用"，尤其涉及視角一致性、資產復用和物理交互時，可運行的世界模型便成為更優選擇。

Sora 很驚艷，但為什么落地世界模型還得靠 3D？

InfoQ：Sora 之后很多人從視頻生成想象世界模型，但 HY-World 2.0 強調 3D。騰訊為什么認為 3D 是落地的重要路徑？

王騰飛：Sora 這一進展讓行業看到了視頻生成的巨大想象力，對此我完全認同。但 "想象力" 與 "落地" 是兩個不同維度的問題，而 3D 是我們認為最具落地可行性的載體，原因非常具體。

第一，3D 天然具備一致性，且天然兼容現有管線。我們生成的世界采用顯式 3DGS 表達，可提取 mesh，能夠直接接入標準圖形管線、游戲引擎及仿真平臺。視頻生成要進入游戲生產管線則難度極大 —— 數據量大、幾何結構不穩定，目前尚難以真正融入生產線。

第二，3D 才具備 "資產" 的概念。游戲、影視、仿真等領域需要的是可編輯、可復用、可接入工作流的資產；而視頻幀更多是最終影像或素材，并非可編輯、可復用的結構化資產。

第三，物理精確性。機器人仿真、數字孿生、展覽復刻等場景，要求的是精準的模擬仿真，而非僅停留在 "視覺逼真" 層面。3D 表達結合我們的重建模型 WorldMirror，能夠輸出真實的深度、法線和點云數據。

此外，還有一點目前較少被關注 ——實際應用的成本。視頻生成的成本不具備分攤效應：每一位玩家、每一分鐘的體驗都需要消耗顯卡算力進行推理。相比之下，3D 建模的成本是一次性的，當分發量足夠大、體驗時間足夠長后，建模成本可忽略不計；而渲染僅需普通電腦的渲染卡即可完成，邊際成本極低。因此對我們而言，3D 不是 "為了 3D 而 3D"，而是因為它是目前唯一能將世界模型真正交付到生產環節的形態。

InfoQ：反過來看，哪些場景里 2D 或視頻生成已經足夠？哪些必須依賴 3D？

王騰飛：判斷的核心在于，內容是 "用來觀看"，還是 "要主動交互"。

如果內容消費路徑是被動觀看型 —— 用戶僅需觀賞，例如營銷短片、概念圖、分鏡、風格探索、固定運鏡的影視化鏡頭等 —— 在這類無需進入場景或交互的場景中，視頻生成在表現力、效率和成本上的優勢十分明顯。

但如果內容需要接入可運行的系統，則通常更依賴 3D。例如游戲、機器人仿真、VR 漫游、線上展覽、數字孿生等場景，普遍對 3D 有強依賴。

拆開 HY-World 2.0：一個可漫游的 3D 世界是怎么四步造出來的

InfoQ：從輸入到生成一個 3D 世界，關鍵模塊分別解決什么？為什么拆成多個模塊，而不是一個端到端模型？

王騰飛：先回答第二個問題 —— 為什么不采用端到端模型？主要有幾個非常實際的考量：

一是數據層面。端到端模型需要 "文字直接到完整可交互 3D 世界" 的成對訓練數據，而這類數據目前幾乎不存在。拆分為多個模塊后，每個模塊都可以使用最適合自身的數據進行獨立訓練。

二是可控性與可解釋性。出現問題時，我們可以精確定位是全景生成、軌跡規劃還是重建環節出了偏差；而端到端模型本質上是黑盒，難以調試和優化。

HY-World 2.0 的生成流程分為四個階段，整體對應了人類 "感知世界→理解世界→想象世界→重建世界" 的認知過程：

第一階段：全景生成（HY-Pano）將文字描述或單張圖像轉化為 360° 全景，為整個世界提供全局、自洽的初始化。

第二階段：軌跡規劃（WorldNav）首先將全景解析為點云、mesh、語義信息和可行走區域，在此基礎上規劃出兼顧覆蓋最大化與避障的探索路線 —— 簡單來說，就是決定 "該往哪看、往哪走"。

第三階段：世界擴展（WorldStereo）沿規劃好的相機軌跡，通過帶記憶機制的生成模型補全未觀測區域，同時保持全局一致性。

第四階段：世界合成（WorldMirror）將生成的多視角視圖重建為精確幾何結構，完成深度對齊、3DGS 優化和 mesh 提取，最終得到可自由漫游的 3D 世界。

王騰飛：傳統幾何方法已經非常成熟，但其有效應用有明確的前提條件：需要足夠多、足夠干凈、重疊度高且標定可靠的觀測數據。這意味著需要專業的采集設備、高昂的采集成本，以及最重要的 —— 三維重建領域的專家全程參與。

WorldMirror 2.0 則大幅降低了這一高門檻任務的準入難度。不僅成本更低，更解決了傳統方法難以同時實現的幾個關鍵問題：

第一，前饋式輸出全套幾何結果，且各輸出間自洽統一。單次前向傳播即可同時輸出點云、深度、法線、相機參數以及逐像素的 3DGS 屬性。我們還引入了深度 - 法線耦合監督機制，使兩者互相校正，進一步提升幾何一致性。

第二，憑借學習到的先驗知識，能夠在 "不完美" 的輸入條件下穩定工作—— 這是最核心的優勢。傳統 SfM / MVS 方法在稀疏視角下的穩定性會顯著下降；而 WorldMirror 2.0 通過學習到的幾何與語義先驗，能夠在稀疏視角、弱紋理、非嚴格標定等條件下，給出更穩定的結構估計。

第三，靈活性高、速度快。傳統 NeRF / 3DGS 方法通常需要針對每個場景進行單獨優化；而 WorldMirror 2.0 采用前饋式預測，可快速輸出初始化幾何和 3D 表達，大幅縮短重建等待時間。

InfoQ：WorldLens 作為專用渲染平臺，在鏈路中承擔什么角色？為什么世界模型不僅要"建出來"，還要考慮如何實時、高質量地"跑起來"？

王騰飛：李飛飛此前在博客中提出了世界模型的基礎框架 —— 即規劃器、模擬器、渲染器三層。混元世界模型 2.0 主要對應建模和模擬器部分，但要真正交付給用戶體驗，中間還存在渲染器層面的 gap。WorldLens 解決的就是 "讓世界跑起來、用起來" 的問題，它是整個鏈路的運行時和消費層。

具體而言，WorldLens 承擔三項核心功能：一是自動 IBL 光照，確保場景光照合理、一致，避免進入場景后產生違和感；二是高效碰撞檢測，配合提取出的 mesh，可實現實時碰撞響應，支持角色在場景中行走；三是訓練 - 渲染協同設計—— 這一點至關重要，我們在生成階段就充分考慮了最終的實時渲染需求，而非建完模型后才發現無法流暢運行。

為什么 "建出來" 還不夠，一定要 "跑起來"？因為世界模型的核心價值在于可進入、可使用。一個模型即便建得再精準，如果加載需要幾分鐘、走兩步就卡頓、碰撞頻繁穿模，那么對游戲、VR、仿真等場景而言都沒有實際意義。能否實時、高質量、可交互地運行，才是世界模型從一個重建結果轉變為真正可用環境的臨門一腳。因此對我們而言，渲染器不是附屬品，而是與模型同等重要的核心環節。

能 "走進去" 只是第一步，世界模型的真正戰場在哪

InfoQ：HY-World 2.0 提到可兼容物理引擎。這里的"兼容"具體意味著什么？哪些物理交互已經成熟，哪些仍是挑戰？

王騰飛：我們所說的 "兼容物理引擎" 并非宣傳話術，而是有非常具體的技術含義：我們會對生成的內容進行輕量化處理，使其能夠接入標準圖形管線。在此基礎上，引擎即可實現實時碰撞檢測與物理反饋 —— 用戶可以放置角色，使其在場景中上下樓梯、室內移動，并獲得合理的物理反饋。

目前已較為成熟的能力包括：靜態場景碰撞、漫游導航、角色與環境的碰撞交互、基本重力與剛性反饋，以及一致的光照系統。換言之，"在生成的靜態世界中自由行走、不穿模、光照自然"，這一目標目前已完全可實現。

仍面臨挑戰的方向主要有四類：

? 動態物體：目前生成的世界以靜態重建為主，場景中的物體尚未被很好地拆解為可獨立運動、可交互操作的個體；

? 鉸接與可形變物理：布料、軟體、關節等復雜物理效果的實現仍有較大難度；

? 物理參數估計：真實的摩擦系數、質量、材質屬性等參數，僅從外觀信息難以準確推斷；

? 物體級語義解耦與可交互編輯：單獨抓取物體、修改物體屬性、與物體進行互動等能力，目前仍處于早期階段。

因此我常說，"能進去走" 已經成熟，而 "像真實世界一樣操作萬物" 還有很長的路要走。

InfoQ：游戲和具身智能里的世界模型是一回事嗎？騰訊混元世界模型的技術路線上是怎樣思考的？

王騰飛：二者本質上是一致的 —— 都是對世界運行規則的建模。差異僅在于規則的來源不同：物理世界的規則是重力、碰撞等自然物理定律；游戲世界的規則是引擎邏輯、碰撞體系等人為制定的規律。

從技術路線來看，二者也高度一致，核心模塊均為感知、仿真、推理、規劃。舉一個具體的例子：游戲中 3D 角色與環境的交互動作，與機器人的抓取操作，底層技術是相通的 —— 無論是 VLA 還是 World Action Model，同一套技術框架都可以直接復用。

基于這一判斷，我們的技術思路是：將游戲數字世界作為物理世界的 "可控代理" 進行研究。游戲數字世界規則清晰、狀態可重置、支持大規模并行仿真，反而是一個比真實物理環境更純粹、更高效的世界模型研究平臺。在數字世界中錘煉出的仿真能力、長程規劃能力、生成渲染能力，同樣是具身智能所需的核心能力 —— 從數字世界到物理世界，更多是 Grounding 層面的對齊，而非推倒重來。

InfoQ：HY-World 2.0 選擇開源。對開發者來說，現在參與世界模型生態，最有價值的方向是什么？

**王騰飛：**我們此次開放了全部模型權重、代碼和技術細節，這是有意為之。HY-World 2.0 不只是發布一個演示 demo，而是希望開發者能夠真正復現、改造、并接入到自己的工作流中 —— 這一點已經在切實發生。我始終認為，世界模型這樣仍處于早期階段的方向，許多關鍵問題并非單個團隊在封閉環境中就能完全定義和解決的；社區會帶來大量獨立團隊難以想到的輸入，這是一個雙向奔赴、互相成就的過程。

我認為當前世界模型生態中，最具價值的探索方向有三個：

第一，評測標準。這是目前領域內最稀缺的能力。我們在實踐中發現，許多常用指標與人類的真實感知存在脫節。誰能將 "一個生成的世界好不好" 這一問題量化清楚，誰的貢獻就最大 —— 因為它將成為整個領域的公共標尺。

第二，工具鏈適配與工作流插件。將模型接入真實的生產工具，例如引擎插件、DCC 工具對接、格式轉換器、機器人仿真平臺適配等。這類工作見效最快，能夠直接將世界模型能力送入各行業的工作流中。

第三，垂直領域適配。自動駕駛、具身智能、VR 等領域各有其數據特點與場景需求，利用垂直領域的場景 know-how 將通用世界模型遷移到具體行業，同樣具有巨大價值。

我常說，開源生態決定技術的生命力。我目前最希望的，是大家先一起把生態做起來。世界模型這個方向足夠早期，也足夠廣闊，先讓社區活躍起來，或許比短期糾結于某一個具體方向更為重要。

想了解更多世界模型的技術細節與落地實踐？歡迎來到 6 月 26-27 日 AICon 2026 上海站現場，聽王騰飛老師帶來的主題分享，與騰訊混元團隊面對面交流。

嘉賓介紹：

王騰飛，騰訊 3D 世界模型負責人，博士畢業于香港科技大學，研究方向為生成式人工智能與世界模型。加入騰訊后，負責混元 HY World 系列模型的研發與落地，已帶領團隊先后發布 HY World 1.0、1.5、2.0 三個業界領先的模型版本，并獲得開源社區廣泛關注。加入騰訊前，曾在微軟亞洲研究院、上海人工智能實驗室等研究機構工作，在 CVPR、ICCV、ICLR、SIGGRAPH 等會議上發表論文 40 余篇，谷歌學術引用量 3500 余次，研究工作曾獲評 ICCV 和 ECCV 最有影響力論文。

會議推薦

AICon 上海站 4 大核心看點：Keynote 前瞻洞見、Agent 工程化專題拆解、前沿技術 + 產業落地全覆蓋，Google Cloud 專家實操帶練。更多詳情可掃碼或聯系票務經理 13269078023 進行咨詢。

今日薦文

你也「在看」嗎？

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.