![]()
嘉賓 | 王騰飛
編輯 | 李忠良
6 月 26-27 日,AICon 全球人工智能開發與應用大會?2026 上海站,即將盛大開幕。大會前夕,InfoQ 專訪了騰訊混元世界模型團隊負責人王騰飛,深度解讀 HY-World 2.0 背后的技術架構與產品思考。從李飛飛提出的 "渲染器、仿真器、規劃器" 三層框架,到騰訊選擇的 3D 落地路徑,從 WorldMirror 的幾何重建到 WorldLens 的實時渲染,這場對話將帶你重新理解 "世界模型"—— 它究竟是下一代內容生成工具,還是真正能跑起來的可運行環境?
核心觀點速覽:
世界模型不是 "更好的視頻生成",而是一次范式躍遷:視頻生成交付的是 "內容",世界模型交付的是 "可運行環境",門檻遠高于把畫面做好看。
3D 不是目的,是世界模型落地的一條重要路徑:視頻生成有想象力,但只有 3D 能真正接入現有生產管線、形成可編輯復用的資產。
游戲數字世界是物理世界的 "可控代理":游戲與具身智能本質是同一個問題,核心技術框架(感知、仿真、推理、規劃)可直接復用。
世界模型生態最缺的不是模型,是評測標準:誰能量化清楚 "一個生成的世界好不好",誰的貢獻最大 —— 它會成為整個領域的公共標尺。
世界模型不是 "更好的視頻生成",而是一次范式躍遷
InfoQ:怎么看待幾周前李飛飛給世界模型下的定義?你們認同嗎?系統介紹下你們的理解和研發布局?
王騰飛:李飛飛將世界模型劃分為渲染器、仿真器、規劃器三層,構成了一套清晰的認知框架。我們的理解略有不同 —— 更傾向于將渲染與仿真兩層合并看待,而非截然分開。
目前團隊在上述各層均有布局,并已將各模塊能力整合推出首款產品。
在世界仿真與渲染層,我們研發了 WorldPlay、WorldStereo 等視頻模型,用于直接模擬和預測世界狀態;同時通過 WorldMirror、HY 3D 等仿真資產生成模型,豐富仿真環境的資產儲備。在世界規劃層,我們也推出了 WorldNav 及后續系列模型,支撐導航與操作類任務。
在系統整合層面,我們將空間感知、空間推理規劃、空間生成、仿真、渲染等單體能力打通,推出了 HY World 產品 —— 用戶僅需輸入簡單的文本或圖像,即可生成一個完整、可交互、可仿真的 3D 世界。配套的專用渲染器 WorldLens,支持用戶在生成的世界中自由放置道具與角色進行交互,并實現高效、高保真的實時渲染。
從單點模型到系統化產品,我們遵循的是一條"能力積木化、最終系統化"的技術路徑 —— 每個模塊都能獨立輸出價值,整合后又能涌現出更大的能力邊界。
InfoQ:您認為世界模型和普通視頻生成、3D 生成最本質的區別是什么?
王騰飛:普通視頻生成與 3D 生成交付的是 "內容",而世界模型交付的是 "可運行環境",二者的核心差異在于可交互性與可維護的世界狀態。
視頻生成的表現力固然強大,但其本質交付的是二維畫面序列,背后并不存在一個穩定存續的世界。例如向前行進一段距離后回頭,此前的山體與建筑可能發生變化甚至消失 —— 這是因為模型僅在逐幀預測,并不真正 "記憶" 空間結構。單體 3D 生成則聚焦于單個物體的生成,如一把椅子、一個人物,約束條件相對簡單。
世界模型需要回應的是更具挑戰性的問題:能否生成一個自洽、可持續存在、可進入并可運行的三維空間。它至少需要滿足三個核心特征:
? 狀態持續:繞行一周后返回原點,世界仍保持原貌;
? 物理準確:具備真實的深度與結構,而非僅停留在 "視覺逼真" 的層面;
? 可交互:支持交互、可體驗、可仿真。
因此我常說,世界模型是將 "生成一段好看的內容" 推進到 "生成一個能運行的環境",這一步跨越的門檻遠高于單純提升畫面質量。
InfoQ:一個團隊今天想判斷自己是否真的需要世界模型,應該看哪些需求信號?
王騰飛:這里提供一個較為實用的判斷方法 —— 不妨先自問:應用場景是否需要交互?
如果需求僅在于產出可供觀看的內容,視頻生成通常足以滿足,例如當前的 AI 短劇。
而指向 "交互" 需求的信號有三個,滿足的條件越多,對世界模型的需求就越強:
? 第一,持久的世界狀態。需要支持自由切換視角、反復瀏覽、響應各類操控指令,且世界不能 "變臉"。典型場景如具身智能及部分類型的互動游戲。
? 第二,可編輯、可復用的資產。生成結果并非最終交付物,而需進入美術、引擎等下游生產環節 —— 此時需要的是結構化的 3D 資產,而非僅像素幀。
? 第三,物理交互。涉及碰撞、重力、角色在場景中行走(如上下樓梯、室內漫游)等物理行為,必須有真實幾何結構作為支撐。我們從 3DGS 中提取 mesh 作為碰撞代理,正是為了滿足這一需求。
換言之,若僅需 "觀看" 內容,視頻生成或單體 3D 即可滿足;一旦需要 "進去用",尤其涉及視角一致性、資產復用和物理交互時,可運行的世界模型便成為更優選擇。
Sora 很驚艷,但為什么落地世界模型還得靠 3D?
InfoQ:Sora 之后很多人從視頻生成想象世界模型,但 HY-World 2.0 強調 3D。騰訊為什么認為 3D 是落地的重要路徑?
王騰飛:Sora 這一進展讓行業看到了視頻生成的巨大想象力,對此我完全認同。但 "想象力" 與 "落地" 是兩個不同維度的問題,而 3D 是我們認為最具落地可行性的載體,原因非常具體。
第一,3D 天然具備一致性,且天然兼容現有管線。我們生成的世界采用顯式 3DGS 表達,可提取 mesh,能夠直接接入標準圖形管線、游戲引擎及仿真平臺。視頻生成要進入游戲生產管線則難度極大 —— 數據量大、幾何結構不穩定,目前尚難以真正融入生產線。
第二,3D 才具備 "資產" 的概念。游戲、影視、仿真等領域需要的是可編輯、可復用、可接入工作流的資產;而視頻幀更多是最終影像或素材,并非可編輯、可復用的結構化資產。
第三,物理精確性。機器人仿真、數字孿生、展覽復刻等場景,要求的是精準的模擬仿真,而非僅停留在 "視覺逼真" 層面。3D 表達結合我們的重建模型 WorldMirror,能夠輸出真實的深度、法線和點云數據。
此外,還有一點目前較少被關注 ——實際應用的成本。視頻生成的成本不具備分攤效應:每一位玩家、每一分鐘的體驗都需要消耗顯卡算力進行推理。相比之下,3D 建模的成本是一次性的,當分發量足夠大、體驗時間足夠長后,建模成本可忽略不計;而渲染僅需普通電腦的渲染卡即可完成,邊際成本極低。因此對我們而言,3D 不是 "為了 3D 而 3D",而是因為它是目前唯一能將世界模型真正交付到生產環節的形態。
InfoQ:反過來看,哪些場景里 2D 或視頻生成已經足夠?哪些必須依賴 3D?
王騰飛:判斷的核心在于,內容是 "用來觀看",還是 "要主動交互"。
如果內容消費路徑是被動觀看型 —— 用戶僅需觀賞,例如營銷短片、概念圖、分鏡、風格探索、固定運鏡的影視化鏡頭等 —— 在這類無需進入場景或交互的場景中,視頻生成在表現力、效率和成本上的優勢十分明顯。
但如果內容需要接入可運行的系統,則通常更依賴 3D。例如游戲、機器人仿真、VR 漫游、線上展覽、數字孿生等場景,普遍對 3D 有強依賴。
拆開 HY-World 2.0:一個可漫游的 3D 世界是怎么四步造出來的
InfoQ:從輸入到生成一個 3D 世界,關鍵模塊分別解決什么?為什么拆成多個模塊,而不是一個端到端模型?
王騰飛:先回答第二個問題 —— 為什么不采用端到端模型?主要有幾個非常實際的考量:
一是數據層面。端到端模型需要 "文字直接到完整可交互 3D 世界" 的成對訓練數據,而這類數據目前幾乎不存在。拆分為多個模塊后,每個模塊都可以使用最適合自身的數據進行獨立訓練。
二是可控性與可解釋性。出現問題時,我們可以精確定位是全景生成、軌跡規劃還是重建環節出了偏差;而端到端模型本質上是黑盒,難以調試和優化。
HY-World 2.0 的生成流程分為四個階段,整體對應了人類 "感知世界→理解世界→想象世界→重建世界" 的認知過程:
第一階段:全景生成(HY-Pano)將文字描述或單張圖像轉化為 360° 全景,為整個世界提供全局、自洽的初始化。
第二階段:軌跡規劃(WorldNav)首先將全景解析為點云、mesh、語義信息和可行走區域,在此基礎上規劃出兼顧覆蓋最大化與避障的探索路線 —— 簡單來說,就是決定 "該往哪看、往哪走"。
第三階段:世界擴展(WorldStereo)沿規劃好的相機軌跡,通過帶記憶機制的生成模型補全未觀測區域,同時保持全局一致性。
第四階段:世界合成(WorldMirror)將生成的多視角視圖重建為精確幾何結構,完成深度對齊、3DGS 優化和 mesh 提取,最終得到可自由漫游的 3D 世界。
王騰飛:傳統幾何方法已經非常成熟,但其有效應用有明確的前提條件:需要足夠多、足夠干凈、重疊度高且標定可靠的觀測數據。這意味著需要專業的采集設備、高昂的采集成本,以及最重要的 —— 三維重建領域的專家全程參與。
WorldMirror 2.0 則大幅降低了這一高門檻任務的準入難度。不僅成本更低,更解決了傳統方法難以同時實現的幾個關鍵問題:
第一,前饋式輸出全套幾何結果,且各輸出間自洽統一。 單次前向傳播即可同時輸出點云、深度、法線、相機參數以及逐像素的 3DGS 屬性。我們還引入了深度 - 法線耦合監督機制,使兩者互相校正,進一步提升幾何一致性。
第二,憑借學習到的先驗知識,能夠在 "不完美" 的輸入條件下穩定工作—— 這是最核心的優勢。 傳統 SfM / MVS 方法在稀疏視角下的穩定性會顯著下降;而 WorldMirror 2.0 通過學習到的幾何與語義先驗,能夠在稀疏視角、弱紋理、非嚴格標定等條件下,給出更穩定的結構估計。
第三,靈活性高、速度快。 傳統 NeRF / 3DGS 方法通常需要針對每個場景進行單獨優化;而 WorldMirror 2.0 采用前饋式預測,可快速輸出初始化幾何和 3D 表達,大幅縮短重建等待時間。
InfoQ:WorldLens 作為專用渲染平臺,在鏈路中承擔什么角色?為什么世界模型不僅要"建出來",還要考慮如何實時、高質量地"跑起來"?
王騰飛:李飛飛此前在博客中提出了世界模型的基礎框架 —— 即規劃器、模擬器、渲染器三層。混元世界模型 2.0 主要對應建模和模擬器部分,但要真正交付給用戶體驗,中間還存在渲染器層面的 gap。WorldLens 解決的就是 "讓世界跑起來、用起來" 的問題,它是整個鏈路的運行時和消費層。
具體而言,WorldLens 承擔三項核心功能: 一是自動 IBL 光照,確保場景光照合理、一致,避免進入場景后產生違和感; 二是高效碰撞檢測,配合提取出的 mesh,可實現實時碰撞響應,支持角色在場景中行走; 三是訓練 - 渲染協同設計—— 這一點至關重要,我們在生成階段就充分考慮了最終的實時渲染需求,而非建完模型后才發現無法流暢運行。
為什么 "建出來" 還不夠,一定要 "跑起來"?因為世界模型的核心價值在于可進入、可使用。一個模型即便建得再精準,如果加載需要幾分鐘、走兩步就卡頓、碰撞頻繁穿模,那么對游戲、VR、仿真等場景而言都沒有實際意義。能否實時、高質量、可交互地運行,才是世界模型從一個重建結果轉變為真正可用環境的臨門一腳。因此對我們而言,渲染器不是附屬品,而是與模型同等重要的核心環節。
能 "走進去" 只是第一步,世界模型的真正戰場在哪
InfoQ:HY-World 2.0 提到可兼容物理引擎。這里的"兼容"具體意味著什么?哪些物理交互已經成熟,哪些仍是挑戰?
王騰飛:我們所說的 "兼容物理引擎" 并非宣傳話術,而是有非常具體的技術含義:我們會對生成的內容進行輕量化處理,使其能夠接入標準圖形管線。在此基礎上,引擎即可實現實時碰撞檢測與物理反饋 —— 用戶可以放置角色,使其在場景中上下樓梯、室內移動,并獲得合理的物理反饋。
目前已較為成熟的能力包括:靜態場景碰撞、漫游導航、角色與環境的碰撞交互、基本重力與剛性反饋,以及一致的光照系統。換言之,"在生成的靜態世界中自由行走、不穿模、光照自然",這一目標目前已完全可實現。
仍面臨挑戰的方向主要有四類:
? 動態物體:目前生成的世界以靜態重建為主,場景中的物體尚未被很好地拆解為可獨立運動、可交互操作的個體;
? 鉸接與可形變物理:布料、軟體、關節等復雜物理效果的實現仍有較大難度;
? 物理參數估計:真實的摩擦系數、質量、材質屬性等參數,僅從外觀信息難以準確推斷;
? 物體級語義解耦與可交互編輯:單獨抓取物體、修改物體屬性、與物體進行互動等能力,目前仍處于早期階段。
因此我常說,"能進去走" 已經成熟,而 "像真實世界一樣操作萬物" 還有很長的路要走。
InfoQ:游戲和具身智能里的世界模型是一回事嗎?騰訊混元世界模型的技術路線上是怎樣思考的?
王騰飛:二者本質上是一致的 —— 都是對世界運行規則的建模。差異僅在于規則的來源不同:物理世界的規則是重力、碰撞等自然物理定律;游戲世界的規則是引擎邏輯、碰撞體系等人為制定的規律。
從技術路線來看,二者也高度一致,核心模塊均為感知、仿真、推理、規劃。舉一個具體的例子:游戲中 3D 角色與環境的交互動作,與機器人的抓取操作,底層技術是相通的 —— 無論是 VLA 還是 World Action Model,同一套技術框架都可以直接復用。
基于這一判斷,我們的技術思路是:將游戲數字世界作為物理世界的 "可控代理" 進行研究。游戲數字世界規則清晰、狀態可重置、支持大規模并行仿真,反而是一個比真實物理環境更純粹、更高效的世界模型研究平臺。在數字世界中錘煉出的仿真能力、長程規劃能力、生成渲染能力,同樣是具身智能所需的核心能力 —— 從數字世界到物理世界,更多是 Grounding 層面的對齊,而非推倒重來。
InfoQ:HY-World 2.0 選擇開源。對開發者來說,現在參與世界模型生態,最有價值的方向是什么?
**王騰飛:**我們此次開放了全部模型權重、代碼和技術細節,這是有意為之。HY-World 2.0 不只是發布一個演示 demo,而是希望開發者能夠真正復現、改造、并接入到自己的工作流中 —— 這一點已經在切實發生。我始終認為,世界模型這樣仍處于早期階段的方向,許多關鍵問題并非單個團隊在封閉環境中就能完全定義和解決的;社區會帶來大量獨立團隊難以想到的輸入,這是一個雙向奔赴、互相成就的過程。
我認為當前世界模型生態中,最具價值的探索方向有三個:
第一,評測標準。 這是目前領域內最稀缺的能力。我們在實踐中發現,許多常用指標與人類的真實感知存在脫節。誰能將 "一個生成的世界好不好" 這一問題量化清楚,誰的貢獻就最大 —— 因為它將成為整個領域的公共標尺。
第二,工具鏈適配與工作流插件。 將模型接入真實的生產工具,例如引擎插件、DCC 工具對接、格式轉換器、機器人仿真平臺適配等。這類工作見效最快,能夠直接將世界模型能力送入各行業的工作流中。
第三,垂直領域適配。 自動駕駛、具身智能、VR 等領域各有其數據特點與場景需求,利用垂直領域的場景 know-how 將通用世界模型遷移到具體行業,同樣具有巨大價值。
我常說,開源生態決定技術的生命力。我目前最希望的,是大家先一起把生態做起來。世界模型這個方向足夠早期,也足夠廣闊,先讓社區活躍起來,或許比短期糾結于某一個具體方向更為重要。
想了解更多世界模型的技術細節與落地實踐?歡迎來到 6 月 26-27 日 AICon 2026 上海站現場,聽王騰飛老師帶來的主題分享,與騰訊混元團隊面對面交流。
嘉賓介紹:
王騰飛,騰訊 3D 世界模型負責人,博士畢業于香港科技大學,研究方向為生成式人工智能與世界模型。加入騰訊后,負責混元 HY World 系列模型的研發與落地,已帶領團隊先后發布 HY World 1.0、1.5、2.0 三個業界領先的模型版本,并獲得開源社區廣泛關注。加入騰訊前,曾在微軟亞洲研究院、上海人工智能實驗室等研究機構工作,在 CVPR、ICCV、ICLR、SIGGRAPH 等會議上發表論文 40 余篇,谷歌學術引用量 3500 余次,研究工作曾獲評 ICCV 和 ECCV 最有影響力論文。
會議推薦
AICon 上海站 4 大核心看點:Keynote 前瞻洞見、Agent 工程化專題拆解、前沿技術 + 產業落地全覆蓋,Google Cloud 專家實操帶練。更多詳情可掃碼或聯系票務經理 13269078023 進行咨詢。
今日薦文
你也「在看」嗎?
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.