網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

剛剛，騰訊最新世界模型開源！一句話造出3D世界，兼容游戲引擎

2026-04-16 11:31:57　來源: 智東西

北京舉報(bào)

分享至

AI應(yīng)用風(fēng)向標(biāo)（公眾號(hào)：ZhidxcomAI）
作者｜江宇
編輯｜漠影

智東西4月16日?qǐng)?bào)道，今日，騰訊正式發(fā)布并開源混元3D世界模型2.0（HY-World 2.0）。作為一款多模態(tài)的世界模型，HY-World 2.0支持文字、圖片和視頻等形式輸入，可自動(dòng)生成、重建并模擬完整的3D世界。

對(duì)于游戲行業(yè)，HY-World 2.0支持直接輸出可二次編輯的Mesh、3DGS或點(diǎn)云等資產(chǎn)，可無縫導(dǎo)入U(xiǎn)nity、UE等引擎，用于快速構(gòu)建游戲地圖和關(guān)卡原型。

相比此前的HY-World 1.5只能生成一分鐘視頻，HY-World 2.0不僅支持可漫游3D空間，還能生成完整角色、建筑和場(chǎng)景資產(chǎn)，實(shí)現(xiàn)可用、可玩。

▲輸入“生成一個(gè)溫馨的繪本風(fēng)格小木屋”

一句話生成3D世界不再是難題，騰訊混元3D還新增了角色模式，用戶可操作角色在街道、建筑、場(chǎng)景中自由探索，具備物理碰撞效果。就像在游戲里一樣，游戲角色可以自由穿行在生成的3D場(chǎng)景中。

▲角色模式下，用戶可以操作角色自由探索

與此同時(shí)，HY-World 2.0在場(chǎng)景完整度（物體側(cè)面和背面）及對(duì)輸入圖片的遵循程度上表現(xiàn)更優(yōu)，同樣適合具身智能仿真等場(chǎng)景。

對(duì)此，智東西也體驗(yàn)了一番，一起來看看效果如何。

在線體驗(yàn)：https://3d.hunyuan.tencent.com/sceneTo3D
開源代碼：https://github.com/Tencent-Hunyuan/HY-World-2.0
技術(shù)報(bào)告：https://3d-models.hunyuan.tencent.com/world/world2_0/HY_World_2_0.pdf

一、原神、生化危機(jī)雙場(chǎng)景復(fù)刻，角色自由漫步實(shí)感十足

首先我對(duì)文生和圖生場(chǎng)景這個(gè)功能進(jìn)行了初步體驗(yàn)，在操作上非常簡(jiǎn)單，輸入提示詞或圖片，點(diǎn)擊“立即生成”即可。

提示詞：“生成一個(gè)原神風(fēng)格的空中花園迷宮，包含高低錯(cuò)落的平臺(tái)、曲折的樓梯、藤蔓懸掛的橋梁，陽光透過彩色玻璃灑在花園中，中央有噴泉和小橋流水，整個(gè)空間充滿幻想感。”

可以看到，無論是縱深場(chǎng)景的表現(xiàn)，還是樓梯、橋梁、彩色玻璃等細(xì)節(jié)，都有很好的還原。值得注意的是，我選定的角色還可以在生成的3D世界中自由漫步。

角色在樓梯和橋梁等區(qū)域，均具備物理碰撞感和移動(dòng)形態(tài)，走上去或走下去都自然流暢，可以測(cè)試空間結(jié)構(gòu)。

不過，受限于該場(chǎng)景可活動(dòng)的區(qū)域過小，角色僅能在有限的范圍內(nèi)移動(dòng)。當(dāng)我選擇將角色大小進(jìn)行調(diào)整后，以第三人稱的角色視角可以觀察到該場(chǎng)景的更多細(xì)節(jié)。

緊接著，我們嘗試以圖片作為參考，生成的場(chǎng)景也大體保持整體一致。

但在畫質(zhì)和細(xì)節(jié)表現(xiàn)上與文字生成結(jié)果近似，不夠細(xì)膩、質(zhì)感不強(qiáng)，這可能與網(wǎng)頁端顯示和渲染分辨率有關(guān)。

帶著這個(gè)問題，我們接著嘗試了視頻和多視角圖片的輸入。

在視頻參考部分，我選用了一段《生化危機(jī)》的實(shí)況視頻，主人公沿街道直行。

【視頻】

▲《生化危機(jī)》的實(shí)況視頻

可以看到，模型能捕捉角色的運(yùn)動(dòng)軌跡，以及街道兩側(cè)的布景，路過的路人也有所呈現(xiàn)，但整體對(duì)3D世界的還原仍不夠完整。

相比之下，多視角圖片測(cè)試表現(xiàn)更出色。我直接使用了自帶的32張三層屋檐建筑素材，模型復(fù)刻建筑外型和層級(jí)結(jié)構(gòu)的效果非常驚艷。

▲多視角圖片素材

可以看到，建筑的細(xì)節(jié)和層次感都被很好保留，整體感很明顯。

二、草圖、文字、視頻都能造世界，端到端生成360°全景

在HY-World 2.0中，輸入一張草圖、一段文字或一段視頻，都可以快速生成連貫的3D世界。

而實(shí)現(xiàn)這一功能的技術(shù)要點(diǎn)在于，HY-World 2.0以3D為主軸，統(tǒng)一空間理解、生成和重建，將復(fù)雜的語義和結(jié)構(gòu)自動(dòng)轉(zhuǎn)化為完整空間。

借助全新升級(jí)的HY-Pano-2.0端到端隱式學(xué)習(xí)方案，模型無需任何相機(jī)參數(shù)，也能從普通圖片或視頻生成360度全景映射。

混元團(tuán)隊(duì)還通過真實(shí)全景照片和UE合成數(shù)據(jù)進(jìn)行混合訓(xùn)練，保證生成質(zhì)量和泛化能力。

三、路徑智能規(guī)劃，讓角色自由漫游

生成全景后，角色路徑規(guī)劃也是一大難題。模型結(jié)合自研空間Agent技術(shù)和Navmesh表征，實(shí)現(xiàn)了角色漫游路徑的智能規(guī)劃。

根據(jù)不同場(chǎng)景的語義，模型可規(guī)劃出包括環(huán)繞物體、最大漫游在內(nèi)的五類運(yùn)鏡軌跡，確保覆蓋場(chǎng)景中關(guān)鍵區(qū)域，同時(shí)避免穿墻或跑飛。

借助規(guī)劃好的軌跡和世界擴(kuò)展，角色在生成的3D場(chǎng)景中能夠自然漫游，路徑流暢且符合空間邏輯。

四、新視角生成，保證空間銜接與畫面連貫

在擴(kuò)展場(chǎng)景時(shí)，模型是如何確保新生成區(qū)域與原有空間在幾何和視覺上完美銜接、不出現(xiàn)“穿幫”的？

其核心創(chuàng)新包括精確的相機(jī)控制、細(xì)粒度視覺細(xì)節(jié)保持以及空間一致性記憶機(jī)制。

結(jié)合記憶力機(jī)制設(shè)計(jì)及體系化的中間訓(xùn)練與后訓(xùn)練，混元團(tuán)隊(duì)打造出迄今業(yè)內(nèi)最強(qiáng)的HY-WorldStereo新視角生成（NVS）模型。

生成畫面對(duì)輸入相機(jī)實(shí)現(xiàn)精準(zhǔn)跟隨，多條運(yùn)鏡的生成結(jié)果保持空間一致、不產(chǎn)生沖突，并且后訓(xùn)練算法能夠在快速擴(kuò)展新區(qū)域的同時(shí)，保證畫面質(zhì)量不衰減。

最終，所有生成片段通過HY-WorldMirror 2.0整合為一個(gè)統(tǒng)一、可交互的3D世界。

借助定制的Depth Alignment和自適應(yīng)Mask Gaussian優(yōu)化算法，生成場(chǎng)景采用3D高斯?jié)姙R（3DGS）表示，同時(shí)可導(dǎo)出高質(zhì)量Mesh，直接無縫導(dǎo)入U(xiǎn)nity、UE等主流游戲引擎，進(jìn)行二次編輯和創(chuàng)作。

結(jié)語：AI造世界，更進(jìn)一步

從首個(gè)開源的3D世界模型HY-World 1.0，到可實(shí)時(shí)在線交互的HY-World 1.5，再到HY-World 2.0的發(fā)布，這一系列迭代進(jìn)一步拉近了AI在游戲開發(fā)、虛擬仿真等行業(yè)的落地距離。

相比過去只能生成短視頻或靜態(tài)模型，HY-World 2.0提供了真正可漫游、可交互、可二次編輯的3D世界，顯著降低地圖原型和關(guān)卡設(shè)計(jì)門檻。

隨著國內(nèi)外團(tuán)隊(duì)如李飛飛World Labs開源Spark 2.0渲染器等進(jìn)展，AI世界模型正在從概念驗(yàn)證走向產(chǎn)業(yè)應(yīng)用，未來在游戲、文化保護(hù)、城市規(guī)劃、室內(nèi)設(shè)計(jì)等場(chǎng)景的應(yīng)用潛力巨大。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.