![]()
AI應(yīng)用風(fēng)向標(biāo)(公眾號(hào):ZhidxcomAI)
作者|江宇
編輯|漠影
智東西4月16日?qǐng)?bào)道,今日,騰訊正式發(fā)布并開源混元3D世界模型2.0(HY-World 2.0)。作為一款多模態(tài)的世界模型,HY-World 2.0支持文字、圖片和視頻等形式輸入,可自動(dòng)生成、重建并模擬完整的3D世界。
對(duì)于游戲行業(yè),HY-World 2.0支持直接輸出可二次編輯的Mesh、3DGS或點(diǎn)云等資產(chǎn),可無縫導(dǎo)入U(xiǎn)nity、UE等引擎,用于快速構(gòu)建游戲地圖和關(guān)卡原型。
相比此前的HY-World 1.5只能生成一分鐘視頻,HY-World 2.0不僅支持可漫游3D空間,還能生成完整角色、建筑和場(chǎng)景資產(chǎn),實(shí)現(xiàn)可用、可玩。
▲輸入“生成一個(gè)溫馨的繪本風(fēng)格小木屋”
一句話生成3D世界不再是難題,騰訊混元3D還新增了角色模式,用戶可操作角色在街道、建筑、場(chǎng)景中自由探索,具備物理碰撞效果。就像在游戲里一樣,游戲角色可以自由穿行在生成的3D場(chǎng)景中。
![]()
▲角色模式下,用戶可以操作角色自由探索
與此同時(shí),HY-World 2.0在場(chǎng)景完整度(物體側(cè)面和背面)及對(duì)輸入圖片的遵循程度上表現(xiàn)更優(yōu),同樣適合具身智能仿真等場(chǎng)景。
![]()
對(duì)此,智東西也體驗(yàn)了一番,一起來看看效果如何。
在線體驗(yàn):https://3d.hunyuan.tencent.com/sceneTo3D
開源代碼:https://github.com/Tencent-Hunyuan/HY-World-2.0
技術(shù)報(bào)告:https://3d-models.hunyuan.tencent.com/world/world2_0/HY_World_2_0.pdf
一、原神、生化危機(jī)雙場(chǎng)景復(fù)刻,角色自由漫步實(shí)感十足
首先我對(duì)文生和圖生場(chǎng)景這個(gè)功能進(jìn)行了初步體驗(yàn),在操作上非常簡(jiǎn)單,輸入提示詞或圖片,點(diǎn)擊“立即生成”即可。
![]()
提示詞:“生成一個(gè)原神風(fēng)格的空中花園迷宮,包含高低錯(cuò)落的平臺(tái)、曲折的樓梯、藤蔓懸掛的橋梁,陽光透過彩色玻璃灑在花園中,中央有噴泉和小橋流水,整個(gè)空間充滿幻想感。”
![]()
可以看到,無論是縱深場(chǎng)景的表現(xiàn),還是樓梯、橋梁、彩色玻璃等細(xì)節(jié),都有很好的還原。值得注意的是,我選定的角色還可以在生成的3D世界中自由漫步。
![]()
角色在樓梯和橋梁等區(qū)域,均具備物理碰撞感和移動(dòng)形態(tài),走上去或走下去都自然流暢,可以測(cè)試空間結(jié)構(gòu)。
不過,受限于該場(chǎng)景可活動(dòng)的區(qū)域過小,角色僅能在有限的范圍內(nèi)移動(dòng)。當(dāng)我選擇將角色大小進(jìn)行調(diào)整后,以第三人稱的角色視角可以觀察到該場(chǎng)景的更多細(xì)節(jié)。
緊接著,我們嘗試以圖片作為參考,生成的場(chǎng)景也大體保持整體一致。
![]()
但在畫質(zhì)和細(xì)節(jié)表現(xiàn)上與文字生成結(jié)果近似,不夠細(xì)膩、質(zhì)感不強(qiáng),這可能與網(wǎng)頁端顯示和渲染分辨率有關(guān)。
帶著這個(gè)問題,我們接著嘗試了視頻和多視角圖片的輸入。
在視頻參考部分,我選用了一段《生化危機(jī)》的實(shí)況視頻,主人公沿街道直行。
【視頻】
▲《生化危機(jī)》的實(shí)況視頻
![]()
可以看到,模型能捕捉角色的運(yùn)動(dòng)軌跡,以及街道兩側(cè)的布景,路過的路人也有所呈現(xiàn),但整體對(duì)3D世界的還原仍不夠完整。
相比之下,多視角圖片測(cè)試表現(xiàn)更出色。我直接使用了自帶的32張三層屋檐建筑素材,模型復(fù)刻建筑外型和層級(jí)結(jié)構(gòu)的效果非常驚艷。
![]()
▲多視角圖片素材
![]()
可以看到,建筑的細(xì)節(jié)和層次感都被很好保留,整體感很明顯。
二、草圖、文字、視頻都能造世界,端到端生成360°全景
在HY-World 2.0中,輸入一張草圖、一段文字或一段視頻,都可以快速生成連貫的3D世界。
而實(shí)現(xiàn)這一功能的技術(shù)要點(diǎn)在于,HY-World 2.0以3D為主軸,統(tǒng)一空間理解、生成和重建,將復(fù)雜的語義和結(jié)構(gòu)自動(dòng)轉(zhuǎn)化為完整空間。
![]()
借助全新升級(jí)的HY-Pano-2.0端到端隱式學(xué)習(xí)方案,模型無需任何相機(jī)參數(shù),也能從普通圖片或視頻生成360度全景映射。
混元團(tuán)隊(duì)還通過真實(shí)全景照片和UE合成數(shù)據(jù)進(jìn)行混合訓(xùn)練,保證生成質(zhì)量和泛化能力。
![]()
三、路徑智能規(guī)劃,讓角色自由漫游
生成全景后,角色路徑規(guī)劃也是一大難題。模型結(jié)合自研空間Agent技術(shù)和Navmesh表征,實(shí)現(xiàn)了角色漫游路徑的智能規(guī)劃。
根據(jù)不同場(chǎng)景的語義,模型可規(guī)劃出包括環(huán)繞物體、最大漫游在內(nèi)的五類運(yùn)鏡軌跡,確保覆蓋場(chǎng)景中關(guān)鍵區(qū)域,同時(shí)避免穿墻或跑飛。
借助規(guī)劃好的軌跡和世界擴(kuò)展,角色在生成的3D場(chǎng)景中能夠自然漫游,路徑流暢且符合空間邏輯。
![]()
四、新視角生成,保證空間銜接與畫面連貫
在擴(kuò)展場(chǎng)景時(shí),模型是如何確保新生成區(qū)域與原有空間在幾何和視覺上完美銜接、不出現(xiàn)“穿幫”的?
其核心創(chuàng)新包括精確的相機(jī)控制、細(xì)粒度視覺細(xì)節(jié)保持以及空間一致性記憶機(jī)制。
結(jié)合記憶力機(jī)制設(shè)計(jì)及體系化的中間訓(xùn)練與后訓(xùn)練,混元團(tuán)隊(duì)打造出迄今業(yè)內(nèi)最強(qiáng)的HY-WorldStereo新視角生成(NVS)模型。
生成畫面對(duì)輸入相機(jī)實(shí)現(xiàn)精準(zhǔn)跟隨,多條運(yùn)鏡的生成結(jié)果保持空間一致、不產(chǎn)生沖突,并且后訓(xùn)練算法能夠在快速擴(kuò)展新區(qū)域的同時(shí),保證畫面質(zhì)量不衰減。
![]()
最終,所有生成片段通過HY-WorldMirror 2.0整合為一個(gè)統(tǒng)一、可交互的3D世界。
借助定制的Depth Alignment和自適應(yīng)Mask Gaussian優(yōu)化算法,生成場(chǎng)景采用3D高斯?jié)姙R(3DGS)表示,同時(shí)可導(dǎo)出高質(zhì)量Mesh,直接無縫導(dǎo)入U(xiǎn)nity、UE等主流游戲引擎,進(jìn)行二次編輯和創(chuàng)作。
結(jié)語:AI造世界,更進(jìn)一步
從首個(gè)開源的3D世界模型HY-World 1.0,到可實(shí)時(shí)在線交互的HY-World 1.5,再到HY-World 2.0的發(fā)布,這一系列迭代進(jìn)一步拉近了AI在游戲開發(fā)、虛擬仿真等行業(yè)的落地距離。
相比過去只能生成短視頻或靜態(tài)模型,HY-World 2.0提供了真正可漫游、可交互、可二次編輯的3D世界,顯著降低地圖原型和關(guān)卡設(shè)計(jì)門檻。
隨著國內(nèi)外團(tuán)隊(duì)如李飛飛World Labs開源Spark 2.0渲染器等進(jìn)展,AI世界模型正在從概念驗(yàn)證走向產(chǎn)業(yè)應(yīng)用,未來在游戲、文化保護(hù)、城市規(guī)劃、室內(nèi)設(shè)計(jì)等場(chǎng)景的應(yīng)用潛力巨大。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.