![]()
公司情報專家《財經涂鴉》獲悉,12月17日,騰訊混元發布世界模型1.5(Tencent HY WorldPlay),成為國內首個開放體驗的實時世界模型。
據悉,混元世界模型1.5具備三大核心能力,包括實時的交互生成、長范圍的3D一致性以及多樣化的交互體驗,目前騰訊混元3D官網已開放申請使用。
使用方面,用戶輸入文字描述或者圖片即可創建專屬的互動世界,通過鍵盤、鼠標或手柄實時控制虛擬相機的移動和轉向,即可像玩游戲一樣自由探索AI生成的世界。
騰訊方面表示,該模型將帶來世界建模的全新可能性。用戶可以在生成的世界里隨意移動探索,離開某個區域后再次返回時,模型能夠“記住”該區域的三維結構,呈現前后一致的場景——這種空間記憶能力標志著模型在三維世界理解上的突破。
同時,混元世界模型1.5(WorldPlay)還首次開源了業界最系統、最全面的實時世界模型框架,涵蓋數據、訓練、流式推理部署等全鏈路、全環節。
混元團隊在技術報告中公開了模型預訓練、持續訓練、自回歸視頻模型強化學習、帶記憶力的模型蒸餾的訓練細節,并詳述模型在控制(control space),記憶(reconstituted memory),蒸餾(context forcing),強化學習后訓練幾大模塊上的思考與原創設計。
據悉,WorldPlay這一自回歸擴散模型是混元世界模型1.5的核心。其采用Next-Frames-Prediction的視覺自回歸任務進行訓練,實現了長范圍幾何一致性的實時交互式世界建模,破解了業界滿足實時性與幾何一致性的難題。
該模型依托三大核心,實現了諸多創新,包括雙分支動作表征實現精準控制、上下文記憶重構機制保持幾何一致性、上下文對齊蒸餾技術增強長視頻生成的視覺質量和幾何一致性。
此外,該工作也構建了一套新穎的基于3D獎勵的強化學習后訓練框架來進一步增強生成視頻的視覺質量和幾何一致性。
數據方面,混元團隊構建的自動化3D場景渲染流程,可以獲得大量高質量的真實世界渲染數據,進一步激發核心算法的潛力。同時,混元世界模型1.5可支持24幀/秒的長時流式生成,一致性與泛化能力適用于多樣化場景。
這一全新的內容生成模式可以應用在多個場景中。
例如,在AI游戲開發領域,它可以作為智能關卡生成器,根據玩家的文本描述實時創建可探索的游戲世界;在影視制作和虛擬現實(VR)領域,創作者通過簡單的文本指令,就可以快速預覽和迭代場景設計;在具身智能(Embodied AI)研究領域,混元世界模型1.5提供了一個理想的訓練和測試平臺,研究者可以通過借助這個平臺,以更高的效率、更大的規模,去探索具身智能體的感知、決策、規劃和長期交互能力。
作者:蘇打
編輯:tuya
出品:財經涂鴉(ID:caijingtuya)
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.