4月16日,阿里巴巴發布可實時構建和交互的世界模型產品HappyOyster(快樂生蠔)。據悉,該模型基于原生多模態架構而建,支持多模態理解與音視頻聯合生成。目前產品可實現漫游(Wander)和導演(Direct)兩大核心能力,用戶可以實時構建可互動、可演繹、可探索的AI數字世界。同時,用戶生成的數字世界,不僅能被完整保存,還能開放給其他用戶進行二次創作。據悉,該產品由阿里ATH創新事業部團隊研發,與此前爆火的HappyHorse同屬一個團隊。
據了解,阿里的HappyOyster與谷歌的Genie3同屬于世界模擬器流派。區別于傳統文生視頻模型輸入提示詞、等待渲染、獲得成片的被動流程,這一流派采用長時間跨度上的世界演化建模方式。通過學習海量長視頻數據,以及文本、動作指令、圖像參考等多樣控制信號,模型能夠主動理解空間、物理與因果規律,預測情節和畫面的演變,從而把“被動生成內容”轉變為“主動模擬世界演化”,為構建可交互的通用世界模擬器提供了關鍵技術路徑。
據介紹,相比谷歌,此次阿里發布的HappyOyster采用了時間跨度更長的世界演化建模方式,使得模型能夠保持高保真、長時序的動態場景生成。同時在建模初始就設計了多樣的控制信號,使模型能夠在統一的時序框架下同時實現生成質量、長時序與實時可控性的協同優化。在產品能力上,HappyOyster呈現出差異化優勢。不僅能支持Wander漫游探索,還獨家提供實時導演功能,用戶可通過自然語言指令隨時介入世界演化、調度角色事件,實現從被動探索到主動創作的跨越。在視覺表現上,HappyOyster漫游模式的畫面質量更高,風格泛化能力更強,動態性更好。(定西)
