網易首頁 > 網易號 > 正文 申請入駐

谷歌向左、李飛飛往右,阿里世界模型「快樂生蠔」殺出第三條路

0
分享至



編輯|楊文

近來,一匹來路不明的「歡樂馬」殺到了 Artificial Analysis 排行榜的榜首。

AI 圈頓時猜測聲四起,直到阿里跳出來認領。

沒想到短短幾天,阿里「Happy」家族又來了個新成員 ——HappyOyster(快樂生蠔)



二者「師出同門」,均來自阿里今年 3 月剛成立的 Alibaba Token Hub(ATH)創新事業群。

不過,與歡樂馬「寫 prompt、等渲染、收成片」的一次性流程不同,HappyOyster 是一款可實時構建和交互的開放式世界模型產品

它基于原生多模態架構,背后是支持多模態輸入與音視頻聯合生成的流式生成世界模型,在生成過程中能夠持續接收用戶指令,畫面實時響應、持續演繹。



HappyOyster 主打漫游(Wander)導演(Direct)兩大核心功能。

其中漫游功能是首個支持任意風格、無限互動的通用世界模型,只需輸入文本或圖像,即可生成無邊探索的世界場景,支持 1 分鐘以上的實時位移控制和鏡頭控制。



導演功能則是基于世界模型的實時 AI 視頻導演引擎,可連續生成長達 3 分鐘的 720p 實時視頻,我們可以通過文字指令實時操控鏡頭、調度角色、改變劇情走向。



說起這個名字,還有些講究,它借用莎翁那句經典名言「The world is your oyster.」(世界是你的牡蠣,等你親手打開)。

目前,HappyOyster 已上線,我們也在第一時間拿到邀請碼,接下來就上手實測一番。

體驗鏈接:https://www.happyoyster.cn/

一手實測:

阿里這個世界模型有點意思

先來試試主打的漫游(Wander)功能

該功能支持文字或圖片生成世界。

我們既可以直接輸入提示詞,也可以分開設定「角色(Character)」和「場景(Scene)」做精細化控制,還能在第一人稱和第三人稱之間切換視角。



比如,我們使用「定制模式」分開輸入:角色設定為「A stylish blonde female model」,場景設定為「On the streets of Paris in the 1980s」。(一個穿著時髦的金發女模特,在 80 年代的巴黎街頭。)



HappyOyster 并沒有直接輸出一段固定視頻,而是用短短十幾秒,構建出一個完整的夜晚雨后巴黎街頭,路面積水倒映著昏黃路燈,馬路上汽車疾馳而過,兩邊店鋪林立,細節都符合物理規律。

接下來,我們可以用 WASD 鍵控制角色前進方向,或者用上下左右方向鍵推動鏡頭移動,角色就在這個空間里自由游走,最終生成視頻。

整個畫面實時響應,全程流暢無卡頓。

系統還自動配上了契合場景氛圍的 BGM,音畫同步自然。

我們又上傳了一張動漫風格第一視角騎行圖片,HappyOyster 基于這張靜態畫面,生成一個具有空間結構和運動邏輯的完整場景。



視角向前推進時,道路延展、花海分布以及遠處景物的層次變化是連貫的,沒有明顯的拼接感或跳變。

吉卜力風格的視覺語言和櫻花飄落的氛圍,在整個運動過程中也保持一致。

漫游功能可以對各種風格適配,我們甚至直接走進了梵高的畫作。



再來試試導演功能(Direct),它最大的亮點是可以在視頻的任意節點實時改變內容。

我們丟給它一張吉卜力風格的圖片,HappyOyster 立馬造出了一個宮崎駿式的動漫世界:一位小女孩撐著紅色雨傘,走在雨后坑坑洼洼的鄉間小路上。

此時輸入提示詞「一只可愛的吉卜力風格的小貓突然跑到女孩身邊」,模型沒有重新渲染,直接在當前畫面里生成了一只小貓跑來,與小女孩并排同行。

我們繼續追加指令:「女孩蹲下撫摸小貓。」畫面再次即時響應,小女孩蹲身、伸手,動作自然流暢。



總之,模型能夠根據我們輸入的提示詞精確地調整場景和人物動作,畫面流暢且自然,每個變化都與故事情節無縫銜接。

技術解讀:

世界模型和文生視頻,差在哪里?

看完實測,我們可能會有一個直覺上的感受,就是這東西和 Sora、可靈這些文生視頻模型好像不太一樣。確實不一樣,而且是從底層邏輯上就走了一條不同的路。

Sora 也好、可靈也好,文生視頻模型本質上是個一次性系統。給定文本或圖像條件后,模型在一個預先限定好的時間窗口內組織內容、運動和節奏,然后交付結果。用戶給一次輸入,得到一段輸出,流程就此結束。這個過程是封閉的、一次性的,中間沒有任何插手的空間。

這種模式對于生成一段精美的短片很夠用,但如果想在畫面中途介入,改變任何已經發生的事情,它就無能為力了。

世界模型的思路則完全不同。它學習的是世界接下來會如何演化,當前的狀態是什么,施加一個動作之后會發生什么,再下一步又會怎樣。它沒有預設的終點,當我們沒有新輸入時,模型基于已有狀態自主延續世界的發展;若我們中途注入新指令,模型就會結合當前狀態重新推斷后續走向,它可以隨時被打斷、被干預、被重寫。

也正因如此,世界模型的訓練難度遠高于文生視頻。

最直接的挑戰是速度。世界模型需要在用戶給出指令的瞬間就做出響應,任何明顯的延遲都會打破沉浸感。HappyOyster 為此采用流式生成框架,將高維視頻與多模態信息壓縮為緊湊的動態 latent state,大幅降低單步生成的計算開銷,使生成得以低延遲持續推進。文本、圖像和漫游指令等控制信號被設計為可在線注入的條件變量,模型無需重置生成過程就能在任意節點即時響應外部交互。

更棘手的問題在于,如何讓這個世界在長時間演化中保持一致性。生成時間越長,場景越容易出現內容漂移和結構退化,物理規律和空間結構慢慢失去約束,世界逐漸變得不像它原來的樣子。為了對抗這種「失憶」,HappyOyster 引入持續狀態復用機制,通過歷史注意力狀態的連續傳遞,讓模型高效繼承已生成信息并漸進更新,在更長的時間跨度上維持穩定的場景結構與動態連貫性。

在音畫協同方面,不同于將音頻作為視頻的后期附加物單獨建模,HappyOyster 采用統一的音視頻生成框架,在同一世界狀態下同步生成視覺與聽覺信號。音頻作為世界動態的一部分參與聯合生成,自然建立跨模態的時間對齊關系。

目前世界模型領域已有幾個代表性方向。Google 的 Genie 專注于實時交互式世界建模,但在多模態輸入的統一表達和音視頻聯合生成上尚有局限;李飛飛團隊的 World Labs 走的是 3D 空間結構化重建路線,側重幾何一致性而非像素空間的長時序動態生成。



HappyOyster 選擇的是在像素空間內進行長時序、實時可交互的動態世界模擬,并在此基礎上加入了音視頻聯合生成能力,這是一條此前鮮有人走通的路徑,沒有太多現成的答案可以參考。

結語

AIGC 走到今天,內容生成工具已經相當成熟。寫文章、生圖、做視頻,這些需求都有了不錯的解決方案。但這條賽道正在悄悄逼近一個新的拐點,即從「生成內容」到「構建世界」。

HappyOyster 的出現,讓我們看到了這個方向的輪廓。它給每人一個可以隨時走進去、隨時修改、實時反饋的「自定義數字世界」。我們可以在里面漫游,可以在里面導演,可以把它分享給別人,讓別人在我們構建的世界里繼續演繹。

應用場景上,它的邊界也遠不止屏幕內的娛樂體驗。文旅展陳、互動短劇、影視概念驗證、品牌營銷、直播共創…… 凡是需要實時感知、實時生成、實時反饋閉環的場景,它都天然適配。

更長遠來看,一旦與攝像頭、傳感器、空間設備等硬件結合,HappyOyster 承載的就是一個可以被現實信號持續驅動的生成式環境系統。

但坦率地說,世界模型整體仍處于早期階段。長時序下的物理一致性、復雜場景中的因果推理、對現實世界規律的深度理解,這些都是懸而未決的硬核挑戰。HappyOyster 是這個方向上目前最接近「可用產品」形態的探索之一,但探索就意味著邊界尚未確定。

這既是局限,也是想象力存在的理由。

文中視頻鏈接:https://mp.weixin.qq.com/s/rnExzdeYegSiEKy4zuJpTw

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
68歲萬梓良現狀,多種病纏身,拼命賺錢養家,兒子繼承帥氣外貌

68歲萬梓良現狀,多種病纏身,拼命賺錢養家,兒子繼承帥氣外貌

看盡落塵花q
2026-04-25 17:59:55
全球旗艦增程SUV,續航超1600km,僅售29萬多,實力不輸理想L9

全球旗艦增程SUV,續航超1600km,僅售29萬多,實力不輸理想L9

隔壁說車老王
2026-04-26 07:53:19
往返400公里,京冀跨省通勤者的生活賬本

往返400公里,京冀跨省通勤者的生活賬本

新京報
2026-04-23 07:52:18
全球男女壽命越拉越大!Nature:雄激素是關鍵,抑制可多活20%

全球男女壽命越拉越大!Nature:雄激素是關鍵,抑制可多活20%

思思夜話
2026-04-25 11:05:11
羽毛球“21分制”將成歷史!使用近20年,世界羽聯宣布新規

羽毛球“21分制”將成歷史!使用近20年,世界羽聯宣布新規

都市快報橙柿互動
2026-04-26 08:10:36
發電量不多,偷電量極大!印度老百姓:電是神賜予的,所以免費

發電量不多,偷電量極大!印度老百姓:電是神賜予的,所以免費

小嵩
2026-04-23 11:26:38
又奪冠了!霍思燕的蒙古獒爆火,狠狠給中國犬種爭了口氣

又奪冠了!霍思燕的蒙古獒爆火,狠狠給中國犬種爭了口氣

童叔不飆車
2026-04-25 21:05:32
與10年前南海對峙相比,解放軍實力提升多少?速度連美軍都想不到

與10年前南海對峙相比,解放軍實力提升多少?速度連美軍都想不到

鋒芒點兵
2026-04-19 11:50:21
1-0 登頂英超!阿森納險翻車,頭號核心全場災難拖后腿

1-0 登頂英超!阿森納險翻車,頭號核心全場災難拖后腿

瀾歸序
2026-04-26 05:51:40
你以為麻豆傳媒是賣片的,其實它是賣人的

你以為麻豆傳媒是賣片的,其實它是賣人的

創始人筆記
2026-04-23 21:44:50
剛剛!東莞全城沸騰!

剛剛!東莞全城沸騰!

東莞好生活
2026-04-25 22:48:44
約中年女人出來玩,學會4個“不要臉”神操作,沒有搞不定的女人

約中年女人出來玩,學會4個“不要臉”神操作,沒有搞不定的女人

小影的娛樂
2026-04-11 16:46:06
恩愛14年夫妻憑《八千里路云和月》再度走紅

恩愛14年夫妻憑《八千里路云和月》再度走紅

荒野老五
2026-04-26 02:05:18
朱耷:對世界翻白眼的大明遺老,以極簡致美的風格,成為一代畫圣

朱耷:對世界翻白眼的大明遺老,以極簡致美的風格,成為一代畫圣

青林知青
2026-04-09 14:39:41
太可怕了!繼注射藥物、熱巴事件后,王陽再揭娛樂圈最臟的一面

太可怕了!繼注射藥物、熱巴事件后,王陽再揭娛樂圈最臟的一面

橙星文娛
2026-04-17 13:19:56
破冰宴還是鴻門宴?特朗普首赴記者晚宴前,被數百人聯名“硬剛”

破冰宴還是鴻門宴?特朗普首赴記者晚宴前,被數百人聯名“硬剛”

上觀新聞
2026-04-24 18:21:14
巴黎世家上新解放鞋,復古混搭70后,80后,90后,00后都喜歡

巴黎世家上新解放鞋,復古混搭70后,80后,90后,00后都喜歡

魔都姐姐雜談
2026-04-25 16:03:15
穆杰塔巴近況被曝,好慘!普京或冒險飛去伊朗見他,美國緊盯中國

穆杰塔巴近況被曝,好慘!普京或冒險飛去伊朗見他,美國緊盯中國

國際阿嘗
2026-04-26 08:24:55
日本皇室獨苗悠仁找媳婦,四個要求令人咋舌!

日本皇室獨苗悠仁找媳婦,四個要求令人咋舌!

鑒史錄
2026-04-26 05:54:21
泰山戰海牛時間變韓鵬也變,兩個千萬要牢記,或迎歷史級進球記錄

泰山戰海牛時間變韓鵬也變,兩個千萬要牢記,或迎歷史級進球記錄

安海客
2026-04-26 09:14:15
2026-04-26 11:59:00
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
12852文章數 142636關注度
往期回顧 全部

科技要聞

漲價浪潮下,DeepSeek推動AI“價格戰”

頭條要聞

白宮突發槍擊案 250名記者聯名要求將晚宴變維權現場

頭條要聞

白宮突發槍擊案 250名記者聯名要求將晚宴變維權現場

體育要聞

那一刻開始,兩支球隊的命運悄然改變了

娛樂要聞

《八千里路云和月》大結局意難平

財經要聞

DeepSeek V4背后,梁文鋒的轉身

汽車要聞

預售19.38萬元起 哈弗猛龍PLUS七座版亮相

態度原創

親子
教育
游戲
數碼
旅游

親子要聞

媽媽記錄下寶寶的第一次擁抱,最幸福的瞬間

教育要聞

壓軸出場的題目,很多小朋友都失分了

PS5獨占新作外媒打滿分!直言媲美《艾爾登法環》

數碼要聞

華為MatePad Mini迭代版:OLED四等邊、5G、NFC全來了,沒短板了

旅游要聞

臺兒莊古城國潮文化季正式啟動 五一“入夢臺城”拉開帷幕

無障礙瀏覽 進入關懷版