![]()
「世界模型解讀法則」
在無人在意的角落,世界模型如雨后春筍般集體震撼首發。
不是我夸張啊,4月阿里在發布視頻模型Happy Horse之前就開啟了世界模型Happy Oyster的內測,最近快樂馬的測評也是遍地開花,但你有看到誰在研究這個快樂生蠔嗎?
同期,騰訊的混元3D世界模型2.0也發布并開源了,但熱度甚至都沒有上線即涼透的王者榮耀世界高。還是在4月,太平洋對岸,邪惡的美國人如李飛飛、黃仁勛也都發布了自家世界模型的新一代版本,然后也都沒啥水花。
最神的是,連靈光都發布了世界模型,還是裝在手機里的,愛用電腦的都別想創造世界。
有理由懷疑,字節應該也在悶頭憋世界模型中,沒準起名叫Seedworld之類的,畢竟現在也就剩它還沒跟這個風了。
但這么多能瞬間造出來一個開放世界給咱探索的神奇工具,怎么就沒一個引發眾AI媒體小編「炸了瘋了殺死比賽了」的條件反射呢?
我淺淺用了一下其中幾個,發現原因很簡單,就是太拉了。
先說Happy Oyster
Happy Oyster有兩種使用模式,一種是Directing,也就是導演模式。導演模式走的是實時生成短片的路線,和之前銳評過的Pixverse R1差不多。
這個路線的世界模型主打的就是你可以隨時輸入提示詞改變場景和劇情,像玩旮旯game一樣進行AI視頻生成。
但之前的Pixverse R1和Odyssey-2有很多此類模型的通病。比如沒有連貫性,上一秒新生成的場景下一秒就消失了。再比如有誤差積累,生成時間越長,畫面就越瘋狂。具體可以看之前專門。
那Happy Oyster的Directing模式,在這些問題上有沒有長進呢?
于是我讓它生成了一個「美國宇航員在月球漫步」的場景,并準備加入各種地外勢力與其交互。
在整個視頻生成過程中,我接二連三輸入了「出現了一個外星人」「和外星人握手」「和外星人結婚生孩子」「一場外星酸雨毀了他們的愛巢」等提示詞。看看效果。
結果我發現阿里挺聰明的。
之前Pixverse R1采用的是一個全程沒分鏡的長鏡頭,所以誤差累積和沒有連貫性的問題才特別明顯。
Happy Oyster直接從根源上解決問題,隔幾秒就切個鏡頭,一切重新開始,直接通過逃避問題來解決問題。此處無諷刺意味。
關鍵是確實有一定作用,開頭生成出來的外星人,直到最后也沒消失,好端端在月球待著,算是保持了連貫性。
但與此同時,角色一致性和動作劇情的表現,也是差到讓我覺得是bug的程度。整體畫面的質感也堪比西式夢核。
再試試別的。我又上傳了一張豆包的照片,讓Happy Oyster生成一個《完蛋我被你豆姐包圍了》的實景游戲。
生成完之后,我算是知道這玩意的真正用途了。
雖然生成的那個馬,中途像核輻射變異了一樣成了雙頭馬;雖然豆包突然開始模仿閃靈,倆豆包站一起嚇我一大跳;雖然整個畫面也是崩壞得像幾年前的AI視頻水平,但是——
這個視頻里的人和馬都是能發出聲音能說話的,而且也不用給明確的臺詞,模糊指令就能推進劇情。之前的那些世界模型可沒有這個節目效果。
這不是很適合做AI虛擬戀人嗎?
傳統的AI虛擬戀人也就LLM實時個性化定制臺詞和劇情,然后AI生成幾個場景和表情包發給你。以后咱們用這個世界模型做AI虛擬戀人,想讓虛擬戀人干啥直接自己編,劇情畫面和演出都直接無窮無限啊。
建議Happy Oyster立刻預設戀與深空角色&旮旯game全明星&永雛塔菲等人的數字分身模板,不火直接來找我。
不過即便我給它找了個使用場景,我還是沒理解包括Happy Oyster、Pixverse R1、Odyssey-2在內的這種實時生成視頻的工具,和世界模型到底有什么關系。
我認為,世界模型主要為了解決AI時代的兩個痛點。
一個是現在牛逼的大語言模型太牛逼了,后起之秀跟不上了,必須造個新概念彎道超車;另一個是大語言模型沒法理解物理世界,沒法讓碳基人和硅基人在三維世界里和AI交互,那就沒法實現所謂的AGI,而世界模型可以。
舉個例子,最近印度工人一邊頭戴相機一邊打螺絲的新聞不是挺火嗎,按說這也確實是AI在物理世界獲取數據進行訓練然后提升具身智能能力的重要手段。
但要是有了能模擬真實物理世界的世界模型,可能第三世界國家的力工們就不用抬不起頭了,直接讓AI智能體在世界模型里練走位就完事了。節能高效。
但這種實時生成視頻的工具,它和這個愿景有啥關系嗎,它對于理解物理世界的貢獻在哪呢,我沒看出來啊,我感覺他就是個另一種交互形式的視頻Agent而已。
唯一優點是不用抽卡了,因為根本沒法抽卡了,連想提示詞的時間都沒有了。
但之前也說了,Happy Oyster有兩個模式。剛才講的Directing是在做實時視頻生成,除此之外,他們還有一個Wandering模式,也就是溜達模式,這個跟理解物理世界可能更沾點邊。
在Wandering模式里,用戶可以用兩段提示詞分別定義場景和人物,然后在生成的世界里到處溜達。
但這看起來和Google的Genie 3的功能和交互基本一致。
更幽默的是,這個英文界面是Happy Oyster的,中文界面才是Genie 3的。
![]()
開始測試。
第一波就試試力工。我讓Happy Oyster和Genie 3分別生成了一個深圳電子廠,主角設置為剛從大學畢業進入社會的藍領實習生,看看是否能進行一場酣暢淋漓的賽博奮斗。
先看Genie 3。
一股電子廠的氣息撲面而來。我操縱主角去取了個零件,然后回到原位,期間還撞到一個同事。全程車間穩定,環境一致。
但操作起來并不是那么順利,流暢程度不如春晚跳舞機器人。而且無論是所處場景、道具物體還是周遭人物,都有疑似偽人的劣質貼圖感。
再看Happy Oyster,同一個電子廠同一個夢想。
在模型精度和畫面質量上,我覺得Happy Oyster是略勝一籌的,看著不像是一堆肉團子在紙房子里走來走去。
但類似的致命問題還是存在:沒有環境的一致性和穩定性。
比如我讓主角去取個螺絲,回來發現自己工位沒了。再比如我讓主角360度轉一圈,結果本來是堵墻的地方變成走廊了。
本來沒人的地方多了倆同事,合著Boss背著咱們偷偷直聘了。
細細想來挺嚇人的,有點像玩《后室》一類的夢核恐怖游戲。
這讓我不得不懷疑,Happy Oyster難道沒有記憶功能,它該不會只是在根據用戶看到的上一個畫面來進行視頻首幀生成吧。
包括后來我讓Happy Oyster生成了一個正在森林里持續噴火的龍,這個龍也是走著走著就忘了自己初心了。
不過這個是通病,Genie 3生成的龍,噴了半分鐘之后也忘了自己來這是干啥的了。
除了環境的一致性和穩定性之外,世界模型是否可用的另一個標準,就是其對物理規律的模擬。
于是我生成了一個專門用來過馬路的世界,想看看在哪個模型里我會直接被大運撞死?
結果這輪Happy Oyster小贏一把,因為雖然仍有剛才提到的一致性和穩定性問題,但這里面的車確實會在我路過的時候停,我走的時候再開。
文明社會啊。AI有望在這里練成自動駕駛。
反觀Genie 3,無論我生成多少次,他這個里面的車直接就全員靜止了。
我再一看,原來是紅燈。然后Genie 3最多生成60秒,紅燈也是60秒。
哥們在這卡bug呢。
我估計是因為Genie 3對于多智能體之間的交互沒自信,所以索性剝奪了物體的智能。
畢竟他們自己在官網承認了諸多缺陷。
![]()
之后呢,我又轉換視角,生成了一個專門用來撞人撞車的世界,這次他們倆就表現得就都還可以。
Happy Oyster生成的Cybertruck撞車挺流暢,跟開碰碰車一樣,就是偶爾有點穿模。
Genie 3生成生成的打擊感很強,人也會避障,有一種玩GTA 6的感覺,就是比GTA穿模還嚴重。
在此,我必須聲明一下,我全篇拿Happy Oyster的Wandering模式和Genie 3比,并不是一個橫向測評的意思。
畢竟把一個上個月剛剛內測的Beta產品和一個已經迭代多輪的SOTA產品比,本身也是不公平和沒意義的。我只是想把世界模型現在都啥樣展示給大家。
所以我的最終結論是,Happy Oyster還有太大的進步空間,而Genie 3也就那玩意。
說到底,C端用戶能接觸到并用明白的世界模型產品或許本身就不具備實用價值,它們只是AI公司緩解自身恐懼和焦慮的一種姿態:
哦我也在緊跟時代,我也沒有all in這個大語言模型,我也在兩頭押注,等之后楊立昆李飛飛誰真憋出來個大的來,我也能驕傲地告訴全世界——呵呵咱早就半只腳踏入這波浪潮。
看似很踏實很保底,實則是心驚膽戰如履薄冰。前一陣看了一部話劇叫《哥本哈根》,講的是二戰期間,第三帝國的核物理學家海森堡去德軍占領區拜訪他的老師,后來參與曼哈頓計劃的玻爾。
話劇本身我也沒看太明白。但其中有一幕是,海森堡痛心疾首地質問玻爾:你為什么不告訴美國人,我們其實根本沒在研究核彈咋爆炸?
現在世界模型圈的形象和二戰結束前真的有點像,一個更進階版的黑暗森林:
大部分人都在生產一些沒用的產品,也知道別人生產的都是沒用的產品,或者根本看不懂別人生產的是個什么產品,但誰也不敢停止生產,畢竟都怕對方其實在造核彈。
于是所有人不斷發布,不斷更新,不斷讓一坨坨消息搶占注意力高地。
不過沒關系,你們燒錢干一些現在不切實際的東西是挺好的事兒,反正又沒燒我的錢,你愛去探索火星都行,起碼貢獻更多狠活和GDP了。
(本文封面由ChatGPT 生成,純人工寫作)
??
歡迎訂閱我們的Substack
funeralai.substack.com
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.