世界模型是什么?為什么突然火了?騰訊vs阿里:兩款世界模型有什么區別?騰訊混元3D世界模型2.0:游戲開發者的福音阿里Happy Oyster:實時交互的世界模擬器兩款產品對比這東西能解決什么痛點?游戲開發:從月級到天級影視制作:實時預覽不再是夢數字孿生:復刻真實世界從"對話"到"造世界":AI能力的演進中國企業的機會寫在最后
昨天刷到一條新聞,我愣了幾秒——騰訊和阿里在同一天發布了世界模型。不是視頻生成模型,不是3D建模工具,是世界模型。這玩意兒能干嘛?一句話,造世界。
我翻了十幾篇報道,發現這事兒比想象中大。兩家大廠選在同一天發新品,絕對不是巧合。世界模型這個賽道,正在成為AI的下一個戰場。
先說個概念。世界模型(World Model)不是新詞,但今年突然爆火。
簡單說,世界模型能理解物理規律、預測動作后果。傳統大模型只懂語言,不懂物理。你讓它生成一個"杯子掉落"的視頻,它可能讓杯子穿模、懸浮,因為它不知道重力是什么。
世界模型不一樣。它像人類大腦一樣,理解空間、物理、因果。這是機器人、自動駕駛、具身智能的核心技術基礎。
世界模型被視為通用人工智能(AGI)的"數字地基",它需像人類大腦一樣理解物理規律、預測動作后果,是機器人、自動駕駛等具身智能應用的核心。
為什么現在火了?因為技術終于能落地了。以前世界模型只能生成視頻,現在能生成可編輯的3D資產,能直接導入游戲引擎用。這才是真正的質變。
打個比方:傳統大模型像只會說話的百科全書,你問什么它答什么。世界模型像會思考的物理學家,你給它一個場景,它能推演接下來會發生什么。杯子掉下來會碎、水會灑、球會彈起來——這些"常識",傳統大模型根本不懂。
4月16日這天,騰訊發了混元3D世界模型2.0(HY-World 2.0),阿里發了Happy Oyster(快樂生蠔)。兩款產品定位不同,但目標一致:讓AI從"對話"進化到"造世界"。
騰訊這款產品的核心賣點很清晰:一句話生成可編輯的3D空間。
我試了一下理解它的能力:輸入"生成一個日式RPG風格的中世紀地牢",模型就能生成一個結構完整的3D空間。生成的資產可以直接導入Unity、UE等游戲引擎,進行二次編輯。
這跟之前的視頻生成模型有本質區別。混元世界模型1.5只能生成視頻文件,2.0能生成Mesh、3DGS、點云等多格式3D資產。從"看"到"用",這一步跨越了實用性的門檻。
技術架構上,騰訊用了WorldMirror 2.0和HY-Pano-2.0全景生成模型。簡單說,它能從普通圖片映射出360度全景空間,不需要精確的相機參數。這就像你拍一張照片,AI能腦補出整個房間的樣子——墻后面是什么、天花板長什么樣、地板是什么材質,全部推理出來。
更厲害的是角色模式。生成的3D空間支持角色自由探索,有真實的物理碰撞。就像在游戲里一樣,你操作角色走動,不會穿墻,不會掉進地板里。這意味著生成的不是"場景圖片",是"可玩關卡"。
阿里的產品走的是另一條路:實時構建和交互。
Happy Oyster有兩個核心功能:Wander(漫游)和Direct(導演)。
Wander模式下,你輸入一句話或一張圖,它生成一個完整空間。你可以在里面自由移動,物體位置穩定,場景持久存在。支持1分鐘連續實時位移。
Direct模式是獨家功能。你可以在視頻的任意節點,通過文字、語音、圖像改寫劇情、調度角色。比如你看到場景里有個NPC,可以說"讓他走到窗邊",畫面就會實時響應。支持3分鐘以上的480p或720p實時畫面。
Happy Oyster采用長時間跨度的世界演化建模方式,把"被動生成內容"轉變為"主動模擬世界演化"。
我試著想象了一下這個場景:你在做一個短片,主角在森林里走。突然你想讓他遇到一只鹿,就說"加一只鹿從右邊走過"。畫面里立刻出現一只鹿,光影、運動軌跡都對。這種實時創作能力,以前想都不敢想。
維度: 核心能力 | 騰訊 HY-World 2.0: 生成可編輯3D資產 | 阿里 Happy Oyster: 實時交互世界模擬
維度: 輸出格式 | 騰訊 HY-World 2.0: Mesh/3DGS/點云 | 阿里 Happy Oyster: 實時視頻流
維度: 游戲引擎對接 | 騰訊 HY-World 2.0: ? Unity/UE | 阿里 Happy Oyster: ? 暫不支持
維度: 實時交互 | 騰訊 HY-World 2.0: ? 生成后編輯 | 阿里 Happy Oyster: ? 流式生成
維度: 導演模式 | 騰訊 HY-World 2.0: ? 不支持 | 阿里 Happy Oyster: ? 獨家功能
維度: 開源狀態 | 騰訊 HY-World 2.0: ? 已開源 | 阿里 Happy Oyster: ? 內測中
維度: 適用場景 | 騰訊 HY-World 2.0: 游戲開發、關卡設計 | 阿里 Happy Oyster: 影視制作、實時演繹
一句話總結:騰訊偏"生產工具",阿里偏"創作平臺"。騰訊解決的是"怎么快速造出能用的一關",阿里解決的是"怎么實時演繹一個故事"。
說完了技術,聊聊實際價值。
傳統游戲開發,一個關卡從概念到落地,少則幾周,多則幾個月。美術建模、場景搭建、碰撞測試,每個環節都是人力堆出來的。
我有個做獨立游戲的朋友,他說一個簡單的室內場景,從白模到成品,至少要兩周。美術、關卡設計、程序,三個人配合才能搞定。如果用世界模型,可能一天就能出原型。
有了世界模型,情況變了。你輸入"賽博朋克風格的地下城市",幾秒鐘生成一個可漫游的3D空間。導入引擎,加幾個NPC,調一下光照,一個關卡原型就出來了。
騰訊游戲相關人士表示,未來沒有專業3D建模和編程基礎的玩家或獨立開發者,甚至僅憑文字或圖像就能快速生成一個城市級別的場景。
這不是降本增效,這是生產力的質變。獨立開發者一個人就能做以前需要團隊才能完成的工作。
傳統影視制作,概念驗證和預可視化需要大量時間和成本。導演想看一個場景效果,得等美術出圖、3D建模、渲染。
Happy Oyster的導演模式,讓導演可以在生成過程中隨時調整。說一句"把光照改成黃昏",畫面實時響應。這把創意迭代周期從"天"壓縮到"秒"。
想象一下這個場景:導演在片場,突然想換一個鏡頭角度。以前得重新布光、重新走位,現在對著AI說一句就行。這不是科幻,這是正在發生的技術。
兩款產品都支持復刻真實場景。輸入一段空間視頻或多視角圖片,模型構建高精度數字孿生空間。
這能用在室內裝修預覽、城市規劃、文化遺產保護。你拍一段故宮的視頻,AI就能生成一個可漫游的數字故宮。這比傳統3D掃描便宜太多了。
傳統3D掃描需要專業設備、專業團隊,成本動輒幾十萬。現在一部手機、一段視頻就能搞定。這是技術民主化的典型案例。
把視角拉遠一點。
2023年,AI能對話。ChatGPT讓全世界見識了大語言模型的能力。
2024年,AI能畫圖。Midjourney、Stable Diffusion讓普通人也能創作高質量圖像。
2025年,AI能生成視頻。Sora、Runway讓視頻創作門檻大幅降低。
2026年,AI開始造世界。
這不是簡單的功能疊加,是能力層級的躍遷。對話是語言理解,畫圖是視覺生成,造世界是空間理解和物理模擬。
世界模型解決的是傳統大模型"只懂語言、不懂物理"的根本問題。這是具身智能、機器人、自動駕駛的基礎設施。沒有世界模型,機器人永遠只能在預設環境里干活;有了世界模型,機器人能在未知環境里理解、預測、決策。
這才是真正的AGI地基。
有意思的是,這次世界模型賽道,中國企業跑得很快。
WorldArena評測平臺顯示,阿里高德的ABot-PhysWorld已經登頂榜首。這個模型能準確預見物體在復雜交互下的運動軌跡——滑動、傾倒、堆疊、流體變化。
騰訊這次開源混元3D世界模型2.0,也是走開放路線。讓開發者、企業都能用,這是在搶生態位。
中國企業第一次在世界模型這個前沿賽道,和谷歌、英偉達站在同一起跑線上。而且這次,我們跑得更快。
騰訊阿里同日發布世界模型,不是巧合,是信號。
世界模型賽道正在從"學術探索"走向"產業落地"。誰能先做出"真能干活"的產品,誰就能在具身智能時代占據先機。
對我們普通人來說,這意味著創作門檻的又一次大幅降低。游戲開發、影視制作、數字孿生,這些曾經需要專業團隊、大量資金的工作,正在變得觸手可及。
你準備好用AI造一個世界了嗎?
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.