網易首頁 > 網易號 > 正文申請入駐

騰訊阿里同日發布世界模型，AI從"對話"進化到"造世界"

2026-04-19 09:14:52　來源: AI效率筆記

河南舉報

分享至

世界模型是什么？為什么突然火了？騰訊vs阿里：兩款世界模型有什么區別？騰訊混元3D世界模型2.0：游戲開發者的福音阿里Happy Oyster：實時交互的世界模擬器兩款產品對比這東西能解決什么痛點？游戲開發：從月級到天級影視制作：實時預覽不再是夢數字孿生：復刻真實世界從"對話"到"造世界"：AI能力的演進中國企業的機會寫在最后

昨天刷到一條新聞，我愣了幾秒——騰訊和阿里在同一天發布了世界模型。不是視頻生成模型，不是3D建模工具，是世界模型。這玩意兒能干嘛？一句話，造世界。

我翻了十幾篇報道，發現這事兒比想象中大。兩家大廠選在同一天發新品，絕對不是巧合。世界模型這個賽道，正在成為AI的下一個戰場。

先說個概念。世界模型（World Model）不是新詞，但今年突然爆火。

簡單說，世界模型能理解物理規律、預測動作后果。傳統大模型只懂語言，不懂物理。你讓它生成一個"杯子掉落"的視頻，它可能讓杯子穿模、懸浮，因為它不知道重力是什么。

世界模型不一樣。它像人類大腦一樣，理解空間、物理、因果。這是機器人、自動駕駛、具身智能的核心技術基礎。

世界模型被視為通用人工智能(AGI)的"數字地基"，它需像人類大腦一樣理解物理規律、預測動作后果，是機器人、自動駕駛等具身智能應用的核心。

為什么現在火了？因為技術終于能落地了。以前世界模型只能生成視頻，現在能生成可編輯的3D資產，能直接導入游戲引擎用。這才是真正的質變。

打個比方：傳統大模型像只會說話的百科全書，你問什么它答什么。世界模型像會思考的物理學家，你給它一個場景，它能推演接下來會發生什么。杯子掉下來會碎、水會灑、球會彈起來——這些"常識"，傳統大模型根本不懂。

4月16日這天，騰訊發了混元3D世界模型2.0（HY-World 2.0），阿里發了Happy Oyster（快樂生蠔）。兩款產品定位不同，但目標一致：讓AI從"對話"進化到"造世界"。

騰訊這款產品的核心賣點很清晰：一句話生成可編輯的3D空間。

我試了一下理解它的能力：輸入"生成一個日式RPG風格的中世紀地牢"，模型就能生成一個結構完整的3D空間。生成的資產可以直接導入Unity、UE等游戲引擎，進行二次編輯。

這跟之前的視頻生成模型有本質區別。混元世界模型1.5只能生成視頻文件，2.0能生成Mesh、3DGS、點云等多格式3D資產。從"看"到"用"，這一步跨越了實用性的門檻。

技術架構上，騰訊用了WorldMirror 2.0和HY-Pano-2.0全景生成模型。簡單說，它能從普通圖片映射出360度全景空間，不需要精確的相機參數。這就像你拍一張照片，AI能腦補出整個房間的樣子——墻后面是什么、天花板長什么樣、地板是什么材質，全部推理出來。

更厲害的是角色模式。生成的3D空間支持角色自由探索，有真實的物理碰撞。就像在游戲里一樣，你操作角色走動，不會穿墻，不會掉進地板里。這意味著生成的不是"場景圖片"，是"可玩關卡"。

阿里的產品走的是另一條路：實時構建和交互。

Happy Oyster有兩個核心功能：Wander（漫游）和Direct（導演）。

Wander模式下，你輸入一句話或一張圖，它生成一個完整空間。你可以在里面自由移動，物體位置穩定，場景持久存在。支持1分鐘連續實時位移。

Direct模式是獨家功能。你可以在視頻的任意節點，通過文字、語音、圖像改寫劇情、調度角色。比如你看到場景里有個NPC，可以說"讓他走到窗邊"，畫面就會實時響應。支持3分鐘以上的480p或720p實時畫面。

Happy Oyster采用長時間跨度的世界演化建模方式，把"被動生成內容"轉變為"主動模擬世界演化"。

我試著想象了一下這個場景：你在做一個短片，主角在森林里走。突然你想讓他遇到一只鹿，就說"加一只鹿從右邊走過"。畫面里立刻出現一只鹿，光影、運動軌跡都對。這種實時創作能力，以前想都不敢想。

維度: 核心能力 | 騰訊 HY-World 2.0: 生成可編輯3D資產 | 阿里 Happy Oyster: 實時交互世界模擬

維度: 輸出格式 | 騰訊 HY-World 2.0: Mesh/3DGS/點云 | 阿里 Happy Oyster: 實時視頻流

維度: 游戲引擎對接 | 騰訊 HY-World 2.0: ? Unity/UE | 阿里 Happy Oyster: ? 暫不支持

維度: 實時交互 | 騰訊 HY-World 2.0: ? 生成后編輯 | 阿里 Happy Oyster: ? 流式生成

維度: 導演模式 | 騰訊 HY-World 2.0: ? 不支持 | 阿里 Happy Oyster: ? 獨家功能

維度: 開源狀態 | 騰訊 HY-World 2.0: ? 已開源 | 阿里 Happy Oyster: ? 內測中

維度: 適用場景 | 騰訊 HY-World 2.0: 游戲開發、關卡設計 | 阿里 Happy Oyster: 影視制作、實時演繹

一句話總結：騰訊偏"生產工具"，阿里偏"創作平臺"。騰訊解決的是"怎么快速造出能用的一關"，阿里解決的是"怎么實時演繹一個故事"。

說完了技術，聊聊實際價值。

傳統游戲開發，一個關卡從概念到落地，少則幾周，多則幾個月。美術建模、場景搭建、碰撞測試，每個環節都是人力堆出來的。

我有個做獨立游戲的朋友，他說一個簡單的室內場景，從白模到成品，至少要兩周。美術、關卡設計、程序，三個人配合才能搞定。如果用世界模型，可能一天就能出原型。

有了世界模型，情況變了。你輸入"賽博朋克風格的地下城市"，幾秒鐘生成一個可漫游的3D空間。導入引擎，加幾個NPC，調一下光照，一個關卡原型就出來了。

騰訊游戲相關人士表示，未來沒有專業3D建模和編程基礎的玩家或獨立開發者，甚至僅憑文字或圖像就能快速生成一個城市級別的場景。

這不是降本增效，這是生產力的質變。獨立開發者一個人就能做以前需要團隊才能完成的工作。

傳統影視制作，概念驗證和預可視化需要大量時間和成本。導演想看一個場景效果，得等美術出圖、3D建模、渲染。

Happy Oyster的導演模式，讓導演可以在生成過程中隨時調整。說一句"把光照改成黃昏"，畫面實時響應。這把創意迭代周期從"天"壓縮到"秒"。

想象一下這個場景：導演在片場，突然想換一個鏡頭角度。以前得重新布光、重新走位，現在對著AI說一句就行。這不是科幻，這是正在發生的技術。

兩款產品都支持復刻真實場景。輸入一段空間視頻或多視角圖片，模型構建高精度數字孿生空間。

這能用在室內裝修預覽、城市規劃、文化遺產保護。你拍一段故宮的視頻，AI就能生成一個可漫游的數字故宮。這比傳統3D掃描便宜太多了。

傳統3D掃描需要專業設備、專業團隊，成本動輒幾十萬。現在一部手機、一段視頻就能搞定。這是技術民主化的典型案例。

把視角拉遠一點。

2023年，AI能對話。ChatGPT讓全世界見識了大語言模型的能力。

2024年，AI能畫圖。Midjourney、Stable Diffusion讓普通人也能創作高質量圖像。

2025年，AI能生成視頻。Sora、Runway讓視頻創作門檻大幅降低。

2026年，AI開始造世界。

這不是簡單的功能疊加，是能力層級的躍遷。對話是語言理解，畫圖是視覺生成，造世界是空間理解和物理模擬。

世界模型解決的是傳統大模型"只懂語言、不懂物理"的根本問題。這是具身智能、機器人、自動駕駛的基礎設施。沒有世界模型，機器人永遠只能在預設環境里干活；有了世界模型，機器人能在未知環境里理解、預測、決策。

這才是真正的AGI地基。

有意思的是，這次世界模型賽道，中國企業跑得很快。

WorldArena評測平臺顯示，阿里高德的ABot-PhysWorld已經登頂榜首。這個模型能準確預見物體在復雜交互下的運動軌跡——滑動、傾倒、堆疊、流體變化。

騰訊這次開源混元3D世界模型2.0，也是走開放路線。讓開發者、企業都能用，這是在搶生態位。

中國企業第一次在世界模型這個前沿賽道，和谷歌、英偉達站在同一起跑線上。而且這次，我們跑得更快。

騰訊阿里同日發布世界模型，不是巧合，是信號。

世界模型賽道正在從"學術探索"走向"產業落地"。誰能先做出"真能干活"的產品，誰就能在具身智能時代占據先機。

對我們普通人來說，這意味著創作門檻的又一次大幅降低。游戲開發、影視制作、數字孿生，這些曾經需要專業團隊、大量資金的工作，正在變得觸手可及。

你準備好用AI造一個世界了嗎？

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.