網易首頁 > 網易號 > 正文申請入駐

融資兩億美金，VAST 想做可交互內容生態的基座

2026-06-02 09:15:50　來源: 游戲茶館

四川舉報

分享至

最近，通用人工智能公司 VAST 完成了 A+ 及 A++ 兩輪融資，合計近 2 億美元。本輪融資由渶策資本、國壽長三角科創基金領投，深圳市人工智能終端產業基金、上海半導體產投、深創投、元生資本等產業與財務資本跟投。

伴隨這筆融資一同亮相的，還有他們首次對外披露的世界模型項目：Project Eden（代號：伊甸園）。

這筆融資和新項目 demo 的發布，讓原本就熱鬧的世界模型賽道，多了一個挺有意思的變量。

最近一年 AI 的進展快得讓人有些喘不過氣。前段時間，一位游戲公司老板對我說，行業現在對 AI 進展的反應很像收到地震預警：警報一響，你總得跑下樓看一眼。多數時候是虛驚一場，但你也不敢原地不動，因為說不定哪一次真就變天了。

世界模型給人的感受尤其如此。今年年初，谷歌 DeepMind 推出 Genie 3 后，資本市場的情緒被瞬間點燃，Unity 創下自 2022 年以來最慘的單日跌幅，Take-Two、Roblox 等游戲股也全線跳水。但業內很快反應過來，這更像是一次被 AI 敘事點燃的過激反應，Unity 的 CEO Matthew Bromberg 則點出了更根本的局限：這類世界模型的輸出是概率性的、非確定性的。

從游戲行業的視角來看，Genie 3 的技術路線有某種天然缺陷。它能生成一段直觀上高度逼真畫面的視頻，卻撐不起一個真正能玩、能反復進入、甚至能多人聯機的游戲世界。

相較而言，今天 VAST 推出自己首款世界模型項目 Project Eden 倒是讓我眼前一亮。在世界模型之前，VAST 最為人熟知的是 Tripo 系列 AI 3D 生成模型，干的是“造萬物”的活。在 VAST 的敘事里，從造萬物走到造世界，是水到渠成的下一步。

“AI 3D 資產和世界模型，本來就是兩輪驅動。” VAST 首席科學家曹炎培告訴我，他們從第一天開始的目標就是打造下一代可交互的 UGC 內容平臺，AI 3D 解決的是“造萬物”的極速與低門檻，而世界模型則是為了解決“造世界”的系統性推演，“這是技術演進的延長線，也是水到渠成的下一步。”

當絕大多數人都在谷歌 Genie 那種“動作條件視頻生成”和 World Labs Marble 那種“靜態 3D 場景生成”之間二選一時，Project Eden 走出了第三條路：把“世界狀態的演化”和“畫面的視覺呈現”在架構上原生解耦。

這套獨特的架構，自然解鎖了此前其他世界模型無法跨過的三道天塹：環境的長程持久、場景的自由復用，以及多人的并發交互。

被高估的兩種路線，與 VAST 的獨特解法

要看懂 VAST 這條路，我們先來看看此前的世界模型為什么很難在游戲行業內真正用起來。

生成式 AI 領域的知名科學家黃勛曾提出過區分“視頻生成”與“真正的世界模型”的五條屬性。一個真正的世界模型，需要在滿足因果性、交互性的基礎上，盡可能達到更好的持久性、實時性與物理準確性。拿這把尺子去量，我們會發現，目前在游戲行業被高度關注的兩大主流路線，在面對生產級游戲的嚴苛標準時，都各自遇到了難以跨越的局限。

第一種是進展最快、也最矚目的“視頻生成派”，以 Genie 為代表。這種路線本質上是在做 2D 像素的自回歸預測，看著已有的畫面去猜下一幀的每個像素該長什么樣。曹炎培直言，將這種端到端視頻生成等同于世界模型是一個誤區：“端到端視頻模型所有的狀態都與當前視角強綁定。一旦相機鏡頭轉出墻角，模型就只能憑著上下文重新腦補，根本無法提供游戲所需的‘長程持久性’。”

視頻生成派把兩件量級完全不同的任務強行捆綁在了一起：一個是預測世界接下來會發生什么，這個信息其實相對較“輕”；另一個是把每一個像素都精確地畫出來，這個信息極其“重”。這種輕重不分的底層邏輯，讓它在實際應用中很像一個沒有劇本的漫畫家，必須一邊畫一邊現編劇情，不僅導致畫面在視角切換時容易發生漂移或畸變，也讓多人聯機交互變得極難實現。

第二種則是以 World Labs 的 Marble 為代表的“靜態重建派”。這一派倡導的“空間智能”確實切中了空間幾何的穩定性，能高速重建出可以游覽的三維空間。但它的局限在于，它目前只有空間，沒有時間。它缺乏在時間軸上推演狀態的能力，造出來的是一個凝固的環境。用黃勛的標準來看，這種方案在“交互性”上有硬傷，它更像是一個精美的 3D 標本，漂亮，但無法演化。

既然視頻生成派缺了“劇本”，靜態重建派缺了“演變”，那么 Project Eden 的解法就是：把劇本和繪畫的工作分開來做（解耦）。這使得它成為目前行業內首個允許對世界狀態進行自主維護、并施加確定性控制的世界模型。

把狀態和畫面拆開：用 AI 造一臺引擎

VAST 給出的技術范式，一句話概括，就是把“狀態維護與預測”和“畫面渲染與呈現”從架構上拆開來做。

這句話乍聽起來很難理解。但對游戲人來說，這個思路其實非常眼熟：它很像游戲引擎的工作方式。引擎內存里維護著一份“世界數據庫”，記錄著所有物體的位置、屬性和狀態；當攝像機移動時，渲染管線再根據視角，把視野內的場景實時繪制成畫面。狀態歸狀態，畫面歸畫面，兩件事是分開的。

VAST 想做的，就是用 AI 在神經網絡里造出這樣一臺引擎。這是一塊非常難啃的骨頭：狀態怎么在神經網絡里表達、用什么樣的網絡架構、如何獲取并擴增海量的數據，在曹炎培看來，這其實是一個巨大的鴻溝。

為了跨越這個鴻溝，Project Eden 創新性地采用了解耦式的三層技術架構。

其底層是結構化狀態層，統一維護場景的幾何結構、物體屬性與事件邏輯，全權負責客觀狀態的推演。

中間的條件接口層則作為狀態與渲染的轉換樞紐，依據不同視角將 3D 狀態轉化為約束條件，從根源上保障跨鏡頭的物理一致性。

最上層則是生成式渲染層，依托底層的客觀狀態與中間層的約束，按需實時渲染出精細化的視覺畫面，補足動態細節。

曹炎培用 demo 中的“消防員滅火”的場景展現了 Project Eden 的工作邏輯：用戶用一段提示詞描述廚房、消防員和火災的初始條件，這段描述會被直接轉化為底層的隱式狀態。當玩家控制消防員移動并按下滅火鍵時，噴了多少粉末、火有沒有被澆滅，這些判定全部在底層的狀態層中完成推演。哪怕此刻一幀畫面都還沒畫出來，這個世界在底層已經“真的”在按某種物理邏輯運轉了。

而在這之上的渲染層，則像是一個隨時待命的寫實畫家，只需依據當前的底層狀態，結合玩家此刻選定的任意視角，把那一幀畫面渲染出來。在傳統圖形學中極難表現的氣體擴散、火苗舔舐墻壁等流體運動，在這套架構里反而能被渲染層非常自然地模擬出來。

這種將狀態與畫面拆開的解耦設計，不僅在技術上更加優雅，也順理成章地解決了游戲開發者最頭疼的幾個核心痛點。

首先是“一致性”的回歸。因為世界狀態是獨立于視角被維護的，你轉個身走開再轉回來，那棵樹還好端端地待在底層的數據庫里，等著被重新渲染。視頻生成派那種一轉身物體就漂移、場景就畸變的老毛病，在這里從根源上被解決了。

其次是賦予了場景“可被反復利用”的生命力。既然世界狀態是獨立存在、可讀可寫的，那么玩家在場景里做過的事就會被真實地留下來。一個玩家砸壞了桌子，這個改動會實時寫回底層狀態，之后另一個玩家進入同一個場景，看到的會是破壞后的結果，而不是一個被重新腦補、完好如初的房間。

沿著這個邏輯，多人交互的難題也迎刃而解。因為底層擺著一份獨立于視角的統一世界狀態，多個玩家就可以共享這份狀態，再各自渲染各自的視角。玩家與玩家、玩家與 NPC 之間，才談得上真正的實時互動。這與今天多人游戲的“服務器-客戶端”架構異曲同工。

此外，這種模式還帶來了一個商業上的巨大優勢，即算力成本的急劇下降。在解耦架構下，渲染層比較吃算力，而底層的狀態推演是非常輕量的高維計算。這直接解決了視頻生成路線“要為每個視角、每個在線用戶單獨從像素級生成畫面，導致算力開銷隨人數呈指數級暴漲”的隱憂。

當然，這套架構目前依然處于比較早期的階段。但在 Project Eden 的 demo 中，我們能看到它試圖一步步啃下硬骨頭：長時間一致的環境漫游、多玩家實時互動，以及一些確定性的機制判定。

臨界點到來之前，它能在游戲開發里做什么？

看到這里，難免讓人倒吸一口涼氣，等這個技術真正成熟，做游戲會不會不需要引擎了？

曹炎培告訴我，世界模型真正去替代游戲引擎，是一個非常長期、困難諸多的目標。只有當世界模型推演狀態轉移的計算效率、穩定性和可控性，徹底越過了實時響應的閾值，這種突變才會發生。

而在眼下，與其爭論哪一天會變天，不如看看在臨界點到來之前，這套技術能夠怎樣走進游戲開發流程。

在當下的起步階段，我們可以將這套解耦架構拆開，單點接入現有的游戲管線。比如后端的渲染模型可以朝“生成式渲染”的方向使用。設想你是個策劃，沒有很強的美術和程序能力，你可以先用非常簡易的Blockout（灰模）把空間和關卡結構搭出來，驗證玩法。然后，讓渲染模型把這套灰撲撲的灰模，渲染成你想要的任意畫風。

打光、精細資產制作、甚至復雜的物理現象呈現，都交給模型在后階段去補。

對中小團隊來說，這幾乎等于把昂貴的美術工業化成本，縮減為一次模型調用。畫風會從立項前就必須鎖死的成本硬約束，變成上線前可以一鍵切換的“開關”。

與此同時，前端的狀態預測模型則可以被單獨拎出來，作為“智能狀態機”使用，替開發者省掉大量寫腳本、做狀態機的重復勞動。比如門被踢一腳要轉多少度、轉多快、是否會反彈回來撞到人，動畫或狀態機可以直接由模型推演輸出，而不必由程序員一行行代碼去規定。

隨著技術的成熟，更進一步的階段則是讓世界模型局部接管“動態與開放場景”。在這一階段，游戲主體仍由傳統代碼驅動，但在一些特別開放、復雜、同時又不那么需要強確定性的動態場景里，可以調用世界模型來進行離線或小范圍的推演。

例如，一場隨機風暴對場景造成的破壞，或者大量 NPC 之間自發的交互行為。把確定性要求高的部分留給傳統代碼，把開放、隨機、難以窮舉的動態部分交給模型，是現階段最舒服的切入口。

而只有在越過臨界點之后，才會迎來整體替代硬編碼的終局。

“我們希望用一個更通用、更低門檻的神經網絡，去替代這些需要硬編碼的邏輯和物理定義。”曹炎培說，理想狀態下，未來所有基于代碼逐一指定的繁瑣邏輯，都將變成基于大模型的數據驅動推演，開發的門檻和效率將發生質的飛躍。

不過，世界模型和傳統引擎的關系未必是一場你死我活的替代。正如 Epic 創始人 Tim Sweeney 曾給出的中肯判斷：未來我們會看到“以引擎為中心的 AI”和“以世界模型為中心的 AI”不斷相互追趕、融合，直到某一天兩者結合在一起。

VAST 正在做的，正是把“以世界模型為中心”這條路盡可能往前蹚，而臨界點到來之前的每一步，都能為游戲行業遞上一份實實在在的工具箱。

結尾

世界模型要走向真正的技術完善與工業落地，依然需要一個漸進的過程。在計算效率、物理規則的絕對精確性以及大范圍場景推演的穩定性上，神經網絡引擎還有不少技術階梯要跨越。

不過，支撐這臺引擎運轉的 3D 資產，正在變得越來越充沛。作為 VAST 的核心業務，其自研的 Tripo 系列 3D 大模型在過去一段時間經歷了快速迭代，今年 3 月上線的 Tripo H3.1 和 Tripo P1.0 模型，在幾何精度和生成速度上都走向了工業級可用。

近期，他們還在 Tripo Studio 上線了 8K AI 貼圖算法，將原本需要數天的手工繪制或掃描流程壓縮至 2 分鐘以內，并推出了支持三檔顆粒度控制的“智能部件分割 V2”，讓生成的 3D 資產能自動分件并直接進入下游管線。

此外，VAST 也在通過開源來推進行業共建，目前已累計對外開源了超 30 個項目，包括與清華、港大等高校聯合開源的 TripoSplat、AniGen、SkinTokens、LegoACE 等，涵蓋了動態分辨率、自動綁骨等多個前沿方向。

在應用層面，其一站式工作臺 Tripo Studio 目前已聚集了 2000 萬創作者，并與騰訊、網易、阿里、字節等頭部企業建立了深度合作。

在 VAST 的技術藍圖中，世界模型與 3D 資產大模型并不是孤立的，而是“雙輪驅動”的閉環。他們的長期愿景很明確：做“UGC 互動平臺和 3D 內容生態的基座”。

在這個基座之上，無論是專業開發者還是普通創作者，未來或許都能以更低的門檻、更高的自由度去創造和探索可交互的數字世界。

神經網絡引擎的成熟確實需要時間，但隨著底層 3D 資產的充沛與解耦架構的跑通，一個數據驅動、可實時交互的數字空間，正在從概念走向現實。而 VAST 正在為此提供技術與生態層面的鋪墊。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.