最近,通用人工智能公司 VAST 完成了 A+ 及 A++ 兩輪融資,合計近 2 億美元。本輪融資由渶策資本、國壽長三角科創基金領投,深圳市人工智能終端產業基金、上海半導體產投、深創投、元生資本等產業與財務資本跟投。
伴隨這筆融資一同亮相的,還有他們首次對外披露的世界模型項目:Project Eden(代號:伊甸園)。
![]()
這筆融資和新項目 demo 的發布,讓原本就熱鬧的世界模型賽道,多了一個挺有意思的變量。
最近一年 AI 的進展快得讓人有些喘不過氣。前段時間,一位游戲公司老板對我說,行業現在對 AI 進展的反應很像收到地震預警:警報一響,你總得跑下樓看一眼。多數時候是虛驚一場,但你也不敢原地不動,因為說不定哪一次真就變天了。
世界模型給人的感受尤其如此。今年年初,谷歌 DeepMind 推出 Genie 3 后,資本市場的情緒被瞬間點燃,Unity 創下自 2022 年以來最慘的單日跌幅,Take-Two、Roblox 等游戲股也全線跳水。但業內很快反應過來,這更像是一次被 AI 敘事點燃的過激反應,Unity 的 CEO Matthew Bromberg 則點出了更根本的局限:這類世界模型的輸出是概率性的、非確定性的。
從游戲行業的視角來看,Genie 3 的技術路線有某種天然缺陷。它能生成一段直觀上高度逼真畫面的視頻,卻撐不起一個真正能玩、能反復進入、甚至能多人聯機的游戲世界。
相較而言,今天 VAST 推出自己首款世界模型項目 Project Eden 倒是讓我眼前一亮。在世界模型之前,VAST 最為人熟知的是 Tripo 系列 AI 3D 生成模型,干的是“造萬物”的活。在 VAST 的敘事里,從造萬物走到造世界,是水到渠成的下一步。
“AI 3D 資產和世界模型,本來就是兩輪驅動。” VAST 首席科學家曹炎培告訴我,他們從第一天開始的目標就是打造下一代可交互的 UGC 內容平臺,AI 3D 解決的是“造萬物”的極速與低門檻,而世界模型則是為了解決“造世界”的系統性推演,“這是技術演進的延長線,也是水到渠成的下一步。”
當絕大多數人都在谷歌 Genie 那種“動作條件視頻生成”和 World Labs Marble 那種“靜態 3D 場景生成”之間二選一時,Project Eden 走出了第三條路:把“世界狀態的演化”和“畫面的視覺呈現”在架構上原生解耦。
這套獨特的架構,自然解鎖了此前其他世界模型無法跨過的三道天塹:環境的長程持久、場景的自由復用,以及多人的并發交互。
01
被高估的兩種路線,與 VAST 的獨特解法
要看懂 VAST 這條路,我們先來看看此前的世界模型為什么很難在游戲行業內真正用起來。
生成式 AI 領域的知名科學家黃勛曾提出過區分“視頻生成”與“真正的世界模型”的五條屬性。一個真正的世界模型,需要在滿足因果性、交互性的基礎上,盡可能達到更好的持久性、實時性與物理準確性。拿這把尺子去量,我們會發現,目前在游戲行業被高度關注的兩大主流路線,在面對生產級游戲的嚴苛標準時,都各自遇到了難以跨越的局限。
![]()
第一種是進展最快、也最矚目的“視頻生成派”,以 Genie 為代表。這種路線本質上是在做 2D 像素的自回歸預測,看著已有的畫面去猜下一幀的每個像素該長什么樣。曹炎培直言,將這種端到端視頻生成等同于世界模型是一個誤區:“端到端視頻模型所有的狀態都與當前視角強綁定。一旦相機鏡頭轉出墻角,模型就只能憑著上下文重新腦補,根本無法提供游戲所需的‘長程持久性’。”
視頻生成派把兩件量級完全不同的任務強行捆綁在了一起:一個是預測世界接下來會發生什么,這個信息其實相對較“輕”;另一個是把每一個像素都精確地畫出來,這個信息極其“重”。這種輕重不分的底層邏輯,讓它在實際應用中很像一個沒有劇本的漫畫家,必須一邊畫一邊現編劇情,不僅導致畫面在視角切換時容易發生漂移或畸變,也讓多人聯機交互變得極難實現。
第二種則是以 World Labs 的 Marble 為代表的“靜態重建派”。這一派倡導的“空間智能”確實切中了空間幾何的穩定性,能高速重建出可以游覽的三維空間。但它的局限在于,它目前只有空間,沒有時間。它缺乏在時間軸上推演狀態的能力,造出來的是一個凝固的環境。用黃勛的標準來看,這種方案在“交互性”上有硬傷,它更像是一個精美的 3D 標本,漂亮,但無法演化。
既然視頻生成派缺了“劇本”,靜態重建派缺了“演變”,那么 Project Eden 的解法就是:把劇本和繪畫的工作分開來做(解耦)。這使得它成為目前行業內首個允許對世界狀態進行自主維護、并施加確定性控制的世界模型。
02
把狀態和畫面拆開:用 AI 造一臺引擎
VAST 給出的技術范式,一句話概括,就是把“狀態維護與預測”和“畫面渲染與呈現”從架構上拆開來做。
這句話乍聽起來很難理解。但對游戲人來說,這個思路其實非常眼熟:它很像游戲引擎的工作方式。引擎內存里維護著一份“世界數據庫”,記錄著所有物體的位置、屬性和狀態;當攝像機移動時,渲染管線再根據視角,把視野內的場景實時繪制成畫面。狀態歸狀態,畫面歸畫面,兩件事是分開的。
VAST 想做的,就是用 AI 在神經網絡里造出這樣一臺引擎。這是一塊非常難啃的骨頭:狀態怎么在神經網絡里表達、用什么樣的網絡架構、如何獲取并擴增海量的數據,在曹炎培看來,這其實是一個巨大的鴻溝。
為了跨越這個鴻溝,Project Eden 創新性地采用了解耦式的三層技術架構。
其底層是結構化狀態層,統一維護場景的幾何結構、物體屬性與事件邏輯,全權負責客觀狀態的推演。
中間的條件接口層則作為狀態與渲染的轉換樞紐,依據不同視角將 3D 狀態轉化為約束條件,從根源上保障跨鏡頭的物理一致性。
最上層則是生成式渲染層,依托底層的客觀狀態與中間層的約束,按需實時渲染出精細化的視覺畫面,補足動態細節。
曹炎培用 demo 中的“消防員滅火”的場景展現了 Project Eden 的工作邏輯:用戶用一段提示詞描述廚房、消防員和火災的初始條件,這段描述會被直接轉化為底層的隱式狀態。當玩家控制消防員移動并按下滅火鍵時,噴了多少粉末、火有沒有被澆滅,這些判定全部在底層的狀態層中完成推演。哪怕此刻一幀畫面都還沒畫出來,這個世界在底層已經“真的”在按某種物理邏輯運轉了。
而在這之上的渲染層,則像是一個隨時待命的寫實畫家,只需依據當前的底層狀態,結合玩家此刻選定的任意視角,把那一幀畫面渲染出來。在傳統圖形學中極難表現的氣體擴散、火苗舔舐墻壁等流體運動,在這套架構里反而能被渲染層非常自然地模擬出來。
這種將狀態與畫面拆開的解耦設計,不僅在技術上更加優雅,也順理成章地解決了游戲開發者最頭疼的幾個核心痛點。
首先是“一致性”的回歸。因為世界狀態是獨立于視角被維護的,你轉個身走開再轉回來,那棵樹還好端端地待在底層的數據庫里,等著被重新渲染。視頻生成派那種一轉身物體就漂移、場景就畸變的老毛病,在這里從根源上被解決了。
其次是賦予了場景“可被反復利用”的生命力。既然世界狀態是獨立存在、可讀可寫的,那么玩家在場景里做過的事就會被真實地留下來。一個玩家砸壞了桌子,這個改動會實時寫回底層狀態,之后另一個玩家進入同一個場景,看到的會是破壞后的結果,而不是一個被重新腦補、完好如初的房間。
沿著這個邏輯,多人交互的難題也迎刃而解。因為底層擺著一份獨立于視角的統一世界狀態,多個玩家就可以共享這份狀態,再各自渲染各自的視角。玩家與玩家、玩家與 NPC 之間,才談得上真正的實時互動。這與今天多人游戲的“服務器-客戶端”架構異曲同工。
此外,這種模式還帶來了一個商業上的巨大優勢,即算力成本的急劇下降。在解耦架構下,渲染層比較吃算力,而底層的狀態推演是非常輕量的高維計算。這直接解決了視頻生成路線“要為每個視角、每個在線用戶單獨從像素級生成畫面,導致算力開銷隨人數呈指數級暴漲”的隱憂。
當然,這套架構目前依然處于比較早期的階段。但在 Project Eden 的 demo 中,我們能看到它試圖一步步啃下硬骨頭:長時間一致的環境漫游、多玩家實時互動,以及一些確定性的機制判定。
03
臨界點到來之前,它能在游戲開發里做什么?
看到這里,難免讓人倒吸一口涼氣,等這個技術真正成熟,做游戲會不會不需要引擎了?
曹炎培告訴我,世界模型真正去替代游戲引擎,是一個非常長期、困難諸多的目標。只有當世界模型推演狀態轉移的計算效率、穩定性和可控性,徹底越過了實時響應的閾值,這種突變才會發生。
而在眼下,與其爭論哪一天會變天,不如看看在臨界點到來之前,這套技術能夠怎樣走進游戲開發流程。
在當下的起步階段,我們可以將這套解耦架構拆開,單點接入現有的游戲管線。比如后端的渲染模型可以朝“生成式渲染”的方向使用。設想你是個策劃,沒有很強的美術和程序能力,你可以先用非常簡易的Blockout(灰模)把空間和關卡結構搭出來,驗證玩法。然后,讓渲染模型把這套灰撲撲的灰模,渲染成你想要的任意畫風。
打光、精細資產制作、甚至復雜的物理現象呈現,都交給模型在后階段去補。
對中小團隊來說,這幾乎等于把昂貴的美術工業化成本,縮減為一次模型調用。畫風會從立項前就必須鎖死的成本硬約束,變成上線前可以一鍵切換的“開關”。
與此同時,前端的狀態預測模型則可以被單獨拎出來,作為“智能狀態機”使用,替開發者省掉大量寫腳本、做狀態機的重復勞動。比如門被踢一腳要轉多少度、轉多快、是否會反彈回來撞到人,動畫或狀態機可以直接由模型推演輸出,而不必由程序員一行行代碼去規定。
隨著技術的成熟,更進一步的階段則是讓世界模型局部接管“動態與開放場景”。在這一階段,游戲主體仍由傳統代碼驅動,但在一些特別開放、復雜、同時又不那么需要強確定性的動態場景里,可以調用世界模型來進行離線或小范圍的推演。
例如,一場隨機風暴對場景造成的破壞,或者大量 NPC 之間自發的交互行為。把確定性要求高的部分留給傳統代碼,把開放、隨機、難以窮舉的動態部分交給模型,是現階段最舒服的切入口。
而只有在越過臨界點之后,才會迎來整體替代硬編碼的終局。
“我們希望用一個更通用、更低門檻的神經網絡,去替代這些需要硬編碼的邏輯和物理定義。”曹炎培說,理想狀態下,未來所有基于代碼逐一指定的繁瑣邏輯,都將變成基于大模型的數據驅動推演,開發的門檻和效率將發生質的飛躍。
不過,世界模型和傳統引擎的關系未必是一場你死我活的替代。正如 Epic 創始人 Tim Sweeney 曾給出的中肯判斷:未來我們會看到“以引擎為中心的 AI”和“以世界模型為中心的 AI”不斷相互追趕、融合,直到某一天兩者結合在一起。
VAST 正在做的,正是把“以世界模型為中心”這條路盡可能往前蹚,而臨界點到來之前的每一步,都能為游戲行業遞上一份實實在在的工具箱。
結尾
世界模型要走向真正的技術完善與工業落地,依然需要一個漸進的過程。在計算效率、物理規則的絕對精確性以及大范圍場景推演的穩定性上,神經網絡引擎還有不少技術階梯要跨越。
不過,支撐這臺引擎運轉的 3D 資產,正在變得越來越充沛。作為 VAST 的核心業務,其自研的 Tripo 系列 3D 大模型在過去一段時間經歷了快速迭代,今年 3 月上線的 Tripo H3.1 和 Tripo P1.0 模型,在幾何精度和生成速度上都走向了工業級可用。
近期,他們還在 Tripo Studio 上線了 8K AI 貼圖算法,將原本需要數天的手工繪制或掃描流程壓縮至 2 分鐘以內,并推出了支持三檔顆粒度控制的“智能部件分割 V2”,讓生成的 3D 資產能自動分件并直接進入下游管線。
此外,VAST 也在通過開源來推進行業共建,目前已累計對外開源了超 30 個項目,包括與清華、港大等高校聯合開源的 TripoSplat、AniGen、SkinTokens、LegoACE 等,涵蓋了動態分辨率、自動綁骨等多個前沿方向。
在應用層面,其一站式工作臺 Tripo Studio 目前已聚集了 2000 萬創作者,并與騰訊、網易、阿里、字節等頭部企業建立了深度合作。
在 VAST 的技術藍圖中,世界模型與 3D 資產大模型并不是孤立的,而是“雙輪驅動”的閉環。他們的長期愿景很明確:做“UGC 互動平臺和 3D 內容生態的基座”。
在這個基座之上,無論是專業開發者還是普通創作者,未來或許都能以更低的門檻、更高的自由度去創造和探索可交互的數字世界。
神經網絡引擎的成熟確實需要時間,但隨著底層 3D 資產的充沛與解耦架構的跑通,一個數據驅動、可實時交互的數字空間,正在從概念走向現實。而 VAST 正在為此提供技術與生態層面的鋪墊。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.