![]()
新智元報道
![]()
【新智元導讀】被算力荒逼出來的硬核奇跡!騰訊米哈游老兵組成的「草根」團隊,硬在國產芯片上煉出了超10分鐘的絕對物理一致性。畫面可以糙,物理絕不能假,這就是通往AGI的真正基石。
世界模型,又一個世界模型。做視頻的、做物理的、做決策的,全頂著同一個名字。
幾天前,李飛飛發了一篇長文,親自給「世界模型」立了規矩。
她把這個詞拆成三塊:渲染器、模擬器、規劃器。
![]()
13天后,一個成立僅一年的中國「草根」團隊Mogo,用一款產品給出了自己的定義。
他們手握一張「王牌」——Magpie 1.0,全球首個具備高動態物理交互能力的世界模型。
Magpie 1.0一手體驗,世界活了
這次,我們直接跑到了Mogo的辦公室,拿起手柄親自上手:
沒有后期、沒有剪輯魔法,全部是模型當場跑出來的。
先看一段第三人稱、非漫游的視角。
這一點很關鍵,市面上不少世界模型只敢讓你「飄」著看風景,因為一旦讓角色真正動起來,破綻就藏不住了。
而Magpie里的角色除了走、跑、跳,還能跑酷翻越障礙,是目前動態表現最強的一檔。
而這一切,單卡就能實時24 FPS推理。
下面按Mogo的三要素,物理、思考、渲染,一段一段拆。
物理:墻不穿模,車會翻車
物理一致性,遠不止「記憶夠長、回頭180°場景不變」這么簡單。
它更是一系列符合直覺的真實反饋——
一輛車沿著濕滑的夜間公路行駛,轉過彎,前方是斷頭路。
來不及剎車,車身騰空,墜落,側翻,車頂朝下在地面擦出一道弧線。重力對的,摩擦對的,翻滾姿態也是對的。
![]()
再看更挑剔的細節。
一個穿鎧甲的角色跑向欄桿,雙臂撐住頂端,身體翻過去,落地瞬間雙腿微曲卸力。
整個過程中手貼合欄桿的位置、軀干旋轉的力學、緩沖的時機,全部物理正確。
![]()
目前,Magpie 1.0能做到的,是最長約10分鐘的物理一致性實時輸出。
作為參照,DeepMind的Genie 3官方口徑,一致性維持也是「數分鐘」量級。
思考:椅子能坐,也能抄起來當武器
物理之上,是這個世界對「人類可感知規律」的理解能力,Mogo把它叫作世界的思考。
風吹草動、椅子當武器、墻能不能爬、杯子碎不碎......
這些在純渲染的路線里基本是缺位的,模型只管把這一幀畫得像,至于杯子落地后該不該碎,它不關心,也不知道。
因此,Magpie 1.0就是讓世界自己「想明白」這些事。
一陣風掠過,角色腳下的草叢跟著翻滾起來。沒有人寫過「風速多少草該彎多少度」的規則,模型自己學到了這件事。
![]()
更夸張的是,角色還能跑向一面墻,雙手抓住邊緣,手腳交替,真的爬了上去。
妥妥的一出AI自己算出來的「飛檐走壁」。
![]()
這些判斷,人類習以為常,卻恰恰是純渲染型世界模型最容易露餡的地方。
而Magpie 1.0正在努力把它們學進模型本身。
渲染:動態光照與寫實風格
盡管渲染在優先級上排在末位,但并不意味著Magpie在畫面上就交了白卷。
夜間場景,一輛車從向陽面駛入背陰面,車身金屬表面的光影流轉極其自然,漫反射和鏡面反射各歸其位。
金屬和玻璃的質感,分得明明白白。
![]()
角色在黃昏中奔跑,腳下的影子隨光源位置實時拉伸、投射、變形。不是貼上去的假陰影,是逐幀算出來的。
![]()
當然,640×384 vs Genie 3的720p,差距一眼就能看出來。
但回看這些實測,翻欄桿、爬墻壁、開車沖下懸崖,你會發現團隊把所有的算力都砸在了同一個地方:讓這個世界「動」起來。
畫面可以糙,物理不能假。這是Mogo從第一天起就做出的取舍。
而這個取舍背后,還有一段更現實的故事。
國產卡訓練,「反向適配」英偉達
Mogo,2025年3月成立。核心團隊從騰訊、米哈游出來,可你問他們怎么定位自己,答案永遠是「草根」。
創始人付東杰,拜耳農業做過數字孿生,哈啰出行搭過AI平臺,現在來造世界模型。
聯合創始人徐璇,騰訊產品經理出身;首席科學家詹小雨,南大博士,做3D重建和空間理解。
人到齊了,論文發了,方向也想清楚了。但算力卻突然斷了。
一天早上,云廠商一個電話打過來,續訂價格翻倍,而且加了預算也未必能排上。
付東杰接完電話,在辦公室坐了很久。本來還準備有計劃地加卡,結果不僅加不了,連正在用的卡都可能沒了。
當天,團隊開了一個緊急會議。討論到最后,工程負責人說了一句,要不試試國產算力。
問題是,世界模型跟大語言模型完全不是一回事。
它把物理仿真、三維特征編碼、實時交互生成揉在了一起,借鑒了LLM遷移國產芯片訓練的成功經驗,世界模型這個品類,終于在國產芯片上跑起了訓練。
沒有適配方案,沒有文檔,一切從零開始。
![]()
芯片廠商聽到這個消息后,反應非常積極。如果能在國產芯片上跑通一個全新架構的世界模型,對整個生態的意義不言而喻。
對方甚至主動派了一支工程師團隊過來,和Mogo坐到了一起。
從底層算子開始,一層一層往上對齊。模型跑不起來,查日志,改代碼,重新跑。還是不對,再查,再改。
大半個月。沒日沒夜。然后有一天,模型跑起來了。
故事到這里本來可以結束。但接下來發生了一件更有意思的事。
在國產芯片上完成了關鍵訓練后,算力的需求得了一定緩解。
為了按照原定計劃,最終能夠讓模型實現在消費級顯卡上推理起來的實驗目標。
團隊需要把模型再遷回到英偉達的芯片上做下一個階段的訓練和最終推理適配。
先在H系列上跑通了,然后繼續往下探。
![]()
國產卡+英偉達卡訓練,英偉達卡推理。
一條被算力荒逼出來的路徑,反而讓Magpie在訓練和部署兩端都有了著落。
算力這么緊,每一分都留給了物理。畫質的事,以后再說。
技術拆解:把物理「焊」進數據里
Magpie 1.0敢于重倉「物理」的底氣,源于團隊過去兩年的硬核學術積累。
它的技術前身,是2024年底發布在arXiv上的獨作論文——MOGO。
彼時,還在哈啰出行負責AI工程落地的付東杰,受《黑神話·悟空》CG的啟發,敏銳地捕捉到了一個在當時看來極其瘋狂的想法:
既然視頻游戲本質是可交互序列(sequence),那完全可以由基于seq2seq的Transformer端到端生成。
![]()
但這個想法在2024年初太瘋狂了,沒有數據,沒有算力,什么都沒有。他需要找一個最小切入點。
游戲世界里的資產分兩種:靜態的和動態的。
靜態資產是建筑、場景、貼圖,當時已經有公司在做。動態資產,主要是動作和動畫,關注度卻很低。
之所以選擇動作,是因為在付東杰看來:
一個游戲場景中的建模做得再精致,光影效果再好,我盯著它看不會超過5分鐘。但一個能和我交互起來的角色,即使是我的世界那樣像素風的小人,我也能跟他玩一個下午。
這不是一個技術判斷,是一個審美選擇。
他從一開始就認定,讓世界「動」起來比讓世界「好看」更重要。Magpie后來的一切技術取舍,根子都在這里。
于是,MOGO應運而生——
這款模型能單次推理生成無限長、超高質量的3D人體動作,并一舉拿下了2025年該領域的SOTA。
![]()
更具戲劇性的是,初版Demo在B站的發布,意外為他招募到了「最強戰隊」。
付東杰建群本意是供人試用,卻發現群內大半都是同方向的專業研究者。
南安普頓大學數字人實驗室的兩位博士,便是借此契機「網友面基」。
三人一拍即合,共同將MOGO迭代至AAAI正式版。如今,這兩位學者也順理成章地成為了Mogo科研團隊的核心支柱。
除了MOGO,團隊還攢下了一連串扎實的技術家底:
SHERT(CVPR Oral):世界首個單圖生成可用拓撲、帶真實紋理的人體3D建模;
PBR材質工作(TVCG):首個生成式、可無限擴展的2K高清物理材質模型;
Actial(NeurIPS):聚焦三維一致性的空間感知大模型;
MotionDuet(CVPR):多模態輸入的動作交互生成模型。
![]()
付東杰透露,Actial的核心思想,幫Magpie解決了「空間感知」問題。
而SHERT和PBR材質那兩篇里植入「隱式約束」的設計思路,正是Magpie在數據層面「把物理焊進數據里」這套方法論的雛形。
數據,是另一塊硬骨頭。
Magpie 1.0摒棄了真實視頻,而采用深度定制的「類游戲引擎」管線,采集了遠超2000小時的數據。
為突破當前學習的一些瓶頸,后續版本將逐步引入真實數據。
三條主流路線,它一條都沒走
要理解Mogo在賭什么,得先看「世界模型」牌桌上已經擺開的三條路。
第一條,LeCun的JEPA路線。
這位圖靈獎得主曾多次直言,「只會預測下一個token的生成式模型,理解不了真實世界」。
因此,不應在像素空間做預測,而是在壓縮的隱空間里預測未來狀態。
思路很對,但這條路更多是為具身智能設計的,渲染基本沒怎么管。
一個機器人可能能在JEPA的世界里做出正確決策,但你作為人類看不到一個漂亮的畫面。
![]()
第二條,李飛飛的3D高斯路線。
World Labs累計融資超12億美元,估值達到50億,做的是基于3D高斯潑濺的空間智能。
這條路兼顧了一部分渲染和物理。
![]()
對此,付東杰的判斷很尖銳,高斯潑濺的物理更像是一種擬像——
它本身還是生成了3D體積在那里,并沒有真正學到物理規律,需要其他模型來補足。
第三條,Sora的純視覺路線。
谷歌DeepMind的Genie 3屬于這一類,720p、24fps,實時交互,維持視覺一致性可達數分鐘。
官方稱,Genie 3是第一個實時交互的通用世界模型。
![]()
但這條路的問題在于,它說到底還是視頻生成模型的延伸。
渲染很好看,但付東杰不認為純視覺生成的世界模型內部有「真實的可思考的物理規律」。
三條路,Mogo一條都沒原樣走。
世界模型的第四條路
因此,團隊開辟了一條全新路徑,付東杰把它描述成「隱式三維特征」。
也就是上面多次強調的,Magpie 1.0技術架構的三個核心模塊——物理、思考和渲染。
從數據集設計,到訓練,再到推理,全程往模型里摻進隱式的三維信息。
既不像Sora那樣純在2D像素上猜,也不像高斯那樣把3D顯式建出來擺著,而是讓模型在內部學會3D的那套約束,用這個去減小長時間一致性的壓力。
這解釋了為什么Magpie生成的車輛能在墜崖時正確翻滾,角色能在翻越欄桿時準確判斷障礙邊緣。
模型在3D空間層面理解了物體之間的物理關系,不只是在「猜」一個看起來對的視頻幀。
![]()
從「生成內容」到「生成世界」
Mogo AI推出了Magpie 1.0,但Mogo想做的,顯然不止這一款產品。
在付東杰的判斷里,「世界模型,是通往AGI之路的基石」。
Mogo認定,這條路線長遠看,會重塑整個3000億美元規模的游戲市場。
當AI不只能呈現世界的外觀,還能理解和模擬世界如何運行,內容生產的邏輯會被徹底改寫。
這也是為什么,付東杰對這件事的定義,遠比「做一款AI游戲工具」要大。
這正是Magpie 1.0想推動的事:讓生成式AI從「生成內容」,真正邁向「生成世界」。
他們沒有去比誰的畫面更精致,而是固執地去問一個更難的問題:這個世界,到底懂不懂它自己?
死氣沉沉的世界是擬象,鮮活的世界是仿真。
而Magpie 1.0,正是這支團隊遞給世界的、一次從擬象走向仿真的嘗試。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.