无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

螞蟻靈波,第一次讓我對世界模型的感受具象化了

0
分享至

和身邊投資人、創業者朋友聊,AI圈近幾年,每年都有能擾動所有人注意力的大詞:

23年是大模型,24年是具身智能,25年是Agent……

那么26年的關鍵詞的是什么呢?

一個很高頻提及的,是世界模型。

就在今天1月29日,螞蟻集團旗下的具身智能公司靈波科技,發布了世界模型 LingBot-World,并且全面開源。


https://technology.robbyant.com/lingbot-world

過去兩年的視頻生成模型,大體還停留在抽卡式影像拼接,但這次,更像是給 AI 安裝了一個可以長期運轉、能被人實時操控、還能記住世界狀態的「數字宇宙引擎」。

給大家看一下真實的部署后的效果:

比當時讓人感慨「物理學不存在了」的Sora,更進了一步。

它不只能生成好看的視頻,還嘗試回答一個更大的問題:AI 能不能在一個持續存在、可交互、符合物理直覺的世界里長期演化。


我只覺得,這次開源,如果理解為一個新模型發布就太小了,至少為很多AI團隊26年的發展方向指了條路——

把世界模型從論文概念,推進到工程可復現、社區可參與、產業可落地的階段。

在視頻保真度、動態幅度、長時一致性、實時交互能力上,LingBot-World整體水位,已經不亞于Google Genie 3這一代閉源世界模型。


但它直接開源了權重和推理代碼,比去年DeepSeek R1的開源還要徹底。

似乎,很多行業都要因此改變了:具身智能、自動駕駛、游戲開發,都將擁有一個高保真、可控、低成本試錯的數字演練場和新的AI引擎。


生成的一幀一幀畫面,第一次看到的時候,真的很震撼……

而完整的視頻呈現,則是進一步把現實空間和物理場景,還原到了一個近乎超越真實的程度。

長記憶、廣視角、高連續的視覺呈現,是靈波給我帶來的第一個驚喜。

像故宮這種宏大場景,非常豐富的建筑群,在連續性和一致性上都達到了很高的水準。

01. 從生成視頻到模擬世界:范式真的變了

靈波這次開源的技術路線,從關鍵數據的獲取到處理,再到建模、計算和訓練,都和之前的視頻模型及世界模型有很大不同。


世界模型最難的不是網絡結構,是數據。

普通網絡視頻無法提供“動作—環境變化”對齊信號,而這卻正是世界模型必須學習的因果。

LingBot-World構建了一套混合數據引擎:

一部分來自清洗后的真實視頻,提供視覺多樣性;

一部分來自游戲錄制,嚴格對齊用戶操作、相機位姿和畫面;

還有一部分來自 Unreal Engine 合成管線,直接導出無 UI 干擾的純凈畫面和精確相機參數。

更關鍵的是他們設計了分層語義標注體系:

敘事級 caption、場景靜態 caption、時間密集 caption 三層描述,把“環境是什么”和“鏡頭/動作發生了什么”解耦。


這種標注方式的本質,是在幫模型區分“世界狀態”和“觀察方式”,這對學習穩定世界表征極其重要。

可以說,這套數據引擎不只是為 LingBot-World 服務,而是為未來所有開源世界模型提供了一個可參考的工業級范式。


過去的視頻大模型,很大程度上還是統計和概率:根據像素時序分布去猜下一幀長什么樣。

這類模型擅長做短視頻、情緒氛圍、鏡頭語言,但一旦時間拉長,問題就會暴露——角色換臉、建筑變形、物體消失、空間拓撲錯亂,都屬于典型的長時漂移(long-term drift)。

LingBot-World試圖跨過這道坎,它開始不再把任務定義為“生成一段視頻”,而去學習一個世界狀態在動作驅動下如何演進。

論文中把問題形式化為:在已有歷史畫面和動作序列的條件下,預測未來一段時間的世界狀態分布。

這種建模方式,在我看來已經超出了視覺生成的范疇,轉向了“環境動力學建模”。


這種差異尤其關鍵。

因為一旦模型真的學到“動作 → 世界變化”的因果關系,它就不只是內容生成工具,變成了可被智能體利用的模擬器。

對機器人來說,它可以在這里先“想象”一條路徑再去現實執行;

對自動駕駛來說,它可以在虛擬世界里經歷極端長尾場景;

對游戲來說,它意味著開放世界不再依賴手工腳本,而可以實時生成、實時響應。

更重要的是,這種世界建模天然要求記憶能力。

LingBot-World 展示了一個非常具有象征意義的能力:鏡頭移開一個房子60秒,再轉回來,那個房子還在,結構一致,位置合理。

不管是高速運動視角、俯拍還是仰拍,相關景象、物體始終出現在物理合理的位置。

游戲場景的迅速切換、形態及動作變化,很真實自然。

這說明模型內部已經形成了一種隱式的空間記憶和狀態延續的能力,已經不是只盯著當前畫面做局部預測。

這也是給我的第二個驚喜——對物理世界的還原,尤其運動狀態或者游戲建模,非常遵循物理規律,而且能把復雜動態處理好。

02. 10分鐘無損長視頻:世界模型真正的門檻

長視頻穩定生成不是錦上添花,是世界模型是否可用的生死線。

因為任何真實任務,比如找路、搬運、探索,比如物流、交通,都不是 5 秒鐘能完成的。

LingBot-World 通過多階段訓練和并行化推理,把連續穩定生成時間推進到了接近 10 分鐘,并且在長時間鏡頭切換后,場景結構仍能維持一致。

以此來看,模型開始具備長程任務承載能力,不再只是短時視覺玩具。

論文里有一個很關鍵的訓練策略:逐步拉長視頻時長的課程學習(curriculum learning)。


從原始數據,到視頻片段,再到最終數據和敘事結構。

模型會先在 5 秒視頻上建立基本視頻先驗,再逐步擴展到 60 秒甚至更長序列,讓它在高噪聲階段更多關注全局結構,從而減少長時漂移。

先學畫面,再學世界,分階段演化,把一個視頻生成模型,一步步馴化成了世界模擬器,感覺還是很有創意的。


同時,LingBot-World采用了 MoE(Mixture of Experts)結構,把擴散過程拆成高噪聲專家和低噪聲專家:

前者負責世界整體布局,后者負責細節打磨。

既保持了高分辨率視頻能力,又讓長程結構更穩定。

看這個結構設計,靈波團隊沒有說是全盤推倒重來,是在現有視頻大模型技術棧上,做了有針對性的世界化改造。

看實際效果,各種細節也可圈可點。

03. 真正可玩:實時交互 + 文本觸發世界事件

如果只有長視頻,沒有實時性,它仍然只是離線渲染器。

LingBot-World另一個跨越式進展是:在約 16 FPS 吞吐下,把端到端交互延遲壓到 1 秒以內。

也就是說,用戶按下鍵盤,畫面幾乎立刻響應,已經接近可玩體驗的門檻。

技術上,他們做了兩件關鍵的事:

一是把雙向擴散模型蒸餾成因果自回歸結構,用 block causal attention 保留局部雙向信息,同時滿足全局時間因果;

二是通過 few-step distillation,把原本多步采樣壓縮成少步推理,才能實現準實時生成。


這個階段的訓練,本質是在把“畫質優先的老師模型”壓縮成“速度優先但邏輯仍在的學生模型”。

更有意思的是文本觸發世界事件能力。

用戶可以輸入“下雪”“夜晚”“像素風”“煙花”等提示,世界會在保持幾何結構一致的前提下發生風格或物理狀態變化。

上一代世界模型,更多是簡單的風格遷移,但是靈波這次,是在一個持續世界狀態上施加條件干預。

從應用角度看,這就是未來數字孿生和訓練環境構造的核心能力:人可以系統性地改變環境變量,不用重新生成一段無關視頻。

終于開始有了可以實時編輯、互動、修改變量的能力。

04. 開源的真正重量:不是模型,而是生態位

還有幾個讓我印象很深的亮點:

首先是動態離屏記憶,使模型能維持對視野外物體的持久性記憶,確保其在未被觀察時仍能自然演進;

其次是探索生成邊界,通過極高的時空相干性,支持生成超長且畫質穩定的高保真環境;

最后是具身物理約束,模型能夠遵循真實的碰撞動力學和空間邏輯,防止物體穿模或忽略物理屏障,從而生成符合物理規律的真實畫面。


基于這些持續涌現,不斷演化的特質,一個世界模型生態的雛形已經出現。

之前提到的游戲渲染、3D場景,還只是虛擬生態的延伸;而靈波代表的世界模型的觸角,已經真實觸達了物理現實。

比如說,現實世界里,機器人訓練最大的瓶頸是:長程復雜任務數據極度稀缺。

真實機器人跑一次實驗成本高、周期長、風險大。

LingBot-World 就提供了一種折中方案:在一個高保真、長時一致、可交互的數字世界里,先進行大規模試錯。

它能支持不同光照、擺放變化、風格變化,天然具備 domain randomization 的效果,這對提升現實泛化能力至關重要。


同時,論文還展示了從生成視頻中進行 3D 重建的能力,點云結構跨幀一致,說明模型內部已經隱式維持了幾何一致性。

這意味著世界模型未來可能成為3D 數據生成的源頭工廠,反向為具身感知模型提供訓練材料。

從更長遠看,我覺得這類模型是在搭建一個認知傳感器:

智能體可以在這里形成對物理世界的長期預測能力,已經不需要每一步都依賴真實sensor。

05. 世界模型,開始有“世界味”了

現在世界范圍內,最強的世界模型幾乎都閉源,導致研究者們,很難真正復現可交互的模型的能力。

LingBot-World是第一次,把權重、推理代碼公開。

這也是在向社區釋放一個信號:世界模型不該只存在于少數巨頭實驗室,可以真正走進更多行業。

仔細研究下來,我只覺得,這一步對生態的意義,可能比模型本身更大。

因為一旦開源社區開始圍繞世界模型做數據構建、控制接口、物理增強、記憶模塊擴展,就會形成一整條新的技術棧,終于不再是只停留在視頻生成賽道了。

當然,它還遠未完美。

論文里也坦誠:記憶仍是涌現能力、不穩定;動作空間有限;細粒度物體交互困難;推理成本高;多智能體尚未支持。

但這些問題的存在,本身說明它已經從演示級模型進入了可工程迭代的階段。


最后我想說,LingBot-World 代表的不僅是一次模型刷新,更是一次方向確認:

AI 正在從生成內容,走向生成可被持續體驗、被智能體利用、被人類實時介入的世界。

當視頻長度變成分鐘級,當鏡頭離開再回來物體仍在,當你按下鍵盤世界就響應,當一句話可以改變天氣和風格——這已經不是生成或者消費AI作品,是真的在進入 AI 構建的環境。

對靈波而言,世界模型還有個很重要的意義:為具身智能搭建一個可以反復試錯、低成本進化的數字現實。

在真實物理世界中,機器人每一次訓練都昂貴且緩慢,而世界模型讓智能體能夠在虛擬環境里提前經歷長時序任務、理解“動作如何改變環境”的因果關系,并逐步形成穩定的規劃與決策能力。

當這些能力在數字世界中被充分打磨后,再遷移到現實世界,具身智能的落地速度和泛化能力才真正具備規模化可能。

在這條路上,LingBot-World 讓開源陣營第一次站到了第一梯隊門口。

接下來,真正的變化,可能不在論文,就在接下來長出來的具身智能新系統、新智能體和新應用里。

2026年,世界模型這個核心命題,螞蟻靈波已經打響了關鍵的一槍……

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
5月29號午評:三大指數集體下挫,大盤下周將走向何方?

5月29號午評:三大指數集體下挫,大盤下周將走向何方?

春江財富
2026-05-29 11:56:25
廣州一商場空調不制冷似“蒸籠”,商戶叫苦連天,客人:來了就想走

廣州一商場空調不制冷似“蒸籠”,商戶叫苦連天,客人:來了就想走

新浪財經
2026-05-29 19:06:05
64歲張玉卓履新中國工程院黨組書記,曾掌舵全球最大煤炭和煉油央企

64歲張玉卓履新中國工程院黨組書記,曾掌舵全球最大煤炭和煉油央企

澎湃新聞
2026-05-29 22:40:26
黃仁勛一句話評華為"韜定律":真相藏在"不是威脅"的潛臺詞里

黃仁勛一句話評華為"韜定律":真相藏在"不是威脅"的潛臺詞里

商悟社
2026-05-29 12:21:03
上海炒股冠軍肺腑之語:如果你有20萬資金,建議死磕這么一種股票

上海炒股冠軍肺腑之語:如果你有20萬資金,建議死磕這么一種股票

股經縱橫談
2026-05-29 21:30:48
向太這回恐要翻車!曝49歲黃曉明曾當眾給她下跪,同桌十幾人目睹

向太這回恐要翻車!曝49歲黃曉明曾當眾給她下跪,同桌十幾人目睹

寒士之言本尊
2026-05-29 16:09:42
女子因兒子去世在高鐵靜音車廂痛哭,第4次看到這樣的哭法

女子因兒子去世在高鐵靜音車廂痛哭,第4次看到這樣的哭法

九方魚論
2026-05-29 23:43:51
近3個月跌超20%,黃金“猴市”下的眾生相:有投資者貸款百萬追高,有人清倉虧損離場

近3個月跌超20%,黃金“猴市”下的眾生相:有投資者貸款百萬追高,有人清倉虧損離場

時代周報
2026-05-29 16:00:39
竟然全勝,國羽6席闖入新加坡公開賽4強,大概能拿1冠

竟然全勝,國羽6席闖入新加坡公開賽4強,大概能拿1冠

真理是我親戚
2026-05-29 22:50:35
沙特博主:克洛普已同意執教吉達聯合,計劃今年10月正式到隊

沙特博主:克洛普已同意執教吉達聯合,計劃今年10月正式到隊

懂球帝
2026-05-29 10:33:41
封面:賽前訓練結束后,羅慕洛身穿國足10號球衣與記者告別

封面:賽前訓練結束后,羅慕洛身穿國足10號球衣與記者告別

懂球帝
2026-05-29 22:41:06
第31屆白玉蘭惹眾怒!趙麗穎再次陪跑,李庚希黃曉明全被無視

第31屆白玉蘭惹眾怒!趙麗穎再次陪跑,李庚希黃曉明全被無視

子芫伴你成長
2026-05-28 00:05:34
布倫特福德官方:內爾森租借期滿,回歸阿森納

布倫特福德官方:內爾森租借期滿,回歸阿森納

懂球帝
2026-05-29 21:47:09
三大指數重挫,滬指跌超1% 近4000家個股下跌

三大指數重挫,滬指跌超1% 近4000家個股下跌

財聞
2026-05-29 14:18:47
收評:創業板指跌2.11% 大消費板塊走強

收評:創業板指跌2.11% 大消費板塊走強

證券時報
2026-05-29 15:22:05
一群賭徒,比華爾街更早知道世界會發生什么

一群賭徒,比華爾街更早知道世界會發生什么

華爾街見聞官方
2026-05-29 10:06:41
最大的鐵飯碗要碎了嗎:轉崗、超編、過剩......

最大的鐵飯碗要碎了嗎:轉崗、超編、過剩......

黯泉
2026-05-29 15:10:09
郝劭文回臺灣定居原因曝光,直播帶貨曾月賺近億元,會賺更會做人

郝劭文回臺灣定居原因曝光,直播帶貨曾月賺近億元,會賺更會做人

以茶帶書
2026-05-29 15:26:31
你最接近生理極限的一次經歷是什么?網友分享讓人目瞪口呆!

你最接近生理極限的一次經歷是什么?網友分享讓人目瞪口呆!

夜深愛雜談
2026-04-09 19:39:13
穆里尼奧天降大禮!曼城王朝崩塌!皇馬 6000 萬撿漏世界第一中衛

穆里尼奧天降大禮!曼城王朝崩塌!皇馬 6000 萬撿漏世界第一中衛

瀾歸序
2026-05-29 05:48:38
2026-05-30 00:20:49
AI異類 incentive-icons
AI異類
從硅谷到中關村,AI信息與測評
188文章數 8關注度
往期回顧 全部

科技要聞

Claude Opus 4.8凌晨突發上線

頭條要聞

釋永信被判24年 中國佛教協會:完全是咎由自取

頭條要聞

釋永信被判24年 中國佛教協會:完全是咎由自取

體育要聞

即使是文班亞馬,也做不到這件事

娛樂要聞

奚夢瑤何猷君將于6月在法國舉行婚禮

財經要聞

近3個月跌超20% 黃金"猴市"下的眾生相

汽車要聞

900V+3.2秒破百 領克10+&領克10上市16.99萬元起

態度原創

家居
數碼
教育
本地
旅游

家居要聞

云棲 舒展如流云

數碼要聞

Counterpoint報告:TCL加速追趕三星,電視行業格局面臨洗牌

教育要聞

民辦小一報名系統操作指南:6步走完全流程,每一步按鈕位置都標好了

本地新聞

用剪紙的方式,打開江蘇揚州

旅游要聞

魯疆攜手,藝潤哈密!山東“文化潤疆”主題旅游列車進疆第一站精彩亮相

無障礙瀏覽 進入關懷版