无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

「視頻世界模型」新突破:AI連續(xù)生成5分鐘,畫(huà)面也不崩

0
分享至



當(dāng) Sora 讓世界看到了 AI 生成視頻的驚艷效果,一個(gè)更深層的問(wèn)題浮出水面:如何讓生成的視頻不只是「看起來(lái)像」,而是真正理解并遵循物理世界的規(guī)律?這正是「視頻世界模型」(Video World Model)要解決的核心挑戰(zhàn)。當(dāng)生成時(shí)長(zhǎng)從幾秒擴(kuò)展到幾分鐘,模型不僅要畫(huà)面逼真,更要在長(zhǎng)時(shí)間尺度上保持結(jié)構(gòu)、行為與物理規(guī)律的一致性。然而,誤差累積與語(yǔ)義漂移往往導(dǎo)致長(zhǎng)視頻出現(xiàn)畫(huà)面退化與邏輯崩壞 —— 這已成為衡量世界模型能力的關(guān)鍵瓶頸。

圍繞這一挑戰(zhàn),上海人工智能實(shí)驗(yàn)室聯(lián)合復(fù)旦大學(xué)、南京大學(xué)、南洋理工大學(xué) S-Lab 等單位提出了LongVie 2—— 一個(gè)能夠生成長(zhǎng)達(dá)5 分鐘高保真、可控視頻的世界模型框架



LongVie 2 可自回歸生成 3-5 分鐘的超長(zhǎng)可控視頻

  • 論文:https://arxiv.org/pdf/2512.13604
  • 項(xiàng)目主頁(yè):https://vchitect.github.io/LongVie2-project/
  • GitHub:https://github.com/Vchitect/LongVie
  • 視頻演示:https://www.youtube.com/watch?v=ln1kMNYj50Y


https://mp.weixin.qq.com/s/oMWv6P6mm21XMk9bpZtKXg

什么是理想的視頻世界模型?

一個(gè)理想的視頻世界模型,不應(yīng)只是「生成得更久」,而應(yīng)同時(shí)具備以下三項(xiàng)核心能力:

  • 全面可控性(Comprehensive Controllability):能夠在長(zhǎng)時(shí)間生成過(guò)程中穩(wěn)定響應(yīng)多種控制信號(hào),保持場(chǎng)景結(jié)構(gòu)與運(yùn)動(dòng)意圖不漂移;
  • 長(zhǎng)期視覺(jué)保真(Long-term Fidelity):隨著時(shí)間推進(jìn),畫(huà)面質(zhì)量不發(fā)生明顯退化,不出現(xiàn)紋理崩塌或細(xì)節(jié)丟失;
  • 長(zhǎng)程上下文一致性(Long-context Consistency):跨片段、跨時(shí)間保持語(yǔ)義、身份與物理規(guī)律的一致,避免「換世界式」斷裂。

現(xiàn)有世界模型的瓶頸在哪里?

本文系統(tǒng)調(diào)研了當(dāng)前主流的視頻世界模型,發(fā)現(xiàn)一個(gè)共同問(wèn)題:隨著生成時(shí)長(zhǎng)的增加,模型的可控性、視覺(jué)保真度與時(shí)間一致性會(huì)同步下降。



現(xiàn)有模型在長(zhǎng)時(shí)間生成時(shí)的退化問(wèn)題

LongVie 2:三階段遞進(jìn)式訓(xùn)練

為系統(tǒng)性解決上述挑戰(zhàn),LongVie 2 設(shè)計(jì)了一套逐層遞進(jìn)的三階段訓(xùn)練策略,從控制、穩(wěn)定性到時(shí)間一致性層層強(qiáng)化:



LongVie 2 三階段訓(xùn)練流程

階段一:Dense & Sparse 多模態(tài)控制

通過(guò)引入稠密信號(hào)(如深度圖)與稀疏信號(hào)(如關(guān)鍵點(diǎn)軌跡),為模型提供穩(wěn)定且可解釋的世界約束。這使生成過(guò)程不再完全依賴(lài)隱式記憶,從源頭提升長(zhǎng)程可控性。

階段二:退化感知訓(xùn)練(Degradation-aware Training)

長(zhǎng)視頻生成中,質(zhì)量衰減幾乎不可避免。LongVie 2 的核心創(chuàng)新在于:在訓(xùn)練階段主動(dòng)「制造困難」——



退化感知訓(xùn)練示意圖

  • 利用 VAE 的多次 encode-decode 模擬重建誤差;
  • 通過(guò) 加噪 + Diffusion 去噪 構(gòu)造退化圖像。

以此作為訓(xùn)練信號(hào),使模型學(xué)會(huì)在不完美輸入下保持穩(wěn)定生成,顯著增強(qiáng)長(zhǎng)期視覺(jué)保真度。

階段三:歷史上下文建模

在生成過(guò)程中顯式引入歷史片段信息,并通過(guò)針對(duì)性 loss 約束相鄰片段的銜接,使跨片段過(guò)渡更加自然順暢,有效緩解長(zhǎng)視頻中的語(yǔ)義斷裂與邏輯跳變問(wèn)題。



三階段訓(xùn)練效果對(duì)比

一圖看懂 LongVie 2 框架

通過(guò)多模態(tài)控制、退化感知訓(xùn)練與歷史上下文建模的協(xié)同設(shè)計(jì),LongVie 2 將長(zhǎng)視頻生成從「片段拼接」提升為持續(xù)演化的世界建模過(guò)程:



LongVie 2 整體框架

從左至右,LongVie 2 首先將跨片段的稠密(深度)與稀疏(關(guān)鍵點(diǎn))控制視頻做全局歸一化,并為所有片段采用統(tǒng)一的噪聲初始化。隨后在每一片段生成時(shí),將全局歸一化后的控制信號(hào)、上一片段的末幀與文本提示送入模型,逐步生成完整的長(zhǎng)視頻。

LongVie 2 能力展示

該研究將LongVie 2與 Go-With-The-Flow 和 Diffusion As Shader 進(jìn)行了對(duì)比。結(jié)果顯示,LongVie 2 在可控性方面表現(xiàn)顯著優(yōu)于現(xiàn)有方法:



與現(xiàn)有方法的可控性對(duì)比


https://mp.weixin.qq.com/s/oMWv6P6mm21XMk9bpZtKXg


https://mp.weixin.qq.com/s/oMWv6P6mm21XMk9bpZtKXg

消融實(shí)驗(yàn)也充分驗(yàn)證了三階段訓(xùn)練的有效性:



消融實(shí)驗(yàn)結(jié)果

LongVGenBench

首個(gè)可控超長(zhǎng)視頻評(píng)測(cè)基準(zhǔn)

當(dāng)前缺乏面向可控長(zhǎng)視頻生成的標(biāo)準(zhǔn)化評(píng)測(cè)。為此,本文提出LongVGenBench—— 首個(gè)專(zhuān)為超長(zhǎng)視頻生成設(shè)計(jì)的基準(zhǔn)數(shù)據(jù)集,包含100 個(gè)時(shí)長(zhǎng)超過(guò) 1 分鐘的高分辨率視頻,覆蓋真實(shí)世界與合成環(huán)境的多樣場(chǎng)景,旨在推動(dòng)該方向的系統(tǒng)研究與公平評(píng)測(cè)。

定量評(píng)估與用戶(hù)主觀(guān)測(cè)評(píng)結(jié)果顯示,LongVie 2 在多項(xiàng)指標(biāo)上達(dá)到SOTA 水平,并獲得最高用戶(hù)偏好度:





定量評(píng)測(cè)結(jié)果與用戶(hù)研究

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
iOS 27十個(gè)被悄悄藏起的細(xì)節(jié),每一個(gè)都打在了多年痛點(diǎn)上

iOS 27十個(gè)被悄悄藏起的細(xì)節(jié),每一個(gè)都打在了多年痛點(diǎn)上

我是一個(gè)粉刷匠2
2026-06-13 01:40:52
菲力、西冷、肉眼…牛排有啥不同?30秒搞懂

菲力、西冷、肉眼…牛排有啥不同?30秒搞懂

混知
2026-06-05 15:51:15
人間清醒!劉浩存受訪(fǎng)含淚坦言:這輩子最想感謝的人是張藝謀導(dǎo)演

人間清醒!劉浩存受訪(fǎng)含淚坦言:這輩子最想感謝的人是張藝謀導(dǎo)演

落雪聽(tīng)梅a
2026-06-14 10:32:26
癌癥的源頭被查出,燒烤沒(méi)上榜,第1名大家可能每天都在吃!

癌癥的源頭被查出,燒烤沒(méi)上榜,第1名大家可能每天都在吃!

路醫(yī)生健康科普
2026-06-12 16:23:10
客流暴跌59%,一年累虧2000億!昔日城市出行主力正“斷臂求生”

客流暴跌59%,一年累虧2000億!昔日城市出行主力正“斷臂求生”

科技故事聚焦
2026-06-14 12:11:16
黃大煒遺產(chǎn)由姐姐繼承,交往26年女友出面爭(zhēng)產(chǎn),聯(lián)合其他家屬起訴

黃大煒遺產(chǎn)由姐姐繼承,交往26年女友出面爭(zhēng)產(chǎn),聯(lián)合其他家屬起訴

萌神木木
2026-06-14 16:57:41
鄭智化原定于6月13日在延吉舉行的演唱會(huì),已經(jīng)取消

鄭智化原定于6月13日在延吉舉行的演唱會(huì),已經(jīng)取消

阿振觀(guān)點(diǎn)
2026-06-13 11:22:00
肖勁光連打勝仗,毛主席:你去找蔣介石領(lǐng)賞,沒(méi)想到他真發(fā)了電報(bào)

肖勁光連打勝仗,毛主席:你去找蔣介石領(lǐng)賞,沒(méi)想到他真發(fā)了電報(bào)

大運(yùn)河時(shí)空
2026-06-14 19:20:03
太瘋狂了!1200個(gè)包裹堆爆西安酒店大堂,大馬旅行團(tuán)旅游網(wǎng)購(gòu)上癮

太瘋狂了!1200個(gè)包裹堆爆西安酒店大堂,大馬旅行團(tuán)旅游網(wǎng)購(gòu)上癮

火山詩(shī)話(huà)
2026-06-14 06:42:50
2026年反腐重磅升級(jí)!這5個(gè)行業(yè)被嚴(yán)查,個(gè)個(gè)關(guān)乎民生!

2026年反腐重磅升級(jí)!這5個(gè)行業(yè)被嚴(yán)查,個(gè)個(gè)關(guān)乎民生!

細(xì)說(shuō)職場(chǎng)
2026-06-14 16:52:20
別羨慕網(wǎng)紅賺得多!網(wǎng)紅“猴哥”自以為豪的體面,被前妻撕得稀碎

別羨慕網(wǎng)紅賺得多!網(wǎng)紅“猴哥”自以為豪的體面,被前妻撕得稀碎

君笙的拂兮
2026-06-13 06:55:43
再見(jiàn)了,NBA!詹姆斯+濃眉,勇士全都要...

再見(jiàn)了,NBA!詹姆斯+濃眉,勇士全都要...

詹姆斯吧
2026-06-14 13:08:25
巴基斯坦總統(tǒng)、總理哀悼

巴基斯坦總統(tǒng)、總理哀悼

環(huán)球時(shí)報(bào)國(guó)際
2026-06-11 14:35:12
退休老干部被中年撈女盯上了,已有多人中招被榨干后要飯回的家!

退休老干部被中年撈女盯上了,已有多人中招被榨干后要飯回的家!

黯泉
2026-06-13 11:22:45
世界杯80億對(duì)決!日本vs荷蘭,森保一率隊(duì)爭(zhēng)勝,上屆掀翻2大冠軍

世界杯80億對(duì)決!日本vs荷蘭,森保一率隊(duì)爭(zhēng)勝,上屆掀翻2大冠軍

球場(chǎng)沒(méi)跑道
2026-06-13 19:10:42
埃及隊(duì)被FIFA強(qiáng)制要求修改球衣:移除七星標(biāo)志及金色號(hào)碼

埃及隊(duì)被FIFA強(qiáng)制要求修改球衣:移除七星標(biāo)志及金色號(hào)碼

星耀國(guó)際足壇
2026-06-14 10:44:47
AI時(shí)代多家互聯(lián)網(wǎng)公司正在血腥大裁員,網(wǎng)友說(shuō):職場(chǎng)沒(méi)有安全感!

AI時(shí)代多家互聯(lián)網(wǎng)公司正在血腥大裁員,網(wǎng)友說(shuō):職場(chǎng)沒(méi)有安全感!

燈錦年
2026-06-14 17:26:50
“教科書(shū)式老賴(lài)”黃淑芬,逆行撞死人拒賠11年,如今落得這樣下場(chǎng)

“教科書(shū)式老賴(lài)”黃淑芬,逆行撞死人拒賠11年,如今落得這樣下場(chǎng)

從零到一研究所
2026-06-05 16:49:52
徹查!信號(hào)強(qiáng)烈!中央升級(jí)反腐“天網(wǎng)”!

徹查!信號(hào)強(qiáng)烈!中央升級(jí)反腐“天網(wǎng)”!

職場(chǎng)資深秘書(shū)
2026-06-13 16:01:25
李子柒的新身份

李子柒的新身份

新京報(bào)
2026-06-14 12:39:09
2026-06-14 19:55:01
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專(zhuān)業(yè)的人工智能媒體
13253文章數(shù) 142669關(guān)注度
往期回顧 全部

科技要聞

Anthropic最強(qiáng)模型被禁,傳亞馬遜通風(fēng)報(bào)信

頭條要聞

村民砍掉"孤獨(dú)樹(shù)":砍樹(shù)前一天跟紅裙女子發(fā)生沖突

頭條要聞

村民砍掉"孤獨(dú)樹(shù)":砍樹(shù)前一天跟紅裙女子發(fā)生沖突

體育要聞

8年8隊(duì)奪冠,鄧肯那句話(huà),現(xiàn)在還給了馬刺

娛樂(lè)要聞

鄧超攜子觀(guān)戰(zhàn)NBA,等等帥氣十足

財(cái)經(jīng)要聞

金價(jià)跌至900元關(guān)口,大媽又來(lái)抄底了!

汽車(chē)要聞

綜合續(xù)航超1600km/零百加速4秒級(jí) 2027款星途ES預(yù)售18.99萬(wàn)起

態(tài)度原創(chuàng)

旅游
時(shí)尚
教育
數(shù)碼
健康

旅游要聞

泮水雅集,夜醉明府城

伊姐周六熱推:電視劇《南部檔案》;電視劇《意外調(diào)查組》......

教育要聞

高三生必看!四川省本科高校2026年招生章程要點(diǎn)匯總

數(shù)碼要聞

明基“PD2732U”27英寸4K 60Hz專(zhuān)業(yè)色準(zhǔn)顯示器發(fā)售,5299元

老人、小孩、孕婦,吃粽子有啥風(fēng)險(xiǎn)

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版