亚洲中文字幕乱码亚洲-蜜桃成熟视频在线观看-免费中文字幕视频在线-中国五十路熟妇洗澡视频-亚洲av伊人啪啪c-国产精品成人一区二区-国产自拍视频一区在线观看-成人一区不卡二区三区四区-亚洲情精品中文字幕99在线

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

別被「更像真的視頻」騙了,AI視頻生成,還遠未真正學會物理世界

0
分享至



這兩年,視頻生成模型進步很快。清晰度更高了,鏡頭更穩(wěn)了,人物和場景看上去也越來越自然。很多時候,我們判斷一個模型強不強,看的就是它 “像不像真的”。但這其實只回答了一半的問題:它看起來像真的,不代表它真的符合現(xiàn)實世界的物理規(guī)律。這件事放在短視頻生成里,也許只是 “偶爾有點怪”;但如果視頻模型真的要往 world model、仿真系統(tǒng)、具身智能這些方向走,問題就不一樣了。一個模型如果連物體怎么接觸、狀態(tài)怎么變化、事件怎么按因果順序發(fā)生都搞不清楚,那它再像,也只是像。



現(xiàn)在的視頻評測,更像是在比 “好不好看”

目前,視頻生成領(lǐng)域常見的評測方式,要么看自動指標,要么讓人直接選 “哪個視頻更好”。這種方式當然有意義,它能比較清晰度、流暢度、觀感這些東西,但它很難告訴你:視頻里到底有沒有違反基本物理常識

比如,一個物體是不是無緣無故消失了;兩個東西是不是明明沒接觸卻發(fā)生了交互;一個動作的結(jié)果是不是和前面的過程根本對不上。這些問題,才真正關(guān)系到模型是在 “生成一個像真的畫面”,還是在 “模擬一個可信的世界”。

Physion-Eval:從 “視覺真實” 走向 “物理真實” 的新 benchmark

這篇工作提出了Physion-Eval。它不是再做一個 “誰的視頻更好看” 的排行榜,而是想認真回答一個更關(guān)鍵的問題:AI 生成的視頻,在物理層面到底有多真實



  • 論文標題: Physion-Eval: Evaluating Physical Realism in Generated Video via Human Reasoning
  • 作者: Qin Zhang, Peiyu Jing, Hong-Xing Yu, Fangqiang Ding, Fan Nie, Weimin Wang, Yilun Du, James Zou, Jiajun Wu, and Bing Shuai
  • 作者單位:Physion Labs,斯坦福大學,MIT,哈佛大學,Character AI
  • 論文鏈接: https://arxiv.org/abs/2603.19607
  • 數(shù)據(jù)集鏈接: https://huggingface.co/datasets/PhysionLabs/Physion-Eval
  • 視頻鏈接:https://www.youtube.com/watch?v=Vbn_W3WNUHw

這個 benchmark 同時覆蓋第一人稱和第三人稱場景,包含10,990 條專家推理軌跡,覆蓋22 類細粒度物理現(xiàn)象。和常見評測不太一樣的地方在于,這里的每條樣本不只是簡單打個分,而是會標出錯誤發(fā)生在什么時候、屬于哪一類問題,以及為什么不對

數(shù)據(jù)上,第三人稱部分來自WISA-80K,第一人稱部分基于EPIC-KITCHENS構(gòu)建。為了保證標注質(zhì)量,論文組織了90 位具有 STEM 背景并接受過本科物理訓練的專家標注者,采用雙人標注和資深專家裁決的流程,最后得到的是帶時間戳、錯誤類別和文字解釋的高質(zhì)量標注。

在這一過程中,人類智能所展現(xiàn)出的優(yōu)勢尤為明顯:人類不僅能夠識別視覺上的異常,更能夠基于物理直覺與因果理解,對復雜的動態(tài)過程進行推理和解釋。相比之下,即使是當前最先進的多模態(tài)模型,在時序一致性、交互合理性以及隱含物理規(guī)律的判斷上,仍存在明顯不足。





最直接的結(jié)論:現(xiàn)在的模型,還遠談不上 “物理一致”

這篇工作的主結(jié)論其實很簡單,也很扎眼:在物理過程敏感的場景里,83.3% 的第三人稱生成視頻和 93.5% 的第一人稱生成視頻,都至少包含一個人類可以明確識別的物理錯誤。這說明什么?說明今天的視頻模型確實越來越會制造 “真實感” 了,但離 “真正符合物理規(guī)律” 還有很遠。



而且這些錯誤不是零零散散的小毛病,而是系統(tǒng)性的。論文里總結(jié)的典型問題包括:接觸或交互失敗、對象突然出現(xiàn)或消失、時間連貫性崩塌、因果順序錯亂、材料或狀態(tài)變化異常、幾何碰撞不合理等等。換句話說,問題不只是 “畫面有點假”,而是模型對物體、接觸、運動和結(jié)果之間最基本的關(guān)系,還經(jīng)常搞錯。



很多錯誤不是粗糙,而是 “看著像,但其實完全不對”

Physion-Eval 里最有意思的地方,其實是那些具體例子。它們不是那種一眼就看出來的低級 bug,而是第一眼好像還行,仔細一想?yún)s明顯不符合常識。

比如,桌面上突然多出一把本來不存在的刀;瓶口朝下,液體卻不往下流;水直接穿過鍋底;又或者一個鍋被兩根手指以幾乎不可能的方式拎起來。它們的問題不在于 “渲染不精細”,而在于直接違背了物體守恒、重力、不可穿透性和穩(wěn)定接觸這些最基本的物理規(guī)律。

這也是為什么我們覺得,這項工作不只是 “又多了一個 benchmark”。它更像是在提醒大家:今天很多模型也許已經(jīng)很會生成 “像真的視頻”,但還遠沒有學會 “世界為什么會這樣動”。





更麻煩的是,連最強的多模態(tài)模型也不太會看這些錯誤

論文還問了另一個很現(xiàn)實的問題:那能不能讓現(xiàn)在的大模型來當 “自動評委”,替人判斷一個視頻有沒有物理問題?

答案是,暫時還不行。

文章評估了10 個開源和閉源的 MLLM critic,結(jié)果顯示,它們和人類判斷之間還有明顯差距。以Gemini 3.0 Pro為例,它會漏掉超過74.4% 的第三人稱錯誤視頻和 90.1% 的第一人稱錯誤視頻。而且它們不只是漏檢,還會把錯誤發(fā)生的時間說錯,甚至編出根本不存在的原因。

這點其實很關(guān)鍵。因為如果以后大家真想靠自動 critic 去評估 world model 或視頻生成系統(tǒng),那 critic 本身至少得先真的看懂視頻里的物理過程。就目前來看,人類判斷依然是最可靠的標準。









越是高動態(tài)的物理過程,越容易暴露當前模型的短板

論文進一步從physical intensitydynamics兩個維度分析了生成模型與市面上已有的 MLLM critic 的表現(xiàn)。結(jié)果表明,相比強度大小,過程本身的動態(tài)性和復雜性更容易暴露視頻生成模型的物理建模缺陷。對 MLLM critic 來說也是如此:只有當錯誤足夠明顯時,它們才會表現(xiàn)出有限的判斷能力,但整體仍明顯落后于人類。







總結(jié)

Physion-Eval 想指出的,不只是 “現(xiàn)在的視頻生成模型還不夠強”,而是一個更根本的問題:當行業(yè)越來越關(guān)注視頻 “看起來有多真” 的時候,我們可能忽略了它 “實際上對不對”

對于真正想做 world model、機器人、具身智能和仿真的人來說,這個問題繞不過去。畫面更清晰、動作更順滑,當然重要;但如果物體會無故出現(xiàn),液體不會往下流,動作結(jié)果和前因?qū)Σ簧希悄P途瓦€沒有真正學會世界的運行方式。

視頻生成下一階段,也許不該只繼續(xù)卷觀感,而應該更認真地去解決物體持續(xù)性、接觸關(guān)系、狀態(tài)變化、時序一致性和因果結(jié)構(gòu)這些更本質(zhì)的問題。“看起來對”,從來不等于 “實際上對”

作者介紹

本文由來自美國頂級科技公司與世界一流高校的豪華作者陣容共同完成,集結(jié) Physion Labs、斯坦福大學、MIT、哈佛大學及 Character AI 的核心研究者。其中,Physion Labs 團隊(Qin Zhang、Peiyu Jing、Bing Shuai)長期專注于生成式視頻與世界模型中的物理一致性問題,構(gòu)建了面向行業(yè)的評估基礎(chǔ)設施與數(shù)據(jù)閉環(huán),致力于成為下一代生成模型的 “物理可信層”。其余作者包括斯坦福大學的 Hong-Xing Yu、Fan Nie、James Zou、Jiajun Wu,麻省理工學院的 Fangqiang Ding,哈佛大學的 Yilun Du,以及 Character AI 的 Weimin Wang 等業(yè)內(nèi)頂尖學者。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
7025mAh冰川電池+新一代1nit護眼屏,OPPO Find X9s Pro參數(shù)曝光

7025mAh冰川電池+新一代1nit護眼屏,OPPO Find X9s Pro參數(shù)曝光

機智萬象
2026-04-18 22:29:53
1998年數(shù)萬華人遭屠殺,中國為何沒出兵?26年后答案讓人沉默

1998年數(shù)萬華人遭屠殺,中國為何沒出兵?26年后答案讓人沉默

哄動一時啊
2026-02-17 22:21:25
大疆創(chuàng)始人汪滔消失十年,如今露面爆內(nèi)情,大疆年賺800億太亮眼

大疆創(chuàng)始人汪滔消失十年,如今露面爆內(nèi)情,大疆年賺800億太亮眼

螃蟹吃瓜攤
2026-04-19 14:50:03
男孩cos弗利薩,媽媽用乳膠漆化妝,洗不掉成“永久皮膚”

男孩cos弗利薩,媽媽用乳膠漆化妝,洗不掉成“永久皮膚”

國創(chuàng)漫話
2026-04-19 15:57:41
機器人半馬最詭異機器人出現(xiàn),網(wǎng)友:半夜送外賣要被嚇死

機器人半馬最詭異機器人出現(xiàn),網(wǎng)友:半夜送外賣要被嚇死

第一財經(jīng)資訊
2026-04-19 11:39:06
牡丹江男子拽住跳樓女友整整五分鐘,力竭松手女方墜亡,法院判了

牡丹江男子拽住跳樓女友整整五分鐘,力竭松手女方墜亡,法院判了

奇思妙想草葉君
2026-04-18 12:15:59
腸道是否長息肉,會有4個提示,上廁所時要記的多看一眼!

腸道是否長息肉,會有4個提示,上廁所時要記的多看一眼!

芹姐說生活
2026-04-19 23:32:30
不陪快船內(nèi)耗了!倫納德下家曝光,首選騎士,哈登圓夢總冠軍有戲

不陪快船內(nèi)耗了!倫納德下家曝光,首選騎士,哈登圓夢總冠軍有戲

體育大朋說
2026-04-19 14:00:03
視頻丨伊朗對解封海峽的態(tài)度為何發(fā)生反轉(zhuǎn) 專家解讀→

視頻丨伊朗對解封海峽的態(tài)度為何發(fā)生反轉(zhuǎn) 專家解讀→

北青網(wǎng)-北京青年報
2026-04-19 07:28:05
猛料!伊朗,內(nèi)訌了

猛料!伊朗,內(nèi)訌了

新浪財經(jīng)
2026-04-20 02:42:09
笑麻!女子吐槽花1年裝修的新中式都說像法庭,我卻笑死在評論區(qū)

笑麻!女子吐槽花1年裝修的新中式都說像法庭,我卻笑死在評論區(qū)

另子維愛讀史
2026-04-17 17:36:52
蒙古大變天,就在所有人以為新總理必反華時,他卻對華正式交底了

蒙古大變天,就在所有人以為新總理必反華時,他卻對華正式交底了

共工之錨
2026-04-04 19:42:32
戴帽子會引發(fā)腦梗?醫(yī)生含淚勸告:70歲以后,這3件事一定要盯緊

戴帽子會引發(fā)腦梗?醫(yī)生含淚勸告:70歲以后,這3件事一定要盯緊

荷蘭豆愛健康
2026-04-19 22:24:42
5月1日醫(yī)療新政來了!全國公立醫(yī)院改革,以后看病不用再擠破頭

5月1日醫(yī)療新政來了!全國公立醫(yī)院改革,以后看病不用再擠破頭

復轉(zhuǎn)這些年
2026-04-16 12:26:39
律師解讀“李雨桐泄露薛之謙手機號、身份證號被行拘”:即使雙方存在私人恩怨,也絕不能通過公開對方敏感個人信息的方式來解決

律師解讀“李雨桐泄露薛之謙手機號、身份證號被行拘”:即使雙方存在私人恩怨,也絕不能通過公開對方敏感個人信息的方式來解決

瀟湘晨報
2026-04-19 18:52:29
老公干40年每次升職都沒他,剛退休大領(lǐng)導來電:你們家到底想怎樣

老公干40年每次升職都沒他,剛退休大領(lǐng)導來電:你們家到底想怎樣

周哥一影視
2026-04-15 13:58:59
鎖定降級!海牛剛看到一絲希望,就收到國際足聯(lián)處罰,保級懸了

鎖定降級!海牛剛看到一絲希望,就收到國際足聯(lián)處罰,保級懸了

體壇風之子
2026-04-19 17:43:12
6月1日交強險調(diào)整!950元固定費取消,好司機保費直接減掉一半

6月1日交強險調(diào)整!950元固定費取消,好司機保費直接減掉一半

復轉(zhuǎn)這些年
2026-04-17 11:59:50
光明“新鮮牧場”擦邊鮮牛奶,網(wǎng)友稱被誤導

光明“新鮮牧場”擦邊鮮牛奶,網(wǎng)友稱被誤導

新浪財經(jīng)
2026-04-19 12:44:38
許家印不是在宴請何小鵬,他是在演示什么叫權(quán)力

許家印不是在宴請何小鵬,他是在演示什么叫權(quán)力

超先聲
2026-04-18 09:48:51
2026-04-20 08:19:00
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
12795文章數(shù) 142632關(guān)注度
往期回顧 全部

科技要聞

50分26秒破人類紀錄!300臺機器人狂飆半馬

頭條要聞

特朗普:美伊20日將舉行談判 再不接受協(xié)議就轟炸伊朗

頭條要聞

特朗普:美伊20日將舉行談判 再不接受協(xié)議就轟炸伊朗

體育要聞

湖人1比0火箭:老詹比烏度卡像教練

娛樂要聞

何潤東漲粉百萬!內(nèi)娛隔空掀桌第一人

財經(jīng)要聞

華誼兄弟,8年虧光85億

汽車要聞

29分鐘大定破萬 極氪8X為什么這么多人買?

態(tài)度原創(chuàng)

旅游
健康
手機
藝術(shù)
本地

旅游要聞

賞花季來臨 一起去全國各地感受春日美好→

干細胞抗衰4大誤區(qū),90%的人都中招

手機要聞

紅米K100系列再次曝光:BOSE揚聲器+超強馬達,沖高不靠風扇!

藝術(shù)要聞

蒲華寫水仙,清健嫵媚

本地新聞

12噸巧克力有難,全網(wǎng)化身超級偵探添亂

無障礙瀏覽 進入關(guān)懷版