哈嘍,大家好,我是小方,今天,我們主要來(lái)看看最近AI學(xué)術(shù)圈里一個(gè)炸鍋的消息——視頻理解領(lǐng)域的“高考卷”剛剛迎來(lái)了史詩(shī)級(jí)更新。
![]()
![]()
![]()
MeViS的第一代就硬核地糾正了這一點(diǎn),它立下三條鐵律:第一,語(yǔ)言描述必須圍繞“運(yùn)動(dòng)”,比如“飛走的鳥”、“滾過(guò)來(lái)的球”,禁止用容易識(shí)別的靜態(tài)特征作弊;第二,場(chǎng)景必須復(fù)雜,一群外觀相似的物體擠在一起;第三,視頻要足夠長(zhǎng),平均13秒,目標(biāo)持續(xù)近11秒,考驗(yàn)?zāi)P偷摹伴L(zhǎng)時(shí)記憶力”,這樣一來(lái),模型被迫必須認(rèn)真“看視頻”,分析動(dòng)態(tài),才能找到目標(biāo),正是這種高難度,讓MeViSv1吸引了全球近千支隊(duì)伍挑戰(zhàn),成為了領(lǐng)域內(nèi)的標(biāo)桿。
![]()
如果說(shuō)MeViSv1是出了道難題,那MeViSv2簡(jiǎn)直就是構(gòu)建了一個(gè)貼近真實(shí)的“復(fù)雜世界”,它的升級(jí)主要體現(xiàn)在三個(gè)方面,個(gè)個(gè)直指當(dāng)前AI的軟肋。
![]()
![]()
第二,任務(wù)拓展:一個(gè)數(shù)據(jù)集覆蓋四大核心戰(zhàn)場(chǎng)。MeViSv2一次性支持四大任務(wù):指向性視頻分割(RVOS)、音頻引導(dǎo)分割(AVOS)、指向性多目標(biāo)跟蹤(RMOT)和運(yùn)動(dòng)描述生成(RMEG)。
![]()
第三,規(guī)模與機(jī)制升維:專治AI“幻覺”和“邏輯短路”。除了數(shù)量增長(zhǎng),MeViSv2新增了兩類“殺手級(jí)”語(yǔ)句。一類是“運(yùn)動(dòng)推理語(yǔ)句”,另一類是“無(wú)目標(biāo)語(yǔ)句”,描述一個(gè)視頻中根本不存在的動(dòng)作,專門用來(lái)整治那些不懂裝懂、強(qiáng)行輸出一個(gè)目標(biāo)的AI“幻覺”問(wèn)題,這要求AI必須具備邏輯判斷和說(shuō)“不”的能力。
![]()
面對(duì)如此高難度的數(shù)據(jù)集,原來(lái)的模型明顯不夠用了。研究團(tuán)隊(duì)也同步提出了一個(gè)新的基線模型LMPM++,這個(gè)模型的思路很巧妙,它不再讓AI一幀幀硬看視頻,而是先把視頻里可能的物體都找出來(lái),變成一組簡(jiǎn)潔的“對(duì)象快照”,然后喂給大語(yǔ)言模型(LLM)去分析,LLM擅長(zhǎng)邏輯推理,可以跨時(shí)間線把動(dòng)作的前因后果串起來(lái)。
![]()
![]()
此外,它的發(fā)布正與國(guó)內(nèi)多模態(tài)大模型的研發(fā)熱潮形成共振,越來(lái)越多的科技公司意識(shí)到,下一階段AI的競(jìng)爭(zhēng),不僅是“看圖說(shuō)話”,更是“看動(dòng)態(tài)視頻并深度理解”。
![]()
MeViSv2提供的海量、高質(zhì)量、強(qiáng)邏輯標(biāo)注的數(shù)據(jù),將成為訓(xùn)練和檢驗(yàn)這些大模型視頻理解能力的核心資源,它從學(xué)術(shù)界拋出的一塊“試金石”,很可能在未來(lái)一兩年內(nèi),催生出真正能理解復(fù)雜動(dòng)態(tài)視覺世界的新一代AI應(yīng)用。
![]()
MeViSv2的發(fā)布,無(wú)疑為多模態(tài)視頻理解領(lǐng)域樹立了一座新的燈塔,它告訴我們,真正的視頻智能,必須能看懂動(dòng)態(tài)、理解因果、抵抗干擾。
![]()
前路雖難,但每一次基準(zhǔn)的刷新,都是向著讓AI更懂我們所在世界邁出的堅(jiān)實(shí)一步,這場(chǎng)關(guān)于“動(dòng)態(tài)視界”的競(jìng)賽,剛剛進(jìn)入最精彩的章節(jié)。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.