无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

武大、北大、南洋理工等研究:AI終于學會了"把整場戲都找出來"

0
分享至


這項由武漢大學、北京大學、南洋理工大學和新加坡國立大學聯合開展的研究,以預印本形式于2026年6月4日發布,論文編號為arXiv:2606.06294,有興趣深入了解的讀者可通過該編號查詢完整論文。

你有沒有遇到過這樣的情況:想在一段長視頻里找到某個人"所有摔倒的片段",或者想把一部紀錄片里"所有出現鳥類飛翔的瞬間"剪輯在一起?如果你曾經試過讓現有的AI工具幫你做這件事,多半會失望而歸——它只能找出"第一個"或者"某一個",而不是"所有的"。這個看似簡單的需求,其實一直是視頻AI領域里一塊難啃的骨頭。

這項研究正是為了解決這個問題而生。研究團隊把這個任務命名為"一對多時間定位"(One-to-Many Temporal Grounding,簡稱OMTG)——就是說,給AI一段視頻和一個文字描述,讓它把視頻里所有符合這個描述的時間段都找出來,而不僅僅是找一個。

為了把這件事做好,研究團隊一共做了三件大事:建立了第一個專門測試這個能力的評測基準,制作了一個包含五萬六千個樣本的訓練數據集,并且設計了一套全新的訓練方法,最終讓他們的模型在這個任務上遠遠超越了谷歌的Gemini 2.5 Pro和字節跳動的Seed-1.8等業界頂尖系統。

一、為什么"找一個"和"找所有"是完全不同的難題

以一道菜的烹飪教學視頻為例來理解這個問題。假設這個視頻里,廚師前后三次把食材放進鍋里翻炒,你想找出所有翻炒的時刻?,F有的大多數AI視頻工具,就像一個只會背課文第一段的學生——它能告訴你"翻炒從第15秒開始、到第28秒結束",但完全忽略了第二次在第45秒、第三次在第72秒的翻炒動作。

這不是偶然的疏忽,而是根本的設計缺陷。過去絕大多數的視頻AI都是按照"一個問題對應一個答案"的邏輯設計的,好比考試只會出單選題,從沒想過要出多選題。研究團隊在測試中發現,Qwen2.5-VL等主流開源模型在這個任務上的得分幾乎為零——它們面對多段答案的問題,完全不知道該怎么辦。

更棘手的是,就連評測這件事本身也不簡單。過去評價視頻AI找時間段是否準確,常用一個叫"時間交并比"(tIoU,你可以理解為"重疊率")的指標:預測的時間段和正確答案重疊越多,分數越高。但這個指標在"找所有段"的任務下會產生嚴重的誤判。

研究團隊用兩個生動的反例來說明這一點。第一個反例:正確答案是視頻里有四段"男人對著攝像頭說話",分別在第3-32秒、第33-55秒、第56-64秒和第65-86秒。但某個AI把這四段合并成了一段,直接輸出"第1-86秒"。按重疊率算,這個答案的得分高達0.94分(滿分1分),看起來相當準確——但實際上AI完全沒有理解這里有四次獨立的說話行為,它的回答從根本上就是錯的。第二個反例是相反的情況:正確答案只有兩段,AI卻輸出了四段,"憑空"多找了兩段不存在的內容——這叫做"幻覺"(hallucination)。這種多找的答案重疊率也可以高達0.9,但同樣是完全錯誤的回答。

由此可見,需要一套全新的評測標準。

二、全新的評測尺子:不只看重疊,還要數清楚有幾段

研究團隊設計了三把新尺子來衡量AI在這個任務上的表現,每把尺子從不同角度打分,合在一起才能給出公正的評價。

第一把尺子叫"時間F1分數"(tF1),它借鑒了信息檢索領域里經典的"精確率-召回率"平衡概念。精確率衡量的是"AI找出來的東西有多少是對的",召回率衡量的是"正確答案里有多少被AI找到了",而F1就是這兩者的綜合平均。打個比方:一個獵人去森林里找松鼠,如果他抓了10只,其中8只是松鼠,精確率就是80%;如果森林里總共有20只松鼠,他找到了其中8只,召回率就是40%;F1就是把這兩個數字綜合起來得到的53%左右。這個指標能同時懲罰"多找了假段"和"漏掉了真段"兩種錯誤。

第二把尺子叫"計數準確率"(C-Acc),顧名思義,就是直接檢查AI預測的段數是否和正確答案的段數完全一致。正確答案是4段,AI也說4段,就得1分;說3段或5段,就得0分。這個指標專門考察AI有沒有"數數的能力",也就是能不能感知到一個事件究竟在視頻里出現了幾次。

第三把尺子是最嚴格的,叫"有效時間F1分數"(EtF1),它是把前兩把尺子疊加在一起:只有當AI預測的段數和正確答案完全一樣時,才開始計算F1分數;只要數量錯了,這道題直接得0分。這就好比一道數學大題,解題過程正確但最終答案寫錯了數字——就算過程再精彩也不能給滿分。這是整個評測體系里最核心的指標,因為它同時要求AI既要數對,又要找準。

有了這三把尺子,研究團隊還建立了一個包含340道手工標注題目的評測基準庫,題目來源涵蓋體育、烹飪、新聞等多個領域,視頻時長從21秒到17分鐘不等,難度分布也很有挑戰性——其中15%的題目正確答案超過6段,專門用來考驗AI的計數極限。

三、從哪里找來五萬六千道練習題

有了評測標準,下一步就是給AI找足夠多、足夠好的練習材料。研究團隊設計了一條五個步驟的自動化數據生產流水線,整個過程像一條精密的工廠生產線,每個環節都有嚴格的質檢程序。

流水線的第一步是"找出哪些事情反復出現"。團隊用一個叫做Qwen3-VL-235B的強力AI模型逐個掃描原始視頻,讓它自動發現視頻里反復出現的有趣事件,并為每個事件生成一個文字描述。比如,它可能在一段駕駛視頻里發現"戴墨鏡的男人在開車"這件事反復出現了三次。

第二步是"給每件事標出時間"。用上一步生成的文字描述作為查詢,讓谷歌的Gemini 2.5 Pro來做初步的時間定位,讓它把每個事件在視頻里所有出現的時刻都標注出來,得到初步的時間標簽。

第三步是最關鍵的質檢環節,叫做"嚴格視覺核查"。團隊把第二步標注的每一段視頻片段都單獨剪出來,再交給Qwen3-VL-235B去核查——它需要獨立判斷這段視頻是否真的符合對應的文字描述。這里有一個非常嚴格的"一票否決"規則:只要一個樣本里的任何一段視頻片段沒有通過核查,整個樣本就會被直接丟棄,哪怕其他段都完全正確也不行。研究團隊通過數學推導證明,這個機制對于包含多段視頻的樣本質量提升效果是指數級的——對于包含四段的樣本,質量提升幅度約是包含兩段樣本的七倍。

第四步是"補漏洞和打磨描述"。經過第三步篩選存活下來的樣本,還需要進行進一步的精煉。團隊再次用Gemini 2.5 Pro來做兩件事:一是檢查有沒有遺漏某些實際發生但沒被標注到的片段(補漏),二是把文字描述改得更精準、更無歧義(打磨描述)。

第五步是"生成密集的畫面旁白"。最后,用Qwen3-VL-235B為每段視頻生成極為詳細的逐秒描述,就像體育解說員在逐幀解說一場比賽。這些詳細的畫面旁白將在后續的訓練過程中起到輔助推理的作用——它們能幫助AI在腦子里先"寫下"看到了什么,再從這些描述中推斷出目標事件的時間范圍。

這條流水線最終產出了56,000個高質量的訓練樣本,其中46,000個用于第一階段的"有監督微調"訓練,剩下10,000個用于第二階段的"強化學習"訓練。

四、兩階段訓練:先打基礎,再用獎懲雕琢

得到了訓練數據之后,研究團隊采用了一種"先教后練"的兩階段訓練策略。

第一階段叫"有監督微調"(SFT),可以理解為給AI上標準課程。研究團隊把所有的訓練樣本喂給AI,讓它學習正確答案是什么樣的。在這個階段,AI學會了一種特殊的思考方式:在給出最終時間答案之前,先生成一段詳細的畫面旁白,描述視頻里每個時間段發生了什么,再從這段文字描述中推斷出目標事件的時間段。這就像偵探在下結論之前,先把現場所有的線索逐一記錄下來,然后再從記錄中推斷嫌疑人。

經過第一階段訓練,基礎模型的EtF1分數從0.21分飆升到34.81分,說明SFT已經讓AI具備了基本的"一對多"定位能力。但研究團隊發現,單靠有監督訓練,AI在精確度和召回率的平衡上仍然不夠穩定——有時候找不全,有時候又找多了。

第二階段叫"強化學習"(RL),可以理解為給AI布置實戰練習并根據成績打分。在這個階段,AI不再只是跟著答案死記硬背,而是通過不斷嘗試、接受評分、調整策略來提升自己。研究團隊設計了一套組合獎勵函數,相當于給AI設立了多個考核維度。

這套組合獎勵由四個部分構成。第一部分是"時間重疊獎勵",直接獎勵AI找到的時間段和正確答案的重疊程度,鼓勵AI把時間邊界定得更準。第二部分是"計數準確獎勵",只有當AI預測的段數和正確答案完全一致時才給滿分,哪怕只差一段也不得分,這個機制專門逼迫AI學會準確感知事件出現的次數。這兩部分合在一起組成"時間獎勵",在實驗中發現,單有第一部分幾乎不能提升計數能力,但加入第二部分后,計數準確率大幅提升。

第三部分是最有創意的"字幕獎勵"。研究團隊引入了另一個AI(Qwen3-30B-A3B)作為評判官,專門評價AI在推理過程中生成的畫面旁白質量。這位評判官會從三個角度打分:一是"覆蓋度",檢查旁白里有沒有提到正確答案中所有的事件;二是"精確度",檢查旁白的時間邊界有沒有對準正確答案;三是"區分度",檢查每段旁白是否包含足夠獨特的信息來幫助區分不同的事件發生。除此之外,評判官還會做一件特別有趣的事:只看AI寫的旁白文字(不看視頻),然后嘗試從這段文字中推斷出目標事件的時間段,如果能推斷出來,就說明這段旁白確實包含了足夠豐富的時間信息。這個機制確保了AI的"推理過程"不是在走過場,而是真正在幫助解決問題。

第四部分是"長度懲罰",專門懲罰AI寫出過于冗長的答案——如果旁白太長,就會從總分里扣分,這樣可以防止AI用廢話填充來干擾核心的時間定位。

經過強化學習階段,EtF1分數從34.81進一步提升到43.65,計數準確率也從44.06%跳升至55.63%。

五、成績單:碾壓頂級商業AI的小模型

最終的成績讓人印象深刻。研究團隊訓練出的模型被命名為OMTG-4B(參數量約40億),在評測基準上的EtF1得分為43.65%。

相比之下,谷歌的Gemini 2.5 Pro得分27.80%,谷歌更新的Gemini 3 Pro得分21.30%,字節跳動的Seed-1.8得分28.04%。OMTG-4B在這個任務上的得分比這些動輒千億參數的頂級商業AI高出了15個百分點以上。

那些連基礎OMTG能力都沒有的開源模型情況更糟:Qwen2.5-VL系列不論3B還是72B參數的版本,計數準確率都是0%,EtF1得分也都是0分。即便是更新版本的Qwen3-VL系列,最大的235B參數版本計數準確率也只有0.31%,EtF1接近零。

研究團隊還專門驗證了一件事:針對"找多段"任務的專項訓練,會不會讓AI在傳統的"找一段"任務上退步?結果令人驚喜——不僅沒有退步,在Charades、ActivityNet、QVHighlights三個經典單段定位基準上,OMTG-4B的表現都超過了基礎模型,其中強化學習階段的提升尤為明顯。這說明學會"把所有出現都找出來",反而讓AI對每個單獨事件的理解也更深刻。

為了進一步驗證泛化能力,團隊還從B站和YouTube收集了60段完全沒有被訓練過的真實視頻,平均時長超過七分鐘。OMTG-4B在這些視頻上的EtF1得分為22.10%,而Gemini 2.5 Pro和Gemini 3 Pro分別只有4.81%和3.29%。面對從未見過的真實世界視頻,差距依然顯著。

六、這套方法的邊界在哪里

當然,這項研究并非無懈可擊。研究團隊自己也坦承,訓練成本較高,在處理極長視頻時面臨擴展性挑戰。他們在附錄中還展示了一個典型的失敗案例:在一段廚房視頻里,正確答案是找出"人移動冰箱門"這個動作在9-12秒和22-24秒各發生一次,共兩段。但OMTG-4B的推理過程雖然正確識別出了兩次不同的冰箱門動作,最終卻只輸出了一段答案(22-24秒),好像在"想清楚了"之后又在最后一步犯了錯。這類"思考對了、嘴上說錯了"的問題,反映出AI在將推理結果轉化為最終輸出時仍然存在不穩定性。Gemini系列則表現出另一種失敗模式:把開冰箱、拿東西、關冰箱這整個過程當成一件連續的事,輸出了一個從第6秒到第24秒的長段,完全沒有意識到"打開門"和"關上門"是兩個獨立的"移動冰箱門"動作。

研究團隊也指出,未來需要解決的問題之一是如何在超長視頻中有效處理這個任務——當視頻時長達到一兩個小時時,如何讓AI既不遺漏任何一次事件出現,又不憑空產生幻覺,依然是一個開放的挑戰。

歸根結底,這項研究做的事情,是把一個看似簡單卻被長期忽視的問題——在視頻里找出某件事的所有出現時刻——認真地當成一個獨立的研究課題來對待,并提供了一整套完整的解決方案:從評測標準到訓練數據,再到訓練方法,形成了閉環。對于普通用戶來說,這意味著未來的視頻搜索工具或許真的能夠回答"幫我找出這部球賽里所有的進球時刻"或"把這段教程視頻里所有老師示范操作的片段剪出來"這樣的需求,而不是只給你一個片段、讓你自己再去慢慢翻。這方向是對的,距離真正好用的產品還需要時間,但邁出這一步本身,已經不容易。

有興趣深入研究技術細節的讀者,可以通過論文編號arXiv:2606.06294查閱完整原文。

Q&A

Q1:一對多時間定位(OMTG)和普通的視頻時間定位有什么區別?

A:普通的視頻時間定位是"一個問題找一個答案",比如找出視頻里"某人第一次出現的時段"。一對多時間定位則要求找出"所有符合條件的時段",比如找出視頻里某人出現的每一次時段,不能遺漏任何一次。這個區別看似簡單,但對AI來說是完全不同的能力挑戰,因為AI不僅要找準每段的時間邊界,還要準確感知到目標事件一共出現了幾次。

Q2:為什么用重疊率(tIoU)評價一對多時間定位會產生誤判?

A:重疊率只關心預測時間段和正確時間段的重疊面積,不關心段的數量是否正確。如果正確答案是4段,AI把它們合并成1段,重疊率可能高達0.9以上,看起來很準確,但實際上AI完全沒有理解事件的分段結構。反過來,AI多預測了幾段不存在的內容,重疊率也可能虛高。因此EtF1這個新指標專門要求AI預測的段數必須和正確答案完全一致,否則直接零分,才能真正衡量AI是否真正理解了視頻內容。

Q3:OMTG模型的字幕獎勵機制是怎么工作的?

A:字幕獎勵的核心思路是用另一個AI來評判"推理過程的質量"。被訓練的AI在給出時間答案之前,需要先生成一段詳細描述視頻內容的文字。評判AI會檢查這段文字是否覆蓋了所有正確答案、時間邊界是否精準、不同事件是否被清晰區分,以及最關鍵的一點:僅憑這段文字(不看視頻),能否推斷出正確的時間范圍。這樣可以確保AI的推理過程是真正有效的,而不是在走形式。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
巴拉圭“胸神”16年后重返世界杯,靠火辣身材爆紅,愿為贏球裸奔

巴拉圭“胸神”16年后重返世界杯,靠火辣身材爆紅,愿為贏球裸奔

深析古今
2026-06-14 15:32:00
美國頂級戰略家一針見血,中國的這場危機不解決,未來后果很嚴重

美國頂級戰略家一針見血,中國的這場危機不解決,未來后果很嚴重

荷蘭豆愛健康
2026-06-14 13:42:59
伊朗:霍爾木茲海峽,全面關閉!任何通行船只都將被“果斷處置”!美聯儲新掌門首秀在即,6月利率不變概率飆至98.5%!

伊朗:霍爾木茲海峽,全面關閉!任何通行船只都將被“果斷處置”!美聯儲新掌門首秀在即,6月利率不變概率飆至98.5%!

金融界
2026-06-14 13:43:17
不出意外,下半年開始,寬帶費、有線電視費將迎來行業新一輪洗牌

不出意外,下半年開始,寬帶費、有線電視費將迎來行業新一輪洗牌

民生格物
2026-06-14 13:14:05
總決賽砍90+30+10歷史唯一!馬刺丟冠,唯獨他一人可以昂首離開

總決賽砍90+30+10歷史唯一!馬刺丟冠,唯獨他一人可以昂首離開

你的籃球頻道
2026-06-14 12:44:04
保時捷撞上兩車后,火速逃離現場!北京警方:姐弟兩人,一個刑拘一個拘留

保時捷撞上兩車后,火速逃離現場!北京警方:姐弟兩人,一個刑拘一個拘留

都市快報橙柿互動
2026-06-14 00:39:15
12000億光模塊巨頭,回應業績暴雷傳聞

12000億光模塊巨頭,回應業績暴雷傳聞

21世紀經濟報道
2026-06-14 14:12:59
中紀委怒批:公務員也是人,正常生活不應問責處理!

中紀委怒批:公務員也是人,正常生活不應問責處理!

細說職場
2026-06-13 12:51:02
爭議拉滿!迪麗熱巴手機殼用詞露骨惹網友吐槽

爭議拉滿!迪麗熱巴手機殼用詞露骨惹網友吐槽

暖心萌阿菇涼
2026-06-14 14:57:11
世界杯官方社媒:蘇格蘭1998年以來首次進球

世界杯官方社媒:蘇格蘭1998年以來首次進球

懂球帝
2026-06-14 10:31:36
包工頭退出舞臺!住建委:取消勞務分包!全面實現自有工人施工!國資委:建筑央企建立自有工人隊伍

包工頭退出舞臺!住建委:取消勞務分包!全面實現自有工人施工!國資委:建筑央企建立自有工人隊伍

新浪財經
2026-06-14 07:41:37
45歲安以軒復出,好友透露其近況:沒有工作和任何收入,靠以往積蓄投資理財,獨自照顧兩個孩子

45歲安以軒復出,好友透露其近況:沒有工作和任何收入,靠以往積蓄投資理財,獨自照顧兩個孩子

無比
2026-06-13 20:42:09
美國隊長又帥回來了,一次失敗的植發,毀了他兩年形象

美國隊長又帥回來了,一次失敗的植發,毀了他兩年形象

替補席懂王
2026-06-14 11:43:01
崩潰!6萬美術集訓班逼哭單親媽媽,美術老師瘋狂對女兒話術洗腦

崩潰!6萬美術集訓班逼哭單親媽媽,美術老師瘋狂對女兒話術洗腦

火山詩話
2026-06-14 05:11:04
中央定調:事業單位這三類人員不允許彈性延遲退休,到齡就得退休

中央定調:事業單位這三類人員不允許彈性延遲退休,到齡就得退休

職場資深秘書
2026-06-14 09:25:33
日媒:韓國決定申請加入CPTPP

日媒:韓國決定申請加入CPTPP

參考消息
2026-06-13 12:18:28
美聯儲,重磅來襲!加息,傳來大消息!

美聯儲,重磅來襲!加息,傳來大消息!

證券時報
2026-06-14 16:50:07
雷軍犯天條了,竟然遭到整個中國家電行業集體圍剿。

雷軍犯天條了,竟然遭到整個中國家電行業集體圍剿。

流蘇晚晴
2026-06-12 13:02:17
張雪奪第六冠,日媒集體破防:在三缸機領域,中國已經反超了日本

張雪奪第六冠,日媒集體破防:在三缸機領域,中國已經反超了日本

林子說事
2026-06-14 14:36:43
男童失蹤96小時!救援隊曝致命疑點,家屬哭喊:最怕的事要來了

男童失蹤96小時!救援隊曝致命疑點,家屬哭喊:最怕的事要來了

小陸搞笑日常
2026-06-14 15:13:09
2026-06-14 19:00:49
科技行者 incentive-icons
科技行者
科技正在如何變革商業世界
8771文章數 565關注度
往期回顧 全部

科技要聞

Anthropic最強模型被禁,傳亞馬遜通風報信

頭條要聞

村民砍掉"孤獨樹":砍樹前一天跟紅裙女子發生沖突

頭條要聞

村民砍掉"孤獨樹":砍樹前一天跟紅裙女子發生沖突

體育要聞

8年8隊奪冠,鄧肯那句話,現在還給了馬刺

娛樂要聞

鄧超攜子觀戰NBA,等等帥氣十足

財經要聞

金價跌至900元關口,大媽又來抄底了!

汽車要聞

綜合續航超1600km/零百加速4秒級 2027款星途ES預售18.99萬起

態度原創

本地
旅游
時尚
手機
公開課

本地新聞

AK劉彰邂逅河北南大港濕地

旅游要聞

重慶長壽洪湖鎮首屆“湖畔果香”采摘暢玩節甜蜜啟幕

伊姐周六熱推:電視劇《南部檔案》;電視劇《意外調查組》......

手機要聞

消息稱小米MIX Fold 5闊折疊手機首發澎湃OS4

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版