網易首頁 > 網易號 > 正文 申請入駐

AI像電影人一樣「看」視頻,8B小模型反超GPT-5與Gemini-3.1-Pro

0
分享至



團隊一作林之秋(Zhiqiu Lin)是卡內基梅隆大學(CMU)機器人研究所的博士,研究方向涵蓋視覺 - 語言大模型的評估、數據與生成;前作 CameraBench 曾獲 NeurIPS’25 Spotlight(Top 3%)。二作 Chancharik Mitra 即將前往麻省理工學院(MIT)攻讀博士,專注于多模態大模型。本工作由 CMU 與哈佛大學合作完成。

先來做一個小實驗:把希區柯克變焦(dolly zoom)、拉焦(rack focus)、荷蘭角(Dutch angle)或變速剪輯(speed ramp)這幾個詞,輸入到大部分主流視頻生成器里。結果幾乎都一樣,你只會得到一個普通的推鏡,或一段平庸的慢動作。

原因很簡單:這些技法對應著電影人之間通用的一套「鏡頭語言」,而當前的視覺 - 語言大模型幾乎聽不懂。



視頻鏈接:https://mp.weixin.qq.com/s/SCk63tSurxIeuaVNxqgSkA

近日,由 CMU 聯合哈佛大學組成的研究團隊推出了CHAI(Critique-based Human-AI Oversight),一整套從「標注體系」「可擴展監督」到「后訓練方法」再到「視頻生成」的完整方案。該工作已被CVPR 2026 接收為 Highlight 論文(Top 3%)。



  • 論文鏈接:https://arxiv.org/abs/2604.21718
  • 代碼:https://github.com/chancharikmitra/CHAI



圖 1:CHAI 的整體方案。上半(紅)是過往視頻字幕工作的三大短板:缺乏統一規范、僅用人類或模型標注、僅憑輸出對比做后訓練;下半(藍)是 CHAI 的對應方案:精準的結構化規范、可擴展的人機監督、基于顯式偏好與批改的后訓練,最終反哺出更專業的視頻生成。

概述:CHAI 的四塊拼圖

CHAI 不是一個單獨的模型,而是一整套面向精準視頻語言的落地方案,由四塊拼圖組成:

  1. 標注體系(Specification):覆蓋主體、場景、動作、空間構圖和移動、鏡頭參數和運動 5 大維度,由 200+ 個與職業攝影師共同設計的視覺基元支撐。
  2. 可擴展監督(Scalable Oversight):讓 LLM 起草字幕,由人類專家給出批改(critique),指出錯誤并提供修正,再交由 AI 改寫。這一過程讓 AI 負責寫作,人類專注糾錯,各司其長。
  3. 后訓練方法(Post-Training):基于(初稿,批改,終稿),同時訓練字幕、獎勵模型與批改模型。團隊訓練的 Qwen3-VL-8B 開源小模型得以反超閉源的 Gemini-3.1-Pro 與 GPT-5。
  4. 更好的視頻生成(Better Generation):用后訓練好的模型重新對專業視頻打字幕,再微調 Wan2.2,使其能聽懂長達 400 英文詞的電影級指令,精準生成希區柯克變焦、拉焦、荷蘭角、變速、等距視角等專業攝影技法。

一、標注體系:把電影人的鏡頭語言寫下來

過去的視頻文本數據集(如 ActivityNet、MSR-VTT、PerceptionLM)由于缺乏字幕規范,常見問題包括:混淆 dolly-in(推軌)與 zoom-in(變焦),遺漏關鍵相機與變焦細節,用「氛圍感足」「讓人熱血沸騰」等主觀描述代替客觀視覺內容。

電影人以及更廣泛的視頻創作者則沒有這個問題。他們用拉焦(rack focus)、荷蘭角(Dutch angle)、中景(medium full shot)這樣的專業術語在片場與團隊實現了精準的溝通、協作。CHAI 正是把這套影視行業內的通用詞匯整理成了一套清晰的標注體系。



圖 2:與 100+ 位職業視頻創作者歷時一年共建的標注體系。左(紅):過往數據集的三類典型問題,包括術語含混、信息缺失、主觀描述;右(藍):CHAI 的結構化標注體系及配套的標注規則與教程。

CHAI 的字幕標注覆蓋 5 大維度:

  • 主體(Subject):類型、外觀、姿態、主體關系等
  • ? 場景(Scene):視角、疊加元素、環境、時間等
  • 動作(Motion):動作行為、人物互動、群體動態等
  • 空間構圖和移動(Spatial):景別、畫面位置、縱深、空間運動等
  • 鏡頭參數和運動(Camera):機位高度、角度、焦距、聚焦、穩定度、運動軌跡等



圖 3:CHAI 的視頻語言分類體系:各一級維度進一步細分為多個子維度,并由 200 余個視覺與運動基元支撐,實現對視頻內容的精細化表達。

二、可擴展監督:AI 起草,人類批改

規范告訴你「描述什么」,但「誰來寫」仍是個問題。

人類親手寫的字幕常見問題有:錯別字、語法錯誤、事件順序混亂。模型寫的字幕:行文流暢,卻經常憑空捏造畫面里沒有的物體和動作(模型幻覺)。

CHAI 的核心思路是可擴展監督(Scalable Oversight):讓模型負責寫作,讓人類專注發現字幕中的視覺與動作錯誤,各司其長。

CHAI 的標注流程由此被重新設計為「AI— 專家 —AI」的三段式協作:模型先按既定規范生成一份覆蓋全面的「pre-caption」初稿,專家隨后在初稿基礎上指出錯誤并提出修改建議(critique),無需從零撰寫字幕;模型再依據專家的批改意見進行改寫,生成準確的「post-caption」終稿。

同時,CHAI 引入同行評審獎勵機制:標注越準確,獎勵越高;審核糾錯同樣有獎勵。這一舉措顯著提升了標注的質量。



圖 4:左(紅):傳統純人工或純模型標注的三類問題,包括視覺幻覺、行文糟糕、細節不準;右(藍):CHAI 的可擴展監督框架。AI 基于基元生成初稿(pre-caption),人類用批改(critique)把幻覺與細節錯誤指出來,再由 AI 生成終稿(post-caption);標注員與審核員之間則通過同行評審獎勵機制相互制衡。

把標注員工作重心從「寫作」轉向「校對」,他們對單個視頻的認知負擔得以顯著降低,卻能產出準確度更高的 200–400 詞長字幕。

三、后訓練效果:8B 小模型反超 GPT-5 與 Gemini-3.1-Pro

CHAI 流水線產出的不只是字幕,而是(pre-caption, critique, post-caption)三元組:一份數據,同時可以訓練三種模型能力,包括字幕生成、獎勵建模、批改生成。

CHAI 團隊發現:批改的質量,決定了模型能力



圖 5:一條好的批改必須同時滿足三個屬性:準確(precision)、完整(recall)、有建設性(constructive)。CHAI 的標注機制通過強制標注員撰寫高質量批改,直接指導模型改寫,自然實現了這三點。

為了證明這一點,團隊做了一組對比實驗:分別削弱批改的某一項屬性,觀察對下游任務的影響。



研究得出三項關鍵結論。其一,在模型訓練時加入獎勵(reward)和批改(critique)的數據能夠顯著提升 SFT 與 RL 的效果,僅 8B 參數的 Qwen3-VL 經過后訓練,便在多項關鍵評測上反超閉源的 Gemini-3.1-Pro 與 GPT-5。其二,批改質量是真正的瓶頸所在,準確性、完整性、和建設性三者缺一不可;然而過往工作(如 OpenAI GDC、MM-RLHF)所收集的批改樣本中,超過 50% 屬于非建設性反饋。其三,推理時擴展(Inference-Time Scaling)同樣適用于這一框架,以同一份獎勵模型進行 best-of-N 選擇,無需新增數據,性能即可持續提升。

四、更準的理解 → 更好的生成

視頻字幕做得更準之后,最直接的下游應用就是視頻生成。

研究團隊用后訓練好的字幕模型,重新對大規模專業視頻(電影、廣告、MV、游戲畫面)進行打標,再以這些數據微調 Wan2.2。結果:模型可以聽懂長達 400 詞的電影級指令,對那些開源生成器(Wan2.2)普遍翻車的技法實現精準生成。





圖 6:在重新打標的專業視頻上微調后,Wan2.2 對詳細的電影級指令顯著更忠實,可以精準執行希區柯克變焦(上)、保持 2.5D 等距視角(下)等過往視頻模型頻繁失敗的復雜技法。

下面是更多團隊展示的「電影技法」生成樣例:



荷蘭角(Dutch Angle)畫面地平線傾斜

視頻鏈接:https://mp.weixin.qq.com/s/SCk63tSurxIeuaVNxqgSkA



拉焦(Rack Focus)焦點在不同平面切換

視頻鏈接:https://mp.weixin.qq.com/s/SCk63tSurxIeuaVNxqgSkA

為什么不用眾包?為什么過去的標注總是失?。?/strong>

在請來職業創作者之前,團隊也嘗試過眾包工人。結果?眾包標注員仍然分不清 推軌(dolly-in)與 變焦 (zoom-in)、把全景鏡頭(full shot)叫成 特寫(close-up shot)、把魚眼鏡頭(fisheye lens)造成的建筑物變形描述成「圓形的建筑」。



圖 7:眾包標注員描述常見鏡頭技法時的典型錯誤。把鳥瞰鏡頭叫「鳥瞰視圖」、把魚眼鏡頭看作「圓形建筑」、把推焦鏡頭描述為「推軌鏡頭」等,反映出他們缺乏對鏡頭語言的基本視覺詞匯。

為進一步驗證這一判斷,團隊系統評估了 2016 至 2025 年間發布的 8 個公開視頻 - 文本數據集(包括 MSR-VTT、PerceptionLM、Dream1K 等),結果指向兩類反復出現的問題。其一源于標注規則缺失,術語含混、關鍵信息缺失;其二源于監督不足,導致行文混亂與細節失真。無論擴大模型規模還是增加數據體量,都難以解決,根本問題在于流程,必須從數據標注源頭入手。這一發現直接促成了 CHAI 團隊和 100+ 位職業視頻創作者的長期合作。

寫在最后:開源生態

為了支持后續研究與產業落地,CHAI 團隊完整開源了:標注體系、培訓教材、標注平臺、質控流程、數據、代碼與模型。

項目主頁:https://linzhiqiu.github.io/papers/chai/

CHAI 是該 CMU 團隊「精準視頻語言」研究計劃中的一環。同期推進的還有兩項工作:CameraBench(NeurIPS'25 Spotlight,入選率前 3%)作為相機運動理解的前作基準,包含約 3000 個專家標注視頻、一套完整的運動基元分類體系,以及對 SfM 與 VLM 方法的系統性評測;Moodio 與 CameraBench-Pro(2026 年 5 月發布)則在此基礎上更進一步,基于 225 個電影級基元與 150 萬余條專業標注,面向專業視頻制作場景打造 AI 協作工具。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
俄羅斯公布勝利日閱兵日程,再次呼吁各國及時從基輔撤離人員

俄羅斯公布勝利日閱兵日程,再次呼吁各國及時從基輔撤離人員

上觀新聞
2026-05-08 13:44:05
消失的天才:從馬刺新核到無球可打,他只用了180天

消失的天才:從馬刺新核到無球可打,他只用了180天

體壇熱評
2026-05-07 17:02:05
全網吵炸!北京女大學生青海自駕游,幸存女孩一審被判4年,冤嗎

全網吵炸!北京女大學生青海自駕游,幸存女孩一審被判4年,冤嗎

一盅情懷
2026-05-08 09:07:58
“因惡意退貨太多整條街道被商家拉黑”!商家客服直言:“白嫖的太多”發122個包裹退94個;快遞員曾表示該街道從事直播行業的住戶較多

“因惡意退貨太多整條街道被商家拉黑”!商家客服直言:“白嫖的太多”發122個包裹退94個;快遞員曾表示該街道從事直播行業的住戶較多

每日經濟新聞
2026-05-08 16:57:51
特朗普對世界杯高昂票價感到驚訝:老實說,我不會花1000美元(約人民幣6800元)去看美國對巴拉圭的首場比賽

特朗普對世界杯高昂票價感到驚訝:老實說,我不會花1000美元(約人民幣6800元)去看美國對巴拉圭的首場比賽

每日經濟新聞
2026-05-08 16:57:31
看完心酸!網貸逾期人數持續暴漲,男人欠債和女人欠債根本不一樣

看完心酸!網貸逾期人數持續暴漲,男人欠債和女人欠債根本不一樣

記錄生活日常阿蜴
2026-05-08 14:06:50
郵輪暴發漢坦病毒,中國乘客發聲:在陽性乘客登船前一天下船,離開已37天,沒出現任何身體不適;專家稱此次毒株可人傳人

郵輪暴發漢坦病毒,中國乘客發聲:在陽性乘客登船前一天下船,離開已37天,沒出現任何身體不適;專家稱此次毒株可人傳人

大風新聞
2026-05-08 11:17:05
藝人黃子佼被判刑

藝人黃子佼被判刑

第一財經資訊
2026-05-07 21:01:47
大喜之日新娘當眾不給面子!執意不肯配合拜堂,場面尷尬到極致

大喜之日新娘當眾不給面子!執意不肯配合拜堂,場面尷尬到極致

搗蛋窩
2026-05-08 09:25:32
罵中國最兇,過中國領空最勤,新法落地后日本航司機票先漲兩千四

罵中國最兇,過中國領空最勤,新法落地后日本航司機票先漲兩千四

回京歷史夢
2026-05-07 12:35:20
林徽因1928年的打扮,放到今天也不落伍,很有氣質。

林徽因1928年的打扮,放到今天也不落伍,很有氣質。

TVB的四小花
2026-05-08 03:08:56
故意提供安全生產虛假情況 華魯實業第一加油站被罰1.1萬元

故意提供安全生產虛假情況 華魯實業第一加油站被罰1.1萬元

信網
2026-05-08 17:11:06
1800萬存銀行被員工“轉走炒股”,最新進展:吉林農商銀行全額支付儲戶1000萬元存款本金和利息,另一儲戶800萬元仍無明確進展

1800萬存銀行被員工“轉走炒股”,最新進展:吉林農商銀行全額支付儲戶1000萬元存款本金和利息,另一儲戶800萬元仍無明確進展

洪觀新聞
2026-05-07 14:33:26
“典型的占便宜沒夠!”家長不讓小學女兒去春游,三句話暴露心機

“典型的占便宜沒夠!”家長不讓小學女兒去春游,三句話暴露心機

妍妍教育日記
2026-05-07 12:40:05
騎士0-2!阿特金森替哈登攬責,米切爾看清現實,莫布里難堪大任

騎士0-2!阿特金森替哈登攬責,米切爾看清現實,莫布里難堪大任

魚崖大話籃球
2026-05-08 11:25:24
要打奉陪到底,中方當面插旗,沉默72小時后,日本在境外發射導彈

要打奉陪到底,中方當面插旗,沉默72小時后,日本在境外發射導彈

影孖看世界
2026-05-07 15:58:50
9季度虧掉207億,李東生還不認輸

9季度虧掉207億,李東生還不認輸

中國企業家雜志
2026-05-08 10:16:42
月銷只剩5100輛,廣汽本田還有存在的必要嗎?

月銷只剩5100輛,廣汽本田還有存在的必要嗎?

BusinessCar
2026-05-08 12:05:09
范元甄:與江青齊名的延安四美之一,嫁主席秘書,卻輸掉了一生

范元甄:與江青齊名的延安四美之一,嫁主席秘書,卻輸掉了一生

干史人
2026-03-05 21:06:35
中國移動董事長陳忠岳:將開放萬億級詞元(Token)服務體驗包

中國移動董事長陳忠岳:將開放萬億級詞元(Token)服務體驗包

毛啟盈Ai圈
2026-05-08 11:44:34
2026-05-08 17:24:49
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
12946文章數 142646關注度
往期回顧 全部

科技要聞

SK海力士平均獎金600萬 工服成相親神器

頭條要聞

沙特翻臉突然對美軍關閉領空 特朗普連忙打電話都沒用

頭條要聞

沙特翻臉突然對美軍關閉領空 特朗普連忙打電話都沒用

體育要聞

他把首勝讓給隊友,然后用一年時間還清賬單

娛樂要聞

古天樂被曝隱婚生子,新娘竟是她

財經要聞

一覺醒來,美伊又打起來了

汽車要聞

智能雙艙大五座SUV 樂道L80將于5月15日正式上市

態度原創

家居
本地
健康
公開課
軍事航空

家居要聞

流動的尺度 打破家的形式主義

本地新聞

用蘇繡的方式,打開江西婺源

干細胞治燒燙傷能用了么?

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

伊朗:最高領袖穆杰塔巴全面掌控局勢

無障礙瀏覽 進入關懷版