網易首頁 > 網易號 > 正文申請入駐

上海人工智能實驗室與復旦大學聯手：讓AI視頻生成器"反向思考"

2026-04-21 21:42:57　來源: 科技行者

天津舉報

分享至

這項由上海人工智能實驗室（Shanghai Academy of AI for Science）與復旦大學聯合主導、新加坡科技設計大學參與的研究，以預印本形式于2026年4月9日發布在arXiv平臺，論文編號為arXiv:2604.08121。有興趣深入了解的讀者可通過該編號在arXiv檢索到完整論文。

研究背景：一場代價高昂的"文理之爭"

人類在成長過程中，往往先學會用眼睛感知世界，才慢慢發展出用語言描述所見之物的能力。一個嬰兒在開口說話之前，已經能辨認媽媽的臉、貓咪的輪廓和蘋果的顏色。這種"先看后說"的發育順序暗示了一件有趣的事：視覺感知能力在某種程度上先于語言表達能力存在。

AI研究者們在構建"能看懂視頻又能生成視頻"的智能系統時，卻走上了一條截然相反的路。過去幾年里，主流做法是先建一個很強大的"語言模型"——也就是能讀懂文字、回答問題的AI大腦——然后費盡心思地往里面塞進"生成視頻"的能力。這就好比先培養了一個博學的圖書館員，再逼他去學拍電影，過程費時費力不說，拍出來的電影質量也未必好。

問題的根源在于一個巨大的計算量鴻溝。生成一段視頻所需要的計算量，遠遠超過理解一段文字所需的計算量。以目前最先進的圖像生成模型為例，生成一張高清圖片需要處理約4096個"計算單元"，而且要反復運算50次。再把這個規模放大到視頻，一段僅僅5秒的720P視頻就需要處理將近74000個計算單元，同樣要重復運算40到50次。換句話說，生成視頻的計算量輕松突破數百萬，而生成一段相同長度的文字描述，所需計算量可能只有前者的幾千分之一。

正是這個懸殊的代價差異，催生了這項研究的核心問題：既然視頻生成本來就這么"貴"，為什么不直接從一個已經會生成視頻的AI出發，再教會它理解視頻呢？畢竟，能夠生成一段視頻的AI，必然已經深刻理解了文字和畫面之間的對應關系——否則它根本沒辦法根據文字描述畫出對應的畫面。

Uni-ViGU（統一視頻生成與理解框架）就是這一思路的具體實現。它的名字本身就是一份宣言：Unified Video Generation and Understanding，統一的視頻生成與理解。

一、視頻生成器為什么天然就"懂"視頻？

在深入了解Uni-ViGU的設計之前，有必要先弄清楚一個關鍵問題：為什么一個"只會生成視頻"的AI，會被認為已經對視頻有了深入理解？

現代視頻生成AI的核心工作方式，是把一堆隨機噪點（可以理解為一張布滿雪花的電視屏幕）逐步"雕刻"成一段清晰的視頻。這個過程叫做"擴散"，整個模型則叫做擴散模型。具體來說，這類AI會先把輸入的視頻壓縮成一種更緊湊的"隱藏表示"（類似于把一本厚厚的書提煉成一頁摘要），然后在這個壓縮的空間里學習如何從噪點還原出有意義的畫面。

這個過程中，AI需要接受文字提示作為引導——你告訴它"一只貓坐在陽光下的窗臺上"，它就要生成對應的畫面。要做到這一點，AI必須深刻理解"貓""陽光""窗臺"這些概念在視覺上的表現形式，以及它們之間的空間和光線關系。這意味著，一個訓練成熟的視頻生成AI，其內部已經隱含了大量關于"文字-視頻"對應關系的知識。

Uni-ViGU的研究團隊正是看到了這一點。他們的核心判斷是：如果AI已經學會了"從文字到視頻"的映射，那么"從視頻到文字"的映射（也就是視頻理解）本質上是同一個映射的反向過程。利用這種對稱性，可以大大降低讓AI學會看懂視頻的難度。

研究團隊選擇的基礎模型是WAN2.1，這是目前業界最先進且高效的文字-視頻生成模型之一。WAN2.1的內部架構包含三個主要部分：一個叫做VAE的視頻壓縮器（負責把視頻壓縮成緊湊的數字表示，以及把數字表示還原成視頻），一個文字編碼器（負責把文字轉換成AI能理解的數字形式），以及一個叫做DiT的擴散Transformer（負責實際的"去噪"生成過程，是整個系統的大腦）。

在這個架構基礎上，Uni-ViGU要做的事情可以比作給一位技藝精湛的導演加裝了一套"看片寫劇本"的新技能——原有的拍攝能力完好保留，新增的能力則建立在拍攝經驗的基礎之上。

二、解決"兩種語言"的沖突：統一流匹配方法

現在出現了一個棘手的技術問題。視頻生成和文字生成在本質上是兩種截然不同的過程，把它們強行合并在一個框架里，就像試圖讓一臺打字機同時承擔鋼琴的工作——鍵盤長得有點像，但運作原理完全不同。

視頻的世界是"連續的"——顏色、亮度、運動可以取任意中間值，視頻中每一幀的每一個像素都是一個連續變化的數值。文字的世界則是"離散的"——詞語就是詞語，"貓"和"狗"之間沒有半步的中間狀態，每個詞要么存在要么不存在，不能取0.5個詞這種中間值。

傳統的擴散模型擅長處理連續數據，而傳統的文字生成則依賴"從左到右，一個字一個字預測下一個字"的自回歸方式（就像我們寫文章時的正常習慣），兩者在數學上是互不兼容的。

研究團隊提出了一個叫做"統一流匹配"的方法來解決這個問題。可以把它理解為設計了一套雙軌制的變形規則：視頻的"變形"走一條連續的軌道（從隨機噪點平滑地變成清晰視頻），文字的"變形"走另一條離散的軌道（從隨機亂碼平滑地聚攏成有意義的詞語），兩條軌道在同一個系統里同時運作，互相協同。

具體來說，對于視頻，模型學習的是如何從一團隨機噪點（數學上叫高斯噪聲）出發，沿著一條直線路徑"流動"到真實視頻的數字表示。這條路徑上的每一步，都是噪點和真實視頻按比例混合的結果——就像調色板上，純白和純紅各占多少比例，中間就是對應比例的粉紅色。

對于文字，處理方式稍有不同，但思路相似。研究團隊把詞匯表里的每一個詞都先轉換成一個連續的數字向量（可以理解為詞語的"數字指紋"），然后同樣讓模型學習從隨機噪點"流動"到對應詞語的數字指紋。當推理完成后，最終得到的數字向量再通過查找最相似詞匯的方式，還原成具體的文字。

最關鍵的設計在于：視頻的流動進度和文字的流動進度是相互獨立的。在一次訓練中，視頻可能已經80%清晰了，而文字只有20%成形；或者反過來。這種獨立性讓模型必須學會在各種信息不完整的組合下，都能正確理解視頻和文字之間的對應關系，從而習得更魯棒的跨模態理解能力。

在推理（實際使用）時，這套系統可以靈活切換工作模式。如果要做視頻理解（看懂視頻并生成描述），就把視頻固定為已知的清晰狀態，讓文字從噪點開始慢慢"還原"出來。如果要做視頻生成，就把文字固定為已知的提示詞，讓視頻從噪點開始生成。如果要同時生成視頻和配套描述文字，就讓兩者都從噪點出發，同步演化，互相引導。

三、聰明地改造大腦：模態驅動的專家混合架構

有了處理兩種模態的數學框架，下一個問題是：在AI的神經網絡內部，應該怎么修改它的"大腦結構"，才能在不破壞原有視頻生成能力的前提下，添加文字生成能力？

研究團隊對WAN2.1的內部結構進行了一番解剖分析。視頻生成AI的大腦（DiT，擴散Transformer）由許多層神經網絡堆疊而成，每一層包含三個主要組件：自注意力層、交叉注意力層和前饋網絡層（FFN）。

自注意力層的功能類似于讓視頻中的每一個區域都"環顧四周"，觀察其他區域的情況，從而理解整個場景的空間和時間關系。交叉注意力層則負責讓視頻內容與文字提示相互"對話"——它是AI理解"畫面要符合文字描述"的核心機制。前饋網絡層則是獨立處理每一個位置的信息，可以理解為對每個局部特征進行深度加工和提煉，其中儲存的主要是特定模態（視頻）的專有知識。

這種功能分工揭示了一個關鍵洞察：跨模態的對齊知識（也就是"這個詞對應這種畫面"的知識）主要儲存在注意力層里，因為注意力層天然擅長處理不同位置、不同實體之間的關系。而具體模態的生成技巧（視頻要怎么畫、文字要怎么寫）則主要由前饋網絡層負責。

基于這個判斷，研究團隊采取了一個外科手術般精準的改造方案：保留所有注意力層不動，只為每個前饋網絡層添加一個新的"文字專家"分支，而原有的"視頻專家"前饋網絡權重完全保留。

改造后的架構可以用一個工作室的比喻來理解：所有人（視頻和文字的信息）共用同一個開放式會議室（共享的注意力層），在這里自由交流、互通信息；但離開會議室后，視頻工作者回到自己的視頻編輯工作臺（視頻專用前饋網絡），文字工作者則去自己的寫作桌（文字專用前饋網絡），各自用專業工具完成深度加工。

這個設計有幾個實際好處值得細說。首先，注意力參數完全共享，意味著視頻生成過程中已經學會的跨模態對齊知識，可以直接被文字生成過程所使用，不需要從零學起。其次，新增的文字前饋網絡是獨立的，不會干擾原有的視頻生成能力，視頻生成的質量得以完全保留。第三，增加的參數量相對很小——僅僅是為每一層多加了一個前饋網絡——而不需要復制整個模型。

值得一提的是，這種架構在AI領域有一個專門的名字叫"專家混合"（Mixture of Experts，MoE），但通常的MoE需要用一個額外的"路由器"來決定每次應該使用哪個專家。Uni-ViGU的設計更為簡潔：路由規則完全由輸入數據的模態類型決定——視頻就用視頻專家，文字就用文字專家，沒有任何額外的路由器開銷，也沒有路由決策出錯的風險。

四、兩階段漸進式訓練：從"記住老本"到"學會新技能"

架構設計好了，接下來是訓練方法。研究團隊設計了一套兩階段漸進式訓練方案，把它命名為"雙向訓練機制"。

第一階段叫做"知識喚醒"階段。還記得前面說過，視頻生成AI已經學會了"從文字到視頻"的映射嗎？知識喚醒階段要做的，就是把這個映射"激活"成雙向的。具體操作是：用一批視頻和對應的文字提示詞作為訓練數據，讓模型在看到視頻的同時，試圖"猜出"這段視頻當初是用什么提示詞生成的。

但這里有個潛在的取巧風險：如果訓練時直接把原始提示詞也輸入給模型，模型可能會偷懶地直接復制提示詞，完全不去理會視頻內容。為了堵住這個漏洞，研究團隊引入了一個叫做"條件丟棄"的機制——在訓練時，有一定概率隨機抹掉輸入的提示詞，迫使模型必須從視頻本身去推斷對應的文字，而不能依賴現成的提示詞作弊。

訓練數據規模方面，第一階段使用了1萬個視頻-提示詞對。這看起來數量不多，但這里有個聰明的設計：訓練用的視頻本身就是由WAN2.1（也就是Uni-ViGU的基礎模型）根據提示詞生成的合成視頻。由于視頻和提示詞來自同一個生成模型，它們之間的對應關系對這個模型來說是"與生俱來"的知識，所以只需要相對少量的訓練樣本就能完成知識喚醒。

另一個值得注意的工程細節是損失函數的權重設置。在訓練過程中，視頻部分大約有3萬個計算單元，而文字部分只有256個。如果按照相同的權重來優化，視頻已經訓練得很好的部分會主導整個訓練過程，文字理解能力反而得不到充分訓練。研究團隊因此把文字部分的訓練權重相應放大（具體數值約為30000/256，大約120倍），確保每個計算單元得到同等程度的優化關注。

第一階段完成后，模型已經能夠根據視頻內容生成基本的文字描述，但生成的內容往往比較粗淺——畢竟訓練用的目標文字只是簡短的提示詞，而短提示詞通常只包含場景的大致輪廓，缺少細節。

這就引出了第二階段：能力精煉階段。這個階段的目標是把模型的視頻理解能力從"看個大概"升級到"深入觀察"。具體做法是：在原有視頻和提示詞的基礎上，再引入一批由大語言模型輔助生成的"詳細說明"——這些詳細說明包含了視頻中人物的服裝顏色、表情動作、背景中的細節裝飾、場景的光線變化、物體的運動軌跡等大量具體信息。

訓練目標從"猜出簡短提示詞"變成了"生成詳盡描述"。這樣的訓練數據有一個精心設計的約束：簡短提示詞被限制在0到128個詞以內，而詳細說明則必須在128到256個詞之間。這種長度差異確保了詳細說明中包含大量提示詞里根本沒有的信息，模型必須真正去"看"視頻，才能生成這些額外的細節，無法再靠讀取提示詞取巧。

能力精煉階段使用了另外1萬個視頻-提示詞-詳細說明的三元組數據，訓練步數為6萬步，學習率相對第一階段降低，采用更精細的微調方式。整個訓練過程在16塊H800顯卡上進行，耗時約一周。

五、同時"拍視頻"和"寫劇本"：聯合生成能力

Uni-ViGU最令人眼前一亮的能力，是能夠同時生成視頻和與之配套的詳細文字描述。這不是"先生成視頻，再用另一個模型描述視頻"的串聯做法，而是在同一個模型內部，讓視頻和文字從各自的隨機噪點出發，同步演化、互相引導。

這個過程可以用一段即興音樂表演來理解。兩位演奏者（視頻和文字）同時從"隨機亂彈"開始，逐漸找到共同的節奏和旋律。在整個演奏過程中，每一步，視頻流正在成形的畫面會提供視覺上的"情緒"和"氛圍"，引導文字流產生更貼切的描述；與此同時，文字流中逐漸成形的語義結構，反過來告訴視頻流應該往哪個方向繼續發展。兩者通過共享的自注意力層不斷交換信息，最終共同收斂到一個語義高度一致的視頻-文字對。

從論文給出的具體案例可以看到這種協同效應的威力。以一個"海邊房屋門廊上的男服務員手持飲料托盤"的場景為例，原始提示詞只給出了大致場景描述，而Uni-ViGU聯合生成的詳細說明則包含了服務員穿著黑色西裝配白襯衫、右手高舉銀色托盤、托盤上有四個裝有橙色飲料的高腳杯、走過淺色木質甲板、海鷗在頭頂飛翔并投下動態陰影等大量具體細節。這些細節不僅忠實反映了視頻內容，而且用詞準確、表達流暢，達到了真實視頻字幕的質量水平。

另一個案例是一個紅蘋果被水流沖淋的極簡場景，生成的詳細說明捕捉到了蘋果放在木架上的具體姿態、水流的節律性涌動、背景中升起的蒸汽、從側面透進來的戲劇性光束等視覺細節，整個描述具有強烈的臨場感和電影質感。

六、研究的位置與意義：站在哪條河流的交匯點

Uni-ViGU的出現并非憑空而來，它處于幾條重要研究脈絡的交匯點上，理解這些背景有助于更準確地把握這項研究的價值。

在"統一多模態理解與生成"這個大方向上，過去的主流路線是從語言模型出發擴展視覺能力。早期方法（如Janus、Show-o等）把圖像生成變成了詞語預測的一種——把圖像切成一個個小格子，每個格子用一個詞來表示，這樣圖像生成就變成了"寫一篇關于圖像的特殊文章"。這種做法實現了統一，但視覺質量有所損失，因為圖像的細膩層次被粗糙的離散詞匯抹平了。后來的方法（如MetaMorph、BLIP3-O等）保留了擴散模型的視覺質量，但讓語言模型和擴散模塊分開訓練，導致兩邊的知識無法充分共享。更新的方法（如引用中的雙塔框架）則讓理解模塊和生成模塊各建一套語言模型，再用交叉注意力連接，雖然更緊密，但參數量翻倍的代價相當可觀。

Uni-ViGU選擇了一條不同的路：從生成模型出發，以最小的架構改動（只增加文字專用FFN層）和最小的訓練成本（共2萬樣本，一周訓練）實現統一。這種"輕量化改造強大基礎模型"的思路，與另外兩項相關工作有相似之處：一個是MMAR（在擴散模型中統一圖文生成的早期工作），另一個是Omni-Diffusion（用離散擴散方法統一圖文理解與生成）。但Uni-ViGU的特點在于專注于視頻模態，并且充分利用了預訓練視頻生成模型中已有的豐富知識，而非從頭訓練。

在"擴散模型做文字生成"這條研究線上，LLaDA等工作已經證明了擴散框架可以在文字生成任務上與自回歸語言模型相競爭。Uni-ViGU把這種離散文字擴散和連續視頻擴散放在同一個模型里聯合訓練，是對這一研究方向的自然延伸，同時也是其在視頻理解場景下的首次系統性應用。

說到底，這項研究告訴了我們什么

歸根結底，Uni-ViGU代表了一種思維方式的轉變：不是把"會說話的AI"訓練到也能"畫畫"，而是把"會畫畫的AI"教會了"用語言描述自己畫的東西"。前者的代價極其昂貴，因為繪畫（尤其是視頻）是這兩件事里更難更復雜的那個；后者則聰明得多，因為能畫出東西的AI已經理解了畫面，讓它用語言說出來不過是把內部知識外化。

當然，這項研究還有很多待完善之處。訓練數據目前僅有2萬個樣本，這與動輒數百萬樣本的主流訓練規模相比還相當有限。當前版本也主要展示了視頻理解（生成描述）和視頻生成的能力，在需要回答具體問題（如"視頻中有幾個人？"）等更復雜的理解任務上，還需要進一步驗證和改進。此外，所用的訓練視頻是由AI生成的合成視頻，真實世界視頻的復雜性和多樣性是否能被同樣好地處理，也是值得持續關注的問題。

但這項研究在方法論上提出的問題，卻有著相當深遠的意義：當我們擁有了一個能夠"模擬世界"的生成模型，它對世界的"理解"究竟達到了什么程度？這種理解能夠如何被解鎖和利用？這些問題的答案，也許將深刻影響AI系統的未來發展方向。對于對這個方向感興趣的讀者，可以通過arXiv檢索編號arXiv:2604.08121查閱完整論文，獲取所有技術細節和實驗結果。

Q&A

Q1：Uni-ViGU是什么，它和普通的視頻AI有什么不同？

A：Uni-ViGU是由上海人工智能實驗室與復旦大學聯合研發的統一視頻生成與理解框架。普通視頻AI要么只會生成視頻，要么只會分析視頻，兩者通常是分開的系統。Uni-ViGU的特別之處在于，它從一個已經能生成高質量視頻的AI出發，通過輕量化改造，讓同一個模型既能根據文字提示生成視頻，也能看懂視頻并生成詳細的文字描述，甚至可以同時生成視頻和配套說明。

Q2：Uni-ViGU是如何讓視頻生成AI學會"看懂"視頻的？

A：核心思路是利用視頻生成和視頻理解的對稱性。一個能根據文字提示生成視頻的AI，內部已經編碼了大量"文字-畫面"對應關系。Uni-ViGU通過兩階段訓練來激活這種反向能力：第一階段讓模型從視頻中猜出原始提示詞，第二階段則要求模型生成包含更多細節的詳盡描述，迫使模型真正"看"視頻而非靠提示詞取巧。整個過程只用了2萬個訓練樣本，一周內完成訓練。

Q3：統一流匹配方法解決了什么具體問題，為什么不能直接把視頻和文字放在一起訓練？

A：視頻數據是連續的（顏色亮度可以取任意中間值），而文字是離散的（詞語之間沒有"半個詞"的中間狀態），兩者在數學上不兼容，無法直接用同一套訓練方式處理。統一流匹配方法的解決方案是給視頻設計一條連續變化的"流動軌道"，給文字設計一條離散但同樣可以用連續數學表示的"流動軌道"，兩條軌道在同一個模型里同步運作，速度可以相互獨立，從而讓模型在各種信息不完整的組合下都能學習兩種模態之間的對應關系。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.