網易首頁 > 網易號 > 正文申請入駐

Sora落幕，Veo4封神！谷歌AI視頻9秒顛覆行業

2026-05-17 17:52:43　來源: 魏家東

北京舉報

分享至

2026年谷歌I/O大會開幕前夕，AI視頻圈被一則重磅爆料徹底引爆——谷歌新一代視頻模型Veo4（也被稱作GeminiOmni）提前泄露。從全網刷屏的“教授黑板推公式”逼真視頻，到能生成多機位連貫場景、同步音頻+BGM的核心能力，這次泄露不只是參數迭代，更是AI視頻從“單一鏡頭生成”到“完整敘事成片”的底層跨越。而這一切，恰好發生在OpenAISora停服之后，谷歌的這場技術亮劍，注定改寫AI視頻賽道的競爭格局。

一、多機位炸場：AI終于學會“切鏡頭”

這次Veo4最讓行業震動的，不是畫質提升，而是多機位場景生成能力。網友實測和爆料信息顯示，Veo4/Omni能生成完整多角度場景，鏡頭切換流暢自然，還能全程保持畫面、人物、場景細節的高度連貫。

放在一年前，這是完全不敢想的突破。2024年Sora橫空出世時，所有人都驚嘆于它能生成60秒逼真視頻，但很少有人注意到一個關鍵缺陷：全程只有一個長鏡頭。不管鏡頭是平滑滑動、推拉搖移，本質都是同一臺攝影機的連續位移，根本沒有“切鏡頭”的能力。

不止Sora，當時RunwayGen-4等所有同行產品都一樣，生成的視頻都是“單鏡頭素材”。為啥AI切鏡頭這么難？因為“切鏡頭”意味著同一時間、同一場景、同一人物，要從完全不同視角重新生成，還得保證服裝顏色、桌上杯子位置、人物表情完全一致——這是物理、空間、時間三重一致性的極致考驗，業界啃了整整一年，沒人真正突破。

傳統影視行業里，“機位調度”是導演的核心工作：攝影師負責畫面好不好看，導演負責鏡頭怎么切、故事怎么講。而Veo4的突破，相當于把“導演的敘事邏輯”直接塞進了模型權重里。現在用AI不再是“拍一個鏡頭”，而是“拍一場戲”，AI正式從“畫匠”升級成了懂空間邏輯的“導演”。

從泄露示例看，Veo4偶爾還會出現細節連貫性小問題，但同步多機位場景效果已經足夠驚艷。爆料人PankajKumar推測，谷歌其實能輕松做出15秒視頻，只是受限于算力，所以現階段優先聚焦效率優化，主打9秒、720p分辨率的實用規格。

二、音頻全補齊：原生同步對話+環境音+自帶BGM

如果說多機位是敘事革命，那原生音頻同步升級就是補齊了AI視頻成片的最后一塊拼圖。

Veo3在2025年5月發布時，就憑借“原生音頻”能力甩開同行——視頻里的腳步聲、對話、環境噪音，能和畫面同步生成，不用后期對齊。但Veo3有兩個明顯短板：一是音質偏“AI配音感”，不夠自然；二是只能做環境音和對話，沒法根據畫面情境自動配背景音樂。

而Veo4直接解決了這兩大痛點。爆料明確提到，它支持原生生成同步對話、環境音，還能根據畫面情境自動生成背景音樂。這意味著，用Veo4生成視頻，不用后期配音、不用找配樂、不用對齊音畫，直接就是“畫面+聲音+BGM”完整成片。

想象一下：輸入“雨天咖啡館里，女生和朋友聊天，窗外下雨，氛圍溫馨”，Veo4不僅能生成多角度鏡頭切換的視頻，還能同步生成女生的對話聲、窗外雨聲、咖啡館環境音，再配上輕柔的爵士BGM，全程不用任何后期操作，直接輸出可用短片。這種“一站式成片”能力，徹底改變了AI視頻的使用場景——從單純的素材工具，變成了真正的敘事生產工具。

三、Sora倒下，谷歌精準接棒：商業與技術的雙重碾壓

Veo4泄露的時間點，精準得像是刻意安排——4月26日，OpenAISoraApp正式停服，API也將在9月24日徹底關閉。Sora的退場，不是技術不夠炫，而是一場徹頭徹尾的商業悲劇。

Sora巔峰期有100萬月活用戶，但停服前跌破50萬，30天留存不到8%；整個生命周期App內收入僅210萬美元，可每日算力成本高達100萬-1500萬美元，一天的成本就能燒掉整個項目的收入。簡單說，Sora是“越用越虧”，再先進的技術，扛不住燒錢無底洞，最終只能被OpenAI放棄，淪為“支線任務”。

Sora的倒下，給了谷歌絕佳的窗口期。而Veo4的泄露，直接從技術和商業兩層完成了碾壓：技術上，Sora做不到的多機位、原生BGM，Veo4都實現了；商業上，谷歌從一開始就聚焦效率，不盲目堆時長、拼算力，主打“低成本、高實用”，避開了Sora的燒錢陷阱。

谷歌的野心從來不是“做更好的視頻模型”，而是構建全能多模態生態。這次泄露的不只是Veo4，還有Gemini3Flash、3.1全系列模型，以及專注高保真音頻的Lyria3Pro；更重磅的是，Omni模型將為所有核心模型推出專門的Agent版本——視頻、音頻、Agent框架，谷歌要在I/O大會上一次性全亮出來。

一年前，谷歌CEO皮查伊說要把Gemini“裝進每一個谷歌產品里”；2026年的I/O大會，我們大概率會看到這句話兌現：從搜索到相冊，從App到云服務，AI能直接幫你生成多機位、音畫同步、自帶BGM的完整視頻，創作門檻被徹底拉低。

四、I/O大會懸念：Veo4還是Omni？谷歌還有多少大招？

目前所有信息都來自爆料人PankajKumar的轉述，Veo4和GeminiOmni的關系還沒官宣——到底是Veo4換了個名字叫Omni，還是Omni是集成了Veo能力的全能模型？答案只能等5月19日I/O大會揭曉。

但可以肯定的是，這次谷歌要講的，不只是一個視頻模型的故事。當AI能自己切鏡頭、配聲音、加BGM，“劇本”就成了唯一的門檻。未來，普通人只要能寫出簡單文字描述，就能生成專業級短片，不管是短視頻創作、廣告制作，還是影視前期構思，都會被徹底改變。

從Sora的“長鏡頭炫技”到Veo4的“多機位成片”，AI視頻賽道用兩年時間，完成了從“能不能做”到“好不好用”的跨越。Sora的退場提醒我們：AI競爭從來不是單一技術的比拼，而是技術、成本、商業化的綜合較量。而谷歌借著Sora倒下的窗口期，用Veo4打出了一套完美的組合拳。

接下來的I/O大會，谷歌會給我們帶來怎樣的驚喜？Veo4（Omni）的實際演示能否像泄露信息一樣驚艷？全能多模態生態又會如何落地？一切懸念，很快就會揭曉。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.