![]()
2026年谷歌I/O大會開幕前夕,AI視頻圈被一則重磅爆料徹底引爆——谷歌新一代視頻模型Veo4(也被稱作GeminiOmni)提前泄露。從全網刷屏的“教授黑板推公式”逼真視頻,到能生成多機位連貫場景、同步音頻+BGM的核心能力,這次泄露不只是參數迭代,更是AI視頻從“單一鏡頭生成”到“完整敘事成片”的底層跨越。而這一切,恰好發生在OpenAISora停服之后,谷歌的這場技術亮劍,注定改寫AI視頻賽道的競爭格局。
一、多機位炸場:AI終于學會“切鏡頭”
這次Veo4最讓行業震動的,不是畫質提升,而是多機位場景生成能力。網友實測和爆料信息顯示,Veo4/Omni能生成完整多角度場景,鏡頭切換流暢自然,還能全程保持畫面、人物、場景細節的高度連貫。
![]()
放在一年前,這是完全不敢想的突破。2024年Sora橫空出世時,所有人都驚嘆于它能生成60秒逼真視頻,但很少有人注意到一個關鍵缺陷:全程只有一個長鏡頭。不管鏡頭是平滑滑動、推拉搖移,本質都是同一臺攝影機的連續位移,根本沒有“切鏡頭”的能力。
不止Sora,當時RunwayGen-4等所有同行產品都一樣,生成的視頻都是“單鏡頭素材”。為啥AI切鏡頭這么難?因為“切鏡頭”意味著同一時間、同一場景、同一人物,要從完全不同視角重新生成,還得保證服裝顏色、桌上杯子位置、人物表情完全一致——這是物理、空間、時間三重一致性的極致考驗,業界啃了整整一年,沒人真正突破。
傳統影視行業里,“機位調度”是導演的核心工作:攝影師負責畫面好不好看,導演負責鏡頭怎么切、故事怎么講。而Veo4的突破,相當于把“導演的敘事邏輯”直接塞進了模型權重里。現在用AI不再是“拍一個鏡頭”,而是“拍一場戲”,AI正式從“畫匠”升級成了懂空間邏輯的“導演”。
從泄露示例看,Veo4偶爾還會出現細節連貫性小問題,但同步多機位場景效果已經足夠驚艷。爆料人PankajKumar推測,谷歌其實能輕松做出15秒視頻,只是受限于算力,所以現階段優先聚焦效率優化,主打9秒、720p分辨率的實用規格。
![]()
二、音頻全補齊:原生同步對話+環境音+自帶BGM
如果說多機位是敘事革命,那原生音頻同步升級就是補齊了AI視頻成片的最后一塊拼圖。
Veo3在2025年5月發布時,就憑借“原生音頻”能力甩開同行——視頻里的腳步聲、對話、環境噪音,能和畫面同步生成,不用后期對齊。但Veo3有兩個明顯短板:一是音質偏“AI配音感”,不夠自然;二是只能做環境音和對話,沒法根據畫面情境自動配背景音樂。
而Veo4直接解決了這兩大痛點。爆料明確提到,它支持原生生成同步對話、環境音,還能根據畫面情境自動生成背景音樂。這意味著,用Veo4生成視頻,不用后期配音、不用找配樂、不用對齊音畫,直接就是“畫面+聲音+BGM”完整成片。
想象一下:輸入“雨天咖啡館里,女生和朋友聊天,窗外下雨,氛圍溫馨”,Veo4不僅能生成多角度鏡頭切換的視頻,還能同步生成女生的對話聲、窗外雨聲、咖啡館環境音,再配上輕柔的爵士BGM,全程不用任何后期操作,直接輸出可用短片。這種“一站式成片”能力,徹底改變了AI視頻的使用場景——從單純的素材工具,變成了真正的敘事生產工具。
三、Sora倒下,谷歌精準接棒:商業與技術的雙重碾壓
Veo4泄露的時間點,精準得像是刻意安排——4月26日,OpenAISoraApp正式停服,API也將在9月24日徹底關閉。Sora的退場,不是技術不夠炫,而是一場徹頭徹尾的商業悲劇。
![]()
Sora巔峰期有100萬月活用戶,但停服前跌破50萬,30天留存不到8%;整個生命周期App內收入僅210萬美元,可每日算力成本高達100萬-1500萬美元,一天的成本就能燒掉整個項目的收入。簡單說,Sora是“越用越虧”,再先進的技術,扛不住燒錢無底洞,最終只能被OpenAI放棄,淪為“支線任務”。
Sora的倒下,給了谷歌絕佳的窗口期。而Veo4的泄露,直接從技術和商業兩層完成了碾壓:技術上,Sora做不到的多機位、原生BGM,Veo4都實現了;商業上,谷歌從一開始就聚焦效率,不盲目堆時長、拼算力,主打“低成本、高實用”,避開了Sora的燒錢陷阱。
谷歌的野心從來不是“做更好的視頻模型”,而是構建全能多模態生態。這次泄露的不只是Veo4,還有Gemini3Flash、3.1全系列模型,以及專注高保真音頻的Lyria3Pro;更重磅的是,Omni模型將為所有核心模型推出專門的Agent版本——視頻、音頻、Agent框架,谷歌要在I/O大會上一次性全亮出來。
![]()
一年前,谷歌CEO皮查伊說要把Gemini“裝進每一個谷歌產品里”;2026年的I/O大會,我們大概率會看到這句話兌現:從搜索到相冊,從App到云服務,AI能直接幫你生成多機位、音畫同步、自帶BGM的完整視頻,創作門檻被徹底拉低。
![]()
四、I/O大會懸念:Veo4還是Omni?谷歌還有多少大招?
目前所有信息都來自爆料人PankajKumar的轉述,Veo4和GeminiOmni的關系還沒官宣——到底是Veo4換了個名字叫Omni,還是Omni是集成了Veo能力的全能模型?答案只能等5月19日I/O大會揭曉。
![]()
但可以肯定的是,這次谷歌要講的,不只是一個視頻模型的故事。當AI能自己切鏡頭、配聲音、加BGM,“劇本”就成了唯一的門檻。未來,普通人只要能寫出簡單文字描述,就能生成專業級短片,不管是短視頻創作、廣告制作,還是影視前期構思,都會被徹底改變。
從Sora的“長鏡頭炫技”到Veo4的“多機位成片”,AI視頻賽道用兩年時間,完成了從“能不能做”到“好不好用”的跨越。Sora的退場提醒我們:AI競爭從來不是單一技術的比拼,而是技術、成本、商業化的綜合較量。而谷歌借著Sora倒下的窗口期,用Veo4打出了一套完美的組合拳。
接下來的I/O大會,谷歌會給我們帶來怎樣的驚喜?Veo4(Omni)的實際演示能否像泄露信息一樣驚艷?全能多模態生態又會如何落地?一切懸念,很快就會揭曉。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.