谷歌推出 Gemini Omni Flash,支持通過對話式提示進行自主視頻創作和編輯。
![]()
谷歌已開始推出 Gemini Omni Flash,這是其全新的多模態 AI 模型,能夠利用文本、圖像、音頻和視頻輸入生成并編輯視頻。此次上線緊隨該模型在 Google I/O 2026 大會上的發布,標志著用戶現在可以在 Gemini 應用、Google Flow 和 YouTube Shorts 中實際使用這一系統。
谷歌表示,該模型旨在將推理能力與創意生成整合在單一系統中,讓用戶能夠通過自然對話來構建和修改視頻內容。
借助 Gemini Omni Flash,用戶可以提示模型從零開始創作視頻,或逐步修改現有片段。每一條指令都建立在上一條的基礎上,允許在不破壞連貫性的前提下不斷完善場景。谷歌稱,這有助于在多次迭代修改視頻時,保持角色、物體和環境的一致性。
該模型還支持多輸入工作流程,用戶可以將文本提示、圖像、視頻片段和音頻參考等不同類型的輸入組合起來。這樣一來,一個輸出視頻就可以利用多個參考點來塑造,而不是僅僅依賴單條提示。谷歌表示,該系統能夠理解這些輸入之間的相互關系,并生成連貫的最終場景。
此次推出是谷歌將生成式 AI 融入其消費者生態系統的更廣泛舉措的一部分,尤其側重于短視頻創作平臺。YouTube Shorts 和 YouTube Create 應用是首批引入 Omni Flash 功能的平臺,標志著 AI 生成工具與內容創作流程之間的更緊密結合。
該公司還表示,通過該系統生成的所有輸出都將包含 SynthID 水印,以便識別 AI 生成的內容。
對話式視頻編輯
Gemini Omni Flash 允許用戶使用自然語言指令編輯視頻,而無需借助傳統編輯工具。用戶可以描述各種更改,比如改變環境、添加物體或更改場景中的動作,模型會隨之更新視頻,同時保留整體結構。
該系統的設計目標是在多次編輯中保持視覺連續性,確保在多步驟的修改中,角色和物體始終保持一致。谷歌表示,與傳統的視頻制作工具相比,這使得編輯過程更具迭代性和靈活性。
該模型還借助 Gemini 更廣泛的世界知識來提高生成內容的真實感。據谷歌稱,它利用這種理解來更精準地模擬物理交互,如運動、光照和環境效果。
從提示到成品
谷歌將 Gemini Omni Flash 定位為邁向多模態 AI 系統這一更宏大轉變的一部分,這類系統能夠同時處理創作和推理。該模型旨在處理多種輸入格式,并生成能反映組合指令而非孤立提示的輸出視頻。
谷歌表示,其目標是縮小從創意到執行之間的差距,讓用戶能夠通過單一對話式界面從概念直達成片。未來,谷歌計劃將輸出格式從視頻擴展到圖像和音頻,這些支持也將在后續更新中推出。
Gemini Omni Flash 的推出目前僅限于 Gemini 應用中的特定訂閱層級,隨著部署范圍的擴大,預計將逐步開放更廣泛的訪問權限。
如果朋友們喜歡,敬請關注“知新了了”!
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.