網易首頁 > 網易號 > 正文申請入駐

谷歌推出 Gemini Omni Flash，實現跨應用自主視頻創作

2026-05-25 12:29:32　來源: 知新了了

北京舉報

分享至

谷歌推出 Gemini Omni Flash，支持通過對話式提示進行自主視頻創作和編輯。

谷歌已開始推出 Gemini Omni Flash，這是其全新的多模態 AI 模型，能夠利用文本、圖像、音頻和視頻輸入生成并編輯視頻。此次上線緊隨該模型在 Google I/O 2026 大會上的發布，標志著用戶現在可以在 Gemini 應用、Google Flow 和 YouTube Shorts 中實際使用這一系統。

谷歌表示，該模型旨在將推理能力與創意生成整合在單一系統中，讓用戶能夠通過自然對話來構建和修改視頻內容。

借助 Gemini Omni Flash，用戶可以提示模型從零開始創作視頻，或逐步修改現有片段。每一條指令都建立在上一條的基礎上，允許在不破壞連貫性的前提下不斷完善場景。谷歌稱，這有助于在多次迭代修改視頻時，保持角色、物體和環境的一致性。

該模型還支持多輸入工作流程，用戶可以將文本提示、圖像、視頻片段和音頻參考等不同類型的輸入組合起來。這樣一來，一個輸出視頻就可以利用多個參考點來塑造，而不是僅僅依賴單條提示。谷歌表示，該系統能夠理解這些輸入之間的相互關系，并生成連貫的最終場景。

此次推出是谷歌將生成式 AI 融入其消費者生態系統的更廣泛舉措的一部分，尤其側重于短視頻創作平臺。YouTube Shorts 和 YouTube Create 應用是首批引入 Omni Flash 功能的平臺，標志著 AI 生成工具與內容創作流程之間的更緊密結合。

該公司還表示，通過該系統生成的所有輸出都將包含 SynthID 水印，以便識別 AI 生成的內容。

對話式視頻編輯

Gemini Omni Flash 允許用戶使用自然語言指令編輯視頻，而無需借助傳統編輯工具。用戶可以描述各種更改，比如改變環境、添加物體或更改場景中的動作，模型會隨之更新視頻，同時保留整體結構。

該系統的設計目標是在多次編輯中保持視覺連續性，確保在多步驟的修改中，角色和物體始終保持一致。谷歌表示，與傳統的視頻制作工具相比，這使得編輯過程更具迭代性和靈活性。

該模型還借助 Gemini 更廣泛的世界知識來提高生成內容的真實感。據谷歌稱，它利用這種理解來更精準地模擬物理交互，如運動、光照和環境效果。

從提示到成品

谷歌將 Gemini Omni Flash 定位為邁向多模態 AI 系統這一更宏大轉變的一部分，這類系統能夠同時處理創作和推理。該模型旨在處理多種輸入格式，并生成能反映組合指令而非孤立提示的輸出視頻。

谷歌表示，其目標是縮小從創意到執行之間的差距，讓用戶能夠通過單一對話式界面從概念直達成片。未來，谷歌計劃將輸出格式從視頻擴展到圖像和音頻，這些支持也將在后續更新中推出。

Gemini Omni Flash 的推出目前僅限于 Gemini 應用中的特定訂閱層級，隨著部署范圍的擴大，預計將逐步開放更廣泛的訪問權限。

如果朋友們喜歡，敬請關注“知新了了”！

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.