網易首頁 > 網易號 > 正文申請入駐

Google殺瘋了：視頻大模型超炸裂，音頻眼鏡登臺，Gemini接管一切

2026-05-20 06:38:53　來源: 雷科技

廣東舉報

分享至

千呼萬喚始出來，北京時間 2026 年 5 月 20 日凌晨，Google I/O 2026 終于開幕。因為 Google 提前用 The Android Show「分流」了 Android 17 的新功能，AI 終于成為了 Google I/O 2026 的主角。

但不同于其他 AI 企業，Google 同時掌握 Gemini、YouTube、Google 網頁搜索、Android 等多個不同的互聯網生態入口。因此「如何用 AI 為這些生態服務『賦能』」，也成了此次 Google I/O 的重點。

視頻模型Omni和 3.5：新模型雙王炸讓 Google AI 更全能

Gemini 模型方面，Google 在 Google I/O 上正式發布了最新、最全能的 Gemini Omni。有多全能？用一句話來概括，就是「Gemini Omni 能從任何形式的輸入，獲得任何形式的輸出」，且 Gemini Omni 還可以直接在生成過程中，以對話形式進行修改。

圖片來源：Google

以 MV 生成為例，只要把音樂、視頻、圖片素材和對畫面的大致需求「喂」給 Gemini Omni，Gemini Omni 就能直接輸出對應的短視頻。在活動上，Google 還演示了一個非常夸張的 AIGC 案例：

在一張白紙上手繪一個圓圈，再加上一句文字描述，Gemini Omni 就能直接輸出一個完整的特效視頻。但這還沒完，如果你對畫面元素或風格不滿意，只要一句話就能在不變動其他畫面元素的情況下，精準修改指定元素，比如「把玻璃建筑替換為肥皂泡」，后者甚至還擁有自己的物理碰撞效果。

圖片來源：Google

用 Google 自己的話來說，「Gemini Omni 就像是視頻領域的 Nano Banana」。

根據 Google 的介紹，Google Omni Flash 模型即日起將在 Gemini App、Google Flow、YouTube Shorts 等平臺上線，對應 API 將在之后開放。

圖片來源：Google

除了「全能模型」Google Omni，Gemini 在 Google I/O 上也升級到了 Gemini 3.5 版本（Gemini 3.5 Flash）。和 Gemini 3.1 Pro 相比，Gemini 3.5 Flash 在編程、現實環境智能體（Real-World Agentic）、大規模工具調用等測試上都有所提升。

當然了，對于 AI 模型而言，「有輕量級的 Flash 就必然有專業級的 Pro」——在活動上 Google 也預告Gemini 3.5 Pro 將在下個月登場，但并未公布其他信息。

用一句話來總結，那就是「多快好省」四個字，Google 這次全都做到了。

Google Antigravity、Gemini Spark：智能體重構Google搜索

底層模型能力變強了，那基于 Gemini 的 AI Agent 自然也得到了升級。

圖片來源：Google

開發者側，Google 的 AI 開發環境 Antigravity 也用上了 Gemini 3.5 Flash。根據 Google 介紹，在 Gemini 3.5 Flash 的支持下，Antigravity 只用了 12 個小時就搭建了一個操作系統內核，而整個開發過程的 AI API 成本還不到一千美元。

圖片來源：Google

Google 甚至用 Antigravity 和 Gemini 3.5 Flash 重構了 Google 搜索的交互界面，提出了全新的「生成式 UI」概念。平時常用 Google 或其他 AI 搜索引擎的朋友應該知道，即使在搜索頁面開啟了 AI 模式（此處指的不是在 AI App 中以「詢問」實現的知識庫搜索），這個 AI 模式依舊是以對話框（ChatBox）的形式輸出結果。

圖片來源：Google

對于一般的 AI 搜索來說，對話框的交互模式確實夠用了。但如果用戶問出的某個問題需要一些直觀的演示，比如「陀飛輪是怎么工作的？」，文本框模式就排不上用場了。對此，Google 基于 Antigravity 的編程能力，打造了一個「自適應、自生成」的 AI 搜索 UI。

圖片來源：Google

簡單來說，面對復雜問題時 Google 搜索會用「Vibe Coding」的方式，直接寫一個可以互動的前端網頁，直接以互動的方式回答用戶的問題。

可惜的是，這項功能要等到 26 年夏季才會向用戶開放。但好消息是，這項功能屬于 Google 搜索的更新，不需要花錢訂閱 Gemini 也能使用。另外，Gemini App 本身的 UI 也得到了升級，與新的 Android 視覺元素更加統一。

得益于 Gemini 3.5 Flash 的多模態能力，Google 搜索的 AI 預測和多模態能力也得到了提升。除了文字、以圖搜圖外，全新的 Google 搜索也可以直接輸入視頻或文檔；曾經按照大數據智能排序的搜索推薦，現在也升級成了基于 Gemini 3.5 Flash 的 AI 搜索補全。

圖片來源：Google

除了前臺可見的升級，Google 還全面提升了搜索 Agent 的「后臺能力」：全新的搜索 Agent 可以在后臺全天運行，按照用戶的要求持續監控特定信息。比如小雷在睡覺前就可以讓搜索 Agent 時刻關注 OpenAI、Anthropic、Grok、Perplexity 等 AI 企業和 X 上的 AI 新聞，在出現不容錯過的熱點時直接郵件轟炸我的手機，讓我爬起來寫稿。

說到 Agent，Google 還在互動上正式發布了面向個人用戶的全新 Agent——Gemini Spark。和其他 AI Agent 一樣，Gemini Spark 同樣可以 24×7 全天接管用戶的手機和瀏覽器。但不同于當前主流的托管類 Agent，Gemini Spark 會運行在專門的虛擬化環境中。

圖片來源：Google

很顯然，Gemini Spark 同樣由 Gemini 3.5 Flash、Antigravity 驅動，自然也支持語音交互和后臺響應。而在外部聯動上，Gemini Spark 不僅可以直接和 Google 生態的其他組件（Google Docs、Google Calendar、Gmail 等）直接聯動，還可以通過 MCP 協議與外部 App 互聯互通，實現更全面的任務托管。

Google 并未在活動中公布 Gemini Spark 的平臺適配情況，雷科技預計 Gemini Spark 會以 Gemini App（iOS）、Google 搜索組件（Android）的方式登陸手機。

圖片來源：Google

而在 AI Agent 運行時（無論前后臺），新加入的 Android Halo 功能會在 Android 手機屏幕左上角常駐一個 Agent 狀態標記，方便用戶隨時跳轉到 Agent 界面，感覺就和現在手機的「攝像頭提示」「麥克風提示」差不多。

在雷科技看來，Android Halo 的出現，其實也從另一個角度強調了 Agent 的重要性：盡管從技術上講，Gemini Spark 只是一個「軟件功能」，但其地位早已和攝像頭和麥克風一樣，是手機不可或缺的核心組成。

圖片來源：Google

電腦方面，Google 提到 Gemini Spark 將在 26 年夏季登陸 Chrome 瀏覽器。

但不同于豆包等部分付費的國內 AI Agent，Gemini Spark 為全訂閱功能，下周會開放給 Google AI Ultra 訂閱用戶。

值得一提的是，為了區分企業用戶和高用量個人用戶，Google 在原本的 AI Pro（每月 20 美元）、AI Ultra（每月 250 美元、限時降價至每月 200 美元）之間，額外加入了一個「青春版」AI Ultra 等級（每月 100 美元）。

圖片來源：Google

看得出，即使是「財大氣粗」的 Google ，也難以靠免費模式維持這種全面 AI 帶來的巨大算力成本。說到底，AI 的盡頭是算力，算力的盡頭是硬件，而硬件的盡頭是錢。在 AI 時代，互聯網巨頭已經難以靠硬件銷售和服務訂閱來維持 AI 的成本了。

夸張點說，隨著 AI Agent 的能力進一步擴展，付費 AI 服務很有可能會變得跟手機套餐一樣，成為我們「剛性消費」的一部分。

音頻眼鏡首次登臺，Gemini 生態日漸完善

在去年，Google 展示了帶顯示功能的 AI 眼鏡。在今年的 google I/O 上，Google 也帶來了「音頻版」智能眼鏡的預覽。首先，盡管名字叫「音頻智能眼鏡」，但這類 Gemini 眼鏡并不是界環那種純音頻眼鏡，而是搭載攝像頭、擁有 AI 視覺和多模態輸入能力的音頻眼鏡。

由于眼鏡要 26 年秋季才發布（高概率是配合高通驍龍峰會上的新芯片），所以 Google 并未在 Google I/O 上公布重量、傳感器型號、續航等產品具體信息，只展示了產品外觀和大致的功能。

圖片來源：Google

設計方面，Google I/O 上提到了三星與 Gentle Monster、Warby Parker 兩大知名眼鏡品牌合作打造的智能眼鏡。功能上，兩款眼鏡和現有的 AR1 智能眼鏡類似，可以用語音或右邊鏡腿的觸控板喚醒 Gemini。

得益于 Gemini 底層模型和 Spark 智能體的能力，Gemini 眼鏡可以全自動把用戶的語音指令拆解成 Agent 動作，并在用戶的手機上后臺執行。用戶可以在眼鏡上用語音要求 Gemini「買一杯上次點的咖啡」；手機上的 Gemini 就可以自動打開咖啡 App、自動添加商品到購物車，并在用戶語音確認（應該和國內 AI 眼鏡一樣采用聲紋驗證技術）后直接下單。

圖片來源：Google

值得一提的是，Google 還提到 Gemini AI 音頻眼鏡將支持 Android 和 iOS 兩個平臺。可以肯定的是，在 iOS 極為嚴格的 App 沙盒機制下，Gemini 音頻眼鏡的能力和 Android 平臺相比必然大打折扣。

為了拓展 Gemini 的能力邊界，Google 也把自己的辦公套件（Google Workspace）全面 AI 化：用戶可以用語音調用 Gemini 查找郵件信息（Gmail Live）、寫作（Docs Live）甚至是生成圖像（Google Pics）。

圖片來源：Google

結合此前 Android 17 選題里提到的高端 Googlebook，谷歌今年是在不遺余力地把 Gemini 塞進自己能掌控的每一個生態硬件里。

Google I/O 的主題演講的到這里就告一段落了，看到這里，可能有人會覺得此次 Google I/O 只不過是 Google 在 AI 大戰落伍后的「畫餅」行為。但在雷科技看來，Google I/O 2026 主題演講提到的內容，其實意味著谷歌終于摸到了 AI 時代的正確門票。

比如針對「AI 能干什么」這個問題，Google 直接對自己的「發家業務」開刀，用生成式 UI 改變了 AIGC「回合制」「單向交互」的設定。這種從單向到雙向的轉變也出現在了 Gemini 智能硬件中。過去很長一段時間里，AI 硬件賽道都沒有出現真正的「雙向 AI 設備」：硬件是硬件，AI 是 AI，兩者割裂極為嚴重。

圖片來源：Google

而這一次，Gemini 3.5 Flash 的多模態能力，真正讓音頻眼鏡等設備成為了 Gemini 的「物理器官」，再加上上周發布的 Googlebook，Gemini 終于擁有了主動感知世界、主動輸出結果的能力。

更重要的是，Gemini 正利用其在 Android 系統中的「特權」，構筑一道其他廠商無法逾越的護城河。當海外的 Anthropic、國內的各類大模型智能體還在沙盒機制的邊緣試探，用 MCP 協議艱難地搞跨 App 協同操作時，Gemini 已經在 Android 底層實現了暢通無阻的原生互通。

還記得我們開頭是說過的「Google 同時掌握 Gemini、YouTube、Google 網頁搜索、Android 等多個不同的互聯網生態入口」嗎，在 Google I/O 2026 上，這些四面「開花」的生態入口，終于等來了「結果」的季節。

但話又說回來，Gemini 高度依靠 Google 生態，這對 OpenAI、Grok 來說或許是個挑戰；但對國內 AI 企業來說，這也是 Gemini 留給他們的機遇。

毫無疑問，Gemini 在海外再怎么大殺四方、原生互通，這套全家桶生態在國內依舊「水土不服」。但這套「多模態輸入輸出 + 私有系統 + 全天候托管 Agent」的業務邏輯，卻給國內 AI 企業指明了發展的道路：

海外有谷歌在原生底層大刀闊斧地破除沙盒限制，國內廠商同樣能在定制安卓系統里搞起自己的「獨立王國」。

更重要的是，中國品牌在智能體本土化落地上的卷度，甚至比原生安卓還要激進，還更接地氣。在 Google I/O 2026 上，Google 亮出了 Gemini 的底牌，接下來就看國內 AI 巨頭們和手機品牌們如何強強聯手，用合作「破局」了。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.