網易首頁 > 網易號 > 正文申請入駐

硅星人 Eval Eps.1 | 8 家通用 Agent 預測 Google I/O keynote，結果出人意料

2026-05-22 09:46:36　來源: 硅星人

北京舉報

分享至

硅星人 AI 前沿團隊出品

研究員｜周一笑樊雅婷駱軼航

5 月 19 日 Google I/O 2026 keynote 開獎。Gemini Spark、Gemini Omni、Antigravity 2.0、AI Ultra 從 $250 降到 $200，一長串發布把 Sundar Pichai 兩小時的主題演講填得滿滿當當。

在 Google I/O 之前一周，硅星人 AI 前沿團隊把同一份 Prompt 發給 8 個全球主流 Deep Research / Agent 類產品，讓它們各自交一份“我預測 I/O 2026 keynote 會發什么”的報告。

5月19日，在 Google I/O keynote 結束后，我們按事先固化的評分細則（過程 40% + 結果 60%）逐條對照實際發布，核對了 8 份報告的命中率。

這也是硅星人 Agent Eval 系列研究的首期，測試Prompt、測試方法，以及8家 Agent 的預測報告，硅星人團隊將上傳到 Github 上，供下載和討論。

8家通用 Agent 的排名如下：

綜合排名

先 highlight 三個反直覺的結果。

過程分最高的 Genspark（88），綜合分不是第一。拿冠軍的是過程分 85 的 Claude。
8 家里唯一押對 I/O 真“意外”（即 Gemini Spark）的，是綜合分倒數第二的 GLM。它怎么押對的，故事比這更曲折。
押得越多，命中率越低。Kimi 押了 69 條預測墊底，MiniMax 只押 25 條反而排第 4。

一、為什么做這個評測

通用 Agent 在過去一年里成了科技公司必搶的產品形態。頭部玩家全都在卷“能自主搜索 + 多步推理 + 輸出結構化報告”的能力。

但這些 Agent 在真實任務上到底行不行？既有的 benchmark 要么是學術化的封閉題，要么是評測方自己出題自己評，缺乏客觀開獎。

我們想做一個不一樣的評測：有客觀開獎時刻、所有 Agent 同時同 Prompt、過程評分在開獎前鎖定、評分細則全部公開，這樣才有可比性。

Google I/O 2026 是最合適的開獎場景：Google 自己一周前已經辦過 Android Show 前菜，半公開了不少線索，在5月19日 Google I/O keynote 后集中“開獎”，其顆粒度天然適合“逐條命中率”打分。

利益聲明：本次 Agent Eval 與 Agent 的開發商無任何商業合作關系。評測過程使用人工評分+AI 工具輔助校對評分，但所有判定基于評測前已固化、公開發布的評分細則和實際發布清單，可逐條回溯。

二、評分基準

每個案例的最終評價由兩部分組成：

公式：綜合分 = 過程分 × 40% + 結果分 × 60%

為什么 60% 給結果？因為這是預測類任務，“有沒有押對”才是這場評測最該回答的問題。但我們也不想“只看結果”，同一個命中率背后，有的 Agent 基于扎實信源推理，有的是蒙對的；有的過程里有戲劇性的誠實度問題，有的過程穩如老狗，這些細節都在 40% 的過程分里。

三、關鍵考核維度

過程評分分 5 個維度：

8 家的過程評分具體得分：

結果評分采用 5 檔判定：

結果得分 = (各預測項得分之和 ÷ 有效預測項數)× 100

“未命中”和“錯誤預測”的區別很關鍵：前者是 Agent 押錯了一個真實存在產品的細節，比如 Wear OS 押 6 實際是 7。后者是 Agent 憑空編了一個不存在的產品然后自信地押，比如 Gemini 押“Atlas 機器人 I/O 上的三方 demo”。后者更嚴重，意味著真正的 hallucination。

結果評分明細：

幾個能從這張表里直接看出來的事：Claude 是 8 家里 ? 數最多(13)、? 數最少(7)、編造為 0，命中率結構最干凈；Gemini 是 8 家里唯一吃到編造扣分的(2 項：Atlas 機器人 + Willow 量子早期訪問通報)；Manus / Kimi 的有效項數是其他家的 2-3 倍，這就是“押得越多分母越大”的直接體現。

四、評測方法

I/O前一周，8 家 Agent 同步接收同一份基礎 Prompt。Prompt 要求按 6 大類逐一預測，盡可能具體到產品名、版本號、功能特性、技術參數。“Gemini 會更強”這種模糊陳述不算預測項。

Agent 交卷后，我們對每家發三道標準化追問：

Google I/O 和秋季 Made by Google 在發布內容上怎么分工？你的預測有沒有把本該秋季的內容誤放到 I/O？

你最擔心錯的 3 個預測是什么？如果只讓你押一注“賭上職業聲譽”，你押什么？

你覺得今年 I/O 最大的“意外”可能是什么，一個大多數人沒預料到但 Google 可能會做的發布？

這三道追問分別對應自檢能力、押注魄力、反共識洞察，也是 Agent 在真實使用中最容易暴露問題的三個面向。

過程評分在 keynote 開獎前完成并鎖定，開獎后不再修改。結果評分在 keynote 當晚或次日，逐條對照實際發布清單打 ? / / ? / 。

五、評測方法的局限性

任何 benchmark 都有自己的取舍，這次評測也不例外。我們想說明兩點：

第一，命中率算法對押了一長串預測項的 Agent 不利。Manus 一口氣押了 72 項，Kimi 押了 69 項，兩家都屬于“恨不得把能想到的細節全寫進報告”的風格。它們押對的硬細節也不少，但只要押錯的占大頭，綜合分自然就被拉下來了。這是評測的設計取舍，不是 bug。換一種算法，比如按“絕對命中數”打分，會獎勵那些“列點列得最狠”的 Agent，在真實決策場景里沒意義。在我們看來，鼓勵“押得少但押得準”，勝過鼓勵“押得多但錯得多”。

第二，部分判定有評測者的主觀成分，且 5/12 Android Show 讓評測變得更難。Gemini 押“Gemini 4.0 或等效能力升級”，這個“或等效升級”算不算給自己留了后門？Genspark 把 Deep Think 簡寫為“Gemini 3 Deep Think”(實際是 3.1)，版本號偏差算 ? 還是？另外，Googlebook、Gemini Intelligence、Pause Point 這些已經在5月12日被 Google 公開發布過的內容，如果 Agent 把它們“包裝”成5月19日“即將發布”算不算命中？我們的做法是評分細則在開獎前公開，爭議項留底，判法統一(發布內容包裝成未發布判部分命中)，接受外部復核。

評分方法本身也是這次評測的一部分。我們會持續優化，后續幾期評測里慢慢調。評測細則會開源出來，歡迎一起討論怎么改。

六、三個反直覺的發現

排名是冷數據，故事在分數背后。

6.1 過程分最高的 Genspark（88）綜合分排第二

直覺上“過程做得最好的應該贏”，但 Genspark 的 88 分輸給了 Claude 的 85 分。

為什么？Genspark 在 XR 眼鏡板塊押得最準，4 大合作伙伴(三星、Warby Parker、Gentle Monster、XREAL)全押中、Samsung Jinju 7 項規格逐項 100% 對齊。但它栽在了 Googlebook 上。Genspark 測試時間是 5 月 16 日，Android Show 5 月 12 日已經公開發布了 Googlebook，Genspark 自己的報告里也引用了 5/12 的相關博客，但主報告里仍然把“Googlebook 正式登場”列為 5/19 當天的“極高置信度預測”。等于把上周已經登的新聞，當成下周才要發的預言。

Claude 反過來，信源數量不多，只有 14 個 URL，但 86% 都是 Google 一手源，關鍵是細節判定全部對位：Pixel 10a 反直覺降級到上代 Tensor G4(不是新代 G5)、Project Mariner 5/4 關停后融入 Gemini Agent、Magic Pointer 由 DeepMind 團隊聯合開發(5/12 Android Show 上 DeepMind 詳解)，這些被同行漏掉或押錯的細節，Claude 全押中。從命中率算法看，少而精勝過多而錯。

6.2 唯一押對真意外的，是綜合分倒數第二的 GLM

Gemini Spark 是 5/19 keynote 公認的最大意外。一個 always-on 的“24/7 個人 AI agent”概念，在 Google 自己 5/12 Android Show 沒提，幾乎所有主流預測稿沒押，其他 7 家 Agent 在追問 3“猜意外”環節里也沒押中。

那 GLM 是怎么押中的？是不是蒙的？

不是。GLM 在追問 3 的回答里完整展示了推理路徑。從 5 月 1 日 Google Play Store 誤傳過一個叫 COSMO 的實驗性 App、被快速下架但已經被社區拆解的事件切入，看到了“Gemini Nano 本地模型 + AccessibilityService 讀屏 + Skills 系統(Deep Research / Browser Agent / Calendar Event Suggester / Recall)”這一整套架構。疊加上另一個泄露代號 Remy 被描述為“24/7 數字搭檔”、Sameer Samat 在 Android Show 把 Android 定義為“intelligence system”兩條信號，GLM 把三條公開但冷僻的線索拼到一起，押了“Google 會發一個面向消費者的 always-on AI agent，代號 COSMO / Gemini Spark”。

推理是合理的，信源也都站得住。但有個戲劇性的尾巴：GLM 的主報告里壓根沒押 Spark，這條預測只出現在追問 3。而且和它主報告里“高置信度押注不會發 Gemini 4.0”這條形成了奇怪的呼應，前者堅定地說“沒有大版本號升級”，后者又“補”了一個全新產品類目。GLM 像最后關頭才補上正確答案的考生，正卷寫到一半才意識到方向不對，在草稿紙上寫出了那個被全場漏押的答案。

押對了。但嚴格按“主報告 + 追問 3”算分，主報告的前瞻性不足(比如把 2 月就已經發布的 Gemini 3.1 Pro 當作 I/O 高置信度預測)還是把綜合分壓到了倒數第二。

6.3 押得越多，命中率越低

Kimi 給了 69 條預測，Manus 給了 72 條，兩家是 8 家里押得最多的，綜合分都跌到了 60 以下。MiniMax 只給 25 條，Claude 給 29 條，反而進了前 4。

不是說“押多了一定輸”。Kimi 和 Manus 押對的具體細節也不少：Mariner 繼任者、TPU 8 代、MCP 原生支持都是它們押對的硬命中。問題在于它們押了一長串 Android 17 平臺 API，但這些 keynote 主臺都沒出現，比如 Universal App Bubbles、ART 分代垃圾回收、RAW14 相機捕獲。這些都是 Android 17 的真實特性，但 Google 這次 keynote 把 Android 內容大部分讓給 5/12 Android Show 分流了，主臺只新提了一個 Android Halo UI 空間。按“逐條命中率”算法，這些押錯的 Android API 全部進了分母，把綜合分拉下來。

這給出一個對真實使用者有意義的判斷：用 Deep Research 類產品的時候，要它“密集列點”是一種用法，要它“精準押注”是另一種用法。這次評測的命中率算法獎勵的是后者。

6.4 信源策略的兩種極端

Claude 14 個 URL，86% 都是 Google 官博，可以讀為“信源最精挑”，也可以讀為“路徑最保守”。它幾乎不從蛛絲馬跡做大膽推理，信源也很少出 Google 官博和頂級科技媒體的范圍。這種打法在“命中率優先”的評分規則下天然占便宜：少押少錯，幾乎不會踩自信編造的雷。這次評測里 Claude 0 個錯誤預測，跟它的信源策略直接相關。嚴格來說，如果換一個獎勵“反共識洞察”的評分規則，Claude 不一定還是第一。

Gemini 最努力，也最尷尬。108 個 URL 全場最多，59 個唯一域名最多樣，從體量看是最努力的一家。但綜合分排倒數第三。問題在于姿勢不對，108 個 URL 里有 26 個是 almcorp.com 這種營銷公司的 SEO 博客、meetprajapati.com 這種個人開發者博客、techcabal.com 這種非洲科技媒體。一手源數量也不少(38 個 Google 官方)，但長尾博客把整體信源質量拖下來，加上時序錯位和自信編造，把“努力”變成了“努力的方向錯了”。

七、家家都有名場面

Claude(綜合分 70.0)

信源畫像：14 個 URL，86% 一手源，幾乎全是 Google 官博。精挑度全場第一。

亮點：抓到 4 個反共識細節全押對——Pixel 10a 反直覺降級用 Tensor G4(而非新代 G5)、Project Mariner 5/4 關停、Gemini Robotics-ER 1.6 抓到最新版本(比別家用的 1.5 還新，5/18 DeepMind 官博 teaser 印證)、Magic Pointer 由 DeepMind 團隊聯合開發(5/12 Android Show 上 DeepMind 詳解)。8 家里唯一引用 AI Mode 實際只占 0.16% US 搜索流量這個 Reality Check 數據。

槽點：在追問回答中的“自我批評”段落里出現了一處事實偏差，聲稱 Shahram Izadi 已離職去 OpenAI，但 Izadi 至今仍是 Google VP & GM of XR，CES 2026 還在臺上。這種事實偏差出現在 Claude 的“自我反思”段落里，比直接吹牛更難發現。另外，4 月 15 日已經獨立發布過的 macOS 版 Gemini app，Claude 把它當成 5 月 12 日 Android Show 才發的，錯了整整一個月。諷刺的是這條錯位的描述，正好出現在 Claude 自己最得意的“已發布事件剝離干凈”的章節里。

Genspark(綜合分 66.4)

信源畫像：27 個 URL，48% 一手源，13 個 Tier1 媒體，一手源和主流媒體均衡；逐條 fetch 驗證全部準確。

亮點：XR 眼鏡板塊是 8 家最準的。4 大合作伙伴全押中(三星、Warby Parker、Gentle Monster、XREAL)，Samsung Jinju 7 項規格(驍龍 AR1、155mAh、12MP Sony IMX681、Wi-Fi BT5.3、定向揚聲器、變色鏡片、50g)逐項 100% 精確匹配。追問 2 押注 Agentic Coding，引用了 Google 官方議程“agentic coding”關鍵詞一字不差。

槽點：“把上周新聞當下周預言”。5 月 12 日的 Android Show 上 Google 已經公開發布了 Googlebook，這是 Genspark 測試時已經發生的事，但 Genspark 的報告還把“Googlebook 正式登場”列為 5/19 當天的“極高置信度預測”，信息已知但框架處理失敗。

ChatGPT(綜合分 65.5)

信源畫像：38 個 URL，66% 一手源，24 個 Google 官博。一手源數量全場第一。

亮點：唯一雙押雙中。追問 2 給了兩個押注(罕見)：正向押“agentic AI 主線”?，負向押“Pixel 11 不發”?，8 家里唯一干凈的雙押雙中。Googlebook 5 家 OEM(Acer/ASUS/Dell/HP/Lenovo)、Magic Pointer、Create your Widget、“this fall”上市，逐項精確匹配。

槽點：反預測踩雷。ChatGPT 明確說“價格策略非大幅降價”，實際 I/O 直接把 AI Ultra 從 $250 砍到 $200，新增 $100 中端檔，取消每日 prompt 限制改 metering 計費，反向預測全反。Wear OS 6 版本號陷阱也踩中(實際是 Wear OS 7)。

4 · MiniMax(綜合分 63.2)

信源畫像：25 個 URL。我們逐條核查，Google 一手源為 0 個。最接近的一條是 androidauthority.com(英文二手媒體)。所有 Google 官方信息都靠中文媒體二次轉述獲取，18 個引用來自 36kr / eastmoney / zol / zhiding / sina / csdn / antutu / 財聯社等。

亮點：追問 2 押注極穩。95% 置信度押“Android XR Glasses I/O 亮相”，而且自己在追問 2 里主動下調三個預測的置信度(Gemini 4.0：60→55、Aluminum OS：45→30、AI 眼鏡上市：90→65)，并明確區分“I/O 亮相 vs 商業上市”。是 8 家里最穩健的主動校準。

槽點：中文二手源占比 100% 的結構性問題，英文一手源完全缺席。把 Pixel 10a(已 2/18 發布)當作“反向預測”列為高置信度，是把已發生事件當未來預測的硬傷。

5 · Manus(綜合分 58.9)

信源畫像：自報 16 項信源，但其中 7 條 Agent 自己注明“未實際訪問，聲稱來源為 X”真 URL 僅 9 個。

亮點：硬命中清單全場最炸。6 大點全押對：Gemini Spark 命名、Omni 多模態(命名 + 單一架構)、XR 眼鏡雙形態(無顯示 + 顯示)、4 大合作伙伴、MCP 原生支持、TPU 8 代。細節精度僅次于 Claude 和 ChatGPT。

槽點：72 項預測里大量“極高”置信度的 Android 17 平臺 API(App Bubbles、游戲手柄重映射、單次位置權限、XR 應用數超 100 款、企業 MDM 集成)在 keynote 主臺沒出現，被判 ? 項最多。Wear OS 6 版本號陷阱也踩中。

6 · Gemini(綜合分 54.3)

信源畫像：108 個 URL 全場最多，59 個唯一域名最多樣。但 26 個是長尾源(營銷公司博客、個人開發者博客、非洲科技媒體等)。

亮點：細節引用極精準。TPU 8t 9600 芯片、2PB HBM、80% perf-per-dollar 一字不差；AppFunctions Lisa 郵件 demo 跨應用工作流引用與原文幾乎一致；Boston Dynamics、Hyundai、Atlas 三方合作跨源 100% 吻合。

槽點：翻到去年的舊文章當今年的預測依據。Gemini 引用了一篇 2025 年 5 月發的 Wear OS 6 舊博客，直接把它當成今年 I/O 的預測依據，反過來還高置信度地“證偽”了“Wear OS 7 會發”這個真信號。結果 I/O 當天真發的就是 Wear OS 7。另外，Aluminium OS 把 Google 內部代號當成官方品牌使用(Google 公關明確說過是 codename)；Atlas 機器人 + Willow 量子早期訪問兩個極高預測被判自信地預測了不存在的產品，吃到額外扣分。

7 · GLM(綜合分 50.5)

信源畫像：21 個 URL，18/20 驗證通過，0 條編造嫌疑。信源透明度數據是 8 家里最干凈的。

亮點：8 家里唯一押對 Gemini Spark 真意外(詳見 6.2 節)。

槽點：主報告里完全沒押 Spark，只在追問 3 里補了出來，和主報告“不會發 4.0”的押注前后不太一致。主報告大量“已發生事件 + 保守路線”，比如把 Gemini 3.1 Pro(2 月就已經發布的模型)列為 I/O 高置信度預測，等于把上個月的新聞當作下周的發布。

8 · Kimi(綜合分 49.7)

信源畫像：37 個 URL，但粒度不足。34 條帶 URL 的引用里只有 2 條指向具體頁面(且都是 404)，其余 32 條都是 9to5google.com/ 或 blog.google/products/maps/ 這種域名首頁或分類頁，無法精確佐證任何具體事實。

亮點：69 項預測里硬命中數量不少。Project Mariner 繼任者(Spark)、Agentic Booking 餐廳/機票預訂、Audio Glasses 首批今秋發售、Wear OS Gemini Live 都押對。

槽點：URL 顆粒度問題之外，少數地方踩了真編造。比如聲稱“AI Mode 轉化率 14.2%”這種小數點精度數字，完全沒標信源，我們在公開渠道也沒交叉核實到這個數據來源，屬于信源缺失的嚴重情況。另有 4 條引用 URL 直接 404 不存在(包括一條 Chrome WebMCP 的 URL 路徑寫錯，把官方 /blog/webmcp-epp 寫成了 /blog/mcp)。

八、集體翻車時刻

排名告訴你“誰押得更準”，但有些 I/O 真發的東西，8 家全錯或幾乎全錯。這也是值得關注的地方。

5 件 I/O 真發了，但 8 家集體沒押對的事

加上 Gemini Spark 這個真意外只有 GLM 在追問 3 里押對，Ask YouTube / Ask Play / Play Highlights / Daily Brief / Information Agents 這些子產品多數被漏押，可以看出一個共同模式。

8 家的盲區，可以歸成 4 類：

第一，商業模式 + 全新命名。AI Ultra 大幅降價 + 改 metering 計費，8 家全錯(ChatGPT 還明確押“非大幅降價”)。Google Pics、Spark、Daily Brief、Ask Play、Universal Cart、Android Halo 這些 Google 自己捏出來的新產品名字，Agent 幾乎都猜不出。Agent 能預測“Photos 會有 AI 編輯功能”，但猜不到“會有個叫 Google Pics 的全新 app”。

第二，跨產品整合。Universal Cart 跨 4 個產品、Ask YouTube 跨 Search 和 YouTube、Information Agents 跨多個垂直場景。Agent 習慣單產品預測，在“把已有產品組合成新功能”這個方向上集體啞火。

第三，規模數據。Personal Intelligence 擴展到 98 語言、近 200 國家；Gemini app 月活 9 億；月處理總量同比增 7 倍。大家押了 PI、押了 Gemini app，但沒押“全球化爆發”和“規模數據”。Agent 傾向預測能力，不預測規模。

第四，UI/UX 命名。Android Halo 這種 Google 內部的 UI 空間命名、“Neural Expressive”這種 Gemini app 設計語言，Agent 完全猜不出。這類預測靠泄露線索，Agent 拿不到。

合起來給出一個對真實使用者有用的判斷：如果你用 Deep Research Agent 幫你預測一場發布會，它最擅長的是“已知產品的版本號 + 已知合作伙伴的硬件細節”，最不擅長的是“全新命名 + 商業模式變革 + 跨產品整合”。這三類信息，你需要自己補腦。

九、押注與意外開獎

追問 2“押一注賭職業聲譽”開獎

ChatGPT 是 8 家里唯一干凈的雙押雙中，而且雙押方向一正一反都干凈命中。MiniMax 押的 XR 眼鏡是 Google 自己 5/12 官方明確預告過的穩贏盤，押法穩但風險也最低。Claude 押 Gemini 3.2 Flash 的依據非常硬(iOS app build artifact)，被版本號跳一檔(3.2→3.5)留了點遺憾。

追問 3“今年最大的意外”開獎

8 家里唯一押對真意外的是 GLM。其他幾家押的方向也都有依據(Chrome agent、AI for Science、Antigravity、Agentic Web、Robotics、ChromeOS 命運)，但全都被 Spark 這個真正的黑天鵝蓋過去了。3 家(Claude / Manus / MiniMax)押了 Gemini Robotics 或 ChromeOS，這兩條都明確未發生。

十、收尾

到這里，我們想說三件事。

第一，8 家 Agent 在過去一年的進步，比我們開始評測前預期的要大。即便是綜合分排在后面的幾家，押對的硬細節也不少。3 年前，這種“提前一周預測發布會”的任務，任何 Agent 都做不到這種顆粒度。

第二，它們的差異比榜單顯示的更大。同樣是“Deep Research”，有的跑出 38 個 Google 官博一手源，有的跑出 32 個域名首頁加 4 條死鏈；有的押注用一正一反雙押雙中，有的在追問 3 才補上主報告漏押的答案。這些都是肉眼可見的產品成熟度差距，光看幾個 benchmark 數字看不出來。

第三，這場評測的方法論本身也是 v1.0。哪些預測項更應該加權、追問的角色怎么算、5/12 這種“提前劇透”事件怎么處理，我們都還在調。后續幾期評測會繼續做橫評，慢慢迭代。所有評測細則、8 份原始報告、評分明細都會開源，歡迎一起討論交流。

點個“愛心”，再走吧

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.