![]()
硅星人 AI 前沿團隊出品
研究員|周一笑 樊雅婷 駱軼航
5 月 19 日 Google I/O 2026 keynote 開獎。Gemini Spark、Gemini Omni、Antigravity 2.0、AI Ultra 從 $250 降到 $200,一長串發布把 Sundar Pichai 兩小時的主題演講填得滿滿當當。
在 Google I/O 之前一周,硅星人 AI 前沿團隊把同一份 Prompt 發給 8 個全球主流 Deep Research / Agent 類產品,讓它們各自交一份“我預測 I/O 2026 keynote 會發什么”的報告。
![]()
5月19日,在 Google I/O keynote 結束后,我們按事先固化的評分細則(過程 40% + 結果 60%)逐條對照實際發布,核對了 8 份報告的命中率。
這也是硅星人 Agent Eval 系列研究的首期, 測試Prompt、測試方法,以及8家 Agent 的預測報告,硅星人團隊將上傳到 Github 上,供下載和討論。
8家通用 Agent 的排名如下:
綜合排名
![]()
先 highlight 三個反直覺的結果。
過程分最高的 Genspark(88),綜合分不是第一。拿冠軍的是過程分 85 的 Claude。
8 家里唯一押對 I/O 真“意外”(即 Gemini Spark)的,是綜合分倒數第二的 GLM。它怎么押對的,故事比這更曲折。
押得越多,命中率越低。Kimi 押了 69 條預測墊底,MiniMax 只押 25 條反而排第 4。
1
一、為什么做這個評測
通用 Agent 在過去一年里成了科技公司必搶的產品形態。頭部玩家全都在卷“能自主搜索 + 多步推理 + 輸出結構化報告”的能力。
但這些 Agent 在真實任務上到底行不行?既有的 benchmark 要么是學術化的封閉題,要么是評測方自己出題自己評,缺乏客觀開獎。
我們想做一個不一樣的評測:有客觀開獎時刻、所有 Agent 同時同 Prompt、過程評分在開獎前鎖定、評分細則全部公開,這樣才有可比性。
Google I/O 2026 是最合適的開獎場景:Google 自己一周前已經辦過 Android Show 前菜,半公開了不少線索,在5月19日 Google I/O keynote 后集中“開獎”,其顆粒度天然適合“逐條命中率”打分。
利益聲明:本次 Agent Eval 與 Agent 的開發商無任何商業合作關系。評測過程使用人工評分+AI 工具輔助校對評分,但所有判定基于評測前已固化、公開發布的評分細則和實際發布清單,可逐條回溯。
1
二、評分基準
每個案例的最終評價由兩部分組成:
![]()
公式:綜合分 = 過程分 × 40% + 結果分 × 60%
為什么 60% 給結果?因為這是預測類任務,“有沒有押對”才是這場評測最該回答的問題。但我們也不想“只看結果”,同一個命中率背后,有的 Agent 基于扎實信源推理,有的是蒙對的;有的過程里有戲劇性的誠實度問題,有的過程穩如老狗,這些細節都在 40% 的過程分里。
1
三、關鍵考核維度
過程評分分 5 個維度:
![]()
8 家的過程評分具體得分:
![]()
結果評分采用 5 檔判定:
![]()
結果得分 = (各預測項得分之和 ÷ 有效預測項數)× 100
“未命中”和“錯誤預測”的區別很關鍵:前者是 Agent 押錯了一個真實存在產品的細節,比如 Wear OS 押 6 實際是 7。后者是 Agent 憑空編了一個不存在的產品然后自信地押,比如 Gemini 押“Atlas 機器人 I/O 上的三方 demo”。后者更嚴重,意味著真正的 hallucination。
結果評分明細:
![]()
幾個能從這張表里直接看出來的事:Claude 是 8 家里 ? 數最多(13)、? 數最少(7)、 編造為 0,命中率結構最干凈;Gemini 是 8 家里唯一吃到 編造扣分的(2 項:Atlas 機器人 + Willow 量子早期訪問通報);Manus / Kimi 的有效項數是其他家的 2-3 倍,這就是“押得越多分母越大”的直接體現。
1
四、評測方法
I/O前一周,8 家 Agent 同步接收同一份基礎 Prompt。Prompt 要求按 6 大類逐一預測,盡可能具體到產品名、版本號、功能特性、技術參數。“Gemini 會更強”這種模糊陳述不算預測項。
Agent 交卷后,我們對每家發三道標準化追問:
Google I/O 和秋季 Made by Google 在發布內容上怎么分工?你的預測有沒有把本該秋季的內容誤放到 I/O?
你最擔心錯的 3 個預測是什么?如果只讓你押一注“賭上職業聲譽”,你押什么?
你覺得今年 I/O 最大的“意外”可能是什么,一個大多數人沒預料到但 Google 可能會做的發布?
這三道追問分別對應自檢能力、押注魄力、反共識洞察,也是 Agent 在真實使用中最容易暴露問題的三個面向。
過程評分在 keynote 開獎前完成并鎖定,開獎后不再修改。結果評分在 keynote 當晚或次日,逐條對照實際發布清單打 ? / / ? / 。
1
五、評測方法的局限性
任何 benchmark 都有自己的取舍,這次評測也不例外。我們想說明兩點:
第一,命中率算法對押了一長串預測項的 Agent 不利。Manus 一口氣押了 72 項,Kimi 押了 69 項,兩家都屬于“恨不得把能想到的細節全寫進報告”的風格。它們押對的硬細節也不少,但只要押錯的占大頭,綜合分自然就被拉下來了。這是評測的設計取舍,不是 bug。換一種算法,比如按“絕對命中數”打分,會獎勵那些“列點列得最狠”的 Agent,在真實決策場景里沒意義。在我們看來,鼓勵“押得少但押得準”,勝過鼓勵“押得多但錯得多”。
第二,部分判定有評測者的主觀成分,且 5/12 Android Show 讓評測變得更難。Gemini 押“Gemini 4.0 或等效能力升級”,這個“或等效升級”算不算給自己留了后門?Genspark 把 Deep Think 簡寫為“Gemini 3 Deep Think”(實際是 3.1),版本號偏差算 ? 還是 ?另外,Googlebook、Gemini Intelligence、Pause Point 這些已經在5月12日被 Google 公開發布過的內容,如果 Agent 把它們“包裝”成5月19日“即將發布”算不算命中?我們的做法是評分細則在開獎前公開,爭議項留底,判法統一(發布內容包裝成未發布判部分命中),接受外部復核。
評分方法本身也是這次評測的一部分。我們會持續優化,后續幾期評測里慢慢調。評測細則會開源出來,歡迎一起討論怎么改。
1
六、三個反直覺的發現
排名是冷數據,故事在分數背后。
6.1 過程分最高的 Genspark(88)綜合分排第二
直覺上“過程做得最好的應該贏”,但 Genspark 的 88 分輸給了 Claude 的 85 分。
為什么?Genspark 在 XR 眼鏡板塊押得最準,4 大合作伙伴(三星、Warby Parker、Gentle Monster、XREAL)全押中、Samsung Jinju 7 項規格逐項 100% 對齊。但它栽在了 Googlebook 上。Genspark 測試時間是 5 月 16 日,Android Show 5 月 12 日已經公開發布了 Googlebook,Genspark 自己的報告里也引用了 5/12 的相關博客,但主報告里仍然把“Googlebook 正式登場”列為 5/19 當天的“極高置信度預測”。等于把上周已經登的新聞,當成下周才要發的預言。
Claude 反過來,信源數量不多,只有 14 個 URL,但 86% 都是 Google 一手源,關鍵是細節判定全部對位:Pixel 10a 反直覺降級到上代 Tensor G4(不是新代 G5)、Project Mariner 5/4 關停后融入 Gemini Agent、Magic Pointer 由 DeepMind 團隊聯合開發(5/12 Android Show 上 DeepMind 詳解),這些被同行漏掉或押錯的細節,Claude 全押中。從命中率算法看,少而精勝過多而錯。
6.2 唯一押對真意外的,是綜合分倒數第二的 GLM
Gemini Spark 是 5/19 keynote 公認的最大意外。一個 always-on 的“24/7 個人 AI agent”概念,在 Google 自己 5/12 Android Show 沒提,幾乎所有主流預測稿沒押,其他 7 家 Agent 在追問 3“猜意外”環節里也沒押中。
那 GLM 是怎么押中的?是不是蒙的?
不是。GLM 在追問 3 的回答里完整展示了推理路徑。從 5 月 1 日 Google Play Store 誤傳過一個叫 COSMO 的實驗性 App、被快速下架但已經被社區拆解的事件切入,看到了“Gemini Nano 本地模型 + AccessibilityService 讀屏 + Skills 系統(Deep Research / Browser Agent / Calendar Event Suggester / Recall)”這一整套架構。疊加上另一個泄露代號 Remy 被描述為“24/7 數字搭檔”、Sameer Samat 在 Android Show 把 Android 定義為“intelligence system”兩條信號,GLM 把三條公開但冷僻的線索拼到一起,押了“Google 會發一個面向消費者的 always-on AI agent,代號 COSMO / Gemini Spark”。
推理是合理的,信源也都站得住。但有個戲劇性的尾巴:GLM 的主報告里壓根沒押 Spark,這條預測只出現在追問 3。而且和它主報告里“高置信度押注不會發 Gemini 4.0”這條形成了奇怪的呼應,前者堅定地說“沒有大版本號升級”,后者又“補”了一個全新產品類目。GLM 像最后關頭才補上正確答案的考生,正卷寫到一半才意識到方向不對,在草稿紙上寫出了那個被全場漏押的答案。
押對了。但嚴格按“主報告 + 追問 3”算分,主報告的前瞻性不足(比如把 2 月就已經發布的 Gemini 3.1 Pro 當作 I/O 高置信度預測)還是把綜合分壓到了倒數第二。
![]()
6.3 押得越多,命中率越低
Kimi 給了 69 條預測,Manus 給了 72 條,兩家是 8 家里押得最多的,綜合分都跌到了 60 以下。MiniMax 只給 25 條,Claude 給 29 條,反而進了前 4。
不是說“押多了一定輸”。Kimi 和 Manus 押對的具體細節也不少:Mariner 繼任者、TPU 8 代、MCP 原生支持都是它們押對的硬命中。問題在于它們押了一長串 Android 17 平臺 API,但這些 keynote 主臺都沒出現,比如 Universal App Bubbles、ART 分代垃圾回收、RAW14 相機捕獲。這些都是 Android 17 的真實特性,但 Google 這次 keynote 把 Android 內容大部分讓給 5/12 Android Show 分流了,主臺只新提了一個 Android Halo UI 空間。按“逐條命中率”算法,這些押錯的 Android API 全部進了分母,把綜合分拉下來。
這給出一個對真實使用者有意義的判斷:用 Deep Research 類產品的時候,要它“密集列點”是一種用法,要它“精準押注”是另一種用法。這次評測的命中率算法獎勵的是后者。
6.4 信源策略的兩種極端
Claude 14 個 URL,86% 都是 Google 官博,可以讀為“信源最精挑”,也可以讀為“路徑最保守”。它幾乎不從蛛絲馬跡做大膽推理,信源也很少出 Google 官博和頂級科技媒體的范圍。這種打法在“命中率優先”的評分規則下天然占便宜:少押少錯,幾乎不會踩自信編造的雷。這次評測里 Claude 0 個 錯誤預測,跟它的信源策略直接相關。嚴格來說,如果換一個獎勵“反共識洞察”的評分規則,Claude 不一定還是第一。
Gemini 最努力,也最尷尬。108 個 URL 全場最多,59 個唯一域名最多樣,從體量看是最努力的一家。但綜合分排倒數第三。問題在于姿勢不對,108 個 URL 里有 26 個是 almcorp.com 這種營銷公司的 SEO 博客、meetprajapati.com 這種個人開發者博客、techcabal.com 這種非洲科技媒體。一手源數量也不少(38 個 Google 官方),但長尾博客把整體信源質量拖下來,加上時序錯位和自信編造,把“努力”變成了“努力的方向錯了”。
1
七、家家都有名場面
Claude(綜合分 70.0)
信源畫像:14 個 URL,86% 一手源,幾乎全是 Google 官博。精挑度全場第一。
亮點:抓到 4 個反共識細節全押對——Pixel 10a 反直覺降級用 Tensor G4(而非新代 G5)、Project Mariner 5/4 關停、Gemini Robotics-ER 1.6 抓到最新版本(比別家用的 1.5 還新,5/18 DeepMind 官博 teaser 印證)、Magic Pointer 由 DeepMind 團隊聯合開發(5/12 Android Show 上 DeepMind 詳解)。8 家里唯一引用 AI Mode 實際只占 0.16% US 搜索流量這個 Reality Check 數據。
槽點:在追問回答中的“自我批評”段落里出現了一處事實偏差,聲稱 Shahram Izadi 已離職去 OpenAI,但 Izadi 至今仍是 Google VP & GM of XR,CES 2026 還在臺上。這種事實偏差出現在 Claude 的“自我反思”段落里,比直接吹牛更難發現。另外,4 月 15 日已經獨立發布過的 macOS 版 Gemini app,Claude 把它當成 5 月 12 日 Android Show 才發的,錯了整整一個月。諷刺的是這條錯位的描述,正好出現在 Claude 自己最得意的“已發布事件剝離干凈”的章節里。
![]()
Genspark(綜合分 66.4)
信源畫像:27 個 URL,48% 一手源,13 個 Tier1 媒體,一手源和主流媒體均衡;逐條 fetch 驗證全部準確。
亮點:XR 眼鏡板塊是 8 家最準的。4 大合作伙伴全押中(三星、Warby Parker、Gentle Monster、XREAL),Samsung Jinju 7 項規格(驍龍 AR1、155mAh、12MP Sony IMX681、Wi-Fi BT5.3、定向揚聲器、變色鏡片、50g)逐項 100% 精確匹配。追問 2 押注 Agentic Coding,引用了 Google 官方議程“agentic coding”關鍵詞一字不差。
槽點:“把上周新聞當下周預言”。5 月 12 日的 Android Show 上 Google 已經公開發布了 Googlebook,這是 Genspark 測試時已經發生的事,但 Genspark 的報告還把“Googlebook 正式登場”列為 5/19 當天的“極高置信度預測”,信息已知但框架處理失敗。
ChatGPT(綜合分 65.5)
信源畫像:38 個 URL,66% 一手源,24 個 Google 官博。一手源數量全場第一。
亮點:唯一雙押雙中。追問 2 給了兩個押注(罕見):正向押“agentic AI 主線”?,負向押“Pixel 11 不發”?,8 家里唯一干凈的雙押雙中。Googlebook 5 家 OEM(Acer/ASUS/Dell/HP/Lenovo)、Magic Pointer、Create your Widget、“this fall”上市,逐項精確匹配。
槽點:反預測踩雷。ChatGPT 明確說“價格策略非大幅降價”,實際 I/O 直接把 AI Ultra 從 $250 砍到 $200,新增 $100 中端檔,取消每日 prompt 限制改 metering 計費,反向預測全反。Wear OS 6 版本號陷阱也踩中(實際是 Wear OS 7)。
4 · MiniMax(綜合分 63.2)
信源畫像:25 個 URL。我們逐條核查,Google 一手源為 0 個。最接近的一條是 androidauthority.com(英文二手媒體)。所有 Google 官方信息都靠中文媒體二次轉述獲取,18 個引用來自 36kr / eastmoney / zol / zhiding / sina / csdn / antutu / 財聯社等。
亮點:追問 2 押注極穩。95% 置信度押“Android XR Glasses I/O 亮相”,而且自己在追問 2 里主動下調三個預測的置信度(Gemini 4.0:60→55、Aluminum OS:45→30、AI 眼鏡上市:90→65),并明確區分“I/O 亮相 vs 商業上市”。是 8 家里最穩健的主動校準。
槽點:中文二手源占比 100% 的結構性問題,英文一手源完全缺席。把 Pixel 10a(已 2/18 發布)當作“反向預測”列為高置信度,是把已發生事件當未來預測的硬傷。
5 · Manus(綜合分 58.9)
信源畫像:自報 16 項信源,但其中 7 條 Agent 自己注明“未實際訪問,聲稱來源為 X”真 URL 僅 9 個。
亮點:硬命中清單全場最炸。6 大點全押對:Gemini Spark 命名、Omni 多模態(命名 + 單一架構)、XR 眼鏡雙形態(無顯示 + 顯示)、4 大合作伙伴、MCP 原生支持、TPU 8 代。細節精度僅次于 Claude 和 ChatGPT。
槽點:72 項預測里大量“極高”置信度的 Android 17 平臺 API(App Bubbles、游戲手柄重映射、單次位置權限、XR 應用數超 100 款、企業 MDM 集成)在 keynote 主臺沒出現,被判 ? 項最多。Wear OS 6 版本號陷阱也踩中。
6 · Gemini(綜合分 54.3)
信源畫像:108 個 URL 全場最多,59 個唯一域名最多樣。但 26 個是長尾源(營銷公司博客、個人開發者博客、非洲科技媒體等)。
亮點:細節引用極精準。TPU 8t 9600 芯片、2PB HBM、80% perf-per-dollar 一字不差;AppFunctions Lisa 郵件 demo 跨應用工作流引用與原文幾乎一致;Boston Dynamics、Hyundai、Atlas 三方合作跨源 100% 吻合。
槽點:翻到去年的舊文章當今年的預測依據。Gemini 引用了一篇 2025 年 5 月發的 Wear OS 6 舊博客,直接把它當成今年 I/O 的預測依據,反過來還高置信度地“證偽”了“Wear OS 7 會發”這個真信號。結果 I/O 當天真發的就是 Wear OS 7。另外,Aluminium OS 把 Google 內部代號當成官方品牌使用(Google 公關明確說過是 codename);Atlas 機器人 + Willow 量子早期訪問兩個極高預測被判自信地預測了不存在的產品,吃到額外扣分。
![]()
7 · GLM(綜合分 50.5)
信源畫像:21 個 URL,18/20 驗證通過,0 條編造嫌疑。信源透明度數據是 8 家里最干凈的。
亮點:8 家里唯一押對 Gemini Spark 真意外(詳見 6.2 節)。
槽點:主報告里完全沒押 Spark,只在追問 3 里補了出來,和主報告“不會發 4.0”的押注前后不太一致。主報告大量“已發生事件 + 保守路線”,比如把 Gemini 3.1 Pro(2 月就已經發布的模型)列為 I/O 高置信度預測,等于把上個月的新聞當作下周的發布。
8 · Kimi(綜合分 49.7)
信源畫像:37 個 URL,但粒度不足。34 條帶 URL 的引用里只有 2 條指向具體頁面(且都是 404),其余 32 條都是 9to5google.com/ 或 blog.google/products/maps/ 這種域名首頁或分類頁,無法精確佐證任何具體事實。
亮點:69 項預測里硬命中數量不少。Project Mariner 繼任者(Spark)、Agentic Booking 餐廳/機票預訂、Audio Glasses 首批今秋發售、Wear OS Gemini Live 都押對。
槽點:URL 顆粒度問題之外,少數地方踩了真編造。比如聲稱“AI Mode 轉化率 14.2%”這種小數點精度數字,完全沒標信源,我們在公開渠道也沒交叉核實到這個數據來源,屬于信源缺失的嚴重情況。另有 4 條引用 URL 直接 404 不存在(包括一條 Chrome WebMCP 的 URL 路徑寫錯,把官方 /blog/webmcp-epp 寫成了 /blog/mcp)。
1
八、集體翻車時刻
排名告訴你“誰押得更準”,但有些 I/O 真發的東西,8 家全錯或幾乎全錯。這也是值得關注的地方。
5 件 I/O 真發了,但 8 家集體沒押對的事
![]()
加上 Gemini Spark 這個真意外只有 GLM 在追問 3 里押對,Ask YouTube / Ask Play / Play Highlights / Daily Brief / Information Agents 這些子產品多數被漏押,可以看出一個共同模式。
8 家的盲區,可以歸成 4 類:
第一,商業模式 + 全新命名。AI Ultra 大幅降價 + 改 metering 計費,8 家全錯(ChatGPT 還明確押“非大幅降價”)。Google Pics、Spark、Daily Brief、Ask Play、Universal Cart、Android Halo 這些 Google 自己捏出來的新產品名字,Agent 幾乎都猜不出。Agent 能預測“Photos 會有 AI 編輯功能”,但猜不到“會有個叫 Google Pics 的全新 app”。
第二,跨產品整合。Universal Cart 跨 4 個產品、Ask YouTube 跨 Search 和 YouTube、Information Agents 跨多個垂直場景。Agent 習慣單產品預測,在“把已有產品組合成新功能”這個方向上集體啞火。
第三,規模數據。Personal Intelligence 擴展到 98 語言、近 200 國家;Gemini app 月活 9 億;月處理總量同比增 7 倍。大家押了 PI、押了 Gemini app,但沒押“全球化爆發”和“規模數據”。Agent 傾向預測能力,不預測規模。
第四,UI/UX 命名。Android Halo 這種 Google 內部的 UI 空間命名、“Neural Expressive”這種 Gemini app 設計語言,Agent 完全猜不出。這類預測靠泄露線索,Agent 拿不到。
合起來給出一個對真實使用者有用的判斷:如果你用 Deep Research Agent 幫你預測一場發布會,它最擅長的是“已知產品的版本號 + 已知合作伙伴的硬件細節”,最不擅長的是“全新命名 + 商業模式變革 + 跨產品整合”。這三類信息,你需要自己補腦。
1
九、押注與意外開獎
追問 2“押一注賭職業聲譽”開獎
![]()
ChatGPT 是 8 家里唯一干凈的雙押雙中,而且雙押方向一正一反都干凈命中。MiniMax 押的 XR 眼鏡是 Google 自己 5/12 官方明確預告過的穩贏盤,押法穩但風險也最低。Claude 押 Gemini 3.2 Flash 的依據非常硬(iOS app build artifact),被版本號跳一檔(3.2→3.5)留了點遺憾。
追問 3“今年最大的意外”開獎
![]()
8 家里唯一押對真意外的是 GLM。其他幾家押的方向也都有依據(Chrome agent、AI for Science、Antigravity、Agentic Web、Robotics、ChromeOS 命運),但全都被 Spark 這個真正的黑天鵝蓋過去了。3 家(Claude / Manus / MiniMax)押了 Gemini Robotics 或 ChromeOS,這兩條都明確未發生。
1
十、收尾
到這里,我們想說三件事。
第一,8 家 Agent 在過去一年的進步,比我們開始評測前預期的要大。即便是綜合分排在后面的幾家,押對的硬細節也不少。3 年前,這種“提前一周預測發布會”的任務,任何 Agent 都做不到這種顆粒度。
第二,它們的差異比榜單顯示的更大。同樣是“Deep Research”,有的跑出 38 個 Google 官博一手源,有的跑出 32 個域名首頁加 4 條死鏈;有的押注用一正一反雙押雙中,有的在追問 3 才補上主報告漏押的答案。這些都是肉眼可見的產品成熟度差距,光看幾個 benchmark 數字看不出來。
第三,這場評測的方法論本身也是 v1.0。哪些預測項更應該加權、追問的角色怎么算、5/12 這種“提前劇透”事件怎么處理,我們都還在調。后續幾期評測會繼續做橫評,慢慢迭代。所有評測細則、8 份原始報告、評分明細都會開源,歡迎一起討論交流。
![]()
![]()
點個“愛心”,再走 吧
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.