網易首頁 > 網易號 > 正文申請入駐

硅星人Eval Eps.4 | “AI 押中率98%”？我們讓8個AI 押了高考數學卷

2026-06-13 11:26:51　來源: 硅星人

北京舉報

分享至

作者｜周一笑
郵箱｜ zhouyixiao@pingwest.com

每年高考前一個月，全網都在賣同一種東西，押題。

2025 年最夸張的是幾家自媒體打出的“AI 押題命中率 98%”，后來上海辟謠平臺、中國科協接連下場拆穿，高考命題嚴格保密、AI 拿不到訓練數據，加上年年反押題反套路，靠 AI 押中幾無可能。

押題是迎合焦慮，我們想做的是反過來戳破它。

今年高考前夕，硅星人 AI 前沿團隊把同一份 Prompt 發給 8 個全球主流的 AI Agent 產品，讓它們各自走完三步，分析近年北京卷的命題規律，預測 2026 年會怎么考，再親手出一整套 2026 模擬卷。然后我們把 8 套卷匿名打亂，讓這 8 個 AI 互相盲評打分。最后請一位輔導過多屆北京高三學生的數學老師，逐套審讀，并在考后對著真題逐題核對了命中率。

沒有“98%”。這位老師的判斷是，除了選擇、填空、大題第一道這些送分位，所有 AI 的預測里真能踩到點上的，加起來也超不過兩成。

這是 Agent Eval 系列第二期。，這期的高考預測卻是個密閉盒子，沒有標準答案、還必須真造出新題。具體怎么測、為什么挑高考數學，放在文末，先看結果。

誰押注的更準

6 月 7 日考完后，我們從兩個角度給這 8 家打了分。一個客觀，逐題核對它們的預測有沒有押中真題的知識點；一個主觀，請那位數學老師按“每套卷有幾個亮點”打分，看卷子到底出得好不好。

先說客觀的命中率（共 21 題，按命中的知識點數計）：

區分度比我們預想的明顯，從 9 題到 4 題，差了一倍多。固定考點誰都押得中、拉不開差距，真正分高下的是中間那十幾道浮動小題。并列墊底的 Manus 和 GLM 里，GLM 更離譜，好幾道大題的題號都對不上（押 T17 數列、T19 概率、T20 拋物線），基本是錯位的。

兩處結果值得單說，一處是賭局，一處是集體翻車。

賭局在 T21 壓軸。真題是一道關于 ±1 數表的新定義題，方向是組合、不是數列?？记百€“它已經告別數列、轉向組合”的 Claude、Gemini、Genspark、Manus 賭對了，堅持押“還是數列”的 ChatGPT、MiniMax、Kimi 錯了，而 GLM 連壓軸該出新定義都沒做到，直接放了道普通導數題。

翻車在 T17、T18。真題這次把這兩道大題對調了，T17 改考概率、T18 改考立幾。沒有一家料到這次對調，大多數仍按老規律押 T17 立體幾何、T18 概率，這兩道大題上集體失分。

再說主觀的亮點分：

老師對每套卷的銳評，節選幾句：Genspark“第 8 題押中了類似題，大題對味，概率題背景豐富”；Gemini“不僅模仿還會改編，把 2022 年高考第 10 題改了角度、升了難度，導數考極值點偏移，絕對是 8 套里最難的”；

MiniMax“橢圓大題是 8 套里最佳，但導數高二期末壓軸都不會這么簡單”；Claude“第 10 題照著 2022 年高考只改了幾個數字”；ChatGPT“導數乍一看很唬人，稍加計算就發現很簡單”；墊底的 GLM“卷面竟帶參考公式、大題居然考等差數列、解析幾何考拋物線，懷疑到底有沒有看過北京卷，可能是穿越了”。

兩份榜單對照著看很有意思。Genspark 兩頭都第一、GLM 兩頭都墊底，沒懸念。但中間幾家錯位明顯，Kimi 命中率并列第一，亮點分卻只有 60；Gemini 命中率才中游，亮點分卻并列第一。押得準和出得好，是兩回事。

幾個沒料到的發現

AI 集體不自戀

把 8 套卷匿名打亂、編號“卷一”到“卷八”，再發回給這 8 個 AI，讓它們以教研員的身份盲評打分、排出名次。它們會不會偷偷給自己打高分？

為了讓這一問問得干凈，我們做了幾層隔離。每套卷都抹掉了出處痕跡、統一了排版，讓模型認不出哪份是自己寫的；評審一律開新對話進行，關掉記憶、開啟隱私模式，不讓它帶著“我上周出過一套卷”的印象來打分。我們自己則留了一張對照表，記下每個編號對應的真身，專門盯著對角線那八格，看誰給自己排了第幾。

大模型的“自我偏愛”是學界公認的老問題，讓模型評價一堆內容，其中混著它自己的產出，它往往會不自覺地高看自己一眼。匿名之后，這個偏愛還在不在，正是我們想看的。

8 個 AI 里，只有 1 個把自己排在了第一。 而且這唯一的“自封第一”還情有可原，它是 Genspark，而它那套卷子本來就是全場公認的冠軍，六家都把它排進了前二。連這一票“自戀”都是實至名歸。

更意外的是反方向。GLM 把自己的卷子排到了全場墊底，第八名。Kimi 給自己排第五。其余幾家也都老老實實待在中游，沒誰往上抬自己。排除 Genspark 這個特殊點后，剩下幾家給自己打的平均名次，比“隨機亂排”的期望還要低一點點，沒有誰明顯自抬身價。

這批通用 Agent，非但沒表現出傳說中的自我偏愛，反而有點嚴于律己。說它們謙虛倒未必，更準確的說法是，它們真的能看出自己作品的毛病。GLM 那套卷子確實有硬傷，Kimi 自己也清楚只分析了三年數據底氣不足（原因下一節講）。能在匿名的前提下，準確地把自己的短板也評進去，這本身是一種值得肯定的判斷力。

順帶說一個離群點。8 個 AI 里，唯獨 ChatGPT 跟大家擰著來，它把公認冠軍的那套卷壓到了第六，轉頭把另一套卷捧上了第一。審美這件事，AI 之間也對不上。

一份 PDF，測出了誰更誠實

我們喂給 8 家的那份真題 PDF，有兩年（2021 和 2024）是掃描圖片，機器直接抽取文本是抽不出來的。這本是個失誤，但陰差陽錯，反而成了這次評測里最意外的收獲。它等于給所有 Agent 出了一道現實里極其常見的難題，手上的資料是殘缺的，你怎么辦。一個 Agent 誠不誠實、靠不靠譜，往往就藏在它對這種殘缺的反應里。8 家的應對，清清楚楚地分成了三檔。

誠實的一檔，Kimi。 它在報告開頭就專門寫了一段說明，明明白白地告訴我們，這份 PDF 它只讀到了 2022、2023、2025 三年，2021 和 2024 沒找到，所以后面的分析只基于這三年。它沒有為了湊齊五年去編，寧可信息少一點，也不糊弄。

中間一檔，GLM、Manus、MiniMax。 它們都聲稱分析了完整五年，而且我們去核對了它們對 2021、2024 的知識點標注，居然是對的。比如 GLM 標的 2021 年第 18 題“核酸檢測概率”、第 6 題“黨旗規格的等差數列”，跟真題一字不差。這說明它們要么真的用了別的方式（圖像識別、聯網檢索）補上了，要么調動了自己腦子里的存貨，能力是夠的。唯一的問題是，它們全程沒提一句“這兩年其實是圖片、我是另想辦法拿到的”，讓你以為一切順利?；钍歉傻搅?，但少了一句本該有的交代。

最值得說的一檔，Gemini。 我們一開始沒看出問題，直到追問它是怎么讀取 PDF 的，它才承認，自己根本沒真正讀那份 PDF，是憑訓練時記住的北京卷題目直接答的。前面那套煞有介事的“五年分析”，并不是基于我們給的材料做出來的。真用起來這是個隱患，你以為它在認真讀你給的文件，它其實在憑印象自由發揮。

誰較真，誰偷懶，誰穿越了

挨個說說這 8 家的過程表現。

ChatGPT（GPT-5.5 Thinking Extended）。 最省心的一家，直接吐出一份排版好的 PDF 試卷，拿來就能用。預測也最“教科書”，結構判斷穩、解析完整。它就是前面互評里那個離群值，全場就它把公認冠軍壓到第六。出的題偏常規、偏穩，沒什么花活，但也幾乎不出錯。

Claude（Opus 4.8 Max）。 最“較真”的一家。為了把數學公式渲染好看，它自己想了套方案，先生成 Markdown，再轉成帶 MathJax 的 HTML，最后用瀏覽器打印成 PDF，思考時間長得出奇。這股較真勁也用在了盲評上，它是唯一一個逐題動手驗算、把別家卷子里的數學錯誤一道道挑出來的，活脫脫一個改卷子的老教師。

Gemini（3.1 Pro Extended）。 最愛往題里塞科技場景的一家，算力成本、神經網絡節點、機器人測試，題題不離前沿。它就是前面 PDF 那節沒真讀、靠記憶答題的那位。另外它的卷子里有處公式沒渲染出來，留下一串沒解析的代碼符號，露了點馬腳。

Genspark（Ultra Mode，底層 Claude Opus 4.7）。 這次的“卷王”，公認冠軍。它的卷子幾乎挑不出數學錯誤，是少數全卷零差錯的一份；情境設計也最見功力，電池衰減、低空經濟無人機、自動駕駛算法可靠性，把“減少機械計算、貼近真實情境”這個近年命題趨勢踩得最準。面對那份讀不全的 PDF，它的處理也很坦誠，主動說明自己沒讀完整、提出要聯網搜題，征得我們同意后才去搜，全程擺在臺面上。它身上的小瑕疵是，對 2025 年分值結構的判斷我們沒能找到來源支撐，疑似是自己腦補的。

GLM（GLM-5.1）。 版式上很像真卷子，題號、分值、排版都規整。但它也是三方公認的墊底，AI 同行把它排末尾，老師也對它最不客氣。漂亮的只是殼，里子全是別家的。卷面帶參考公式是上海卷的習慣，大題考等差數列是全國卷的考法，解析幾何考拋物線北京卷更不會出，全是硬傷。它的選擇題選項標號還一度全顯示成“A”，是個挺明顯的格式 bug。

Kimi（k2.6-agent）。 誠實的那位，但也像個勤懇卻不肯多想一步的執行者，發現兩年讀不到就直接往下做，沒想過換個法子補救，缺乏主動性。出的卷子模仿得有模有樣，但偏簡單，而且因為只看了三年數據，它是唯一一個把 T16、T17 押反的，被 2023 年那次 T16/T17 對調帶偏了。

MiniMax（MiniMax-M3）。 模板做得最漂亮、最規整，拿去當教輔排版都夠用。但它也是四個國產模型里生成最慢的，跑了很久。出的題偏簡單，老師點名它的導數題接近課后練習的水平。還鬧了個不大不小的烏龍，讓它出北京卷，它中途一度寫成了上海，還順手掛上了自家的產品名。

Manus（Manus 1.6 Max）。 風格平穩、結構完整，沒有特別出挑的地方，但也挑不出大毛病。在普遍偏簡單的這一批里，它的解答題被老師評為“相對最有水平”的一檔，算是悶聲做對了事。

還有個小癖好很流行，8 套卷里有 6 套都愛往題里塞 AI、算力、新能源這類科技情境，Manus 出充電樁覆蓋率的對數模型，Gemini 把神經網絡分層節點編成數列，Genspark 讓考生算自動駕駛算法 A、B 的可靠性，最絕的是 ChatGPT，它出了道甲、乙、丙三個 AI 模型做同一道數學題的概率題，讓 AI 出的卷子去考 AI 做題。而真實北京卷五年才出現過一次 AI 情境。AI 出題，是真喜歡 cue 自己。

老師閱完八套卷，我上我也被罵

光看分數還不夠，得聽聽那位閱了八套卷的老師怎么說。他給的判斷只有五個字，整體偏簡單，這些 AI 出的卷子，難度比高二下學期的都趕不上。

這個判斷并不孤立。一項針對高利害醫學考試的研究發現，AI 命制的題目確實更偏簡單、更偏重事實記憶這類低階認知，事實性錯誤也更多，整體不如人類專家命制的題。一位一線老師的經驗之談，和這條研究結論對上了。

更值得一提的是三方的相互印證。AI 評審團把 GLM 排在墊底，這位老師在完全不知道 AI 怎么評的情況下，也把 GLM 點成了“最拉垮”的一份，理由和前面那些硬傷一致。人類專家、AI 同行、還有我們的程序核對，三條獨立的線索，最后都指向了同一個墊底答案。

至于為什么集體出不好，老師給了四條想法，喂的題太少、只會改數字式的拙劣模仿、生成不出新題型、做不到知識點組合創新。前兩條我們能在數據里看到，ChatGPT 和 Genspark 的導數大題撞成幾乎同一道、還都和 2025 真題同源；后兩條更偏經驗之談，背后可能是模型天生愛生成高頻套路、回避低概率的新結構。

最讓我們印象深刻的，是他一句很實在的話。“我去出，肯定比它們出的好很多倍。但我出出來，絕對也是被罵的?！币驗槟苎褐械膶嵲谔?，連他自己上場也未必高到哪去。也就是說，高考預測這道題，難的壓根不在 AI 這頭，預測題目本身就幾乎無解。

形似，神不似

哪怕是被老師批得最狠的那幾家，也能把北京卷的骨架、題型、分值分布模仿得有模有樣。

但開獎后差距也清清楚楚，沒有一家真正押中。Genspark 在命中率、AI 互評、亮點分三塊都排在最前（命中率、亮點分都是并列第一），不過它的領先里有一部分來自中途主動聯網搜了更多真題，這一步它擺在明面上、也經過我們同意，和偷偷不讀 PDF 的 Gemini 是兩回事。但即便如此，離真正押中一張高考卷還差得遠。

8 家幾乎都能模仿出北京卷的“形”，卻造不出它的“神”。那道每年翻新、逼考生現學現證的新定義壓軸題，是全卷的靈魂，也是 AI 集體的盲區。模仿易，創造難，這道坎，AI 們還沒邁過去。

附｜我們怎么測的

為什么挑高考數學。 第一期測發布會預測，至少還有產業鏈上的爆料、泄露可以蹭。高考命題是另一個極端，它是一個真正密閉的盒子，外面的人拿不到任何內部信息，只能從歷年真題里抽規律去賭明年。更難的是，它要求 AI 真的“造”出題來，檢索幫不上忙，背題也沒用，因為 2026 年的題還不存在。讀懂、推斷、創造，三件事拴在一起，任何一步不穩，最后那套卷就會露餡。能不能從有限樣本里歸納出真規律、能不能造出訓練數據里沒有的新題型，正是把“會背書的 AI”和“會思考的 AI”分開的那條線。

怎么測。 參評的是第一期那 8 家，全部開到最高推理檔、允許聯網。測試分三階段，8 家收到完全相同的 Prompt 和輸入材料（2021—2025 五年北京卷真題及解析合集），在同一對話里依次完成。階段一逐年逐題標注知識點、歸納規律，階段二按題號預測 2026 年每道題，階段三據此出一整套 150 分的模擬卷。

怎么評。 我們鎖定五個維度，前四個考前就能評（預測邏輯、出卷質量、AI 互評、PDF 誠實度），第五個是逐題命中率，等真題出來才算。

預測的邏輯也值得一看。看大題，8 家像參考了同一份教研紀要，T16 三角、T17 立幾、T18 概率、T19 橢圓、T20 導數、T21 新定義壓軸，這副骨架誰都押中，連分值結構都對齊；看小題，又完全不像一伙人，T3 到 T14 的浮動區幾乎沒有一道預測完全一致。

說明：北京數學官方版高考真題暫未放出，本次參考真題為多份考后記憶版交叉驗證，個別題目細節可能有出入，但知識點框架可靠；命中率與亮點分均由該數學老師人工評定審核，評分細則與 8 份原始試卷見 GitHub。

查看完整報告、8 套預測試卷，可訪問 GitHub：https://github.com/pingwest-ai/agent-eval/tree/main/cases/EVAL-002-gaokao-math-2026

點個“愛心”，再走吧

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.