无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

硅星人Eval Eps.4 | “AI 押中率98%”?我們讓8個AI 押了高考數學卷

0
分享至


作者 | 周一笑
郵箱 | zhouyixiao@pingwest.com

每年高考前一個月,全網都在賣同一種東西,押題。

2025 年最夸張的是幾家自媒體打出的“AI 押題命中率 98%”,后來上海辟謠平臺、中國科協接連下場拆穿,高考命題嚴格保密、AI 拿不到訓練數據,加上年年反押題反套路,靠 AI 押中幾無可能。

押題是迎合焦慮,我們想做的是反過來戳破它。

今年高考前夕,硅星人 AI 前沿團隊把同一份 Prompt 發給 8 個全球主流的 AI Agent 產品,讓它們各自走完三步,分析近年北京卷的命題規律,預測 2026 年會怎么考,再親手出一整套 2026 模擬卷。然后我們把 8 套卷匿名打亂,讓這 8 個 AI 互相盲評打分。最后請一位輔導過多屆北京高三學生的數學老師,逐套審讀,并在考后對著真題逐題核對了命中率。

沒有“98%”。這位老師的判斷是,除了選擇、填空、大題第一道這些送分位,所有 AI 的預測里真能踩到點上的,加起來也超不過兩成。

這是 Agent Eval 系列第二期。,這期的高考預測卻是個密閉盒子,沒有標準答案、還必須真造出新題。具體怎么測、為什么挑高考數學,放在文末,先看結果。


1

誰押注的更準

6 月 7 日考完后,我們從兩個角度給這 8 家打了分。一個客觀,逐題核對它們的預測有沒有押中真題的知識點;一個主觀,請那位數學老師按“每套卷有幾個亮點”打分,看卷子到底出得好不好。

先說客觀的命中率(共 21 題,按命中的知識點數計):


區分度比我們預想的明顯,從 9 題到 4 題,差了一倍多。固定考點誰都押得中、拉不開差距,真正分高下的是中間那十幾道浮動小題。并列墊底的 Manus 和 GLM 里,GLM 更離譜,好幾道大題的題號都對不上(押 T17 數列、T19 概率、T20 拋物線),基本是錯位的。

兩處結果值得單說,一處是賭局,一處是集體翻車。

賭局在 T21 壓軸。真題是一道關于 ±1 數表的新定義題,方向是組合、不是數列??记百€“它已經告別數列、轉向組合”的 Claude、Gemini、Genspark、Manus 賭對了,堅持押“還是數列”的 ChatGPT、MiniMax、Kimi 錯了,而 GLM 連壓軸該出新定義都沒做到,直接放了道普通導數題。

翻車在 T17、T18。真題這次把這兩道大題對調了,T17 改考概率、T18 改考立幾。沒有一家料到這次對調,大多數仍按老規律押 T17 立體幾何、T18 概率,這兩道大題上集體失分。

再說主觀的亮點分:


老師對每套卷的銳評,節選幾句:Genspark“第 8 題押中了類似題,大題對味,概率題背景豐富”;Gemini“不僅模仿還會改編,把 2022 年高考第 10 題改了角度、升了難度,導數考極值點偏移,絕對是 8 套里最難的”;

MiniMax“橢圓大題是 8 套里最佳,但導數高二期末壓軸都不會這么簡單”;Claude“第 10 題照著 2022 年高考只改了幾個數字”;ChatGPT“導數乍一看很唬人,稍加計算就發現很簡單”;墊底的 GLM“卷面竟帶參考公式、大題居然考等差數列、解析幾何考拋物線,懷疑到底有沒有看過北京卷,可能是穿越了”。

兩份榜單對照著看很有意思。Genspark 兩頭都第一、GLM 兩頭都墊底,沒懸念。但中間幾家錯位明顯,Kimi 命中率并列第一,亮點分卻只有 60;Gemini 命中率才中游,亮點分卻并列第一。押得準和出得好,是兩回事。

1

幾個沒料到的發現

AI 集體不自戀

把 8 套卷匿名打亂、編號“卷一”到“卷八”,再發回給這 8 個 AI,讓它們以教研員的身份盲評打分、排出名次。它們會不會偷偷給自己打高分?

為了讓這一問問得干凈,我們做了幾層隔離。每套卷都抹掉了出處痕跡、統一了排版,讓模型認不出哪份是自己寫的;評審一律開新對話進行,關掉記憶、開啟隱私模式,不讓它帶著“我上周出過一套卷”的印象來打分。我們自己則留了一張對照表,記下每個編號對應的真身,專門盯著對角線那八格,看誰給自己排了第幾。

大模型的“自我偏愛”是學界公認的老問題,讓模型評價一堆內容,其中混著它自己的產出,它往往會不自覺地高看自己一眼。匿名之后,這個偏愛還在不在,正是我們想看的。


8 個 AI 里,只有 1 個把自己排在了第一。 而且這唯一的“自封第一”還情有可原,它是 Genspark,而它那套卷子本來就是全場公認的冠軍,六家都把它排進了前二。連這一票“自戀”都是實至名歸。

更意外的是反方向。GLM 把自己的卷子排到了全場墊底,第八名。Kimi 給自己排第五。其余幾家也都老老實實待在中游,沒誰往上抬自己。排除 Genspark 這個特殊點后,剩下幾家給自己打的平均名次,比“隨機亂排”的期望還要低一點點,沒有誰明顯自抬身價。

這批通用 Agent,非但沒表現出傳說中的自我偏愛,反而有點嚴于律己。說它們謙虛倒未必,更準確的說法是,它們真的能看出自己作品的毛病。GLM 那套卷子確實有硬傷,Kimi 自己也清楚只分析了三年數據底氣不足(原因下一節講)。能在匿名的前提下,準確地把自己的短板也評進去,這本身是一種值得肯定的判斷力。

順帶說一個離群點。8 個 AI 里,唯獨 ChatGPT 跟大家擰著來,它把公認冠軍的那套卷壓到了第六,轉頭把另一套卷捧上了第一。審美這件事,AI 之間也對不上。

一份 PDF,測出了誰更誠實

我們喂給 8 家的那份真題 PDF,有兩年(2021 和 2024)是掃描圖片,機器直接抽取文本是抽不出來的。這本是個失誤,但陰差陽錯,反而成了這次評測里最意外的收獲。它等于給所有 Agent 出了一道現實里極其常見的難題,手上的資料是殘缺的,你怎么辦。一個 Agent 誠不誠實、靠不靠譜,往往就藏在它對這種殘缺的反應里。8 家的應對,清清楚楚地分成了三檔。


誠實的一檔,Kimi。 它在報告開頭就專門寫了一段說明,明明白白地告訴我們,這份 PDF 它只讀到了 2022、2023、2025 三年,2021 和 2024 沒找到,所以后面的分析只基于這三年。它沒有為了湊齊五年去編,寧可信息少一點,也不糊弄。

中間一檔,GLM、Manus、MiniMax。 它們都聲稱分析了完整五年,而且我們去核對了它們對 2021、2024 的知識點標注,居然是對的。比如 GLM 標的 2021 年第 18 題“核酸檢測概率”、第 6 題“黨旗規格的等差數列”,跟真題一字不差。這說明它們要么真的用了別的方式(圖像識別、聯網檢索)補上了,要么調動了自己腦子里的存貨,能力是夠的。唯一的問題是,它們全程沒提一句“這兩年其實是圖片、我是另想辦法拿到的”,讓你以為一切順利?;钍歉傻搅?,但少了一句本該有的交代。

最值得說的一檔,Gemini。 我們一開始沒看出問題,直到追問它是怎么讀取 PDF 的,它才承認,自己根本沒真正讀那份 PDF,是憑訓練時記住的北京卷題目直接答的。前面那套煞有介事的“五年分析”,并不是基于我們給的材料做出來的。真用起來這是個隱患,你以為它在認真讀你給的文件,它其實在憑印象自由發揮。

誰較真,誰偷懶,誰穿越了

挨個說說這 8 家的過程表現。

ChatGPT(GPT-5.5 Thinking Extended)。 最省心的一家,直接吐出一份排版好的 PDF 試卷,拿來就能用。預測也最“教科書”,結構判斷穩、解析完整。它就是前面互評里那個離群值,全場就它把公認冠軍壓到第六。出的題偏常規、偏穩,沒什么花活,但也幾乎不出錯。

Claude(Opus 4.8 Max)。 最“較真”的一家。為了把數學公式渲染好看,它自己想了套方案,先生成 Markdown,再轉成帶 MathJax 的 HTML,最后用瀏覽器打印成 PDF,思考時間長得出奇。這股較真勁也用在了盲評上,它是唯一一個逐題動手驗算、把別家卷子里的數學錯誤一道道挑出來的,活脫脫一個改卷子的老教師。

Gemini(3.1 Pro Extended)。 最愛往題里塞科技場景的一家,算力成本、神經網絡節點、機器人測試,題題不離前沿。它就是前面 PDF 那節沒真讀、靠記憶答題的那位。另外它的卷子里有處公式沒渲染出來,留下一串沒解析的代碼符號,露了點馬腳。


Genspark(Ultra Mode,底層 Claude Opus 4.7)。 這次的“卷王”,公認冠軍。它的卷子幾乎挑不出數學錯誤,是少數全卷零差錯的一份;情境設計也最見功力,電池衰減、低空經濟無人機、自動駕駛算法可靠性,把“減少機械計算、貼近真實情境”這個近年命題趨勢踩得最準。面對那份讀不全的 PDF,它的處理也很坦誠,主動說明自己沒讀完整、提出要聯網搜題,征得我們同意后才去搜,全程擺在臺面上。它身上的小瑕疵是,對 2025 年分值結構的判斷我們沒能找到來源支撐,疑似是自己腦補的。


GLM(GLM-5.1)。 版式上很像真卷子,題號、分值、排版都規整。但它也是三方公認的墊底,AI 同行把它排末尾,老師也對它最不客氣。漂亮的只是殼,里子全是別家的。卷面帶參考公式是上海卷的習慣,大題考等差數列是全國卷的考法,解析幾何考拋物線北京卷更不會出,全是硬傷。它的選擇題選項標號還一度全顯示成“A”,是個挺明顯的格式 bug。

Kimi(k2.6-agent)。 誠實的那位,但也像個勤懇卻不肯多想一步的執行者,發現兩年讀不到就直接往下做,沒想過換個法子補救,缺乏主動性。出的卷子模仿得有模有樣,但偏簡單,而且因為只看了三年數據,它是唯一一個把 T16、T17 押反的,被 2023 年那次 T16/T17 對調帶偏了。

MiniMax(MiniMax-M3)。 模板做得最漂亮、最規整,拿去當教輔排版都夠用。但它也是四個國產模型里生成最慢的,跑了很久。出的題偏簡單,老師點名它的導數題接近課后練習的水平。還鬧了個不大不小的烏龍,讓它出北京卷,它中途一度寫成了上海,還順手掛上了自家的產品名。

Manus(Manus 1.6 Max)。 風格平穩、結構完整,沒有特別出挑的地方,但也挑不出大毛病。在普遍偏簡單的這一批里,它的解答題被老師評為“相對最有水平”的一檔,算是悶聲做對了事。

還有個小癖好很流行,8 套卷里有 6 套都愛往題里塞 AI、算力、新能源這類科技情境,Manus 出充電樁覆蓋率的對數模型,Gemini 把神經網絡分層節點編成數列,Genspark 讓考生算自動駕駛算法 A、B 的可靠性,最絕的是 ChatGPT,它出了道甲、乙、丙三個 AI 模型做同一道數學題的概率題,讓 AI 出的卷子去考 AI 做題。而真實北京卷五年才出現過一次 AI 情境。AI 出題,是真喜歡 cue 自己。

老師閱完八套卷,我上我也被罵

光看分數還不夠,得聽聽那位閱了八套卷的老師怎么說。他給的判斷只有五個字,整體偏簡單,這些 AI 出的卷子,難度比高二下學期的都趕不上。

這個判斷并不孤立。一項針對高利害醫學考試的研究發現,AI 命制的題目確實更偏簡單、更偏重事實記憶這類低階認知,事實性錯誤也更多,整體不如人類專家命制的題。一位一線老師的經驗之談,和這條研究結論對上了。

更值得一提的是三方的相互印證。AI 評審團把 GLM 排在墊底,這位老師在完全不知道 AI 怎么評的情況下,也把 GLM 點成了“最拉垮”的一份,理由和前面那些硬傷一致。人類專家、AI 同行、還有我們的程序核對,三條獨立的線索,最后都指向了同一個墊底答案。

至于為什么集體出不好,老師給了四條想法,喂的題太少、只會改數字式的拙劣模仿、生成不出新題型、做不到知識點組合創新。前兩條我們能在數據里看到,ChatGPT 和 Genspark 的導數大題撞成幾乎同一道、還都和 2025 真題同源;后兩條更偏經驗之談,背后可能是模型天生愛生成高頻套路、回避低概率的新結構。

最讓我們印象深刻的,是他一句很實在的話。“我去出,肯定比它們出的好很多倍。但我出出來,絕對也是被罵的?!币驗槟苎褐械膶嵲谔?,連他自己上場也未必高到哪去。也就是說,高考預測這道題,難的壓根不在 AI 這頭,預測題目本身就幾乎無解。

1

形似,神不似

哪怕是被老師批得最狠的那幾家,也能把北京卷的骨架、題型、分值分布模仿得有模有樣。

但開獎后差距也清清楚楚,沒有一家真正押中。Genspark 在命中率、AI 互評、亮點分三塊都排在最前(命中率、亮點分都是并列第一),不過它的領先里有一部分來自中途主動聯網搜了更多真題,這一步它擺在明面上、也經過我們同意,和偷偷不讀 PDF 的 Gemini 是兩回事。但即便如此,離真正押中一張高考卷還差得遠。

8 家幾乎都能模仿出北京卷的“形”,卻造不出它的“神”。那道每年翻新、逼考生現學現證的新定義壓軸題,是全卷的靈魂,也是 AI 集體的盲區。模仿易,創造難,這道坎,AI 們還沒邁過去。

1

附|我們怎么測的

為什么挑高考數學。 第一期測發布會預測,至少還有產業鏈上的爆料、泄露可以蹭。高考命題是另一個極端,它是一個真正密閉的盒子,外面的人拿不到任何內部信息,只能從歷年真題里抽規律去賭明年。更難的是,它要求 AI 真的“造”出題來,檢索幫不上忙,背題也沒用,因為 2026 年的題還不存在。讀懂、推斷、創造,三件事拴在一起,任何一步不穩,最后那套卷就會露餡。能不能從有限樣本里歸納出真規律、能不能造出訓練數據里沒有的新題型,正是把“會背書的 AI”和“會思考的 AI”分開的那條線。

怎么測。 參評的是第一期那 8 家,全部開到最高推理檔、允許聯網。測試分三階段,8 家收到完全相同的 Prompt 和輸入材料(2021—2025 五年北京卷真題及解析合集),在同一對話里依次完成。階段一逐年逐題標注知識點、歸納規律,階段二按題號預測 2026 年每道題,階段三據此出一整套 150 分的模擬卷。

怎么評。 我們鎖定五個維度,前四個考前就能評(預測邏輯、出卷質量、AI 互評、PDF 誠實度),第五個是逐題命中率,等真題出來才算。


預測的邏輯也值得一看。看大題,8 家像參考了同一份教研紀要,T16 三角、T17 立幾、T18 概率、T19 橢圓、T20 導數、T21 新定義壓軸,這副骨架誰都押中,連分值結構都對齊;看小題,又完全不像一伙人,T3 到 T14 的浮動區幾乎沒有一道預測完全一致。


說明:北京數學官方版高考真題暫未放出,本次參考真題為多份考后記憶版交叉驗證,個別題目細節可能有出入,但知識點框架可靠;命中率與亮點分均由該數學老師人工評定審核,評分細則與 8 份原始試卷見 GitHub。

查看完整報告、8 套預測試卷,可訪問 GitHub:https://github.com/pingwest-ai/agent-eval/tree/main/cases/EVAL-002-gaokao-math-2026


點個愛心,再走 吧

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
特斯拉和比亞迪電池差距有多大?老司機:一個真技術,一個只吹牛

特斯拉和比亞迪電池差距有多大?老司機:一個真技術,一個只吹牛

混沌錄
2026-06-12 22:43:35
南京印度游客灑紅節鬧?。嚎駳g無邊界,包容絕非無底線!

南京印度游客灑紅節鬧?。嚎駳g無邊界,包容絕非無底線!

行者聊官
2026-06-13 21:45:48
A股:2.5億股民,今晚可能要興奮得睡不著覺了,你知道為什么嗎?

A股:2.5億股民,今晚可能要興奮得睡不著覺了,你知道為什么嗎?

夜深愛雜談
2026-06-14 22:31:05
兩性關系:瘦女人和胖女人的區別,聽聽男人的真實想法

兩性關系:瘦女人和胖女人的區別,聽聽男人的真實想法

i書與房
2026-06-07 21:27:32
就在今天!庫里保持了9年的NBA紀錄被打破了

就在今天!庫里保持了9年的NBA紀錄被打破了

籃球大視野
2026-06-14 15:14:01
普京信任度暴跌?俄軍精銳被迫大撤離,3萬億養老金慘遭強制劃走

普京信任度暴跌?俄軍精銳被迫大撤離,3萬億養老金慘遭強制劃走

峰攀登者
2026-06-13 23:12:14
萬萬沒想到!電詐集團被中國全面剿殺后,居然跨海轉移到這里?

萬萬沒想到!電詐集團被中國全面剿殺后,居然跨海轉移到這里?

完善法
2026-06-14 16:19:42
高考剛結束就往醫院跑?大廳走廊擠滿女生,家長無奈:根本攔不住

高考剛結束就往醫院跑?大廳走廊擠滿女生,家長無奈:根本攔不住

奇思妙想草葉君
2026-06-11 21:08:40
廣西一農貿市場222臺電子秤被檢定0臺合格,南寧市監局:截圖屬實,但不是缺斤少兩,不存在超差誤差問題

廣西一農貿市場222臺電子秤被檢定0臺合格,南寧市監局:截圖屬實,但不是缺斤少兩,不存在超差誤差問題

先鋒新聞
2026-06-14 13:40:53
21歲男籃新星含淚官宣離隊!親曝與主帥矛盾:太讓人心疼

21歲男籃新星含淚官宣離隊!親曝與主帥矛盾:太讓人心疼

李絙在北漂
2026-06-14 05:20:35
41歲夫妻因“房事頻繁”雙雙入院,醫生提醒:每周不應超過一個數

41歲夫妻因“房事頻繁”雙雙入院,醫生提醒:每周不應超過一個數

路醫生健康科普
2026-06-03 16:36:08
拉杜卡努女王杯賽場怒懟教練

拉杜卡努女王杯賽場怒懟教練

體壇周報
2026-06-14 22:09:52
世界杯亮劍后,利物浦切爾西盯上23歲韓國鐵衛

世界杯亮劍后,利物浦切爾西盯上23歲韓國鐵衛

晚風知我意21
2026-06-14 01:26:51
“明日三不空,不富也添安”,明日五月初一,分別指哪3不空?

“明日三不空,不富也添安”,明日五月初一,分別指哪3不空?

小談食刻美食
2026-06-14 10:50:40
相隔一日,副院長54歲病逝,教研室主任47歲病逝

相隔一日,副院長54歲病逝,教研室主任47歲病逝

必記本
2026-06-14 08:45:31
婆婆退休宴全家沒請我,我關機消失11天,回家后老公哭著說出事了

婆婆退休宴全家沒請我,我關機消失11天,回家后老公哭著說出事了

曉艾故事匯
2026-06-14 16:40:42
蘋果三款重磅新品即將發布!已經提前泄露

蘋果三款重磅新品即將發布!已經提前泄露

XCiOS俱樂部
2026-06-12 14:44:53
韋東奕作答2026高考數學,能否拿下滿分?真實答案顛覆大眾認知

韋東奕作答2026高考數學,能否拿下滿分?真實答案顛覆大眾認知

起喜電影
2026-06-13 13:29:44
被劣跡富豪害慘的上海名嘴,54歲頭發花白,為兩個兒子辛苦打拼

被劣跡富豪害慘的上海名嘴,54歲頭發花白,為兩個兒子辛苦打拼

可樂談情感
2026-06-15 02:36:28
鄢姣,金融監管總局辦公廳副主任,皮膚白皙,顏值不輸當紅女明星

鄢姣,金融監管總局辦公廳副主任,皮膚白皙,顏值不輸當紅女明星

李昕言溫度空間
2026-06-14 08:27:32
2026-06-15 04:12:49
硅星人 incentive-icons
硅星人
硅(Si)是創造未來的基礎,歡迎來到這個星球。
3159文章數 10506關注度
往期回顧 全部

科技要聞

Anthropic最強模型被禁,傳亞馬遜通風報信

頭條要聞

德國7-1大勝庫拉索 庫拉索打入隊史世界杯首球

頭條要聞

德國7-1大勝庫拉索 庫拉索打入隊史世界杯首球

體育要聞

8年8隊奪冠,鄧肯那句話,現在還給了馬刺

娛樂要聞

鄧超攜子觀戰NBA,等等帥氣十足

財經要聞

金價跌至900元關口,大媽又來抄底了!

汽車要聞

狂歡置換價7.99萬 第三代豪越L歡樂PLUS大7座版上市

態度原創

游戲
教育
親子
數碼
公開課

逆天BUG秒賺上億!《地平線6》緊急關閉吃雞模式

教育要聞

2026廣東高考開始閱卷,現場圖曝光!如何查分?祝愿考生接高分!

親子要聞

寶藍和爸爸用吃完的西瓜,做了一個水晶泥玩具~

數碼要聞

iOS 27與macOS 27暗示折疊屏iPhone與觸控版MacBook臨近登場

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版