網易首頁 > 網易號 > 正文申請入駐

我把13個頂級AI送去數學高考，并列第一居然是它們。。。

2026-06-08 11:58:33　來源: 卡爾的AI沃茨

北京舉報

分享至

又到了一年一度的高考，

先祝考生們考的都對！這種時候就適合來考AI，一開始我覺得要是全員滿分的話，那我這標題應該直接是AI已經攻略高考了才對，沒想到還是有被拉開差距。

先來看看試卷，今年的全國一卷難度高到考完就逐夢大專。

那還說啥了，直接上做題規則，

這次參加考試的有13個模型，Claude Opus 4.8 Max, Claude Sonnet 4.6 Thinking, GPT 5.5 Thinking, Gemini 3.1 Pro Thinking, Qwen 3.7 Plus Thinking, MiniMax M3, Kimi 2.6 Thinking, Mimo-2.5-pro, Deepseek-v4 Pro, GLM 5.1, Grok, 豆包 Thinking, 元寶Thinking（一口氣全念對要很好的肺活量）

為了公平性，我采用了同一張卷子，2026數學全國一卷，

記分方法就跟高考判分的保持一致，不管是網頁版還是API都關掉聯網，

跟去年最大的不同，今年大部分的模型上下文都翻了一番，基本都支持多模態了，所以第15題圖像題照樣保留。

同時因為讀取PDF會比讀取markdown化的考卷要更耗額度，我的兩個Claude都沒考完額度就沒了，所以我們統一用mathpix把PDF轉成了LaTeX格式，每一道轉化的題都會單獨人工再看兩次。

LaTeX的好處就是能保證每家模型都可以讀取到一樣的信息，

每個模型都會在一個新對話里收到一個提示語，中間我們不干涉不對話如果失敗直接新對話重新跑。

整套試卷答案匯總：1. 2. 3. ……

開考開考！收卷收卷！改卷改卷！最終得分表出爐！來看看模型們的精確選項。

模型總體得分是這樣的，

模型具體選項也是這樣的，

來看看最終分數吧！

馬上來個真題復盤，

第6題是這套卷里最有節目效果的一題。

起初測試發現了一半左右的模型都錯了，還以為是世紀難題。后來發現，問題出在輸入環節。

網上存在不同版本的題目，在讀取LaTeX 輸入的過程中，也被識別錯誤。

所以有的模型就被這個錯誤輸入成功帶偏，通過自己的理解，自動fallback到了一個同題型下的正確答案。有些也有給出根據錯誤輸入從而沒有答案的正確回答。為了答題一致性，我們將有合理答案的都作為對的最終采納。

最終復核后的結果，

第11題是這套卷里最選擇困難的一題。

并不是模型完全不會做的題，而是看著好像不難，就最后多一步非把自己送走的多選題。

答案是ABD，

但是所有模型居然沒有一個完全答對，我看了一下，在過程里已經接近正確了，但為了保險過度泛化了，把誘導項也一起選上了。

用人話來說，

B選項要求三個弦長完全相等，這是一個強條件，最后只剩三條直線；C選項只要求三個弦長的和等于 3，這是一個弱條件，看起來會留下連續一族直線。

模型 ABD 的正確方向摸到了，但又把 C 這個“看起來也成立”的邊界項塞了進去導致結果錯誤。

本來以為現在大模型的得分都那么高了，跑起來一定不會有什么問題吧，實際上過程非常磕磕絆絆。

首先就是上下文窗口以及記憶，

像Qwen和以下的梯隊的模型，做到后面就開始漏條件，甚至反過來問我思路和想法，忽略前面說過的考場要求。甚至是沒有理解題目規則。比如題目要求證明，它只給了結論。題目要求完整作答的，它也只寫了思路。

然后就是API傳輸和輸出限制，

Opus 4.8 開了最高權限導致思考的過程太慢。Context被截斷，rate limited，或者一次回答裝不下等等等等都發生過，導致最終超時了來不及寫完或者只留下了一堆沒有結果的草稿(Thinking memory)讓我驗收。

但但但但但！最離譜的還是考場離譜行為，Sonnet 4.6嘗試直接搜答案還有Deepseek直接拒絕完成都是真實存在的，剛開始就想走人了。

根據每個模型的得分，我還給他們做了一個評級系統，

PS：疊個甲，純娛樂分層，因為只有數學單科成績

最終得分上，AI和AI之間的差距，也就是和我和清北之間的距離差不多嘛。

第一梯隊 GPT 5.5, Deepseek-v4 Pro, Gemini 3.1 Pro 以及 Opus 4.8。強的不止會做難題，并且整體也是穩定的學霸，該拿的分都拿到了也沒有特別的錯誤。

而只差些微分數的Kimi 2.6屬于第二頂尖。不是能力不夠，大題也能做出來，只是會在選擇題、多選題或者填空完整度這種的小地方導致失分，才沒進第一梯隊。

第三梯隊也是大多數，包含了 Sonnet 4.6，GLM 5.1，豆包，Qwen 3.7 Plus，以及MiniMax M3。也算是模型的平均線了，當前還沒有那么穩，會在不同細節上丟分。不是不會，只是粗心，或者關鍵步驟沒有收住。

元寶118，獨樹一檔，能做不少題，在穩住了百分的情況下也會有明顯失分。

Mimo 和 Grok 就是這次發現最需要進步的模型了，更像普通考場發揮。有思路，有想法，但也就一些基礎分了。

批完卷子之后，

發現不是只有低分選手會翻車，就算是144分的清北種子模型也都會被多選題中的制定條件坑一把。

除了多選，長解答題是真正拉開差距的地方。

能不能讀好完整條件，算好所有公式，條件步奏有沒有記住，直到出最后的具體答案。

很多模型有思路，也能寫方向，

但在嚴格評分里就是拿不到分。

最后還有一個很關鍵的問題，就是題目理解。

很多時候模型一開始就沒穩穩接住。

讀題就讀錯了，圖沒看清楚，直接往反方向飛奔。

又或者從LaTeX里抽出來的時候符號，條件，上下標丟了一點，

后面再怎么推都推不對了。

所以這次測下來的感覺就是，

AI確實很強，高考題能難倒它們的不多，

有些模型已經不像是在做題，

更像是老叟戲頑童。

但它們也不是完全不會翻車。

會看錯圖，會漏選項，會寫到一半開始意會，

也會在長題最后一步突然卡個十幾分鐘。

今年在高考期間都不讓用AI了，

我們在測試的過程中反復嘗試了好多遍。

不過這個系列可能還是會一年一度做下去的。

這次高考數學題還是挺難的，

讓我限時馬上去做估計也是夠嗆，

但還是可以帶著AI跟大家一起考一份試卷，

看下難度，還是很有意思的，

希望明年AI考生的數量再多一點。

@ 作者 / 卡爾 & yc星辰

最后，感謝你看到這里如果喜歡這篇文章，不妨順手給我們點贊｜在看｜轉發｜評論

如果想要第一時間收到推送，不妨給我個星標

如果你有更有趣的玩法，歡迎在評論區聊聊

更多的內容正在不斷填坑中……

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.