又到了一年一度的高考,
先祝考生們考的都對!這種時候就適合來考AI,一開始我覺得要是全員滿分的話,那我這標題應該直接是AI已經攻略高考了才對,沒想到還是有被拉開差距。
先來看看試卷,今年的全國一卷難度高到考完就逐夢大專。
![]()
那還說啥了,直接上做題規則,
這次參加考試的有13個模型,Claude Opus 4.8 Max, Claude Sonnet 4.6 Thinking, GPT 5.5 Thinking, Gemini 3.1 Pro Thinking, Qwen 3.7 Plus Thinking, MiniMax M3, Kimi 2.6 Thinking, Mimo-2.5-pro, Deepseek-v4 Pro, GLM 5.1, Grok, 豆包 Thinking, 元寶Thinking(一口氣全念對要很好的肺活量)
為了公平性,我采用了同一張卷子,2026數學全國一卷,
![]()
記分方法就跟高考判分的保持一致,不管是網頁版還是API都關掉聯網,
跟去年最大的不同,今年大部分的模型上下文都翻了一番,基本都支持多模態了,所以第15題圖像題照樣保留。
![]()
同時因為讀取PDF會比讀取markdown化的考卷要更耗額度,我的兩個Claude都沒考完額度就沒了,所以我們統一用mathpix把PDF轉成了LaTeX格式,每一道轉化的題都會單獨人工再看兩次。
![]()
LaTeX的好處就是能保證每家模型都可以讀取到一樣的信息,
![]()
每個模型都會在一個新對話里收到一個提示語,中間我們不干涉不對話如果失敗直接新對話重新跑。
整套試卷答案匯總:1. 2. 3. …… ![]()
開考開考!收卷收卷!改卷改卷!最終得分表出爐!來看看模型們的精確選項。
模型總體得分是這樣的,
![]()
模型具體選項也是這樣的,
![]()
來看看最終分數吧!
![]()
馬上來個真題復盤,
第6題是這套卷里最有節目效果的一題。
起初測試發現了一半左右的模型都錯了,還以為是世紀難題。后來發現,問題出在輸入環節。
網上存在不同版本的題目,在讀取LaTeX 輸入的過程中,也被識別錯誤。
所以有的模型就被這個錯誤輸入成功帶偏,通過自己的理解,自動fallback到了一個同題型下的正確答案。有些也有給出根據錯誤輸入從而沒有答案的正確回答。為了答題一致性,我們將有合理答案的都作為對的最終采納。
![]()
![]()
最終復核后的結果,
![]()
![]()
第11題是這套卷里最選擇困難的一題。
并不是模型完全不會做的題,而是看著好像不難,就最后多一步非把自己送走的多選題。
![]()
答案是ABD,
但是所有模型居然沒有一個完全答對,我看了一下,在過程里已經接近正確了,但為了保險過度泛化了,把誘導項也一起選上了。
用人話來說,
B選項要求三個弦長完全相等,這是一個強條件,最后只剩三條直線;C選項只要求三個弦長的和等于 3,這是一個弱條件,看起來會留下連續一族直線。
模型 ABD 的正確方向摸到了,但又把 C 這個“看起來也成立”的邊界項塞了進去導致結果錯誤。
本來以為現在大模型的得分都那么高了,跑起來一定不會有什么問題吧,實際上過程非常磕磕絆絆。
首先就是上下文窗口以及記憶,
像Qwen和以下的梯隊的模型,做到后面就開始漏條件,甚至反過來問我思路和想法,忽略前面說過的考場要求。甚至是沒有理解題目規則。比如題目要求證明,它只給了結論。題目要求完整作答的,它也只寫了思路。
然后就是API傳輸和輸出限制,
Opus 4.8 開了最高權限導致思考的過程太慢。Context被截斷,rate limited,或者一次回答裝不下等等等等都發生過,導致最終超時了來不及寫完或者只留下了一堆沒有結果的草稿(Thinking memory)讓我驗收。
但但但但但!最離譜的還是考場離譜行為,Sonnet 4.6嘗試直接搜答案還有Deepseek直接拒絕完成都是真實存在的,剛開始就想走人了。
根據每個模型的得分,我還給他們做了一個評級系統,
![]()
PS:疊個甲,純娛樂分層,因為只有數學單科成績
最終得分上,AI和AI之間的差距,也就是和我和清北之間的距離差不多嘛。
第一梯隊 GPT 5.5, Deepseek-v4 Pro, Gemini 3.1 Pro 以及 Opus 4.8。強的不止會做難題,并且整體也是穩定的學霸,該拿的分都拿到了也沒有特別的錯誤。
而只差些微分數的Kimi 2.6屬于第二頂尖。不是能力不夠,大題也能做出來,只是會在選擇題、多選題或者填空完整度這種的小地方導致失分,才沒進第一梯隊。
第三梯隊也是大多數,包含了 Sonnet 4.6,GLM 5.1,豆包,Qwen 3.7 Plus,以及MiniMax M3。也算是模型的平均線了,當前還沒有那么穩,會在不同細節上丟分。不是不會,只是粗心,或者關鍵步驟沒有收住。
元寶118,獨樹一檔,能做不少題,在穩住了百分的情況下也會有明顯失分。
Mimo 和 Grok 就是這次發現最需要進步的模型了,更像普通考場發揮。有思路,有想法,但也就一些基礎分了。
![]()
批完卷子之后,
發現不是只有低分選手會翻車,就算是144分的清北種子模型也都會被多選題中的制定條件坑一把。
除了多選,長解答題是真正拉開差距的地方。
能不能讀好完整條件,算好所有公式,條件步奏有沒有記住,直到出最后的具體答案。
很多模型有思路,也能寫方向,
但在嚴格評分里就是拿不到分。
最后還有一個很關鍵的問題,就是題目理解。
很多時候模型一開始就沒穩穩接住。
讀題就讀錯了,圖沒看清楚,直接往反方向飛奔。
又或者從LaTeX里抽出來的時候符號,條件,上下標丟了一點,
后面再怎么推都推不對了。
![]()
所以這次測下來的感覺就是,
AI確實很強,高考題能難倒它們的不多,
有些模型已經不像是在做題,
更像是老叟戲頑童。
但它們也不是完全不會翻車。
會看錯圖,會漏選項,會寫到一半開始意會,
也會在長題最后一步突然卡個十幾分鐘。
今年在高考期間都不讓用AI了,
我們在測試的過程中反復嘗試了好多遍。
不過這個系列可能還是會一年一度做下去的。
這次高考數學題還是挺難的,
讓我限時馬上去做估計也是夠嗆,
但還是可以帶著AI跟大家一起考一份試卷,
看下難度,還是很有意思的,
希望明年AI考生的數量再多一點。
@ 作者 / 卡爾 & yc星辰
最后,感謝你看到這里如果喜歡這篇文章,不妨順手給我們點贊|在看|轉發|評論
如果想要第一時間收到推送,不妨給我個星標
如果你有更有趣的玩法,歡迎在評論區聊聊
更多的內容正在不斷填坑中……
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.