无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

我把13個頂級AI送去數學高考,并列第一居然是它們。。。

0
分享至

又到了一年一度的高考,

先祝考生們考的都對!這種時候就適合來考AI,一開始我覺得要是全員滿分的話,那我這標題應該直接是AI已經攻略高考了才對,沒想到還是有被拉開差距。

先來看看試卷,今年的全國一卷難度高到考完就逐夢大專。


那還說啥了,直接上做題規則,

這次參加考試的有13個模型,Claude Opus 4.8 Max, Claude Sonnet 4.6 Thinking, GPT 5.5 Thinking, Gemini 3.1 Pro Thinking, Qwen 3.7 Plus Thinking, MiniMax M3, Kimi 2.6 Thinking, Mimo-2.5-pro, Deepseek-v4 Pro, GLM 5.1, Grok, 豆包 Thinking, 元寶Thinking(一口氣全念對要很好的肺活量)

為了公平性,我采用了同一張卷子,2026數學全國一卷,


記分方法就跟高考判分的保持一致,不管是網頁版還是API都關掉聯網,

跟去年最大的不同,今年大部分的模型上下文都翻了一番,基本都支持多模態了,所以第15題圖像題照樣保留。


同時因為讀取PDF會比讀取markdown化的考卷要更耗額度,我的兩個Claude都沒考完額度就沒了,所以我們統一用mathpix把PDF轉成了LaTeX格式,每一道轉化的題都會單獨人工再看兩次。


LaTeX的好處就是能保證每家模型都可以讀取到一樣的信息,


每個模型都會在一個新對話里收到一個提示語,中間我們不干涉不對話如果失敗直接新對話重新跑。

整套試卷答案匯總:1. 2. 3. ……


開考開考!收卷收卷!改卷改卷!最終得分表出爐!來看看模型們的精確選項。

模型總體得分是這樣的,


模型具體選項也是這樣的,


來看看最終分數吧!


馬上來個真題復盤,

第6題是這套卷里最有節目效果的一題。

起初測試發現了一半左右的模型都錯了,還以為是世紀難題。后來發現,問題出在輸入環節。

網上存在不同版本的題目,在讀取LaTeX 輸入的過程中,也被識別錯誤。

所以有的模型就被這個錯誤輸入成功帶偏,通過自己的理解,自動fallback到了一個同題型下的正確答案。有些也有給出根據錯誤輸入從而沒有答案的正確回答。為了答題一致性,我們將有合理答案的都作為對的最終采納。



最終復核后的結果,



第11題是這套卷里最選擇困難的一題。

并不是模型完全不會做的題,而是看著好像不難,就最后多一步非把自己送走的多選題。


答案是ABD,

但是所有模型居然沒有一個完全答對,我看了一下,在過程里已經接近正確了,但為了保險過度泛化了,把誘導項也一起選上了。

用人話來說,

B選項要求三個弦長完全相等,這是一個強條件,最后只剩三條直線;C選項只要求三個弦長的和等于 3,這是一個弱條件,看起來會留下連續一族直線。

模型 ABD 的正確方向摸到了,但又把 C 這個“看起來也成立”的邊界項塞了進去導致結果錯誤。

本來以為現在大模型的得分都那么高了,跑起來一定不會有什么問題吧,實際上過程非常磕磕絆絆。

首先就是上下文窗口以及記憶,

像Qwen和以下的梯隊的模型,做到后面就開始漏條件,甚至反過來問我思路和想法,忽略前面說過的考場要求。甚至是沒有理解題目規則。比如題目要求證明,它只給了結論。題目要求完整作答的,它也只寫了思路。

然后就是API傳輸和輸出限制,

Opus 4.8 開了最高權限導致思考的過程太慢。Context被截斷,rate limited,或者一次回答裝不下等等等等都發生過,導致最終超時了來不及寫完或者只留下了一堆沒有結果的草稿(Thinking memory)讓我驗收。

但但但但但!最離譜的還是考場離譜行為,Sonnet 4.6嘗試直接搜答案還有Deepseek直接拒絕完成都是真實存在的,剛開始就想走人了。

根據每個模型的得分,我還給他們做了一個評級系統,


PS:疊個甲,純娛樂分層,因為只有數學單科成績

最終得分上,AI和AI之間的差距,也就是和我和清北之間的距離差不多嘛。

第一梯隊 GPT 5.5, Deepseek-v4 Pro, Gemini 3.1 Pro 以及 Opus 4.8。強的不止會做難題,并且整體也是穩定的學霸,該拿的分都拿到了也沒有特別的錯誤。

而只差些微分數的Kimi 2.6屬于第二頂尖。不是能力不夠,大題也能做出來,只是會在選擇題、多選題或者填空完整度這種的小地方導致失分,才沒進第一梯隊。

第三梯隊也是大多數,包含了 Sonnet 4.6,GLM 5.1,豆包,Qwen 3.7 Plus,以及MiniMax M3。也算是模型的平均線了,當前還沒有那么穩,會在不同細節上丟分。不是不會,只是粗心,或者關鍵步驟沒有收住。

元寶118,獨樹一檔,能做不少題,在穩住了百分的情況下也會有明顯失分。

Mimo 和 Grok 就是這次發現最需要進步的模型了,更像普通考場發揮。有思路,有想法,但也就一些基礎分了。


批完卷子之后,

發現不是只有低分選手會翻車,就算是144分的清北種子模型也都會被多選題中的制定條件坑一把。

除了多選,長解答題是真正拉開差距的地方。

能不能讀好完整條件,算好所有公式,條件步奏有沒有記住,直到出最后的具體答案。

很多模型有思路,也能寫方向,

但在嚴格評分里就是拿不到分。

最后還有一個很關鍵的問題,就是題目理解。

很多時候模型一開始就沒穩穩接住。

讀題就讀錯了,圖沒看清楚,直接往反方向飛奔。

又或者從LaTeX里抽出來的時候符號,條件,上下標丟了一點,

后面再怎么推都推不對了。


所以這次測下來的感覺就是,

AI確實很強,高考題能難倒它們的不多,

有些模型已經不像是在做題,

更像是老叟戲頑童。

但它們也不是完全不會翻車。

會看錯圖,會漏選項,會寫到一半開始意會,

也會在長題最后一步突然卡個十幾分鐘。

今年在高考期間都不讓用AI了,

我們在測試的過程中反復嘗試了好多遍。

不過這個系列可能還是會一年一度做下去的。

這次高考數學題還是挺難的,

讓我限時馬上去做估計也是夠嗆,

但還是可以帶著AI跟大家一起考一份試卷,

看下難度,還是很有意思的,

希望明年AI考生的數量再多一點。

@ 作者 / 卡爾 & yc星辰

最后,感謝你看到這里如果喜歡這篇文章,不妨順手給我們點贊|在看|轉發|評論

如果想要第一時間收到推送,不妨給我個星標

如果你有更有趣的玩法,歡迎在評論區聊聊

更多的內容正在不斷填坑中……


特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
布倫森終結者!今年總決賽的卡斯爾,什么水平?

布倫森終結者!今年總決賽的卡斯爾,什么水平?

籃球實錄
2026-06-10 16:22:04
臺獨叫囂強化自衛?國防部正面硬剛:歷史洪流專治不服!

臺獨叫囂強化自衛?國防部正面硬剛:歷史洪流專治不服!

阿芒娛樂說
2026-06-10 14:40:29
免費電視已全面開通,自己動手調一下,不用花錢就能看

免費電視已全面開通,自己動手調一下,不用花錢就能看

輝哥說動漫
2026-06-10 11:48:52
暴跌400元/克!黃金徹底變天,2026年普通人千萬別亂買

暴跌400元/克!黃金徹底變天,2026年普通人千萬別亂買

小陸搞笑日常
2026-06-10 00:59:56
廣廈主帥王博答謝宴狂炫白酒一幕曝光 扭抱林秉圣引球迷熱議

廣廈主帥王博答謝宴狂炫白酒一幕曝光 扭抱林秉圣引球迷熱議

狼叔評論
2026-06-09 19:46:08
拒絕禁賽文班亞馬!NBA官方出結果,沒有犯規!

拒絕禁賽文班亞馬!NBA官方出結果,沒有犯規!

德譯洋洋
2026-06-10 13:05:37
任素汐因下半身貪婪重蹈覆轍,近況曝光

任素汐因下半身貪婪重蹈覆轍,近況曝光

調侃國際觀點
2026-06-04 12:49:32
55歲男子患有肝硬化每天吃豬肝,半年后復查,醫生:你都吃了什么

55歲男子患有肝硬化每天吃豬肝,半年后復查,醫生:你都吃了什么

芹姐說生活
2026-06-08 15:25:46
有人說中國每年白給朝鮮大量援助,我們在吃虧,事實果真如此嗎?

有人說中國每年白給朝鮮大量援助,我們在吃虧,事實果真如此嗎?

奇思妙想生活家
2026-06-10 02:51:19
鄭麗文走出機場那刻,怕是這輩子都沒見過這種陣仗。

鄭麗文走出機場那刻,怕是這輩子都沒見過這種陣仗。

果媽聊娛樂
2026-06-07 09:51:32
伊朗格什姆島發生爆炸

伊朗格什姆島發生爆炸

財聯社
2026-06-10 08:30:10
特朗普沒按住以色列,4國武裝已參戰,不到24小時,中方就發話了

特朗普沒按住以色列,4國武裝已參戰,不到24小時,中方就發話了

策前論
2026-06-10 14:22:08
中國平安:5%股息率背后的三重投資考量

中國平安:5%股息率背后的三重投資考量

貧民窟的大富翁
2026-06-10 14:36:59
寧德時代終極電池殺到!續航 7000km 不是夢,電車價格直接打一折

寧德時代終極電池殺到!續航 7000km 不是夢,電車價格直接打一折

沙雕小琳琳
2026-06-09 01:10:17
29 歲鄭州小伙凌晨自殺,獨子遺言曝光,全網淚崩!

29 歲鄭州小伙凌晨自殺,獨子遺言曝光,全網淚崩!

騎著蝸牛追導彈85
2025-04-12 12:06:33
二婚女子結婚倆月不讓碰,男子一巴掌解決問題,網友:干得漂亮!

二婚女子結婚倆月不讓碰,男子一巴掌解決問題,網友:干得漂亮!

搗蛋窩
2026-06-10 14:08:42
罕見!美國隊世界杯首戰門票滯銷,特朗普都嫌貴......

罕見!美國隊世界杯首戰門票滯銷,特朗普都嫌貴......

鳳凰衛視
2026-06-10 11:07:06
小天賜,終為父母當年的“沖動”買了單,年僅6歲活得不像個小孩

小天賜,終為父母當年的“沖動”買了單,年僅6歲活得不像個小孩

天天熱點見聞
2026-06-10 12:13:10
回國了我才敢說:朝鮮,是我去過的所有國家中,最被看輕的

回國了我才敢說:朝鮮,是我去過的所有國家中,最被看輕的

賤議你讀史
2026-05-31 17:07:26
藥明康德回應被美國列入“中國軍工企業”名單:將立即采取措施挑戰及糾正這一錯誤認定

藥明康德回應被美國列入“中國軍工企業”名單:將立即采取措施挑戰及糾正這一錯誤認定

每日經濟新聞
2026-06-09 18:58:29
2026-06-10 17:08:49
卡爾的AI沃茨 incentive-icons
卡爾的AI沃茨
前大廠算法工程師,3家科技公司技術總監|致力打造最系統的Al學習體系,讓1萬人通過Al提高生產力
277文章數 139關注度
往期回顧 全部

科技要聞

凌晨突發!Anthropic神級模型向你開放

頭條要聞

16歲女孩前往醫院墮胎 醫護人員懷疑其遭性侵強制報告

頭條要聞

16歲女孩前往醫院墮胎 醫護人員懷疑其遭性侵強制報告

體育要聞

2026世界杯,我們看什么?

娛樂要聞

蒙淇淇發文開撕白鹿!輿論再次反轉

財經要聞

一紙研報引"光"速下跌 CPO落地節奏有變?

汽車要聞

續航最高605km 吉利銀河星艦7 EV上市限時價9.98萬起

態度原創

教育
時尚
本地
游戲
公開課

教育要聞

2026哈爾濱民辦小學首報結束,德強未能招滿?工附中簽率創新低?

頂流愛豆,怎么集體瘦成皮包骨了?

本地新聞

世界杯還沒開始,蘇超已經火到爆梗

《火焰紋章》新作大量情報公開!新角色好美好火辣

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版