網易首頁 > 網易號 > 正文申請入駐

今年高考，我讓12個頂級AI一起考了語文和數學，結果有點意外。

2026-06-08 11:14:10　來源: 數字生命卡茲克

天津舉報

分享至

　　一年一度的高考季又到了。

　　從上上周開始，就有很多朋友來問我，今年高考還測不測大模型考試了。

　　測，肯定測。

　　但是肯定要跟去年要有一些區別對吧，去年我只測了部分的數學題，今年要是還這么玩，那就太無聊了。

　　 所以，我想了想，今年不如整個大一點的活，讓所有的頂級AI一起，來全面的考一下語文和數學，這兩個，全都考。

　　 在所有AI都在發力代碼和Agent能力的情況下，究竟誰的語文能力最高，我還是非常好奇的。

　　這次的參賽模型呢，基本市面上主流的大模型我也都拉來了，基本都是大家的旗艦模型。

　　國外基本就是大家熟悉的御三家，Claude Opus 4.8、GPT-5.5、Gemini 3.1 Pro。

　　國內這邊，我也盡量選了各家現在最能打的。

　　千問3.7 max、文心Ernie 5.1、星火Spark X2、智譜GLM5.1、Kimi k2.6、MiniMax M3、DeepSeek V4 Pro、小米MiMo v2.5 Pro、混元3這些都有。

　　讓這些大模型，一起做了這兩套卷子。

　　而我肯定沒有對語文和數學高考題目閱卷的能力，所以這次，我想了想，找身邊的朋友們化了下緣，終于，也邀請到了4位有過類似閱卷經歷的高中老師們，來跟我們一起整這個活。

　　因為語文會稍微主觀一點點，并且我們也不像真的高考一樣有一些打分細則，所以我們邀請了3位語文老師來共同閱卷，讓他們充分發揮，最后取平均分，這樣會公平一點，所以最終是3位語文老師和1位數學老師。

　　但是真的非常非常感謝幾位老師，陪我們一直干到了凌晨，每個人幾乎都認真批改了十二份的卷子。。。真的，無以為報。。。

　　而卷子的挑選上，雖然也都是選用的全國一卷，這次會稍微有點特殊。

　　因為語文這次比較可惜，等到晚上8點也沒有等到完整版的卷子，所以只能最終使用中國考試官方發布的部分試題和參考答案上進行測試，滿分大概是100分，最終分數會基于比例，再換算至150分。

　　數學則是完整的真題試卷，就比較簡單了。

　　然后呢，為了保證這次AI高考的公平性，我們還是下了不少功夫做平衡的，限制了不少規則：

　　 1. 使用API調用各個模型，都開thinking，不限制最長的token數，所有的工具調用都強行禁止，像什么代碼推理、網頁搜索什么的都關掉了。

　　 2. 除了訊飛星火、百度，其他10家統一走OpenRouter調用，這樣可以保證最公平公正。

　　 3. 模型的輸入，語文和數學都采取了通過LaTeX格式純文本輸入的方式。

　　數學本來我們打算是分成多模態和純文本賽道的，但是真題一出來之后，發現只有一道題，也就是立體幾何那道題帶圖形。但題干其實就完全包含了這個圖形的所有信息，沒有必要，所以就改成了全部都通過LaTeX格式輸入。

　　雖然PDF轉LaTeX格式這一步是AI做的，但是讓它轉了之后，我也同樣寫了一個LaTeX編譯器的腳本，它會在左邊放上原本的題目，右邊是LaTeX數據編譯后的最終題目，方便我和老師們進行核對，在準確性上，我們還是花了一些力氣的。

　　然后我們也開發了一個自己的考試腳本，我們只需要把題目丟進去，腳本就會自動調 API，自動讓模型作答，自動把客觀題判掉，主觀題再送到我搭的在線閱卷平臺里，讓真人老師盲評。

　　考試的Prompt按照下面的設置給模型。

　　客觀題只是單純限制它的格式輸出，方便我的腳本對客觀題進行打分，不做任何的引導。

　　主觀題就直接把裸題給模型丟過去讓他作答。

　　以及在數學的填空題上面，也是讓它根據數值打分，不是根據格式打分。因為填空題容易出現，在分數或者說有根號的情況下，會有不同的寫法，同一個數值會有不同的寫法。所以這次在腳本中也是有格外注意這一點。

　　反正作答上我們盡量確保要公平、公平再公平，客觀、客觀再客觀。

　　最后，模型輸出的所有的結果，我們又開發了一個閱卷網站，供我們的4位老師們進行閱卷和評分。

　　老師使用自己的名字，登進去之后，看到的每份卷子上面只有一個代號。卷ABCD巴拉巴拉。

　　這樣的話，老師并不知道這道卷子是哪一個模型做的答，也會避免一些前置的刻板印象帶來一些閱卷上的影響。

　　老師可以隨意選擇一套卷子開始閱卷，然后里面的打分界面是這樣的。

　　直接在里面逐題批改。

　　還可以寫上自己的評語。

　　真的，老師們特別辛苦，因為語文的卷子遲遲不出最終版，所以我們最后只能用部分版來考試，幾位老師都生生的閱卷到晚上11點以后了。

　　向老師們致敬。

　　最后，在經歷了將近12個小時的奮戰之后，我們的12位大模型的考試分數，終于出爐了。

　　他們，是這樣的。

　　這里我提前疊個甲，這個分數和排名，只是我們基于自己的體系做題出來并且由老師們主觀評選出來的，而且只跟語文和數學做題有關，跟大家現在討論的代碼和Agnet能力無關，且可能會展示部分的人類偏好，排名與分數僅供娛樂參考，不代表任何指向。

　　這里面有幾個讓我挺意外的地方。

　　先看總分，第一名MiMo v2.5 Pro，256.3分。第二名Kimi k2.6，256.29分。

　　差了0.01分。

　　MiMo比Kimi語文少了1分，Kimi數學比MiMo多了1分。。。

　　要知道我們測評的語文卷子只有一道客觀選擇題，其他全是主觀題，再加上有作文的存在，換算到實際評分上，可能就是某位語文老師在某道主觀題上多給了1分的區別。

　　往下看從第三名到第九名，Claude Opus 4.8，一直到GLM 5.1和Gemini 3.1 Pro并列的252.78，7個模型之間的差距僅僅在2分。

　　可以說，至少在這兩套高考卷子上的表現，前面這9個頂級的AI大模型模型幾乎真的都拉不開差距了，分差極小。

　　看完了總分，再來看看單科的成績。

　　你會發現，我們的語文狀元在3位老師盲測中，由GLM5.1和Gemini 3.1 Pro共同摘奪桂冠，但是在數學上又有點偏科，而且幾乎都是兄弟肩并肩，我的腦子里已經出現了中學班上某一個同學的樣子了。。。

　　反過來的例子也有，DeepSeek V4 Pro，和MiMo、ERNIE 5.1三家并列數學最高分，但語文又奇低。。。

　　坦率的講，這其實不太符合我對DeepSeek強世界知識的印象。

　　我把語文的評分單獨拎出來看了下，這里注意一下，因為語文真題目前全部的還沒出來，所以現在用的是部分的題集合成的101分版本，最后折算成150分制的，所以下面你看到的總分其實都是101分制的。

　　發現DeepSeek的作文，屬于拉完了。

　　最后一位老師手比較松，雖然打出的分數是49分，但是在他過去的打分中，其實也不算高了。

　　他們的評語其實也都非常的有意思。

　　所以他們一改完卷，我也去認真看了看他們所有的評語。

　　其實三位老師從給分上看，是能看出來他們有各自的偏好，但是在他們的評語有一個共同點。

　　他們很在意高考作文的可評分結構。

　　評語里會高頻出現文體不清，文章結構不夠清晰，觀點不夠清晰明確，論證不充分，時代關聯不足等等評語。

　　比如這一篇所有模型中得分最高的，由GLM 5.1寫的作文，就有兩位老師都提出了文章結構不夠清晰的毛病。

　　作文原文我也放在這里了，大家可以在評論區評一評。

　　語文大概就是這樣，我們再看看數學的得分明細。

　　你會發現幾乎所有的模型，其實沒啥大的分差。

　　我也從數學老師那里得到了非常積極的反饋，剛改完前面幾個大題，他就在很興奮的跟我說，發現正確率挺高的，基本都是滿分。

　　不過唯一一道讓大家全軍覆沒的，就是填空題的最后一題。

　　懂的人可以來說一說這是個什么難度，反正我不太懂= =

　　還有一個有意思的就是，我在讓Opus 4.8跑數學最后一道大題的時候，他莫名其妙的卡死了很多很多輪。。。

　　不太有意思的就是，我忘記它一直在重試，導致我OpenRouter上為數不多的余額全給耗光了。。。

　　不過最后好歹還是搞出來了。

　　以上，大概就是這次AI高考的結果，跟我最開始預期的，還真的是有點區別。

　　我又做了一下各家的位置圖，大家可以看看。

　　真的是情理之中，又是預料之外。

　　還挺好玩的。

　　忽然又想起，2023年，我第一次拿高考題去測AI。

　　當時是讓ChatGPT去寫高考作文。

　　那會兒GPT-4還是最能打的，國產模型甚至都還沒有幾個。

　　2024年，國產也開始卷起來了，但還是有很多哭笑不得的翻車。去年2025那次測完，有幾個模型的數學水平已經夠上一本線了。

　　今年是2026。

　　四年了。

　　也算是見證了那好多好多個模型的浮沉。

　　我們自己也在變，23年的時候，只會寫個作文，去年測試，還是人工復制粘貼到十幾個大模型的官網里面去測試，不斷的roll。

　　今年，寫批量腳本，寫LaTeX轉譯，請高考閱卷老師們助陣，又為他們徒手開發了閱卷網站。

　　我當然也可以隨手測一下整個活，但是想了想，這幾年，在這個選題上，我覺得還是要盡可能的保證客觀和公平。

　　因為，這是高考。

　　這兩個字，在中國，承載的東西太多也太厚重了。

　　做閱卷網站的時候，我一直在糾結用什么主意象，最后選了鳳凰花。

　　六月的鳳凰花開得正盛，每年都準時趕在這個節點上，送走一屆又一屆的人。

　　最后。

　　我想用最近一段對我非常有感觸的話來結尾，它來自《燕云十六聲》最近更新的青州地圖的最后的任務，當一眾學子即將畢業之時，文津館文元林險生對大家說：

　　“你們，自天南地北負笈而來，今日散去，又是去往天南地北，此后山長水遠，很多人將不復相見了。

　　此去，必有風霜凜冽之時，愿諸君，乾坤既大，草木尤青，本心擇路，篤志前行。

　　各位，一路順風。”

　　>/ 作者：卡茲克、tashi

　　>/ 投稿或爆料，請聯系郵箱：wzglyay@virxact.com

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

Kimi、千問等AI集體押注世界杯??大模型不再比拼聊天，為何集體扮演“懂球佬”？

每日經濟新聞 2026-06-11 20:45:17
0 跟貼 0
8億用戶的釘釘，只有1000人在扛

澎湃新聞 2026-06-11 08:00:27
477 跟貼 477

杭州一個女生，剛考完語文，對著鏡頭來了一句：我考前刷手機，刷到了?“答案”。記者當場就慌了

LULU生活家 2026-06-11 19:34:02
0 跟貼 0

如果讓韋東奕做2026年高考數學題，能不能考滿分？

壓抑小情緒 2026-06-10 05:46:57
320 跟貼 320
今年高考語文真的太難了！

洛天依 2026-06-11 01:03:39
2 跟貼 2

今年高考語文淘汰的根本不是差生

臧老師 2026-06-09 23:10:55
1 跟貼 1

高考物理比數學難度更大，考生直呼“難爆了”

CQTV新視界 2026-06-08 14:36:15
0 跟貼 0
各國“高考”怎么考？“世界最難的考試”你知道是什么考試嗎？

主持人鈺峰 2026-06-10 04:38:05
0 跟貼 0

河南“零分女生”蔣多多：因質疑高考制度，在試卷上寫8000字長文

北緯的咖啡豆 2026-06-10 11:45:17
2 跟貼 2
預祝參加高考同學取得好成績，48年前我就是通過高考逆天改命的

王小東 2026-06-10 17:03:01
66 跟貼 66
高考結束后的最后一堂班會課，湯圓老師送孩子兩個忠告，好老師

樹懶小結界 2026-06-10 04:47:33
15 跟貼 15
2026高考數學考試結束!第一位自信走出考場的女生：不算太難。最后一題是導數，寫到了第二問

河南都市頻道 2026-06-07 18:50:10
0 跟貼 0
全國高考一卷語文作文范文，這位老師寫的有水平

下幅新鮮事 2026-06-09 01:18:57
0 跟貼 0
你以為高考只是考試？不，這是一場國家級的超大規模工程！

阿器談史 2026-06-11 12:14:54
2 跟貼 2
關于2003年高考難度的一些思考，以及高考對未來人生的一點思考

蓬輝堂 2026-06-11 23:44:21
0 跟貼 0
高考語文大變天，不是變難了，而是更換了選拔邏輯聽聽鄒總怎么說

心開動漫 2026-06-11 00:41:42
0 跟貼 0
2026年高考地理考試結束，妹妹飛奔送花迎接考完的哥哥。哥哥喊話希望明年數學再難點

河南都市頻道 2026-06-09 16:03:02
1 跟貼 1
2026年高考最后一場考試結束！考生們百米沖刺般跑出考場！

財經時間官方 2026-06-09 23:14:15
33 跟貼 33
2026高考數學考試結束！女生喊話出卷老師：我謝謝你，“感覺這次不是很簡單有點難”

河南都市頻道 2026-06-07 18:49:55
28 跟貼 28
高考數學解題快，30秒搞定，考場提速

萌城少年強 2026-06-08 11:56:36
6 跟貼 6
高考后24小時，為什么比考試更重要？90%的考生都浪費了

剪狗毛的倩哥 2026-06-11 03:07:54
0 跟貼 0
高考首科語文圓滿結束，親友團舉旗暖心迎接“恭迎冀大小姐”，考生坦言作文比較簡單

北疆新聞 2026-06-09 06:17:07
0 跟貼 0
2026年全國高考語文作文試題來了！

澎湃新聞 2026-06-09 14:05:33
0 跟貼 0
1200萬考生交卷，AI半分鐘寫出一類文！中年人的文化遮羞布被扯下

普覽 2026-06-11 03:49:57
0 跟貼 0
男生半夜醒了，夢中還夢到了高考語文作文題目

鶴壁焦點 2026-06-07 13:42:58
0 跟貼 0
高考物理數學組團“翻車”？且慢！來聽聽送考老師怎么說

河南都市頻道 2026-06-09 14:15:53
2 跟貼 2
10余省份敲定高考查分時間，6月25日成績將公布

丁羂解說 2026-06-10 00:22:40
3 跟貼 3
2026高考數學考試結束！考生：數學比去年難，自己發揮比平時好，一個詞形容這場考試就是酣暢淋漓

河南都市頻道 2026-06-07 18:49:58
4 跟貼 4
高考數學考完了，如果你覺得簡單，那就太天真了！聽老師怎么說

無我漂佩MY 2026-06-09 04:15:44
12 跟貼 12
內蒙古高考首日數學考試結束，學生心態從容第一個走出考場

北疆新聞 2026-06-09 06:16:36
0 跟貼 0
高考首場考試語文結束考生輕松出場，有考生稱“感覺是寫過最好的一張卷子”

現代快報 2026-06-09 14:03:44
0 跟貼 0
炸裂！高考政治剩25分鐘，深圳考生突然舉手：我要換答題卡

阿纂看事 2026-06-11 21:37:21
0 跟貼 0
人民日報發文！沒想到，高考開始2天，張桂梅因一個舉動口碑暴漲

溫心娛樂1 2026-06-09 08:14:33
3 跟貼 3
被數學難住的高考生+1，女生坦言今年高考數學物理比較難，高考結束想先去打工給爸爸換個手機

河南都市頻道 2026-06-09 14:15:51
0 跟貼 0
2026高考數學第一個跑著出考場的考生，聽聽她怎么說

皮皮流鼻涕 2026-06-09 13:45:41
2 跟貼 2
女生高考結束后，看到家人準備的驚喜瞬間害羞了，網友：這也太幸福了，親友團太給力了

氧氣周末 2026-06-10 14:11:56
0 跟貼 0
為何說今年高考數學是針對中等生的精準篩選？聽聽大哥怎么分析

榴蓮嘮生活 2026-06-11 02:30:51
0 跟貼 0
高考統考科目考試結束，多地已公布查分時間

界面新聞 2026-06-09 08:04:32
2 跟貼 2
百度與千問發力高考志愿填報：AI如何幫1290萬考生抹平信息差？

新浪財經 2026-06-11 23:12:32
0 跟貼 0
2026高考數學題，難出邊際？

郎老師趣味數學課堂 2026-06-11 16:27:00
0 跟貼 0

數字生命卡茲克

反復橫跳于不同的AI領域，努力分享一些很酷的AI干貨

534文章數 666關注度

往期回顧全部

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

旅游

教育

藝術

游戲

時尚

手機 / 數碼

房產 / 家居

今年高考，我讓12個頂級AI一起考了語文和數學，結果有點意外。

淘寶、京東、拼多多、抖音、小紅書被約談

中方對菲國防部長特奧多羅及其親屬實施制裁

中方對菲國防部長特奧多羅及其親屬實施制裁

比起總冠軍，更大的懸念成了FMVP？

《花少8》陣容大揭秘！秒殺前一季

干細胞生意：17萬一針的希望

傳祺向往M8 PHEV L/E8 PHEV上市 限時落地價16.84萬起

態度原創

今年暑期出游風向標：北歐領跑，南京廈門長白山“出圈”，高考生愛上“行走的課堂”

400多分能上的3所公辦本科，畢業能進國企，高考生一定要清楚！

巴西打造“里約AI城”，將成為拉丁美洲最大的數據中心

R星最新動態震撼來襲!玩家氣笑了:不如取消《GTA6》

薄荷綠色的單品打造夏日清透感，視覺上清爽又治愈，溫柔減齡

傳祺向往M8 PHEV L/E8 PHEV上市限時落地價16.84萬起