一年一度的高考季又到了。
從上上周開始,就有很多朋友來問我,今年高考還測不測大模型考試了。
測,肯定測。
但是肯定要跟去年要有一些區別對吧,去年我只測了部分的數學題,今年要是還這么玩,那就太無聊了。
所以,我想了想,今年不如整個大一點的活,讓所有的頂級AI一起,來全面的考一下語文和數學,這兩個,全都考。
在所有AI都在發力代碼和Agent能力的情況下,究竟誰的語文能力最高,我還是非常好奇的。
這次的參賽模型呢,基本市面上主流的大模型我也都拉來了,基本都是大家的旗艦模型。
國外基本就是大家熟悉的御三家,Claude Opus 4.8、GPT-5.5、Gemini 3.1 Pro。
國內這邊,我也盡量選了各家現在最能打的。
千問3.7 max、文心Ernie 5.1、星火Spark X2、智譜GLM5.1、Kimi k2.6、MiniMax M3、DeepSeek V4 Pro、小米MiMo v2.5 Pro、混元3這些都有。
讓這些大模型,一起做了這兩套卷子。
而我肯定沒有對語文和數學高考題目閱卷的能力,所以這次,我想了想,找身邊的朋友們化了下緣,終于,也邀請到了4位有過類似閱卷經歷的高中老師們,來跟我們一起整這個活。
因為語文會稍微主觀一點點,并且我們也不像真的高考一樣有一些打分細則,所以我們邀請了3位語文老師來共同閱卷,讓他們充分發揮,最后取平均分,這樣會公平一點,所以最終是3位語文老師和1位數學老師。
![]()
但是真的非常非常感謝幾位老師,陪我們一直干到了凌晨,每個人幾乎都認真批改了十二份的卷子。。。真的,無以為報。。。
而卷子的挑選上,雖然也都是選用的全國一卷,這次會稍微有點特殊。
因為語文這次比較可惜,等到晚上8點也沒有等到完整版的卷子,所以只能最終使用中國考試官方發布的部分試題和參考答案上進行測試,滿分大概是100分,最終分數會基于比例,再換算至150分。
![]()
數學則是完整的真題試卷,就比較簡單了。
![]()
然后呢,為了保證這次AI高考的公平性,我們還是下了不少功夫做平衡的,限制了不少規則:
1. 使用API調用各個模型,都開thinking,不限制最長的token數,所有的工具調用都強行禁止,像什么代碼推理、網頁搜索什么的都關掉了。
2. 除了訊飛星火、百度,其他10家統一走OpenRouter調用,這樣可以保證最公平公正。
3. 模型的輸入,語文和數學都采取了通過LaTeX格式純文本輸入的方式。
數學本來我們打算是分成多模態和純文本賽道的,但是真題一出來之后,發現只有一道題,也就是立體幾何那道題帶圖形。但題干其實就完全包含了這個圖形的所有信息,沒有必要,所以就改成了全部都通過LaTeX格式輸入。
![]()
雖然PDF轉LaTeX格式這一步是AI做的,但是讓它轉了之后,我也同樣寫了一個LaTeX編譯器的腳本,它會在左邊放上原本的題目,右邊是LaTeX數據編譯后的最終題目,方便我和老師們進行核對,在準確性上,我們還是花了一些力氣的。
![]()
然后我們也開發了一個自己的考試腳本,我們只需要把題目丟進去,腳本就會自動調 API,自動讓模型作答,自動把客觀題判掉,主觀題再送到我搭的在線閱卷平臺里,讓真人老師盲評。
考試的Prompt按照下面的設置給模型。
![]()
客觀題只是單純限制它的格式輸出,方便我的腳本對客觀題進行打分,不做任何的引導。
主觀題就直接把裸題給模型丟過去讓他作答。
以及在數學的填空題上面,也是讓它根據數值打分,不是根據格式打分。因為填空題容易出現,在分數或者說有根號的情況下,會有不同的寫法,同一個數值會有不同的寫法。所以這次在腳本中也是有格外注意這一點。
反正作答上我們盡量確保要公平、公平再公平,客觀、客觀再客觀。
最后,模型輸出的所有的結果,我們又開發了一個閱卷網站,供我們的4位老師們進行閱卷和評分。
![]()
老師使用自己的名字,登進去之后,看到的每份卷子上面只有一個代號。卷ABCD巴拉巴拉。
這樣的話,老師并不知道這道卷子是哪一個模型做的答,也會避免一些前置的刻板印象帶來一些閱卷上的影響。
老師可以隨意選擇一套卷子開始閱卷,然后里面的打分界面是這樣的。
直接在里面逐題批改。
![]()
還可以寫上自己的評語。
![]()
真的,老師們特別辛苦,因為語文的卷子遲遲不出最終版,所以我們最后只能用部分版來考試,幾位老師都生生的閱卷到晚上11點以后了。
![]()
向老師們致敬。
最后,在經歷了將近12個小時的奮戰之后,我們的12位大模型的考試分數,終于出爐了。
他們,是這樣的。
這里我提前疊個甲,這個分數和排名,只是我們基于自己的體系做題出來并且由老師們主觀評選出來的,而且只跟語文和數學做題有關,跟大家現在討論的代碼和Agnet能力無關,且可能會展示部分的人類偏好,排名與分數僅供娛樂參考,不代表任何指向。
![]()
這里面有幾個讓我挺意外的地方。
先看總分,第一名MiMo v2.5 Pro,256.3分。第二名Kimi k2.6,256.29分。
差了0.01分。
MiMo比Kimi語文少了1分,Kimi數學比MiMo多了1分。。。
要知道我們測評的語文卷子只有一道客觀選擇題,其他全是主觀題,再加上有作文的存在,換算到實際評分上,可能就是某位語文老師在某道主觀題上多給了1分的區別。
往下看從第三名到第九名,Claude Opus 4.8,一直到GLM 5.1和Gemini 3.1 Pro并列的252.78,7個模型之間的差距僅僅在2分。
可以說,至少在這兩套高考卷子上的表現,前面這9個頂級的AI大模型模型幾乎真的都拉不開差距了,分差極小。
看完了總分,再來看看單科的成績。
你會發現,我們的語文狀元在3位老師盲測中,由GLM5.1和Gemini 3.1 Pro共同摘奪桂冠,但是在數學上又有點偏科,而且幾乎都是兄弟肩并肩,我的腦子里已經出現了中學班上某一個同學的樣子了。。。
反過來的例子也有,DeepSeek V4 Pro,和MiMo、ERNIE 5.1三家并列數學最高分,但語文又奇低。。。
坦率的講,這其實不太符合我對DeepSeek強世界知識的印象。
我把語文的評分單獨拎出來看了下,這里注意一下,因為語文真題目前全部的還沒出來,所以現在用的是部分的題集合成的101分版本,最后折算成150分制的,所以下面你看到的總分其實都是101分制的。
![]()
發現DeepSeek的作文,屬于拉完了。
![]()
最后一位老師手比較松,雖然打出的分數是49分,但是在他過去的打分中,其實也不算高了。
他們的評語其實也都非常的有意思。
所以他們一改完卷,我也去認真看了看他們所有的評語。
其實三位老師從給分上看,是能看出來他們有各自的偏好,但是在他們的評語有一個共同點。
他們很在意高考作文的可評分結構。
評語里會高頻出現文體不清,文章結構不夠清晰,觀點不夠清晰明確,論證不充分,時代關聯不足等等評語。
比如這一篇所有模型中得分最高的,由GLM 5.1寫的作文,就有兩位老師都提出了文章結構不夠清晰的毛病。
![]()
作文原文我也放在這里了,大家可以在評論區評一評。
![]()
語文大概就是這樣,我們再看看數學的得分明細。
![]()
你會發現幾乎所有的模型,其實沒啥大的分差。
我也從數學老師那里得到了非常積極的反饋,剛改完前面幾個大題,他就在很興奮的跟我說,發現正確率挺高的,基本都是滿分。
![]()
不過唯一一道讓大家全軍覆沒的,就是填空題的最后一題。
![]()
懂的人可以來說一說這是個什么難度,反正我不太懂= =
還有一個有意思的就是,我在讓Opus 4.8跑數學最后一道大題的時候,他莫名其妙的卡死了很多很多輪。。。
不太有意思的就是,我忘記它一直在重試,導致我OpenRouter上為數不多的余額全給耗光了。。。
![]()
不過最后好歹還是搞出來了。
以上,大概就是這次AI高考的結果,跟我最開始預期的,還真的是有點區別。
我又做了一下各家的位置圖,大家可以看看。
![]()
真的是情理之中,又是預料之外。
還挺好玩的。
忽然又想起,2023年,我第一次拿高考題去測AI。
當時是讓ChatGPT去寫高考作文。
![]()
那會兒GPT-4還是最能打的,國產模型甚至都還沒有幾個。
2024年,國產也開始卷起來了,但還是有很多哭笑不得的翻車。去年2025那次測完,有幾個模型的數學水平已經夠上一本線了。
今年是2026。
四年了。
也算是見證了那好多好多個模型的浮沉。
我們自己也在變,23年的時候,只會寫個作文,去年測試,還是人工復制粘貼到十幾個大模型的官網里面去測試,不斷的roll。
今年,寫批量腳本,寫LaTeX轉譯,請高考閱卷老師們助陣,又為他們徒手開發了閱卷網站。
我當然也可以隨手測一下整個活,但是想了想,這幾年,在這個選題上,我覺得還是要盡可能的保證客觀和公平。
因為,這是高考。
這兩個字,在中國,承載的東西太多也太厚重了。
做閱卷網站的時候,我一直在糾結用什么主意象,最后選了鳳凰花。
六月的鳳凰花開得正盛,每年都準時趕在這個節點上,送走一屆又一屆的人。
最后。
我想用最近一段對我非常有感觸的話來結尾,它來自《燕云十六聲》最近更新的青州地圖的最后的任務,當一眾學子即將畢業之時,文津館文元林險生對大家說:
“你們,自天南地北負笈而來,今日散去,又是去往天南地北,此后山長水遠,很多人將不復相見了。
此去,必有風霜凜冽之時,愿諸君,乾坤既大,草木尤青,本心擇路,篤志前行。
各位,一路順風。”
>/ 作者:卡茲克、tashi
>/ 投稿或爆料,請聯系郵箱:wzglyay@virxact.com
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.