來源:21世紀經濟報道
6月24日,廣東高考成績放榜,社交媒體被“查分名場面”“考生喜報”刷屏,而一場專屬于AI大模型的“高考成績”也悄然出爐。
日前,羊城晚報教育發展研究院采用2026高考試題,對千問-3.7-Max、訊飛星火-X2、豆包-2.1-Turbo、DeepSeek-V4-Pro、GLM-5.2、ChatGPT-5.5-Pro、Claude-Opus-4.8、Gemini-3.5-flash等8款國內外主流大模型進行了橫向測試,邀請2名資深教師獨立盲評。
結果顯示,Claude-Opus-4.8和訊飛星火-X2的物理類總分708分,并列第一,進入廣東屏蔽生行列;歷史類總分上700分只有訊飛星火-X2,也進入廣東屏蔽生行列。豆包-2.1-Turbo、DeepSeek-V4-Pro、GLM-5.2、ChatGPT-5.5-Pro、Claude-Opus-4.8、Gemini-3.5-flash等模型也在部分科目中表現突出,呈現出不同的能力側重。
![]()
8款大模型挑戰2026年高考全科成績大PK
本次測評語文、數學、英語三科統一使用新課標I卷;選考科目均采用廣東省自主命題試卷,僅地理科目除外——因測評開展階段暫未獲取完整廣東地理真題,故選用命題難度、出題邏輯與廣東卷高度貼近的山東地理卷作為替代素材。
測評時,各模型均選用網頁端最優版本,并將深度思考模式調至最高。所有模型使用相同提示詞,回答內容均為一次性生成,不追加提問,也不進行人工修改。
在總分計算上,按照歷史類和物理類分科方式統計,采用大部分考生選擇的組合進行計算(歷史類:語數英三科+歷史+政治地理;物理類:語數英三科+物理+化學生物)的“3+1+2”形式。閱卷評分嚴格對標高考官方評分細則,客觀題按標準統一判分,作文、解答等主觀大題由兩名資深教師獨立盲評打分。
需要說明的是,用于測評的題目為根據網絡流出的多個版本交叉驗證后的試題(可能存在與真題試卷不完全相符的情況,但不影響測評進行,所有大模型“考生”使用的均為相同題目)。
從最終成績看,頭部大模型之間的競爭已經不再局限于單點知識問答,而是進入到多學科綜合能力的比拼:既考查知識覆蓋,也考察復雜推理、長文本理解、規范表達和跨學科遷移能力。
總分表現:頭部模型差距收窄
均衡能力成為拉分關鍵
從總分維度來看,主流頭部大模型整體得分差距不大,最終排名高低更多由全科穩定性決定。物理類總分榜單中,Claude-Opus-4.8和訊飛星火-X2并列第一,其后依次為Gemini-3.5-flash、豆包-2.1-Turbo、ChatGPT-5.5-Pro、DeepSeek-V4-Pro、千問-3.7-Max、GLM-5.2,各模型分檔得分各有區分。
歷史類前五名依次為訊飛星火-X2、Gemini-3.5-flash、ChatGPT-5.5-Pro、豆包-2.1-Turbo、Claude-Opus-4.8。
整體來看,海外大模型 ChatGPT-5.5-Pro、Claude-Opus-4.8在長文本輸出、議論文論述表達上基礎實力突出,無明顯短板學科。GLM-5.2歷史類和物理類全科得分存在明顯偏科現象,頂尖難題突破能力略有不足。放到全科測評中,能否在語文、數學、英語、物理(或歷史)及選考科目之間保持均衡,成為影響總分排名的重要因素。訊飛星火-X2此次在歷史和物理兩類總分中均取得領先,主要得益于其在語言理解、數理推理和綜合分析等不同任務中的相對均衡表現,而非單一科目的明顯拉動。
![]()
8款大模型挑戰2026年高考總分排名
單科表現:各模型能力側重不同
語文作文和數學壓軸題區分度較高
從單科成績來看,各模型在不同科目上表現出明顯的路線差異。語文、英語等語言類科目中,頭部模型總分差距相對較小,分差主要來自作文立意、結構組織和表達穩定性;數學、物理等科目則區分度更高,尤其是壓軸題和多步驟推導題,更考驗模型的復雜推理與過程規范能力。
語文科目中,議論文寫作和現代文閱讀是主要分水嶺。ChatGPT-5.5-Pro與Claude-Opus-4.8長于框架搭建和邏輯推進,文章結構成熟完整。千問-3.7-Max、豆包-2.1-Turbo在材料歸納和中文語境理解上表現較為穩定。GLM-5.2在結構化作答方面能夠較好回應設問要求,但選題偏常規化,新穎度不足。訊飛星火-X2各模塊得分相對均衡,作文時代立意高遠、邏輯完整、論據新穎,有細節,文風沉穩思辨。
![]()
千問-3.7-Max獲得了此次作文測評最高分57分。扣分原因:字數1228,扣1分;結尾升華不足,立意一般,扣2分。
![]()
GLM-5.2獲得了此次作文測評最低分53分。扣分原因:素材抗疫、救災等偏常規化,新穎度不足,扣1分;素材多為概括羅列,缺少具體的個體案例做細節支撐,扣2分;議論深度不足,扣2分,立意“英雄是挺身而出的凡人” 普通不出彩,扣2分。
數學方面,基礎題與中檔題多數模型準確率接近,差距主要體現在壓軸題。部分模型在長鏈條推理中容易出現步驟跳躍或邏輯斷裂,有的會引入超綱解法,雖能得出正確答案,但面臨過程分扣除的風險。訊飛星火-X2在這類題目中解題步驟更規范、關鍵推導更完整,過程分、結果分和推理清晰度三個維度保持較好一致性。DeepSeek-V4-Pro在部分數理題中也展現了較強的推導能力。GLM-5.2在中檔題和部分推理題中的表現較穩定,但在高難度長鏈條題目上仍有提升空間。
英語科目各模型在客觀題和閱讀理解上差距不大,分差主要來自寫作。ChatGPT-5.5-Pro、Claude-Opus-4.8、Gemini-3.5-flash在表達流暢度和句式豐富度上具備優勢;千問-3.7-Max、豆包-2.1-Turbo則更偏保守,但內容要點覆蓋完整,能滿足基本任務要求。
物理、化學和生物這幾科中,物理側重建模與多步推導,化學側重實驗推理和概念辨析,生物強調材料理解與知識整合。不同模型在三科中的表現不盡一致,得分差異主要取決于模型能否將讀題、推理和規范作答完整串聯起來。訊飛星火-X2在物理、化學、生物三科中的得分較為均衡,解題過程中讀題、建模、推導和作答各環節銜接順暢,失分點較少。
政治、歷史、地理均要求較強的材料解讀和結構化表達能力。ChatGPT-5.5-Pro和Claude-Opus-4.8在長文本組織中表現突出;千問-3.7-Max、豆包-2.1-Turbo在知識調用和表達規范性上相對穩定。
專家:技術倒逼數學教育深層變革
針對此次AI大模型做高考題的結果,專家是如何看待的呢?數學教育家、廣東省高考研究會首任理事長、廣東省初等數學學會首任會長吳康在接受記者采訪時表示,AI的解題能力正高速進化,“我們要客觀看待這一結果,更值得思考的是我們教育如何進行深層次的變革。”
作為數學教育家,吳康長期跟蹤測試AI的數學解題能力。他介紹,2025年初的大模型尚難以應對高難度題型,僅過去1年多,其解題覆蓋范圍與難度就已大幅提升,不同知識分支的進步雖有差異,但整體進化速度驚人。他預測,約一年后,AI即可在普通高考數學卷中取得滿分。在他看來,AI將逐步替代低層次計算勞動,讓人類得以將精力投向更高階的數學思考與研究,本質是幫助人類站在技術肩膀上持續進階。
針對“AI會做題,學數學還有什么用”的疑問,吳康表示,數學學習的核心價值在于鍛煉思維、推理、分析、辨別與計算能力,而非單純掌握計算技巧。正如當年珠算被計算器取代一樣,未來基礎運算、公式記憶等機械性內容可交由AI完成,人類學習的重心將向更深層的數學原理與思維方法遷移。他預判,未來10年,中小學數學課本將迎來顯著調整,更高階的大學數學內容會逐步下放,基礎教育的知識深度將整體提升。
針對當前高考數學日趨靈活、反套路的趨勢,吳康直言,傳統題海戰術已失效,而不少地方的教研仍陷入“空對空”的形式主義,重論文職稱、輕解題實戰。他提出,AI解題能力的大幅提升,將推動學校教育和教研體系的深層轉型。“必須打造專業的教研團隊深耕難題與創新題型,厘清題目來龍去脈與考場應對路徑,同時還要改革教師評價導向,讓榮譽與職稱評定向解題能力、教學實效傾斜。”
談及數學思維與刷題熟練度的關系,吳康認為,二者是辯證統一的關系:熟練度是基礎,但不能陷入低層次機械重復。他主張螺旋上升式訓練,以思維提升帶動熟練度增長,讓學生在每道題中都能吸收營養、迭代能力,做到熟能生巧、巧中帶熟,在攻克難題的過程中實現真正的能力成長。
記者手記
教育的復雜性
從來不是一道可以一鍵求解的方程
近年來,通用大模型在高考中拿高分已從技術奇觀變為常態,輿論熱度雖有減退,但核心追問仍在:AI的高考高分,到底意味著什么?是機器智力超越人類的佐證,還是教育體系將要顛覆的信號?
要回答這個問題,需先厘清一個關鍵區別:同等分數下,人與AI屬于完全不同的維度。一名考生考出700分,是十二年寒窗、情緒抗壓、知識內化、臨場應變疊加后的成長結果,分數背后是少年的試錯、疲憊、熱愛與取舍,是完整人格支撐下的綜合答卷,它承載著個人命運、家庭期許與人生選擇。而AI拿下同樣的分數,只是算法基于海量題庫、語料數據和答題范式完成的一場概率最優推理——它不知備考之苦、不曉落榜之痛,不懂文字共情,更無升學渴望。這份高分沒有人生重量,只是算力與數據擬合的投影。
因此,一個普遍焦慮應當消解:AI考高分,從不意味著取代學生或淘汰教師。高考試卷中客觀標準化題型,恰好只是大模型更容易發揮優勢的板塊。但高考分數只覆蓋教育的窄切面。真正的教育,要培養的是思辨、共情、創造與價值判斷的完整人格,這些遠非AI所能觸及。
拋開考場上的噱頭,AI高考高分真正的社會價值,指向的是普惠教育的補位,而非人機競技。長期以來,國內教育的一大痛點是資源不均衡:城鄉師資斷層、區域教研差距、個體培優成本極高。經過應試打磨的大模型,其核心價值便是填補這一空白——全天候陪伴耐心答疑、一對一錯題復盤、個性化輔導方案、精準學情研判,讓優質教育資源觸達更多覆蓋不到的地方。
但與此同時,必須警惕一種風險:不要讓教育因AI擅長應試而向機器靠攏,不可讓教學淪為純粹的標準化訓練。教育的復雜性,從來不是一道可以一鍵求解的方程——知識遞進有其內在階梯,課堂組織需要靈活應變,學生差異要求因材施教,師生之間的信任與成長更是一天天累積的結果。AI不是來簡化這種復雜性的,而是幫助每一位教師、每一個學生,在這種復雜中找到屬于自己的節奏和路徑。
大模型的高考成績單,不是為了證明機器比人更聰明,而是提醒我們:教育真正的火種,永遠在人的手里——在教師的每一次點撥里,在學生的每一次頓悟中,在技術服務于人的每一個溫暖瞬間。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.