網易首頁 > 網易號 > 正文申請入駐

廣東高考放榜

2026-06-25 12:31:55　來源: 新浪財經

北京舉報

分享至

來源：21世紀經濟報道

6月24日，廣東高考成績放榜，社交媒體被“查分名場面”“考生喜報”刷屏，而一場專屬于AI大模型的“高考成績”也悄然出爐。

日前，羊城晚報教育發展研究院采用2026高考試題，對千問-3.7-Max、訊飛星火-X2、豆包-2.1-Turbo、DeepSeek-V4-Pro、GLM-5.2、ChatGPT-5.5-Pro、Claude-Opus-4.8、Gemini-3.5-flash等8款國內外主流大模型進行了橫向測試，邀請2名資深教師獨立盲評。

結果顯示，Claude-Opus-4.8和訊飛星火-X2的物理類總分708分，并列第一，進入廣東屏蔽生行列；歷史類總分上700分只有訊飛星火-X2，也進入廣東屏蔽生行列。豆包-2.1-Turbo、DeepSeek-V4-Pro、GLM-5.2、ChatGPT-5.5-Pro、Claude-Opus-4.8、Gemini-3.5-flash等模型也在部分科目中表現突出，呈現出不同的能力側重。

8款大模型挑戰2026年高考全科成績大PK

本次測評語文、數學、英語三科統一使用新課標I卷；選考科目均采用廣東省自主命題試卷，僅地理科目除外——因測評開展階段暫未獲取完整廣東地理真題，故選用命題難度、出題邏輯與廣東卷高度貼近的山東地理卷作為替代素材。

測評時，各模型均選用網頁端最優版本，并將深度思考模式調至最高。所有模型使用相同提示詞，回答內容均為一次性生成，不追加提問，也不進行人工修改。

在總分計算上，按照歷史類和物理類分科方式統計，采用大部分考生選擇的組合進行計算（歷史類：語數英三科+歷史+政治地理；物理類：語數英三科+物理+化學生物）的“3+1+2”形式。閱卷評分嚴格對標高考官方評分細則，客觀題按標準統一判分，作文、解答等主觀大題由兩名資深教師獨立盲評打分。

需要說明的是，用于測評的題目為根據網絡流出的多個版本交叉驗證后的試題（可能存在與真題試卷不完全相符的情況，但不影響測評進行，所有大模型“考生”使用的均為相同題目）。

從最終成績看，頭部大模型之間的競爭已經不再局限于單點知識問答，而是進入到多學科綜合能力的比拼：既考查知識覆蓋，也考察復雜推理、長文本理解、規范表達和跨學科遷移能力。

總分表現：頭部模型差距收窄

均衡能力成為拉分關鍵

從總分維度來看，主流頭部大模型整體得分差距不大，最終排名高低更多由全科穩定性決定。物理類總分榜單中，Claude-Opus-4.8和訊飛星火-X2并列第一，其后依次為Gemini-3.5-flash、豆包-2.1-Turbo、ChatGPT-5.5-Pro、DeepSeek-V4-Pro、千問-3.7-Max、GLM-5.2，各模型分檔得分各有區分。

歷史類前五名依次為訊飛星火-X2、Gemini-3.5-flash、ChatGPT-5.5-Pro、豆包-2.1-Turbo、Claude-Opus-4.8。

整體來看，海外大模型 ChatGPT-5.5-Pro、Claude-Opus-4.8在長文本輸出、議論文論述表達上基礎實力突出，無明顯短板學科。GLM-5.2歷史類和物理類全科得分存在明顯偏科現象，頂尖難題突破能力略有不足。放到全科測評中，能否在語文、數學、英語、物理（或歷史）及選考科目之間保持均衡，成為影響總分排名的重要因素。訊飛星火-X2此次在歷史和物理兩類總分中均取得領先，主要得益于其在語言理解、數理推理和綜合分析等不同任務中的相對均衡表現，而非單一科目的明顯拉動。

8款大模型挑戰2026年高考總分排名

單科表現：各模型能力側重不同

語文作文和數學壓軸題區分度較高

從單科成績來看，各模型在不同科目上表現出明顯的路線差異。語文、英語等語言類科目中，頭部模型總分差距相對較小，分差主要來自作文立意、結構組織和表達穩定性；數學、物理等科目則區分度更高，尤其是壓軸題和多步驟推導題，更考驗模型的復雜推理與過程規范能力。

語文科目中，議論文寫作和現代文閱讀是主要分水嶺。ChatGPT-5.5-Pro與Claude-Opus-4.8長于框架搭建和邏輯推進，文章結構成熟完整。千問-3.7-Max、豆包-2.1-Turbo在材料歸納和中文語境理解上表現較為穩定。GLM-5.2在結構化作答方面能夠較好回應設問要求，但選題偏常規化，新穎度不足。訊飛星火-X2各模塊得分相對均衡，作文時代立意高遠、邏輯完整、論據新穎，有細節，文風沉穩思辨。

千問-3.7-Max獲得了此次作文測評最高分57分。扣分原因：字數1228，扣1分；結尾升華不足，立意一般，扣2分。

GLM-5.2獲得了此次作文測評最低分53分。扣分原因：素材抗疫、救災等偏常規化，新穎度不足，扣1分；素材多為概括羅列，缺少具體的個體案例做細節支撐，扣2分；議論深度不足，扣2分，立意“英雄是挺身而出的凡人” 普通不出彩，扣2分。

數學方面，基礎題與中檔題多數模型準確率接近，差距主要體現在壓軸題。部分模型在長鏈條推理中容易出現步驟跳躍或邏輯斷裂，有的會引入超綱解法，雖能得出正確答案，但面臨過程分扣除的風險。訊飛星火-X2在這類題目中解題步驟更規范、關鍵推導更完整，過程分、結果分和推理清晰度三個維度保持較好一致性。DeepSeek-V4-Pro在部分數理題中也展現了較強的推導能力。GLM-5.2在中檔題和部分推理題中的表現較穩定，但在高難度長鏈條題目上仍有提升空間。

英語科目各模型在客觀題和閱讀理解上差距不大，分差主要來自寫作。ChatGPT-5.5-Pro、Claude-Opus-4.8、Gemini-3.5-flash在表達流暢度和句式豐富度上具備優勢；千問-3.7-Max、豆包-2.1-Turbo則更偏保守，但內容要點覆蓋完整，能滿足基本任務要求。

物理、化學和生物這幾科中，物理側重建模與多步推導，化學側重實驗推理和概念辨析，生物強調材料理解與知識整合。不同模型在三科中的表現不盡一致，得分差異主要取決于模型能否將讀題、推理和規范作答完整串聯起來。訊飛星火-X2在物理、化學、生物三科中的得分較為均衡，解題過程中讀題、建模、推導和作答各環節銜接順暢，失分點較少。

政治、歷史、地理均要求較強的材料解讀和結構化表達能力。ChatGPT-5.5-Pro和Claude-Opus-4.8在長文本組織中表現突出；千問-3.7-Max、豆包-2.1-Turbo在知識調用和表達規范性上相對穩定。

專家：技術倒逼數學教育深層變革

針對此次AI大模型做高考題的結果，專家是如何看待的呢？數學教育家、廣東省高考研究會首任理事長、廣東省初等數學學會首任會長吳康在接受記者采訪時表示，AI的解題能力正高速進化，“我們要客觀看待這一結果，更值得思考的是我們教育如何進行深層次的變革。”

作為數學教育家，吳康長期跟蹤測試AI的數學解題能力。他介紹，2025年初的大模型尚難以應對高難度題型，僅過去1年多，其解題覆蓋范圍與難度就已大幅提升，不同知識分支的進步雖有差異，但整體進化速度驚人。他預測，約一年后，AI即可在普通高考數學卷中取得滿分。在他看來，AI將逐步替代低層次計算勞動，讓人類得以將精力投向更高階的數學思考與研究，本質是幫助人類站在技術肩膀上持續進階。

針對“AI會做題，學數學還有什么用”的疑問，吳康表示，數學學習的核心價值在于鍛煉思維、推理、分析、辨別與計算能力，而非單純掌握計算技巧。正如當年珠算被計算器取代一樣，未來基礎運算、公式記憶等機械性內容可交由AI完成，人類學習的重心將向更深層的數學原理與思維方法遷移。他預判，未來10年，中小學數學課本將迎來顯著調整，更高階的大學數學內容會逐步下放，基礎教育的知識深度將整體提升。

針對當前高考數學日趨靈活、反套路的趨勢，吳康直言，傳統題海戰術已失效，而不少地方的教研仍陷入“空對空”的形式主義，重論文職稱、輕解題實戰。他提出，AI解題能力的大幅提升，將推動學校教育和教研體系的深層轉型。“必須打造專業的教研團隊深耕難題與創新題型，厘清題目來龍去脈與考場應對路徑，同時還要改革教師評價導向，讓榮譽與職稱評定向解題能力、教學實效傾斜。”

談及數學思維與刷題熟練度的關系，吳康認為，二者是辯證統一的關系：熟練度是基礎，但不能陷入低層次機械重復。他主張螺旋上升式訓練，以思維提升帶動熟練度增長，讓學生在每道題中都能吸收營養、迭代能力，做到熟能生巧、巧中帶熟，在攻克難題的過程中實現真正的能力成長。

記者手記

教育的復雜性

從來不是一道可以一鍵求解的方程

近年來，通用大模型在高考中拿高分已從技術奇觀變為常態，輿論熱度雖有減退，但核心追問仍在：AI的高考高分，到底意味著什么？是機器智力超越人類的佐證，還是教育體系將要顛覆的信號？

要回答這個問題，需先厘清一個關鍵區別：同等分數下，人與AI屬于完全不同的維度。一名考生考出700分，是十二年寒窗、情緒抗壓、知識內化、臨場應變疊加后的成長結果，分數背后是少年的試錯、疲憊、熱愛與取舍，是完整人格支撐下的綜合答卷，它承載著個人命運、家庭期許與人生選擇。而AI拿下同樣的分數，只是算法基于海量題庫、語料數據和答題范式完成的一場概率最優推理——它不知備考之苦、不曉落榜之痛，不懂文字共情，更無升學渴望。這份高分沒有人生重量，只是算力與數據擬合的投影。

因此，一個普遍焦慮應當消解：AI考高分，從不意味著取代學生或淘汰教師。高考試卷中客觀標準化題型，恰好只是大模型更容易發揮優勢的板塊。但高考分數只覆蓋教育的窄切面。真正的教育，要培養的是思辨、共情、創造與價值判斷的完整人格，這些遠非AI所能觸及。

拋開考場上的噱頭，AI高考高分真正的社會價值，指向的是普惠教育的補位，而非人機競技。長期以來，國內教育的一大痛點是資源不均衡：城鄉師資斷層、區域教研差距、個體培優成本極高。經過應試打磨的大模型，其核心價值便是填補這一空白——全天候陪伴耐心答疑、一對一錯題復盤、個性化輔導方案、精準學情研判，讓優質教育資源觸達更多覆蓋不到的地方。

但與此同時，必須警惕一種風險：不要讓教育因AI擅長應試而向機器靠攏，不可讓教學淪為純粹的標準化訓練。教育的復雜性，從來不是一道可以一鍵求解的方程——知識遞進有其內在階梯，課堂組織需要靈活應變，學生差異要求因材施教，師生之間的信任與成長更是一天天累積的結果。AI不是來簡化這種復雜性的，而是幫助每一位教師、每一個學生，在這種復雜中找到屬于自己的節奏和路徑。

大模型的高考成績單，不是為了證明機器比人更聰明，而是提醒我們：教育真正的火種，永遠在人的手里——在教師的每一次點撥里，在學生的每一次頓悟中，在技術服務于人的每一個溫暖瞬間。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.