![]()
編輯|楊文
這兩天,各地高考陸續(xù)放榜,大模型「陪考」成績單也新鮮出爐。
高考結(jié)束后,多家媒體對國內(nèi)外主流大模型進行橫向測試,有全科綜合,有單科專項,多維度交叉比拼。
先看綜合成績。羊城晚報教育發(fā)展研究院拉來 8 位 AI 考生全科作答,由 2 名資深教師獨立盲評,總分按歷史類和物理類分科方式統(tǒng)計。
結(jié)果顯示,物理類總分上,Claude Opus 4.8 與訊飛星火X2 以 708 分并列第一;歷史類總分突破 700 分的,則只有訊飛星火X2,兩類均達到廣東屏蔽生水平。
![]()
從總分維度看,頭部模型之間的得分差距并不懸殊,最終排名更多取決于全科表現(xiàn)的穩(wěn)定性。
ChatGPT 5.5 Pro 和 Claude Opus 4.8 在長文本輸出和議論文論述上均無明顯短板,但在歷史類總分上未能躋身前兩位,說明均衡表現(xiàn)本身也有層級差異。
訊飛星火X2 在兩類總分中均取得領(lǐng)先,評測報告給出的解釋是,其優(yōu)勢來自語言理解、數(shù)理推理和綜合分析等不同任務(wù)之間的相對均衡,沒有單一科目形成明顯拉動。
再看單科專項
新京報選取 2026 年新高考 I 卷數(shù)學(xué)題,對 6 款推理型大模型進行專項測試,訊飛星火以 148 分居首,Kimi 145 分、DeepSeek 144 分、智譜 143 分、MiniMax 142 分、ChatGPT 137 分依次排列。
![]()
澎湃新聞則是組織 9 款大模型寫上海卷高考作文,經(jīng)兩位教師獨立盲評取平均分。星火 65.5 分居首,Gemini 64.5 分、豆包 64 分緊隨其后。
![]()
英文作文這邊,《觀察者網(wǎng)》測了 12 款大模型,訊飛星火和 ChatGPT 5.5 Pro 并列進入第一梯隊。
![]()
為什么訊飛星火是最會考試的大模型?
高考是中國最標準化的知識與思維測試,其評分邏輯有一個通用大模型容易忽略的維度,也就是過程規(guī)范性。
以數(shù)學(xué)為例。數(shù)學(xué)閱卷不只看最終答案,步驟是否完整、推導(dǎo)是否符合教材規(guī)范,同樣直接影響得分。
根據(jù)此次評測,部分模型在長鏈條推理中出現(xiàn)步驟跳躍,有的引入超綱解法,雖能得出正確答案,但面臨過程分被扣除的風(fēng)險。訊飛星火X2 在這類題目中解題步驟更規(guī)范,過程分、結(jié)果分和推理清晰度三個維度保持了較好的一致性。尤其是在幾何性質(zhì)解析上思路清晰、解法簡潔,部分題目還主動給出兩種解題路徑,「數(shù)形結(jié)合能力明顯優(yōu)于其他模型」。
物理、化學(xué)、生物三科得分差異,主要取決于模型能否將讀題、推理和規(guī)范作答完整串聯(lián),訊飛星火X2 在三科中各環(huán)節(jié)銜接順暢,失分點相對較少。
語文作文上,ChatGPT 5.5 Pro 與 Claude Opus 4.8 長于框架搭建和邏輯推進,文章結(jié)構(gòu)成熟完整,這或許與它們在大規(guī)模英語語料上的訓(xùn)練積累直接相關(guān)。訊飛星火X2 各模塊得分相對均衡,評師對其作文的評價集中在時代立意、邏輯完整性和論據(jù)新穎性上。
大模型的能力邊界,在很大程度上由訓(xùn)練數(shù)據(jù)的質(zhì)量和結(jié)構(gòu)決定。
通用大模型的訓(xùn)練語料以互聯(lián)網(wǎng)公開文本為主,覆蓋面廣,但教育場景的核心數(shù)據(jù),比如學(xué)生的分步驟作答過程、錯誤類型分布、教師的批注與評分依據(jù)等在公開網(wǎng)絡(luò)上極為稀缺。這類數(shù)據(jù)存在于真實的課堂和考場中,獲取它需要進入學(xué)校場景,建立長期的數(shù)據(jù)采集渠道。
科大訊飛從 2004 年起布局教育產(chǎn)品,AI 技術(shù)目前深度應(yīng)用于全國 6 萬余所小學(xué)和中學(xué),在真實課堂教學(xué)場景中完成了億萬次與師生的交互,積累了大量高標注密度且專業(yè)合規(guī)的學(xué)情數(shù)據(jù)。這個數(shù)據(jù)基礎(chǔ),是近年才進入教育賽道的公司短期內(nèi)難以復(fù)制的。
2012 年,搭載科大訊飛評測技術(shù)的產(chǎn)品還首次服務(wù)廣東中高考英語聽說考試,自此,訊飛開始積累機器評測結(jié)果與人工評分之間的對齊數(shù)據(jù)。這個過程持續(xù) 14 年,形成的不只是數(shù)據(jù)量,還有對各學(xué)科評分標準隨高考改革演變的持續(xù)跟蹤。
在模型訓(xùn)練層面,訊飛將有經(jīng)驗教師的評判邏輯結(jié)構(gòu)化后注入模型,形成「教學(xué)思維鏈」驅(qū)動的教育深度推理大模型
具體來說,是把教師判斷答案好壞的思考路徑,包括如何識別錯誤步驟、如何判斷作文立意層級,轉(zhuǎn)化為可訓(xùn)練的數(shù)據(jù)格式,讓模型學(xué)習(xí)評判標準本身。
這也解釋了為什么一些通用大模型在知識覆蓋上并不弱,卻在分步推導(dǎo)和主觀題評分上仍有明顯差距,這缺的不是知識,是對評判標準本身的理解。在垂直場景的模型競爭中,高質(zhì)量領(lǐng)域數(shù)據(jù)的稀缺性,往往比模型參數(shù)規(guī)模更具決定性。
考場之外,才是真正的硬仗
大模型在標準化測試中表現(xiàn)好,和它能在日常教學(xué)場景里穩(wěn)定運行,是兩碼事。
高考是一次性的結(jié)構(gòu)化任務(wù),評分標準明確,最終結(jié)果可以直接用分數(shù)呈現(xiàn)。課堂教學(xué)卻是持續(xù)、高度情境化的過程,涉及教師操作習(xí)慣、學(xué)生個體差異和學(xué)校基礎(chǔ)設(shè)施等大量非技術(shù)變量。
這也是為什么「高考滿分」對教育 AI 來說是一個值得講的故事,卻不是一個可以單獨成立的商業(yè)壁壘。
真正的壁壘在于落地。教育場景的復(fù)雜性決定了,任何試圖進入這個領(lǐng)域的技術(shù)產(chǎn)品,都必須同時解決三個維度的問題:技術(shù)能不能用、教師愿不愿意用、學(xué)校能不能持續(xù)運轉(zhuǎn)起來。三者缺一,都會讓模型能力在真實場景中大打折扣。
為了應(yīng)對這種復(fù)雜性,訊飛選擇的落地路徑是軟硬件一體化,通過自研硬件終端控制數(shù)據(jù)入口和使用環(huán)境,將大模型能力嵌入教學(xué)的三個核心場景
![]()
圖源:科大訊飛智慧教育公眾號
課堂端,「同窗 AI 黑板」讓 AI 參與課堂互動過程,可將數(shù)學(xué)公式動態(tài)可視化、用 3D 工具呈現(xiàn)立體幾何,也可以扮演歷史人物與學(xué)生展開對話,把原本單向的內(nèi)容播放變成雙向的推理引導(dǎo)。課后端,「星火智能批閱機」將作業(yè)反饋從判斷對錯推進到定位錯誤步驟,識別錯因出現(xiàn)在哪一環(huán)、屬于哪類認知偏差,據(jù)此生成個性化訓(xùn)練方案。家庭端,AI 學(xué)習(xí)機則將個性化輔導(dǎo)延伸至課外,錯因分析能讀懂孩子解題邏輯,還能跨年級溯源、消除知識深層薄弱點,對癥剖析通過互動問答對孩子進行思路點撥,幫助其精準定位卡殼點,引導(dǎo)學(xué)生逐步推導(dǎo)解題過程。
這一路徑選擇,也有其現(xiàn)實邏輯。純軟件方案高度依賴學(xué)校已有終端,兼容性參差不齊,落地變量難以控制;自研硬件能夠保證使用環(huán)境的一致性,數(shù)據(jù)采集也更為可控。每一個終端都是一個采集節(jié)點,學(xué)生的作答過程、錯誤類型、教師的評判行為,都在真實使用中持續(xù)沉淀。數(shù)據(jù)反哺模型訓(xùn)練,模型優(yōu)化產(chǎn)品,產(chǎn)品擴大部署,部署帶來更多數(shù)據(jù),由此形成閉環(huán)。
從行業(yè)角度看,教育 AI 的競爭正在進入第二階段。第一階段比的是模型能不能答對題,頭部模型在標準化考試中的表現(xiàn)已經(jīng)說明,答題能力本身不再是主要門檻;第二階段比的是產(chǎn)品能不能真正嵌入教學(xué)流程、形成穩(wěn)定的使用習(xí)慣,并在此過程中積累起有價值的場景數(shù)據(jù)。后者的門檻遠高于前者,不僅需要技術(shù)能力,還需要對教育場景長期、深度的理解與投入。
訊飛在教育領(lǐng)域深耕 22 年,數(shù)據(jù)積累是其優(yōu)勢的重要來源,但并非全部。星火X2 是基于全國產(chǎn)算力自主訓(xùn)練的大模型,其在此次評測中的表現(xiàn),同樣有賴于算法架構(gòu)的持續(xù)優(yōu)化和推理能力的迭代提升。在多個學(xué)科維度保持均衡,背后是模型在理解、推理、表達等核心能力上的協(xié)同進步。
AI 真正該做的,是讓好教育不再是「特權(quán)」
大模型在高考中斬獲高分,難免引發(fā)一種焦慮:AI 會不會取代教師?這個問題本身,或許暗含對教育本質(zhì)的誤讀。
高考測量的是知識掌握與基礎(chǔ)推理,是可以被量化、被評分的部分。而真正的教育要培養(yǎng)的,是思辨、共情、創(chuàng)造與價值判斷,這些構(gòu)成完整人格的能力,從來不是一張試卷能夠裝下的,也不是任何模型可以替代的。
從這個意義上說,AI 的高分成績單引發(fā)的真正追問,不是機器能否超越人類,而是這項技術(shù)能否觸及教育資源長期失衡的現(xiàn)實
長期以來,優(yōu)質(zhì)教育資源高度集中,個性化輔導(dǎo)是少數(shù)學(xué)生才能獲得的條件。AI 的介入,有可能讓每個孩子都擁有一個能夠識別其學(xué)習(xí)盲區(qū)、因材施教的學(xué)習(xí)伙伴,讓高水平的教育支持不再只屬于特定學(xué)校和特定家庭。
這或許才是 AI 考出高分真正值得期待的意義。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.