網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

國產(chǎn)AI高考708分，這款模型靠什么成為「屏蔽生」？

2026-06-26 14:56:46　來源: 機器之心Pro

河北舉報

分享至

編輯｜楊文

這兩天，各地高考陸續(xù)放榜，大模型「陪考」成績單也新鮮出爐。

高考結(jié)束后，多家媒體對國內(nèi)外主流大模型進行橫向測試，有全科綜合，有單科專項，多維度交叉比拼。

先看綜合成績。羊城晚報教育發(fā)展研究院拉來 8 位 AI 考生全科作答，由 2 名資深教師獨立盲評，總分按歷史類和物理類分科方式統(tǒng)計。

結(jié)果顯示，物理類總分上，Claude Opus 4.8 與訊飛星火X2 以 708 分并列第一；歷史類總分突破 700 分的，則只有訊飛星火X2，兩類均達到廣東屏蔽生水平。

從總分維度看，頭部模型之間的得分差距并不懸殊，最終排名更多取決于全科表現(xiàn)的穩(wěn)定性。

ChatGPT 5.5 Pro 和 Claude Opus 4.8 在長文本輸出和議論文論述上均無明顯短板，但在歷史類總分上未能躋身前兩位，說明均衡表現(xiàn)本身也有層級差異。

訊飛星火X2 在兩類總分中均取得領(lǐng)先，評測報告給出的解釋是，其優(yōu)勢來自語言理解、數(shù)理推理和綜合分析等不同任務(wù)之間的相對均衡，沒有單一科目形成明顯拉動。

再看單科專項

新京報選取 2026 年新高考 I 卷數(shù)學(xué)題，對 6 款推理型大模型進行專項測試，訊飛星火以 148 分居首，Kimi 145 分、DeepSeek 144 分、智譜 143 分、MiniMax 142 分、ChatGPT 137 分依次排列。

澎湃新聞則是組織 9 款大模型寫上海卷高考作文，經(jīng)兩位教師獨立盲評取平均分。星火 65.5 分居首，Gemini 64.5 分、豆包 64 分緊隨其后。

英文作文這邊，《觀察者網(wǎng)》測了 12 款大模型，訊飛星火和 ChatGPT 5.5 Pro 并列進入第一梯隊。

為什么訊飛星火是最會考試的大模型？

高考是中國最標準化的知識與思維測試，其評分邏輯有一個通用大模型容易忽略的維度，也就是過程規(guī)范性。

以數(shù)學(xué)為例。數(shù)學(xué)閱卷不只看最終答案，步驟是否完整、推導(dǎo)是否符合教材規(guī)范，同樣直接影響得分。

根據(jù)此次評測，部分模型在長鏈條推理中出現(xiàn)步驟跳躍，有的引入超綱解法，雖能得出正確答案，但面臨過程分被扣除的風(fēng)險。訊飛星火X2 在這類題目中解題步驟更規(guī)范，過程分、結(jié)果分和推理清晰度三個維度保持了較好的一致性。尤其是在幾何性質(zhì)解析上思路清晰、解法簡潔，部分題目還主動給出兩種解題路徑，「數(shù)形結(jié)合能力明顯優(yōu)于其他模型」。

物理、化學(xué)、生物三科得分差異，主要取決于模型能否將讀題、推理和規(guī)范作答完整串聯(lián)，訊飛星火X2 在三科中各環(huán)節(jié)銜接順暢，失分點相對較少。

語文作文上，ChatGPT 5.5 Pro 與 Claude Opus 4.8 長于框架搭建和邏輯推進，文章結(jié)構(gòu)成熟完整，這或許與它們在大規(guī)模英語語料上的訓(xùn)練積累直接相關(guān)。訊飛星火X2 各模塊得分相對均衡，評師對其作文的評價集中在時代立意、邏輯完整性和論據(jù)新穎性上。

大模型的能力邊界，在很大程度上由訓(xùn)練數(shù)據(jù)的質(zhì)量和結(jié)構(gòu)決定。

通用大模型的訓(xùn)練語料以互聯(lián)網(wǎng)公開文本為主，覆蓋面廣，但教育場景的核心數(shù)據(jù)，比如學(xué)生的分步驟作答過程、錯誤類型分布、教師的批注與評分依據(jù)等在公開網(wǎng)絡(luò)上極為稀缺。這類數(shù)據(jù)存在于真實的課堂和考場中，獲取它需要進入學(xué)校場景，建立長期的數(shù)據(jù)采集渠道。

科大訊飛從 2004 年起布局教育產(chǎn)品，AI 技術(shù)目前深度應(yīng)用于全國 6 萬余所小學(xué)和中學(xué)，在真實課堂教學(xué)場景中完成了億萬次與師生的交互，積累了大量高標注密度且專業(yè)合規(guī)的學(xué)情數(shù)據(jù)。這個數(shù)據(jù)基礎(chǔ)，是近年才進入教育賽道的公司短期內(nèi)難以復(fù)制的。

2012 年，搭載科大訊飛評測技術(shù)的產(chǎn)品還首次服務(wù)廣東中高考英語聽說考試，自此，訊飛開始積累機器評測結(jié)果與人工評分之間的對齊數(shù)據(jù)。這個過程持續(xù) 14 年，形成的不只是數(shù)據(jù)量，還有對各學(xué)科評分標準隨高考改革演變的持續(xù)跟蹤。

在模型訓(xùn)練層面，訊飛將有經(jīng)驗教師的評判邏輯結(jié)構(gòu)化后注入模型，形成「教學(xué)思維鏈」驅(qū)動的教育深度推理大模型

具體來說，是把教師判斷答案好壞的思考路徑，包括如何識別錯誤步驟、如何判斷作文立意層級，轉(zhuǎn)化為可訓(xùn)練的數(shù)據(jù)格式，讓模型學(xué)習(xí)評判標準本身。

這也解釋了為什么一些通用大模型在知識覆蓋上并不弱，卻在分步推導(dǎo)和主觀題評分上仍有明顯差距，這缺的不是知識，是對評判標準本身的理解。在垂直場景的模型競爭中，高質(zhì)量領(lǐng)域數(shù)據(jù)的稀缺性，往往比模型參數(shù)規(guī)模更具決定性。

考場之外，才是真正的硬仗

大模型在標準化測試中表現(xiàn)好，和它能在日常教學(xué)場景里穩(wěn)定運行，是兩碼事。

高考是一次性的結(jié)構(gòu)化任務(wù)，評分標準明確，最終結(jié)果可以直接用分數(shù)呈現(xiàn)。課堂教學(xué)卻是持續(xù)、高度情境化的過程，涉及教師操作習(xí)慣、學(xué)生個體差異和學(xué)校基礎(chǔ)設(shè)施等大量非技術(shù)變量。

這也是為什么「高考滿分」對教育 AI 來說是一個值得講的故事，卻不是一個可以單獨成立的商業(yè)壁壘。

真正的壁壘在于落地。教育場景的復(fù)雜性決定了，任何試圖進入這個領(lǐng)域的技術(shù)產(chǎn)品，都必須同時解決三個維度的問題：技術(shù)能不能用、教師愿不愿意用、學(xué)校能不能持續(xù)運轉(zhuǎn)起來。三者缺一，都會讓模型能力在真實場景中大打折扣。

為了應(yīng)對這種復(fù)雜性，訊飛選擇的落地路徑是軟硬件一體化，通過自研硬件終端控制數(shù)據(jù)入口和使用環(huán)境，將大模型能力嵌入教學(xué)的三個核心場景

圖源：科大訊飛智慧教育公眾號

課堂端，「同窗 AI 黑板」讓 AI 參與課堂互動過程，可將數(shù)學(xué)公式動態(tài)可視化、用 3D 工具呈現(xiàn)立體幾何，也可以扮演歷史人物與學(xué)生展開對話，把原本單向的內(nèi)容播放變成雙向的推理引導(dǎo)。課后端，「星火智能批閱機」將作業(yè)反饋從判斷對錯推進到定位錯誤步驟，識別錯因出現(xiàn)在哪一環(huán)、屬于哪類認知偏差，據(jù)此生成個性化訓(xùn)練方案。家庭端，AI 學(xué)習(xí)機則將個性化輔導(dǎo)延伸至課外，錯因分析能讀懂孩子解題邏輯，還能跨年級溯源、消除知識深層薄弱點，對癥剖析通過互動問答對孩子進行思路點撥，幫助其精準定位卡殼點，引導(dǎo)學(xué)生逐步推導(dǎo)解題過程。

這一路徑選擇，也有其現(xiàn)實邏輯。純軟件方案高度依賴學(xué)校已有終端，兼容性參差不齊，落地變量難以控制；自研硬件能夠保證使用環(huán)境的一致性，數(shù)據(jù)采集也更為可控。每一個終端都是一個采集節(jié)點，學(xué)生的作答過程、錯誤類型、教師的評判行為，都在真實使用中持續(xù)沉淀。數(shù)據(jù)反哺模型訓(xùn)練，模型優(yōu)化產(chǎn)品，產(chǎn)品擴大部署，部署帶來更多數(shù)據(jù)，由此形成閉環(huán)。

從行業(yè)角度看，教育 AI 的競爭正在進入第二階段。第一階段比的是模型能不能答對題，頭部模型在標準化考試中的表現(xiàn)已經(jīng)說明，答題能力本身不再是主要門檻；第二階段比的是產(chǎn)品能不能真正嵌入教學(xué)流程、形成穩(wěn)定的使用習(xí)慣，并在此過程中積累起有價值的場景數(shù)據(jù)。后者的門檻遠高于前者，不僅需要技術(shù)能力，還需要對教育場景長期、深度的理解與投入。

訊飛在教育領(lǐng)域深耕 22 年，數(shù)據(jù)積累是其優(yōu)勢的重要來源，但并非全部。星火X2 是基于全國產(chǎn)算力自主訓(xùn)練的大模型，其在此次評測中的表現(xiàn)，同樣有賴于算法架構(gòu)的持續(xù)優(yōu)化和推理能力的迭代提升。在多個學(xué)科維度保持均衡，背后是模型在理解、推理、表達等核心能力上的協(xié)同進步。

AI 真正該做的，是讓好教育不再是「特權(quán)」

大模型在高考中斬獲高分，難免引發(fā)一種焦慮：AI 會不會取代教師？這個問題本身，或許暗含對教育本質(zhì)的誤讀。

高考測量的是知識掌握與基礎(chǔ)推理，是可以被量化、被評分的部分。而真正的教育要培養(yǎng)的，是思辨、共情、創(chuàng)造與價值判斷，這些構(gòu)成完整人格的能力，從來不是一張試卷能夠裝下的，也不是任何模型可以替代的。

從這個意義上說，AI 的高分成績單引發(fā)的真正追問，不是機器能否超越人類，而是這項技術(shù)能否觸及教育資源長期失衡的現(xiàn)實

長期以來，優(yōu)質(zhì)教育資源高度集中，個性化輔導(dǎo)是少數(shù)學(xué)生才能獲得的條件。AI 的介入，有可能讓每個孩子都擁有一個能夠識別其學(xué)習(xí)盲區(qū)、因材施教的學(xué)習(xí)伙伴，讓高水平的教育支持不再只屬于特定學(xué)校和特定家庭。

這或許才是 AI 考出高分真正值得期待的意義。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.