无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

國產(chǎn)AI高考708分,這款模型靠什么成為「屏蔽生」?

0
分享至




編輯|楊文

這兩天,各地高考陸續(xù)放榜,大模型「陪考」成績單也新鮮出爐。

高考結(jié)束后,多家媒體對國內(nèi)外主流大模型進行橫向測試,有全科綜合,有單科專項,多維度交叉比拼。

先看綜合成績。羊城晚報教育發(fā)展研究院拉來 8 位 AI 考生全科作答,由 2 名資深教師獨立盲評,總分按歷史類和物理類分科方式統(tǒng)計。

結(jié)果顯示,物理類總分上,Claude Opus 4.8 與訊飛星火X2 以 708 分并列第一;歷史類總分突破 700 分的,則只有訊飛星火X2,兩類均達到廣東屏蔽生水平。



從總分維度看,頭部模型之間的得分差距并不懸殊,最終排名更多取決于全科表現(xiàn)的穩(wěn)定性。

ChatGPT 5.5 Pro 和 Claude Opus 4.8 在長文本輸出和議論文論述上均無明顯短板,但在歷史類總分上未能躋身前兩位,說明均衡表現(xiàn)本身也有層級差異。

訊飛星火X2 在兩類總分中均取得領(lǐng)先,評測報告給出的解釋是,其優(yōu)勢來自語言理解、數(shù)理推理和綜合分析等不同任務(wù)之間的相對均衡,沒有單一科目形成明顯拉動。

再看單科專項

新京報選取 2026 年新高考 I 卷數(shù)學(xué)題,對 6 款推理型大模型進行專項測試,訊飛星火以 148 分居首,Kimi 145 分、DeepSeek 144 分、智譜 143 分、MiniMax 142 分、ChatGPT 137 分依次排列。



澎湃新聞則是組織 9 款大模型寫上海卷高考作文,經(jīng)兩位教師獨立盲評取平均分。星火 65.5 分居首,Gemini 64.5 分、豆包 64 分緊隨其后。



英文作文這邊,《觀察者網(wǎng)》測了 12 款大模型,訊飛星火和 ChatGPT 5.5 Pro 并列進入第一梯隊。



為什么訊飛星火是最會考試的大模型?

高考是中國最標準化的知識與思維測試,其評分邏輯有一個通用大模型容易忽略的維度,也就是過程規(guī)范性。

以數(shù)學(xué)為例。數(shù)學(xué)閱卷不只看最終答案,步驟是否完整、推導(dǎo)是否符合教材規(guī)范,同樣直接影響得分。

根據(jù)此次評測,部分模型在長鏈條推理中出現(xiàn)步驟跳躍,有的引入超綱解法,雖能得出正確答案,但面臨過程分被扣除的風(fēng)險。訊飛星火X2 在這類題目中解題步驟更規(guī)范,過程分、結(jié)果分和推理清晰度三個維度保持了較好的一致性。尤其是在幾何性質(zhì)解析上思路清晰、解法簡潔,部分題目還主動給出兩種解題路徑,「數(shù)形結(jié)合能力明顯優(yōu)于其他模型」。

物理、化學(xué)、生物三科得分差異,主要取決于模型能否將讀題、推理和規(guī)范作答完整串聯(lián),訊飛星火X2 在三科中各環(huán)節(jié)銜接順暢,失分點相對較少。

語文作文上,ChatGPT 5.5 Pro 與 Claude Opus 4.8 長于框架搭建和邏輯推進,文章結(jié)構(gòu)成熟完整,這或許與它們在大規(guī)模英語語料上的訓(xùn)練積累直接相關(guān)。訊飛星火X2 各模塊得分相對均衡,評師對其作文的評價集中在時代立意、邏輯完整性和論據(jù)新穎性上。

大模型的能力邊界,在很大程度上由訓(xùn)練數(shù)據(jù)的質(zhì)量和結(jié)構(gòu)決定。

通用大模型的訓(xùn)練語料以互聯(lián)網(wǎng)公開文本為主,覆蓋面廣,但教育場景的核心數(shù)據(jù),比如學(xué)生的分步驟作答過程、錯誤類型分布、教師的批注與評分依據(jù)等在公開網(wǎng)絡(luò)上極為稀缺。這類數(shù)據(jù)存在于真實的課堂和考場中,獲取它需要進入學(xué)校場景,建立長期的數(shù)據(jù)采集渠道。

科大訊飛從 2004 年起布局教育產(chǎn)品,AI 技術(shù)目前深度應(yīng)用于全國 6 萬余所小學(xué)和中學(xué),在真實課堂教學(xué)場景中完成了億萬次與師生的交互,積累了大量高標注密度且專業(yè)合規(guī)的學(xué)情數(shù)據(jù)。這個數(shù)據(jù)基礎(chǔ),是近年才進入教育賽道的公司短期內(nèi)難以復(fù)制的。

2012 年,搭載科大訊飛評測技術(shù)的產(chǎn)品還首次服務(wù)廣東中高考英語聽說考試,自此,訊飛開始積累機器評測結(jié)果與人工評分之間的對齊數(shù)據(jù)。這個過程持續(xù) 14 年,形成的不只是數(shù)據(jù)量,還有對各學(xué)科評分標準隨高考改革演變的持續(xù)跟蹤。

在模型訓(xùn)練層面,訊飛將有經(jīng)驗教師的評判邏輯結(jié)構(gòu)化后注入模型,形成「教學(xué)思維鏈」驅(qū)動的教育深度推理大模型

具體來說,是把教師判斷答案好壞的思考路徑,包括如何識別錯誤步驟、如何判斷作文立意層級,轉(zhuǎn)化為可訓(xùn)練的數(shù)據(jù)格式,讓模型學(xué)習(xí)評判標準本身。

這也解釋了為什么一些通用大模型在知識覆蓋上并不弱,卻在分步推導(dǎo)和主觀題評分上仍有明顯差距,這缺的不是知識,是對評判標準本身的理解。在垂直場景的模型競爭中,高質(zhì)量領(lǐng)域數(shù)據(jù)的稀缺性,往往比模型參數(shù)規(guī)模更具決定性。

考場之外,才是真正的硬仗

大模型在標準化測試中表現(xiàn)好,和它能在日常教學(xué)場景里穩(wěn)定運行,是兩碼事。

高考是一次性的結(jié)構(gòu)化任務(wù),評分標準明確,最終結(jié)果可以直接用分數(shù)呈現(xiàn)。課堂教學(xué)卻是持續(xù)、高度情境化的過程,涉及教師操作習(xí)慣、學(xué)生個體差異和學(xué)校基礎(chǔ)設(shè)施等大量非技術(shù)變量。

這也是為什么「高考滿分」對教育 AI 來說是一個值得講的故事,卻不是一個可以單獨成立的商業(yè)壁壘。

真正的壁壘在于落地。教育場景的復(fù)雜性決定了,任何試圖進入這個領(lǐng)域的技術(shù)產(chǎn)品,都必須同時解決三個維度的問題:技術(shù)能不能用、教師愿不愿意用、學(xué)校能不能持續(xù)運轉(zhuǎn)起來。三者缺一,都會讓模型能力在真實場景中大打折扣。

為了應(yīng)對這種復(fù)雜性,訊飛選擇的落地路徑是軟硬件一體化,通過自研硬件終端控制數(shù)據(jù)入口和使用環(huán)境,將大模型能力嵌入教學(xué)的三個核心場景



圖源:科大訊飛智慧教育公眾號

課堂端,「同窗 AI 黑板」讓 AI 參與課堂互動過程,可將數(shù)學(xué)公式動態(tài)可視化、用 3D 工具呈現(xiàn)立體幾何,也可以扮演歷史人物與學(xué)生展開對話,把原本單向的內(nèi)容播放變成雙向的推理引導(dǎo)。課后端,「星火智能批閱機」將作業(yè)反饋從判斷對錯推進到定位錯誤步驟,識別錯因出現(xiàn)在哪一環(huán)、屬于哪類認知偏差,據(jù)此生成個性化訓(xùn)練方案。家庭端,AI 學(xué)習(xí)機則將個性化輔導(dǎo)延伸至課外,錯因分析能讀懂孩子解題邏輯,還能跨年級溯源、消除知識深層薄弱點,對癥剖析通過互動問答對孩子進行思路點撥,幫助其精準定位卡殼點,引導(dǎo)學(xué)生逐步推導(dǎo)解題過程。

這一路徑選擇,也有其現(xiàn)實邏輯。純軟件方案高度依賴學(xué)校已有終端,兼容性參差不齊,落地變量難以控制;自研硬件能夠保證使用環(huán)境的一致性,數(shù)據(jù)采集也更為可控。每一個終端都是一個采集節(jié)點,學(xué)生的作答過程、錯誤類型、教師的評判行為,都在真實使用中持續(xù)沉淀。數(shù)據(jù)反哺模型訓(xùn)練,模型優(yōu)化產(chǎn)品,產(chǎn)品擴大部署,部署帶來更多數(shù)據(jù),由此形成閉環(huán)。

從行業(yè)角度看,教育 AI 的競爭正在進入第二階段。第一階段比的是模型能不能答對題,頭部模型在標準化考試中的表現(xiàn)已經(jīng)說明,答題能力本身不再是主要門檻;第二階段比的是產(chǎn)品能不能真正嵌入教學(xué)流程、形成穩(wěn)定的使用習(xí)慣,并在此過程中積累起有價值的場景數(shù)據(jù)。后者的門檻遠高于前者,不僅需要技術(shù)能力,還需要對教育場景長期、深度的理解與投入。

訊飛在教育領(lǐng)域深耕 22 年,數(shù)據(jù)積累是其優(yōu)勢的重要來源,但并非全部。星火X2 是基于全國產(chǎn)算力自主訓(xùn)練的大模型,其在此次評測中的表現(xiàn),同樣有賴于算法架構(gòu)的持續(xù)優(yōu)化和推理能力的迭代提升。在多個學(xué)科維度保持均衡,背后是模型在理解、推理、表達等核心能力上的協(xié)同進步。

AI 真正該做的,是讓好教育不再是「特權(quán)」

大模型在高考中斬獲高分,難免引發(fā)一種焦慮:AI 會不會取代教師?這個問題本身,或許暗含對教育本質(zhì)的誤讀。

高考測量的是知識掌握與基礎(chǔ)推理,是可以被量化、被評分的部分。而真正的教育要培養(yǎng)的,是思辨、共情、創(chuàng)造與價值判斷,這些構(gòu)成完整人格的能力,從來不是一張試卷能夠裝下的,也不是任何模型可以替代的。

從這個意義上說,AI 的高分成績單引發(fā)的真正追問,不是機器能否超越人類,而是這項技術(shù)能否觸及教育資源長期失衡的現(xiàn)實

長期以來,優(yōu)質(zhì)教育資源高度集中,個性化輔導(dǎo)是少數(shù)學(xué)生才能獲得的條件。AI 的介入,有可能讓每個孩子都擁有一個能夠識別其學(xué)習(xí)盲區(qū)、因材施教的學(xué)習(xí)伙伴,讓高水平的教育支持不再只屬于特定學(xué)校和特定家庭。

這或許才是 AI 考出高分真正值得期待的意義。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
荊軻是戰(zhàn)國著名劍術(shù)家,與秦王一對一交手卻挨了八劍,到底啥原因

荊軻是戰(zhàn)國著名劍術(shù)家,與秦王一對一交手卻挨了八劍,到底啥原因

小豫講故事
2026-06-24 06:00:15
伊朗史上最大“清倉大甩賣”!6800萬桶原油求著賣,買家集體沉默

伊朗史上最大“清倉大甩賣”!6800萬桶原油求著賣,買家集體沉默

小蘭聊歷史
2026-06-26 06:46:15
中國外交官已撤離!比美國還囂張的國家,現(xiàn)如今態(tài)度已360度急轉(zhuǎn)

中國外交官已撤離!比美國還囂張的國家,現(xiàn)如今態(tài)度已360度急轉(zhuǎn)

黑鷹觀軍事
2026-06-26 14:52:29
醫(yī)生告誡:一旦確診頸動脈斑塊,6種食物必須戒掉,避免斑塊增大

醫(yī)生告誡:一旦確診頸動脈斑塊,6種食物必須戒掉,避免斑塊增大

荊醫(yī)生科普
2026-06-25 21:40:07
“霸總專業(yè)戶”退出短劇后擺攤賣菜,“我依然想演戲”

“霸總專業(yè)戶”退出短劇后擺攤賣菜,“我依然想演戲”

極目新聞
2026-06-25 19:29:22
這也太有畫面感了

這也太有畫面感了

浪花媽媽
2026-06-26 08:20:39
電影《抓特務(wù)》資本曝光!馮小剛布局30年,被當(dāng)炮灰的不止是韓紅

電影《抓特務(wù)》資本曝光!馮小剛布局30年,被當(dāng)炮灰的不止是韓紅

李健政觀察
2026-06-26 16:22:38
59歲梁實第30次高考總分為423分,差本科線32分,得知成績他懊惱得直拍凳子,考前預(yù)估能上550分

59歲梁實第30次高考總分為423分,差本科線32分,得知成績他懊惱得直拍凳子,考前預(yù)估能上550分

大象新聞
2026-06-26 10:56:20
審計署抽查60縣,平均每個縣翻出10個億問題資金

審計署抽查60縣,平均每個縣翻出10個億問題資金

南方都市報
2026-06-25 12:17:33
劉青山被槍斃40年后,他親弟弟公開發(fā)言,對毛主席的決定作出評價

劉青山被槍斃40年后,他親弟弟公開發(fā)言,對毛主席的決定作出評價

冰語歷史
2026-06-09 15:48:50
大量上市!含鉀是冬瓜23倍,建議夏天要多吃,手腳有勁精神好!

大量上市!含鉀是冬瓜23倍,建議夏天要多吃,手腳有勁精神好!

王二哥老搞笑
2026-06-26 03:58:15
哲凱賴什:裁判的執(zhí)法令人沮喪,雖然沒贏但是晉級感覺不錯

哲凱賴什:裁判的執(zhí)法令人沮喪,雖然沒贏但是晉級感覺不錯

懂球帝
2026-06-26 12:02:21
世界杯跳開場舞的Lisa,被美國DJ灌酒玩太花,LV三公子已和她分手

世界杯跳開場舞的Lisa,被美國DJ灌酒玩太花,LV三公子已和她分手

林雁飛
2026-06-25 14:31:22
1-1!亞洲首支出線隊誕生,日本挑戰(zhàn)五星巴西,韓國晉級形勢如下

1-1!亞洲首支出線隊誕生,日本挑戰(zhàn)五星巴西,韓國晉級形勢如下

球場沒跑道
2026-06-26 09:24:19
我國發(fā)現(xiàn)一座“新大陸”,面積抵得上三個日本!美國:誰發(fā)現(xiàn)歸誰

我國發(fā)現(xiàn)一座“新大陸”,面積抵得上三個日本!美國:誰發(fā)現(xiàn)歸誰

青煙小先生
2026-06-20 11:30:05
最后的瘋狂:許家印被抓捕的失控三秒鐘

最后的瘋狂:許家印被抓捕的失控三秒鐘

財經(jīng)保探長
2026-04-09 22:30:38
“我寫了5年的博士論文,你看不懂正常”,博士答辯氣場全開火了

“我寫了5年的博士論文,你看不懂正常”,博士答辯氣場全開火了

妍妍教育日記
2026-06-18 17:20:45
俄軍的噩夢不止莫斯科:烏克蘭克里米亞陽謀,不是奪地,而是放血

俄軍的噩夢不止莫斯科:烏克蘭克里米亞陽謀,不是奪地,而是放血

寰球經(jīng)緯所
2026-06-25 20:47:36
公公搬來養(yǎng)老,每晚準時敲我房門,第5天我?guī)е⒆踊亓四锛?>
    </a>
        <h3>
      <a href=千秋文化
2026-06-17 20:06:10
中超第16輪裁判安排:女裁判董方雨、鮑夢曉執(zhí)法新鵬城vs成都

中超第16輪裁判安排:女裁判董方雨、鮑夢曉執(zhí)法新鵬城vs成都

懂球帝
2026-06-26 10:58:33
2026-06-26 17:16:49
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
13368文章數(shù) 142682關(guān)注度
往期回顧 全部

科技要聞

美國政府要求OpenAI分批發(fā)布GPT-5.6

頭條要聞

朝鮮領(lǐng)導(dǎo)層重大調(diào)整:"反腐少將"被查 趙甬元被"召回"

頭條要聞

朝鮮領(lǐng)導(dǎo)層重大調(diào)整:"反腐少將"被查 趙甬元被"召回"

體育要聞

三球換里德:森林狼和黃蜂誰更癲?!

娛樂要聞

劉嘉玲想放棄梁朝偉,沒有自理能力

財經(jīng)要聞

懸在科技頭上的達摩克利斯之劍

汽車要聞

老板們的新座駕!65萬元起,尊界V800/V680開啟預(yù)訂

態(tài)度原創(chuàng)

旅游
數(shù)碼
游戲
房產(chǎn)
家居

旅游要聞

老一輩都聽過的滇王故事,一座古廟串聯(lián)起整個消失的古滇王國!

數(shù)碼要聞

Rokid AR眼鏡亮相:驍龍至尊空間計算協(xié)處理器,空間+ AI雙攝

動作肉鴿獨游《夢之形》夏促開啟限時史低折扣,手游版預(yù)約上線TapTap

房產(chǎn)要聞

全國高考大放水,300分就能上本科!論上岸率,海南沒輸過!

家居要聞

綠意盎然 自然之境

無障礙瀏覽 進入關(guān)懷版