網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

5個(gè)140分！2026高考數(shù)學(xué)AI評(píng)測(cè)出爐

2026-06-15 20:26:33　來源: 山東教育

山東舉報(bào)

分享至

15日，山東省教育招生考試院舉辦2026年夏季高考評(píng)卷工作開放日活動(dòng)。

2026年山東省參加夏季高考統(tǒng)一考試的考生共計(jì)72萬人，9個(gè)科目試卷總數(shù)達(dá)到432萬余份。評(píng)卷工作委托山東大學(xué)和山東師范大學(xué)進(jìn)行，共選聘評(píng)卷員3700余人。

山東大學(xué)負(fù)責(zé)評(píng)閱語文、數(shù)學(xué)、物理、化學(xué)、生物5個(gè)科目。山東師范大學(xué)負(fù)責(zé)評(píng)閱外語、思想政治、歷史、地理4個(gè)科目。評(píng)卷工作于6月11日正式啟動(dòng)，選擇題部分實(shí)行機(jī)器評(píng)閱，目前已全部完成。非選擇題部分由人工網(wǎng)上評(píng)閱，目前正在進(jìn)行中。

據(jù)悉，本輪評(píng)卷工作結(jié)束后，我省將陸續(xù)開展成績(jī)匯總、錄取控制分?jǐn)?shù)線劃定等工作，6月25日下午3點(diǎn)后正式公布高考成績(jī)。

近日，新京報(bào)展開一場(chǎng)評(píng)測(cè)，選取訊飛星火、DeepSeek、智譜、ChatGPT、Kimi和MiniMax六款以推理見長(zhǎng)的大模型，以2026年新高考I卷數(shù)學(xué)卷為統(tǒng)一試題進(jìn)行測(cè)試。評(píng)測(cè)邀請(qǐng)了兩位專業(yè)教師參與閱卷評(píng)分：人大附中北京經(jīng)濟(jì)技術(shù)開發(fā)區(qū)學(xué)校高中數(shù)學(xué)教師、教研組長(zhǎng)、北京市數(shù)學(xué)骨干教師韓靜波，以及北京市中學(xué)數(shù)學(xué)特級(jí)教師、全國(guó)高中數(shù)理化名師俱樂部副理事長(zhǎng)、中國(guó)數(shù)學(xué)奧林匹克高級(jí)教練丁益祥。

六個(gè)“考生”，五個(gè)上了140分

測(cè)試共19道題目，滿分150分。試卷題目依據(jù)網(wǎng)絡(luò)流出的多個(gè)版本交叉驗(yàn)證而成，可能與真題存在不完全相符的情況，但所有模型使用的是同一套題目，不影響橫向比較的公平性。

從總分來看，六款大模型呈現(xiàn)了明顯的梯度：訊飛星火以148分位居第一，Kimi以145分緊隨其后，DeepSeek144分、智譜143分、MiniMax142分依次排列，ChatGPT以137分排在末尾。六個(gè)“考生”中，有五個(gè)上了140分。

▲6名大模型“考生”總體得分情況。新京報(bào)制圖/盧子雄

基礎(chǔ)題全員滿分，解題規(guī)范拉開差距

在選擇題和多選題上，六款模型實(shí)現(xiàn)了全員滿分，僅有個(gè)別模型在填空題上出現(xiàn)了失誤。真正拉開差距的，是解答題的得分和解題過程的規(guī)范性。

訊飛星火的規(guī)范分與結(jié)果分完全一致，推理過程較為清晰，字符也較規(guī)范。丁益祥舉例說，在第15題第（2）小題中，訊飛星火給出了幾何法和向量法兩種解法；第18題第（2）小題的兩問中，它充分利用了平面幾何中三角形面積之間的關(guān)系，并借助夾角公式簡(jiǎn)化了運(yùn)算。丁益祥還注意到，“MiniMax卷”和“智譜卷”在第18題第（2）小題的第①問上，同樣利用了幾何中三角形面積關(guān)系來處理問題，“都有不錯(cuò)表現(xiàn)”。

韓靜波則發(fā)現(xiàn)，訊飛星火在數(shù)形結(jié)合、對(duì)圖形幾何性質(zhì)的分析上明顯優(yōu)于其他模型，“它在解析第二問幾何性質(zhì)時(shí)分析得很好，做法簡(jiǎn)潔，還有一些題目給出了兩種解法。”

其他模型則在解答題中不同程度地出現(xiàn)了步驟失分，原因多為關(guān)鍵推導(dǎo)缺失或邏輯不連貫。

▲各大模型“考生”不同題目分?jǐn)?shù)統(tǒng)計(jì)情況。新京報(bào)制圖/盧子雄

壓軸題分出高下，部分模型用了"超綱"知識(shí)

壓軸題（第18、19題）成為區(qū)分模型復(fù)雜推理能力的分水嶺。大部分模型在第18題中表現(xiàn)尚可，但在第19題上出現(xiàn)了明顯的“后繼乏力”——有模型僅得到12分（滿分17分），暴露出部分大模型在處理多步驟、高復(fù)雜度邏輯鏈時(shí)仍存在能力短板。

韓靜波觀察發(fā)現(xiàn)，DeepSeek在形式化的代數(shù)推導(dǎo)方面比較擅長(zhǎng)，能按部就班地完成長(zhǎng)邏輯推導(dǎo)，但在數(shù)形結(jié)合、對(duì)圖形幾何性質(zhì)的分析上稍顯欠缺，利用題目特殊性靈活處理問題的能力也顯不足。

值得注意的是，部分模型在解題中動(dòng)用了超出高中知識(shí)范圍的方法。丁益祥指出，“DeepSeek卷”“Kimi卷”“ChatGPT卷”“智譜卷”在求解第18題第（2）小題時(shí)都使用了向量的叉乘運(yùn)算，而“DeepSeek卷”在第19題第（2）小題中還動(dòng)用了“上確界”的概念。丁益祥表示，這些都屬于高等數(shù)學(xué)知識(shí)，在解答高考數(shù)學(xué)試題中一般不宜使用。

▲丁益祥對(duì)試卷的批閱記錄。

"答卷各有千秋"，仍有改進(jìn)余地

除了知識(shí)運(yùn)用的問題，丁益祥還指出了大模型在答題呈現(xiàn)上的一些不足。“MiniMax卷”和“智譜卷”中存在字符不統(tǒng)一、不規(guī)范的情況，給人的感覺較為凌亂。他還提到，ChatGPT卷第15題第（2）小題的幾何法證明較為繁瑣，智譜卷第19題第（3）小題的推導(dǎo)也不夠簡(jiǎn)練。

不過，在答題思路的一致性上，六款模型表現(xiàn)出了一定程度的趨同。以第15題第（1）小題為例，六份答卷一致地采用幾何法證明；第18題第（1）小題，六份答卷一致地利用參數(shù)之間的關(guān)系求橢圓的標(biāo)準(zhǔn)方程；第19題第（1）小題，六份答卷也一致地使用直接計(jì)算的方法得出結(jié)果。丁益祥用“某些思路雷同，答卷各有千秋”來概括六份答卷。

總體而言，測(cè)評(píng)結(jié)果表明，頭部大模型在高考數(shù)學(xué)場(chǎng)景中已展現(xiàn)出一定的解題實(shí)力，不僅能算出正確結(jié)果，也能以較為規(guī)范、嚴(yán)謹(jǐn)?shù)倪^程呈現(xiàn)推導(dǎo)思路。但部分模型在步驟規(guī)范性、復(fù)雜壓軸題的推理能力以及答題格式的規(guī)范呈現(xiàn)上，仍然存在明顯的提升空間。正如有專家指出，當(dāng)前大模型的數(shù)學(xué)能力競(jìng)爭(zhēng)，已從“能算出結(jié)果”轉(zhuǎn)向了“過程嚴(yán)謹(jǐn)、邏輯完整、復(fù)雜問題可拆解”的更高階段。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.