![]()
15日,山東省教育招生考試院舉辦2026年夏季高考評卷工作開放日活動。
2026年山東省參加夏季高考統一考試的考生共計72萬人,9個科目試卷總數達到432萬余份。 評卷工作委托山東大學和山東師范大學進行,共選聘評卷員3700余人。
山東大學負責評閱語文、數學、物理、化學、生物5個科目。山東師范大學負責評閱外語、思想政治、歷史、地理4個科目。評卷工作于6月11日正式啟動,選擇題部分實行機器評閱,目前已全部完成。非選擇題部分由人工網上評閱,目前正在進行中。
據悉,本輪評卷工作結束后,我省將陸續開展成績匯總、 錄取控制分數線 劃定等工作,6月25日下午3點后正式公布高考成績。
近日,新京報展開一場評測,選取訊飛星火、DeepSeek、智譜、ChatGPT、Kimi和MiniMax六款以推理見長的大模型,以2026年新高考I卷數學卷為統一試題進行測試。評測邀請了兩位專業教師參與閱卷評分:人大附中北京經濟技術開發區學校高中數學教師、教研組長、北京市數學骨干教師韓靜波,以及北京市中學數學特級教師、全國高中數理化名師俱樂部副理事長、中國數學奧林匹克高級教練丁益祥。
六個“考生”,五個上了140分
測試共19道題目,滿分150分。試卷題目依據網絡流出的多個版本交叉驗證而成,可能與真題存在不完全相符的情況,但所有模型使用的是同一套題目,不影響橫向比較的公平性。
從總分來看,六款大模型呈現了明顯的梯度:訊飛星火以148分位居第一,Kimi以145分緊隨其后,DeepSeek144分、智譜143分、MiniMax142分依次排列,ChatGPT以137分排在末尾。六個“考生”中,有五個上了140分。
![]()
▲6名大模型“考生”總體得分情況。新京報制圖/盧子雄
基礎題全員滿分,解題規范拉開差距
在選擇題和多選題上,六款模型實現了全員滿分,僅有個別模型在填空題上出現了失誤。真正拉開差距的,是解答題的得分和解題過程的規范性。
訊飛星火的規范分與結果分完全一致,推理過程較為清晰,字符也較規范。丁益祥舉例說,在第15題第(2)小題中,訊飛星火給出了幾何法和向量法兩種解法;第18題第(2)小題的兩問中,它充分利用了平面幾何中三角形面積之間的關系,并借助夾角公式簡化了運算。丁益祥還注意到,“MiniMax卷”和“智譜卷”在第18題第(2)小題的第①問上,同樣利用了幾何中三角形面積關系來處理問題,“都有不錯表現”。
韓靜波則發現,訊飛星火在數形結合、對圖形幾何性質的分析上明顯優于其他模型,“它在解析第二問幾何性質時分析得很好,做法簡潔,還有一些題目給出了兩種解法。”
其他模型則在解答題中不同程度地出現了步驟失分,原因多為關鍵推導缺失或邏輯不連貫。
![]()
▲各大模型“考生”不同題目分數統計情況。新京報制圖/盧子雄
壓軸題分出高下,部分模型用了"超綱"知識
壓軸題(第18、19題)成為區分模型復雜推理能力的分水嶺。大部分模型在第18題中表現尚可,但在第19題上出現了明顯的“后繼乏力”——有模型僅得到12分(滿分17分),暴露出部分大模型在處理多步驟、高復雜度邏輯鏈時仍存在能力短板。
韓靜波觀察發現,DeepSeek在形式化的代數推導方面比較擅長,能按部就班地完成長邏輯推導,但在數形結合、對圖形幾何性質的分析上稍顯欠缺,利用題目特殊性靈活處理問題的能力也顯不足。
值得注意的是,部分模型在解題中動用了超出高中知識范圍的方法。丁益祥指出,“DeepSeek卷”“Kimi卷”“ChatGPT卷”“智譜卷”在求解第18題第(2)小題時都使用了向量的叉乘運算,而“DeepSeek卷”在第19題第(2)小題中還動用了“上確界”的概念。丁益祥表示,這些都屬于高等數學知識,在解答高考數學試題中一般不宜使用。
![]()
▲丁益祥對試卷的批閱記錄。
"答卷各有千秋",仍有改進余地
除了知識運用的問題,丁益祥還指出了大模型在答題呈現上的一些不足。“MiniMax卷”和“智譜卷”中存在字符不統一、不規范的情況,給人的感覺較為凌亂。他還提到,ChatGPT卷第15題第(2)小題的幾何法證明較為繁瑣,智譜卷第19題第(3)小題的推導也不夠簡練。
不過,在答題思路的一致性上,六款模型表現出了一定程度的趨同。以第15題第(1)小題為例,六份答卷一致地采用幾何法證明;第18題第(1)小題,六份答卷一致地利用參數之間的關系求橢圓的標準方程;第19題第(1)小題,六份答卷也一致地使用直接計算的方法得出結果。丁益祥用“某些思路雷同,答卷各有千秋”來概括六份答卷。
總體而言,測評結果表明,頭部大模型在高考數學場景中已展現出一定的解題實力,不僅能算出正確結果,也能以較為規范、嚴謹的過程呈現推導思路。但部分模型在步驟規范性、復雜壓軸題的推理能力以及答題格式的規范呈現上,仍然存在明顯的提升空間。正如有專家指出,當前大模型的數學能力競爭,已從“能算出結果”轉向了“過程嚴謹、邏輯完整、復雜問題可拆解”的更高階段。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.