![]()
15日,山東省教育招生考試院舉辦2026年夏季高考評(píng)卷工作開放日活動(dòng)。
2026年山東省參加夏季高考統(tǒng)一考試的考生共計(jì)72萬人,9個(gè)科目試卷總數(shù)達(dá)到432萬余份。 評(píng)卷工作委托山東大學(xué)和山東師范大學(xué)進(jìn)行,共選聘評(píng)卷員3700余人。
山東大學(xué)負(fù)責(zé)評(píng)閱語文、數(shù)學(xué)、物理、化學(xué)、生物5個(gè)科目。山東師范大學(xué)負(fù)責(zé)評(píng)閱外語、思想政治、歷史、地理4個(gè)科目。評(píng)卷工作于6月11日正式啟動(dòng),選擇題部分實(shí)行機(jī)器評(píng)閱,目前已全部完成。非選擇題部分由人工網(wǎng)上評(píng)閱,目前正在進(jìn)行中。
據(jù)悉,本輪評(píng)卷工作結(jié)束后,我省將陸續(xù)開展成績(jī)匯總、 錄取控制分?jǐn)?shù)線 劃定等工作,6月25日下午3點(diǎn)后正式公布高考成績(jī)。
近日,新京報(bào)展開一場(chǎng)評(píng)測(cè),選取訊飛星火、DeepSeek、智譜、ChatGPT、Kimi和MiniMax六款以推理見長(zhǎng)的大模型,以2026年新高考I卷數(shù)學(xué)卷為統(tǒng)一試題進(jìn)行測(cè)試。評(píng)測(cè)邀請(qǐng)了兩位專業(yè)教師參與閱卷評(píng)分:人大附中北京經(jīng)濟(jì)技術(shù)開發(fā)區(qū)學(xué)校高中數(shù)學(xué)教師、教研組長(zhǎng)、北京市數(shù)學(xué)骨干教師韓靜波,以及北京市中學(xué)數(shù)學(xué)特級(jí)教師、全國(guó)高中數(shù)理化名師俱樂部副理事長(zhǎng)、中國(guó)數(shù)學(xué)奧林匹克高級(jí)教練丁益祥。
六個(gè)“考生”,五個(gè)上了140分
測(cè)試共19道題目,滿分150分。試卷題目依據(jù)網(wǎng)絡(luò)流出的多個(gè)版本交叉驗(yàn)證而成,可能與真題存在不完全相符的情況,但所有模型使用的是同一套題目,不影響橫向比較的公平性。
從總分來看,六款大模型呈現(xiàn)了明顯的梯度:訊飛星火以148分位居第一,Kimi以145分緊隨其后,DeepSeek144分、智譜143分、MiniMax142分依次排列,ChatGPT以137分排在末尾。六個(gè)“考生”中,有五個(gè)上了140分。
![]()
▲6名大模型“考生”總體得分情況。新京報(bào)制圖/盧子雄
基礎(chǔ)題全員滿分,解題規(guī)范拉開差距
在選擇題和多選題上,六款模型實(shí)現(xiàn)了全員滿分,僅有個(gè)別模型在填空題上出現(xiàn)了失誤。真正拉開差距的,是解答題的得分和解題過程的規(guī)范性。
訊飛星火的規(guī)范分與結(jié)果分完全一致,推理過程較為清晰,字符也較規(guī)范。丁益祥舉例說,在第15題第(2)小題中,訊飛星火給出了幾何法和向量法兩種解法;第18題第(2)小題的兩問中,它充分利用了平面幾何中三角形面積之間的關(guān)系,并借助夾角公式簡(jiǎn)化了運(yùn)算。丁益祥還注意到,“MiniMax卷”和“智譜卷”在第18題第(2)小題的第①問上,同樣利用了幾何中三角形面積關(guān)系來處理問題,“都有不錯(cuò)表現(xiàn)”。
韓靜波則發(fā)現(xiàn),訊飛星火在數(shù)形結(jié)合、對(duì)圖形幾何性質(zhì)的分析上明顯優(yōu)于其他模型,“它在解析第二問幾何性質(zhì)時(shí)分析得很好,做法簡(jiǎn)潔,還有一些題目給出了兩種解法。”
其他模型則在解答題中不同程度地出現(xiàn)了步驟失分,原因多為關(guān)鍵推導(dǎo)缺失或邏輯不連貫。
![]()
▲各大模型“考生”不同題目分?jǐn)?shù)統(tǒng)計(jì)情況。新京報(bào)制圖/盧子雄
壓軸題分出高下,部分模型用了"超綱"知識(shí)
壓軸題(第18、19題)成為區(qū)分模型復(fù)雜推理能力的分水嶺。大部分模型在第18題中表現(xiàn)尚可,但在第19題上出現(xiàn)了明顯的“后繼乏力”——有模型僅得到12分(滿分17分),暴露出部分大模型在處理多步驟、高復(fù)雜度邏輯鏈時(shí)仍存在能力短板。
韓靜波觀察發(fā)現(xiàn),DeepSeek在形式化的代數(shù)推導(dǎo)方面比較擅長(zhǎng),能按部就班地完成長(zhǎng)邏輯推導(dǎo),但在數(shù)形結(jié)合、對(duì)圖形幾何性質(zhì)的分析上稍顯欠缺,利用題目特殊性靈活處理問題的能力也顯不足。
值得注意的是,部分模型在解題中動(dòng)用了超出高中知識(shí)范圍的方法。丁益祥指出,“DeepSeek卷”“Kimi卷”“ChatGPT卷”“智譜卷”在求解第18題第(2)小題時(shí)都使用了向量的叉乘運(yùn)算,而“DeepSeek卷”在第19題第(2)小題中還動(dòng)用了“上確界”的概念。丁益祥表示,這些都屬于高等數(shù)學(xué)知識(shí),在解答高考數(shù)學(xué)試題中一般不宜使用。
![]()
▲丁益祥對(duì)試卷的批閱記錄。
"答卷各有千秋",仍有改進(jìn)余地
除了知識(shí)運(yùn)用的問題,丁益祥還指出了大模型在答題呈現(xiàn)上的一些不足。“MiniMax卷”和“智譜卷”中存在字符不統(tǒng)一、不規(guī)范的情況,給人的感覺較為凌亂。他還提到,ChatGPT卷第15題第(2)小題的幾何法證明較為繁瑣,智譜卷第19題第(3)小題的推導(dǎo)也不夠簡(jiǎn)練。
不過,在答題思路的一致性上,六款模型表現(xiàn)出了一定程度的趨同。以第15題第(1)小題為例,六份答卷一致地采用幾何法證明;第18題第(1)小題,六份答卷一致地利用參數(shù)之間的關(guān)系求橢圓的標(biāo)準(zhǔn)方程;第19題第(1)小題,六份答卷也一致地使用直接計(jì)算的方法得出結(jié)果。丁益祥用“某些思路雷同,答卷各有千秋”來概括六份答卷。
總體而言,測(cè)評(píng)結(jié)果表明,頭部大模型在高考數(shù)學(xué)場(chǎng)景中已展現(xiàn)出一定的解題實(shí)力,不僅能算出正確結(jié)果,也能以較為規(guī)范、嚴(yán)謹(jǐn)?shù)倪^程呈現(xiàn)推導(dǎo)思路。但部分模型在步驟規(guī)范性、復(fù)雜壓軸題的推理能力以及答題格式的規(guī)范呈現(xiàn)上,仍然存在明顯的提升空間。正如有專家指出,當(dāng)前大模型的數(shù)學(xué)能力競(jìng)爭(zhēng),已從“能算出結(jié)果”轉(zhuǎn)向了“過程嚴(yán)謹(jǐn)、邏輯完整、復(fù)雜問題可拆解”的更高階段。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.