无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

6款AI大模型挑戰高考數學!一款拿下148分,壓軸題成分水嶺

0
分享至

“6款主流大模型的解題能力整體表現呈現出清晰的梯隊分化?!?/p>


6月7日,2026年全國高考數學科目考試落下帷幕,隨后,多個數學相關的話題登上熱搜。過去兩年,AI行業迎來高速發展,大模型推理能力、數理分析能力持續進階,如果讓AI大模型化身“考生”應戰高考數學試題,它們將有怎樣的表現?

我們就此開展了一場評測,選取了6名以推理見長的大模型“考生”,分別是訊飛星火、DeepSeek、智譜、ChatGPT、Kimi、MiniMax,選取了2026年新高考I卷數學卷進行測評。

此次評測,我們還邀請了兩位專業老師輔助對大模型的考卷進行評分,他們分別是:人大附中北京經濟技術開發區學校高中數學教師、教研組長、北京市數學骨干教師 韓靜波,北京市中學數學特級教師、全國高中數理化名師俱樂部副理事長、中國數學奧林匹克高級教練丁益祥。

測試結果顯示,6款主流大模型的解題能力整體表現呈現出梯隊分化。有專家指出,當前大模型的數學能力競爭,已經從“能算出結果”轉向了“過程嚴謹、邏輯完整、復雜問題可拆解”的高階比拼。



6位大模型“考生”總體得分情況。新京報制圖/盧子雄

6位“考生”總分呈現梯度分布

需要說明的是,由于用于測評的題目為根據網絡流出的多個版本交叉驗證后的試題(可能存在與真題試卷不完全相符的情況,但不影響測評進行,所有大模型“考生”使用的均為相同題目),共19道題目,總分為150分。

先來看這次“考試”各位大模型“考生”的總體得分(規范分)情況:訊飛星火以148分總成績領先,其他“考生”總分數由高到低分別為:Kimi145分、DeepSeek144分、智譜143分、MiniMax142分、ChatGPT137分。

在基礎題部分,各模型選擇題與多選題實現全員滿分,僅個別模型在填空題中出現失誤。

解答題和解題過程的規范性是拉開差距的關鍵。幾位大模型“考生”中,訊飛星火全程規范分與結果分完全一致,推理過程較為清晰,字符也較規范。丁益祥舉例,其第15題第(2)小題,訊飛星火給出了幾何法和向量法兩種方法求解;而在第18題第(2)小題中的第①小問,它充分利用了平面幾何中三角形面積之間的關系,第②小問利用了夾角公式,簡化了運算。

同時丁益祥指出,在第18題第(2)小題中的第①小題這一題型上,“MiniMax卷”和“智譜卷”也利用了平面幾何中三角形面積之間的關系處理問題,都有不錯表現。

在解答題部分,有些模型則在不同程度上存在步驟失分,或者在解答題中因關鍵推導缺失或邏輯不連貫被扣減步驟分。



“考生”不同題目得分情況。新京報制圖/盧子雄

壓軸題成為區分模型復雜推理能力的分水嶺

由于考題較多,在此僅挑選部分題目來呈現作答情況并請專家進行點評。

韓靜波注意到,訊飛星火在解析第二問幾何性質時分析得很好,做法簡潔,還有一些題目給出了兩種解法?!坝嶏w星火在數形結合、對圖形幾何性質的研究上明顯優于其他模型。”

壓軸題(第18、19題)成為區分模型復雜推理能力的分水嶺。大部分模型在第18題中表現尚可,但在第19題中出現了明顯的“后繼乏力”,有“考生”僅得12分(滿分17分),反映出部分大模型在處理多步驟、高復雜度邏輯鏈時仍存在能力瓶頸。

韓靜波發現,最后一題(19題)中,DeepSeek在大眾形式化的代數推導比較擅長,利用通性通法按部就班做長邏輯的推導比較擅長,但是數形結合,對圖形幾何性質的分析稍顯欠缺,此外,利用題目的特殊性靈活處理問題能力不足。

大模型解數學題仍存在明顯提升空間

“可以說‘某些思路雷同,答卷各有千秋’,但也有些大模型還有改進的空間?!睂τ谶@六份由大模型“考生”給出的數學高考答卷,北京市中學數學特級教師、全國高中數理化名師俱樂部副理事長、中國數學奧林匹克高級教練丁益祥點評道。

他以第15題第(1)小題為例,六份答卷一致地利用幾何法證明;第18題第(1)小題,六份答卷一致地利用參數之間的關系求橢圓的標準方程;第19題第(1)小題,六份答卷一致地利用直接計算的方法求得結果。



丁益祥對試卷的批閱記錄。

同時,丁益祥也指出了大模型需要改進的地方,包括知識運用不恰當、字符呈現不規范、部分解法不簡練等問題。比如,“DeepSeek卷”“Kimi卷”“ChatGPT卷”“智譜卷”在求解第18題第(2)小題中都利用了向量的叉乘運算。在求解第19題第(2)小題中,“DeepSeek卷”還利用了“上確界”的概念,“這些都是高等數學中的知識,高中未學過,在解答高考數學試題中一般不宜使用?!倍∫嫦檎f道。

“MiniMax卷、智譜卷中的字符不統一、不規范,給人的感覺較為凌亂,看不清。還比如ChatGPT卷第15題第(2)小題的幾何法證明較繁瑣,智譜卷中第19題第(3)小題的推導不簡練……”丁益祥認為,這意味著在做數學題方面,大模型還有改進的空間。

總體而言,頭部大模型在高考數學場景中已展現出一定的解題實力,不僅能算出正確結果,在以規范、嚴謹的過程呈現推導思路方面呈現出一定優勢;也有部分模型雖在基礎題上表現穩定,但在步驟規范性與復雜壓軸題的推理能力上仍有明顯提升空間。

新京報記者 馮琪 劉洋

編輯 繆晨霞 校對 柳寶慶

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
羅伊-基恩:如果英格蘭世界杯奪冠,我就直接移民澳大利亞

羅伊-基恩:如果英格蘭世界杯奪冠,我就直接移民澳大利亞

懂球帝
2026-06-09 16:30:09
43歲傅明成世界杯史上第一位中國籍VAR裁判

43歲傅明成世界杯史上第一位中國籍VAR裁判

極目新聞
2026-06-09 16:10:26
英格蘭隊內訌!阿森納王牌質疑隊友能力,歐洲杯黃金搭檔徹底鬧掰

英格蘭隊內訌!阿森納王牌質疑隊友能力,歐洲杯黃金搭檔徹底鬧掰

瀾歸序
2026-06-10 06:17:04
劉大錘再曝頂流開車玩手機,觸碰紅線恐遭嚴懲

劉大錘再曝頂流開車玩手機,觸碰紅線恐遭嚴懲

科學發掘
2026-06-09 14:41:48
被傳與印度塔塔牽手,奇瑞不得不發聲明,塔塔是個什么物種?

被傳與印度塔塔牽手,奇瑞不得不發聲明,塔塔是個什么物種?

反做空一線
2026-06-10 00:09:09
大學3年啃饅頭咸菜,爸爸來電:每月2萬不夠花?我看著榨菜愣住了

大學3年啃饅頭咸菜,爸爸來電:每月2萬不夠花?我看著榨菜愣住了

曉艾故事匯
2026-06-09 09:26:17
有性生活和沒性生活,身體會出賣你!第三個區別,很多人沒想到

有性生活和沒性生活,身體會出賣你!第三個區別,很多人沒想到

健康科普365
2026-05-30 16:30:29
太諷刺了!“我有點慢熱”,男生相親邀約到拉黑對方,僅用幾分鐘

太諷刺了!“我有點慢熱”,男生相親邀約到拉黑對方,僅用幾分鐘

火山詩話
2026-06-09 08:04:45
總決賽分水嶺?裁判漏判,聯盟調查!若追加二級惡犯,馬刺就完了

總決賽分水嶺?裁判漏判,聯盟調查!若追加二級惡犯,馬刺就完了

你的籃球頻道
2026-06-10 07:12:44
女性偷腥后當晚與丈夫同房是什么感覺?一位39歲的女人說出實情

女性偷腥后當晚與丈夫同房是什么感覺?一位39歲的女人說出實情

混音情感
2026-06-09 09:13:58
成本14億,三天票房只有3.66億,好萊塢年度最慘電影誕生了

成本14億,三天票房只有3.66億,好萊塢年度最慘電影誕生了

影視高原說
2026-06-09 15:32:38
“摸奶子”再惹爭議,OPPO的流量反噬開始了

“摸奶子”再惹爭議,OPPO的流量反噬開始了

品牌頭版
2026-05-13 10:18:15
“家長都是白發蒼蒼!”人大附中出考場視頻,有錢晚婚晚育具象化

“家長都是白發蒼蒼!”人大附中出考場視頻,有錢晚婚晚育具象化

熙熙說教
2026-06-08 19:01:11
小米正式回應SU7 Ultra起火事故!

小米正式回應SU7 Ultra起火事故!

新浪財經
2026-06-09 13:42:50
廣東女子每周啃一個豬蹄,連續吃了半年,去醫院檢查,結果如何

廣東女子每周啃一個豬蹄,連續吃了半年,去醫院檢查,結果如何

芹姐說生活
2026-06-09 19:08:06
吳千語施伯雄在上海新家拍大片,4層別墅公開,老錢風裝修真高級

吳千語施伯雄在上海新家拍大片,4層別墅公開,老錢風裝修真高級

八怪娛
2026-06-09 11:03:36
62歲布拉德·皮特與33歲女友觀看法網,網友:看不出近30歲年齡差

62歲布拉德·皮特與33歲女友觀看法網,網友:看不出近30歲年齡差

韓小娛
2026-06-08 18:01:55
亞美尼亞親俄派敗選,更多“小弟”不看俄臉色

亞美尼亞親俄派敗選,更多“小弟”不看俄臉色

名人茍或
2026-06-09 07:03:45
演都不演!鄭欽文再次一輪游,炸出一群牛鬼蛇神,李娜早把話說透

演都不演!鄭欽文再次一輪游,炸出一群牛鬼蛇神,李娜早把話說透

圓夢的小老頭
2026-06-09 19:54:22
鬧大了!鄰居充電線橫跨他人車位,車主倒車入庫壓斷被索賠500元

鬧大了!鄰居充電線橫跨他人車位,車主倒車入庫壓斷被索賠500元

火山詩話
2026-06-09 08:23:04
2026-06-10 07:51:00
新京報 incentive-icons
新京報
好新聞,無止境
579888文章數 2508466關注度
往期回顧 全部

教育要聞

初中競賽題因式分解:x333-1,難住學霸!

頭條要聞

德國迷奸案主犯因名字公開請求輕判:以后在國內不好混

頭條要聞

德國迷奸案主犯因名字公開請求輕判:以后在國內不好混

體育要聞

誰會花400萬,去看一場尼克斯的比賽?

娛樂要聞

吳文忻因癌癥惡化離世,女兒哭泣不舍

財經要聞

從日韓分銷商到英國教育圈 誰在買宇樹?

科技要聞

一文看懂蘋果WWDC26:庫克告別,Siri重生

汽車要聞

賽豆科技AIVA品牌發布 全系產品覆蓋20萬級市場/量產車年內亮相

態度原創

健康
手機
藝術
親子
家居

粽子、湯圓……常見粘食大盤點!

手機要聞

研究認為iPhone的普及顯著拉低了美國30歲以下女性的生育率

藝術要聞

MVRDV新作:法國“秘密花園”,70戶共享一座小山谷

親子要聞

【萌寶歡樂多多】最新視頻來襲,快來看看吧!

家居要聞

空間微調 移形換境

無障礙瀏覽 進入關懷版