網易首頁 > 網易號 > 正文 申請入駐

再創歷史!DeepSeek最新開源模型Math-V2實現IMO金牌水準,提出可自驗證的數學推理

0
分享至

大數據文摘受權轉載自頭部科技

文丨譚梓馨

繼OpenAI發布GPT-5.1、谷歌推出Gemini 3、Anthropic迭代Claude Opus 4.5之后。

11月27日晚間, DeepSeek團隊在開源社區低調發布了一款新模型DeepSeekMath-V2,該模型展現出強大的定理證明能力,在IMO 2025和CMO 2024上取得了金牌水平成績,并在Putnam 2024上取得接近完美的118分(滿分是120分,人類選手的歷史最高分為90分)。


值得關注的是,這也是首個在IMO競賽中達到金牌水準的開源模型,今年7月份,谷歌DeepMind的“Gemini Deep Think”曾斬獲IMO 2025金牌。
網友們稱贊:大藍鯨又回來了!

讓AI推理過程像數學家一樣嚴謹

DeepSeek這篇新模型論文講了什么?簡單來說,其改變了AI數學推理的既有路徑:從傳統的“結果導向”(只關注答案是否正確) 轉向“過程導向”(重視推理過程的嚴謹性和可驗證性)。

核心創新是一種自驗證架構:首先訓練一個基于LLM的精準且可信的定理證明驗證器;隨后以該驗證器作為獎勵模型,訓練一個證明生成器,并激勵生成器在最終定稿前,自主識別并修正自身證明過程中的盡可能多的問題。

這一架構使模型能像數學家一樣思考:自己寫證明→自己挑毛病→自己改到無懈可擊,實現了AI推理的“自我反思”能力。


DeepSeek團隊在論文中表示,大語言模型(LLMs)在數學推理領域已取得顯著進展,若能進一步突破,有望對科學研究產生深遠影響。

通過強化學習放大推理能力(該方法以最終答案的正確性為獎勵導向),LLMs在一年內實現了性能跨越式提升,然而,這種方法存在根本性局限:一味追求更高的最終答案準確率,無法解決一個核心問題——正確答案并不等同于嚴謹的推理過程。

為突破深度推理的邊界,DeepSeek團隊認為有必要對數學推理的完整性與嚴謹性進行驗證,尤其在測試階段計算量擴容場景下(例如面對無已知解的開放性問題時),自驗證能力至關重要。


為避免生成器性能提升后出現“生成-驗證能力差距”擴大的問題,團隊還提出通過擴容驗證計算量,自動標記新增的高難度驗證樣本,進而生成訓練數據以持續優化驗證器。

最終,DeepSeekMath-V2 展現出卓越的定理證明能力:在2025年國際數學奧林匹克(IMO)、2024年中國數學奧林匹克(CMO)中均斬獲金牌級得分,且在2024年普特南數學競賽(Putnam)中,通過擴容測試階段計算量,取得了118/120的近乎滿分成績,超越了人類參賽者90分的最高紀錄。


研究結果表明,可自驗證數學推理是一條切實可行的研究路徑,有望助力研發出能力更強大的數學AI系統。

人類即便在沒有參考解法的情況下,也能識別證明中的問題——這是解決開放性問題時的關鍵能力。DeepSeek團隊認為,LLMs能夠通過訓練獲得“無參考解法下識別證明問題”的能力。

利用“自我認知”系統性提升數學推理

DeepSeekMath-V2的證明驗證器與生成器構成協同循環:驗證器助力生成器優化,而生成器性能提升后,會產出挑戰驗證器當前能力邊界的新證明。

這些挑戰性樣本(即驗證器單次驗證可能無法識別問題的證明),將成為提升驗證器自身性能的寶貴訓練數據。


在DeepSeek自研的CNML級別題目集中包含91道定理證明題,涵蓋代數(13道)、幾何(24道)、數論(19道)、組合數學(24道)和不等式(11道)五大類別,難度與中國全國高中數學聯賽(CNML)題目相當,各模型在不同類別CNML級別題目上的得分顯示,DeepSeekMath-V2的性能持續優于Gemini2.5-pro和GPT5-Thinking-High,展現出跨領域的卓越定理證明能力。


在2024年國際數學奧林匹克預選題(IMO Shortlist 2024)上,研究人員通過序貫優化實現證明質量提升。

針對每道題目啟動了32條獨立的優化線程,并通過最終驗證器產出的32份驗證分析報告進行多數投票,判定證明的正確性。

結果顯示,模型自主篩選的最優證明獲得了顯著高于線程平均水平的驗證得分,這表明模型的生成器具備準確評估證明質量的能力;此外,隨著最大序貫嘗試次數的增加,單次通過率實現了實質性提升,證明自驗證機制能有效引導迭代優化過程。

這些結果證實:DeepSeekMath-V2生成器能夠可靠區分高質量證明與有缺陷證明,并利用這種自我認知能力,系統性地提升其數學推理水平。

DeepSeek團隊在論文總結中表示,推進自然語言定理證明的發展將為形式化推理帶來顯著助力。期望通過本研究,為構建真正可靠的數學推理系統做出貢獻——這類系統能夠同時借助非形式化洞察與形式化保障,推動數學研究的進步。

開源AI進入中國主導階段

盡管不是科技巨頭,但DeepSeek一直是全球開源模型的創新探索引領者。

日前,麻省理工學院(MIT)和開源平臺Hugging Face合作的一項“開放智能經濟”研究發現,過去一年中,中國開發的新型開源模型的下載總量占比上升至17%,在全球開源AI模型市場中比美國占據了更多關鍵優勢。


研究還發現,美國、中國、英國的開發力量嚴重偏向產業端;而德國、法國及歐洲其他地區與線上開發力量則更均衡,涵蓋非營利機構、高校及社區貢獻者。


行業權力格局正發生根本性重構:谷歌、Meta和OpenAI主導的美國開源權重產業優勢已大幅下滑,非關聯開發者、社區組織以及2025年崛起的中國產業力量逐漸崛起。
隨著DeepSeek、Qwen、Hunyuan、GLM、Kimi、MiniMax、ERNIE等多家開源模型的持續滲透,且不斷拉近與封閉模型之間的差距,或將開啟由中國開發者主導的新一輪市場權力整合。

注:頭圖AI生成

作者長期關注 AI 產業與學術,歡迎對這些方向感興趣的朋友添加微信Q1yezi,共同交流行業動態與技術趨勢!

GPU 訓練特惠!

H100/H200 GPU算力按秒計費,平均節省開支30%以上!

掃碼了解詳情?

點「贊」的人都變好看了哦!

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
伊朗最高領袖:民眾團結已令敵方分裂 警惕外部險惡圖謀

伊朗最高領袖:民眾團結已令敵方分裂 警惕外部險惡圖謀

國際在線
2026-04-24 06:47:16
驚險!上海地鐵48小時內連發2起!都因這件小東西!緊急提醒→

驚險!上海地鐵48小時內連發2起!都因這件小東西!緊急提醒→

新浪財經
2026-04-23 12:14:07
夸張,詹姆斯季后賽總得分和出場時間均斷層領先

夸張,詹姆斯季后賽總得分和出場時間均斷層領先

懂球帝
2026-04-24 01:59:07
江西男子收到浙江紹興的一個違章,他又急又懵:我壓根沒去過紹興啊!怎么會有紹興的違章?交警果斷出擊,成功將套牌車與駕駛人查扣

江西男子收到浙江紹興的一個違章,他又急又懵:我壓根沒去過紹興啊!怎么會有紹興的違章?交警果斷出擊,成功將套牌車與駕駛人查扣

洪觀新聞
2026-04-23 14:50:16
女性跑步時,穿著過于“性感”和“暴露”,有錯嗎?

女性跑步時,穿著過于“性感”和“暴露”,有錯嗎?

馬拉松跑步健身
2026-04-23 21:42:50
被網友圍觀的補考警犬“奶茶”,逆襲上岸成為“優秀學員”

被網友圍觀的補考警犬“奶茶”,逆襲上岸成為“優秀學員”

北青網-北京青年報
2026-04-23 16:04:23
打樁“轟隆隆”美夢“一場空” 錦江樂園改造施工噪聲擾民

打樁“轟隆隆”美夢“一場空” 錦江樂園改造施工噪聲擾民

上觀新聞
2026-04-22 08:58:03
廣西一佳人好漂亮, 身高169cm,體重50kg 美的讓人移不開眼

廣西一佳人好漂亮, 身高169cm,體重50kg 美的讓人移不開眼

動物奇奇怪怪
2026-04-15 18:16:01
5月1日起!巨額財產來源不明罪,立案標準從30萬大幅提高到300萬

5月1日起!巨額財產來源不明罪,立案標準從30萬大幅提高到300萬

今朝牛馬
2026-04-22 21:09:48
廣東一地廣播電視臺即將停播3個頻道頻率

廣東一地廣播電視臺即將停播3個頻道頻率

知肇分子
2026-04-23 19:08:01
2:0后暴雷!兩大主將帶傷!贏球夜,衛冕危機來了?

2:0后暴雷!兩大主將帶傷!贏球夜,衛冕危機來了?

籃球盛世
2026-04-23 17:17:15
美官方確認:“一塊英偉達芯片也沒賣出去,中國想搞自己的”!網友:當初是你不愿賣,不賣就不賣

美官方確認:“一塊英偉達芯片也沒賣出去,中國想搞自己的”!網友:當初是你不愿賣,不賣就不賣

大白聊IT
2026-04-23 15:40:40
遲重瑞簽字放棄陳麗華的遺產,36年婚姻走到最后,外界終于看懂了

遲重瑞簽字放棄陳麗華的遺產,36年婚姻走到最后,外界終于看懂了

老吳教育課堂
2026-04-23 19:42:24
著名書法家、北京市文史館資深館員愛新覺羅·啟驤逝世

著名書法家、北京市文史館資深館員愛新覺羅·啟驤逝世

澎湃新聞
2026-04-23 14:06:27
大理民宿市場涼透了!7000家民宿廝殺,有人虧百萬仍沒賣出去…

大理民宿市場涼透了!7000家民宿廝殺,有人虧百萬仍沒賣出去…

火山詩話
2026-04-23 09:14:07
笑麻!女子吐槽花1年裝修的新中式都說像法庭,我卻笑死在評論區

笑麻!女子吐槽花1年裝修的新中式都說像法庭,我卻笑死在評論區

另子維愛讀史
2026-04-17 17:36:52
大九學堂全停了,馬英九基金會亂成一鍋粥,蕭旭岑到底干了啥?

大九學堂全停了,馬英九基金會亂成一鍋粥,蕭旭岑到底干了啥?

放開他讓wo來
2026-04-23 23:36:23
上海電影院現場被捉奸,帶情夫當老公面出軌,狗血女主角真容曝光

上海電影院現場被捉奸,帶情夫當老公面出軌,狗血女主角真容曝光

靜若梨花
2026-03-01 16:25:46
韓女星樸娜萊和男性朋友在車上發生了性關系,兩名經紀人被迫圍觀

韓女星樸娜萊和男性朋友在車上發生了性關系,兩名經紀人被迫圍觀

西樓知趣雜談
2026-04-09 09:35:17
英媒:美國失誤,海灣國家重建合同規模巨大,傾向購買中國新能源

英媒:美國失誤,海灣國家重建合同規模巨大,傾向購買中國新能源

涼羽亭
2026-04-24 06:03:33
2026-04-24 07:43:00
大數據文摘 incentive-icons
大數據文摘
專注大數據,每日有分享!
6852文章數 94541關注度
往期回顧 全部

科技要聞

馬斯克喊出"史上最大產品",但量產難預測

頭條要聞

特朗普發文后 伊朗最高領袖、總統、議長、外長齊發聲

頭條要聞

特朗普發文后 伊朗最高領袖、總統、議長、外長齊發聲

體育要聞

給文班剃頭的馬刺DJ,成為NBA最佳第六人

娛樂要聞

王大陸因涉黑討債被判 女友也一同獲刑

財經要聞

普華永道賠償10億 恒大股東見到"回頭錢"

汽車要聞

預售30.29萬起 嵐圖泰山X8配896線激光雷達

態度原創

手機
教育
旅游
時尚
軍事航空

手機要聞

vivo X500 Pro Max被曝光:2nm工藝+5GHz,2K直屏九月發!

教育要聞

家長要電子試卷被說派頭大?天津這起家校誤會,沒有真正的贏家!

旅游要聞

走進櫸溪村

李昀銳:林深見木

軍事要聞

美伊陷入互相封鎖僵局

無障礙瀏覽 進入關懷版