網易首頁 > 網易號 > 正文 申請入駐

ICLR 2026|MathForge:用難題驅動強化學習,提升大模型數學推理

0
分享至



代彥琪(個人主頁:https://yanqidai.github.io/),現為人大高瓴四年級直博生、南洋理工大學訪問學生,師從盧志武教授與張含望教授,主要研究方向為多模態大模型和強化學習。預計于 2027 年 6 月畢業,目前正積極尋求工業界發展機會。

在大模型數學推理的強化學習中,一個看似簡單、卻長期沒有被認真回答的問題是:模型在訓練時,到底應該更重視哪些題目?

太容易的題,模型往往已經掌握,繼續訓練帶來的收益有限;完全不會的題,在當前階段又很難提供有效的正向學習信號。真正最值得投入訓練預算的,往往是那些更難,但并非不可學的問題。

圍繞這一點,中國人民大學高瓴人工智能學院聯合阿里巴巴高德、廈門大學和大連理工大學的研究團隊提出MathForge:從算法和數據兩端同時發力,讓大模型在強化學習過程中更有效地攻克難題,從而顯著提升數學推理能力。



  • 論文題目:Harder Is Better: Boosting Mathematical Reasoning via Difficulty-Aware GRPO and Multi-Aspect Question Reformulation
  • 論文地址:https://arxiv.org/abs/2601.20614
  • 代碼倉庫:https://github.com/AMAP-ML/MathForge

一、為什么現有方法還不夠「重視難題」?

近年來,基于可驗證獎勵的強化學習(Reinforcement Learning with Verifiable Rewards, RLVR)的方法,已經成為提升大模型數學推理能力的重要路線。它不依賴額外訓練獎勵模型,而是直接通過規則檢查答案是否正確,因此在數學這類“答案可驗證”的任務上非常自然、也非常高效。

但這篇工作指出,現有方法對「難題」的忽視,實際上來自兩個層面。

第一,是算法層面。

當前廣泛使用的 GRPO,本質上是在同一道題生成的一組回答之間做相對比較,再決定更新方向和更新幅度。問題在于,這種機制并不會天然讓模型更關注難題。相反,論文通過理論分析指出:GRPO 的更新強度會更偏向中等難度題,而對過難和過易題的更新反而會被壓低。

這意味著在同一個訓練批次中,那些真正能暴露模型短板、但又不是完全學不會的「難而可學」問題,未必能得到足夠大的訓練信號。模型最該花精力去學的題,不一定真的被重點學到了。

第二,是數據層面。

已有的數學推理數據增強方法,常見做法要么是從頭生成新的題目和答案,要么只是對原題做簡單重述。前者往往很難保證答案質量,尤其是高難度競賽數學題;后者雖然提升了表述多樣性,卻沒有真正提高了題目的內在難度。

二、MathForge:從算法

和數據兩端同時「鍛造」模型

為了解決上面這兩個問題,論文提出了一個雙輪驅動框架 MathForge。它由兩個核心部分組成:

  • DGPO:Difficulty-Aware Group Policy Optimization,難度感知的組策略優化
  • MQR:Multi-Aspect Question Reformulation,多方面問題改寫

一個解決「怎么學」,一個解決「學什么」。

1. DGPO:讓「更難但可學」的題真正被學到

DGPO 的核心思想,并不是一句簡單的「給難題更高權重」,而是一個非常清晰的兩步過程:先平衡,再重加權。

第一步,是 DGAE(Difficulty-balanced Group Advantage Estimation,難度平衡的組優勢估計)。

作者發現,GRPO 中對優勢的歸一化方式會帶來對不同難度問題的更新幅度的不平衡。具體來講,GRPO 的優化目標如下:



在不考慮梯度剪裁的情況下,GRPO 的策略梯度如下:



把 GRPO 的梯度拆開來看,會發現優勢項的符號決定更新方向,而優勢項的絕對值決定更新幅度。所以,一道題對參數更新的整體影響,可以用組內所有回答優勢絕對值之和來近似理解。







其中最值得注意的是那些困難但可答對的題目:它們正確率不高,但并不是完全不會做。作者認為這類題其實最有訓練價值,因為它們恰好暴露了模型尚未掌握、但已經接近掌握的能力邊界。

為此,DGAE 用平均絕對偏差(MAD)替代了原先的標準差歸一化,其組相關優勢的計算方式如下:



作者在下方的定理 2 中證明:在不依賴必須使用二值正確性獎勵的情況下,DGAE 對每道題的總更新幅度為相等的定值 。這讓不同題目的更新幅度變得更加平衡,不再天然偏向中等難度題。



第二步,是 DQW(Difficulty-aware Question-level Weighting,難度感知的問題級別加權)。

在更新幅度被拉平之后,DQW 再根據題目當前的平均正確率來估計難度,對那些更難、但仍有有效學習信號的問題賦予更高權重。具體的權重計算方式如下:



2. MQR:把問題改得更難,但答案不變

如果說 DGPO 回答的是「怎么學」,那么 MQR 回答的就是「學什么」。

MQR 不滿足于對原題做淺層重述,而是系統性地從三個方向提升題目難度,同時嚴格保持原始標準答案不變。核心指令如下:



第一種是 Background。

給原題加入看似相關、但實際上會帶來干擾的信息背景,讓模型必須在更復雜的敘述里抓住真正關鍵的數學條件。

第二種是 Term。

給題目中的核心概念引入新的抽象術語,讓模型不能只靠熟悉的表面表達來作答,而必須真正理解定義和結構。

第三種是 Sub-Problem。

把原題中的一個關鍵數值條件改造成一個需要先求解的小問題,再返回主問題。這會顯著增加推理鏈條長度,也更考驗模型的多步推理和跨領域推理能力。

構造數據時有一個嚴格的限制條件是:所有改寫后的題目都必須保持原始 gold answer 不變。

這意味著,MQR 不是在重新造一套不穩定的新題,而是在盡量不破壞數學本質和標準答案的前提下,系統性地把同一道題改得更難、更有挑戰性。這樣既保證了訓練信號的可靠性,也降低了額外數據構造的成本和難度。

三、實驗結果:更難的訓練,

帶來更強、更穩、更泛化的推理

實驗結果非常清楚地說明了一點:更難的問題,確實更值得學。

如表 1 所示,在主實驗設置下,無論是只使用 DGPO,還是只使用 MQR,都能明顯超過強基線 GRPO;而當兩者結合成完整的 MathForge 后,效果進一步達到最好,相比 GRPO 帶來了超過 4.5 個點的平均提升。更重要的是,這個優勢并不是只在單一對比下成立,而是在與多種已有強化學習優化方法比較時,依然保持了最強的整體表現。



進一步地,如表 2 所示,MathForge 在不同大小、不同類型的基礎模型上都保持了穩定收益。從較小模型到 7B 級模型,它都能帶來大約 3 到 4.5 個點的平均提升。這說明它并不是依賴某一個特定 backbone 的「技巧性調參」,而是一種更普適的訓練原則。



在算法分析上,如表 3 所示,DGPO 的兩個關鍵設計也都被驗證是必要的:DGAE 負責先把不同難度問題的更新強度拉平,DQW 再把訓練重點推向更難但可學的問題,兩者是互補關系,而不是可有可無的附加項。與此同時,如表 4 所示,DGPO 還可以與多種現有強化學習方法直接結合,并繼續帶來額外收益,說明它并不是一個封閉替代方案,而更像是一種可插拔的通用增強機制。





更值得注意的是,這種「按難度組織學習」的思路并不只適用于文本數學任務。如表 5 所示,論文還把 DGPO 應用到了多模態數學推理場景中,結果同樣比 GRPO 有超過 2 個點的提升。這說明 MathForge 所強調的,并不是某個特定數據集上的偶然技巧,而可能是一種更廣泛適用的后訓練思路:不同問題不應該被一視同仁,訓練預算應該優先留給更難、但仍有學習價值的問題。



從數據角度看,MQR 的效果也并不只是「樣本變多了」。如表 6 和表 7 所示,論文專門控制了總訓練量后發現,使用 MQR 改寫后的數據依然優于只用原始數據的訓練版本;三種改寫策略單獨使用時都有效,組合起來效果最好。這意味著 MQR 真正帶來的,是更有價值的訓練樣本,而不是簡單的樣本堆疊。更細致的難度分析還表明,這三類改寫后的問題整體都比原題更難,其中把關鍵條件改造成子問題的方式最能拉高推理難度。





在訓練動態方面,如圖 1 所示,對于 DGPO 來說,模型不僅更準,而且輸出還更簡短,說明它學到的不是更冗長的推理,而是更高效的推理路徑。



如圖 2 所示,對于 MQR 來說,模型在訓練階段的準確率變得更低,但最終測試表現卻反而更好,呈現出非常直觀的「train harder, test better」現象。也就是說,更難的數據確實在逼著模型形成更強的泛化能力,而不是只在容易題上反復刷分。



四、總結

MathForge 真正回答了一個非常關鍵的問題:在強化學習里,哪些題最值得學?

答案不是最簡單的題,也不是完全不會的題,而是那些更難、但仍然可學的問題。DGPO 負責讓模型在訓練中真正重視這類問題,MQR 負責穩定地產生這類問題。兩者結合,最終把「更難的訓練」轉化成了「更強的推理」。

從這個意義上說,MathForge 的價值不只是把數學推理結果再往前推了一步,更重要的是它提供了一種非常清晰的訓練觀:不是所有樣本都應該被平等對待,真正高價值的學習,往往發生在難而可學的邊界地帶。

這也正是這篇工作的標題想表達的核心:Harder Is Better。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
五指山艦女兵受訪“一問三不知”,沒被罵反被夸,真實原因太戳人

五指山艦女兵受訪“一問三不知”,沒被罵反被夸,真實原因太戳人

奇思妙想草葉君
2026-04-24 17:11:11
北京車展最貴展臺火了!2000萬國產超跑被富豪當場拿下

北京車展最貴展臺火了!2000萬國產超跑被富豪當場拿下

科技湃
2026-04-26 23:21:11
14歲兒子得抑郁癥,花光30萬沒治好,老公上去一巴掌:裝什么病

14歲兒子得抑郁癥,花光30萬沒治好,老公上去一巴掌:裝什么病

千秋文化
2026-04-25 20:39:20
民進黨高層竟敢偷偷離臺,大陸火速行動!美國不仁,鄭麗文就不義

民進黨高層竟敢偷偷離臺,大陸火速行動!美國不仁,鄭麗文就不義

薦史
2026-04-27 12:21:11
我知道那兩名保安為啥不讓退伍老兵上廁所的原因

我知道那兩名保安為啥不讓退伍老兵上廁所的原因

筆桿論道
2026-04-23 01:25:03
外媒炸鍋!055大驅當著日本航母的面,直接發射鷹擊-20?

外媒炸鍋!055大驅當著日本航母的面,直接發射鷹擊-20?

觸摸史跡
2026-04-27 13:37:33
阿里納斯:詹姆斯退役后、媒體再無流量!選他而不是喬丹來建隊!

阿里納斯:詹姆斯退役后、媒體再無流量!選他而不是喬丹來建隊!

歷史第一人梅西
2026-04-27 10:59:36
季后賽又拉了!2場比賽15次失誤,再這樣打下去,奪冠真沒希望了

季后賽又拉了!2場比賽15次失誤,再這樣打下去,奪冠真沒希望了

麥子的籃球故事
2026-04-27 13:28:53
信仰不是法外之地,全國開始雷霆出擊整頓寺廟

信仰不是法外之地,全國開始雷霆出擊整頓寺廟

世界圈
2026-04-17 08:50:05
35歲女子去做私處緊縮,縫針斷在肉里,醫生徒手掏了半小時沒找著

35歲女子去做私處緊縮,縫針斷在肉里,醫生徒手掏了半小時沒找著

離離言幾許
2026-04-21 19:53:18
黑尾醬,徹底消失了?

黑尾醬,徹底消失了?

生如稗草
2026-03-15 08:48:11
“最長斷糧17天”,烏克蘭前線士兵骨瘦如柴照片遭曝光

“最長斷糧17天”,烏克蘭前線士兵骨瘦如柴照片遭曝光

觀察者網
2026-04-25 08:51:03
關之琳顧紀筠看演出,倆富婆一身休閑難掩貴氣,李嘉欣也在坐前排

關之琳顧紀筠看演出,倆富婆一身休閑難掩貴氣,李嘉欣也在坐前排

好賢觀史記
2026-04-27 13:35:25
統一臺灣后,第一任省長由誰擔任最合適?五人上榜,一人脫穎而出

統一臺灣后,第一任省長由誰擔任最合適?五人上榜,一人脫穎而出

知鑒明史
2026-04-24 20:05:03
杜鋒收到廣東隊球迷的3個建議!

杜鋒收到廣東隊球迷的3個建議!

體育哲人
2026-04-27 10:22:38
正式退出!愛德華茲最新傷情曝光,醫學專家發聲,森林狼明確表態

正式退出!愛德華茲最新傷情曝光,醫學專家發聲,森林狼明確表態

萌蘭聊個球
2026-04-27 09:11:34
“我要找人教訓他!” 巴克利猛批森林狼球星:公然破壞潛規則

“我要找人教訓他!” 巴克利猛批森林狼球星:公然破壞潛規則

夜白侃球
2026-04-27 10:28:42
懸崖:刑場那一槍故意打偏了三寸,周乙醒來,發現高彬正對著他笑

懸崖:刑場那一槍故意打偏了三寸,周乙醒來,發現高彬正對著他笑

卡西莫多的故事
2026-03-11 09:50:05
為什么先救萬斯?槍擊發生后,萬斯比特朗普先撤離引質疑

為什么先救萬斯?槍擊發生后,萬斯比特朗普先撤離引質疑

新京報
2026-04-26 15:41:36
14歲被送上導演的床,17歲拍全裸寫真,被操控半生,如今怎樣了

14歲被送上導演的床,17歲拍全裸寫真,被操控半生,如今怎樣了

喜歡歷史的阿繁
2026-04-26 11:01:11
2026-04-27 14:16:49
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
12866文章數 142636關注度
往期回顧 全部

科技要聞

打1折!DeepSeek輸入緩存降價

頭條要聞

白宮槍手路徑首披露:房卡放行 在隔間組槍直沖宴會廳

頭條要聞

白宮槍手路徑首披露:房卡放行 在隔間組槍直沖宴會廳

體育要聞

最抽象的天才,正在改變瓜迪奧拉

娛樂要聞

《奔跑吧14》剛播就把一手好牌打稀爛

財經要聞

DeepSeek融資、字節加碼 AI開始真燒錢了

汽車要聞

在不確定中尋找確定性:大眾汽車的中國解法

態度原創

家居
藝術
教育
手機
健康

家居要聞

江景風格 流動的秩序

藝術要聞

你絕對想不到,攝影能讓她成為女神!

教育要聞

新傳考研名詞解釋打卡:幽靈勞動

手機要聞

消息稱某廠四曲面+視覺無邊框ID評估中,預計為OPPO新機

干細胞如何讓燒燙傷皮膚"再生"?

無障礙瀏覽 進入關懷版