網易首頁 > 網易號 > 正文申請入駐

ICLR 2026｜MathForge：用難題驅動強化學習，提升大模型數學推理

2026-04-27 12:16:24　來源: 機器之心Pro

河北舉報

分享至

代彥琪（個人主頁：https://yanqidai.github.io/），現為人大高瓴四年級直博生、南洋理工大學訪問學生，師從盧志武教授與張含望教授，主要研究方向為多模態大模型和強化學習。預計于 2027 年 6 月畢業，目前正積極尋求工業界發展機會。

在大模型數學推理的強化學習中，一個看似簡單、卻長期沒有被認真回答的問題是：模型在訓練時，到底應該更重視哪些題目？

太容易的題，模型往往已經掌握，繼續訓練帶來的收益有限；完全不會的題，在當前階段又很難提供有效的正向學習信號。真正最值得投入訓練預算的，往往是那些更難，但并非不可學的問題。

圍繞這一點，中國人民大學高瓴人工智能學院聯合阿里巴巴高德、廈門大學和大連理工大學的研究團隊提出MathForge：從算法和數據兩端同時發力，讓大模型在強化學習過程中更有效地攻克難題，從而顯著提升數學推理能力。

論文題目：Harder Is Better: Boosting Mathematical Reasoning via Difficulty-Aware GRPO and Multi-Aspect Question Reformulation
論文地址：https://arxiv.org/abs/2601.20614
代碼倉庫：https://github.com/AMAP-ML/MathForge

一、為什么現有方法還不夠「重視難題」？

近年來，基于可驗證獎勵的強化學習（Reinforcement Learning with Verifiable Rewards, RLVR）的方法，已經成為提升大模型數學推理能力的重要路線。它不依賴額外訓練獎勵模型，而是直接通過規則檢查答案是否正確，因此在數學這類“答案可驗證”的任務上非常自然、也非常高效。

但這篇工作指出，現有方法對「難題」的忽視，實際上來自兩個層面。

第一，是算法層面。

當前廣泛使用的 GRPO，本質上是在同一道題生成的一組回答之間做相對比較，再決定更新方向和更新幅度。問題在于，這種機制并不會天然讓模型更關注難題。相反，論文通過理論分析指出：GRPO 的更新強度會更偏向中等難度題，而對過難和過易題的更新反而會被壓低。

這意味著在同一個訓練批次中，那些真正能暴露模型短板、但又不是完全學不會的「難而可學」問題，未必能得到足夠大的訓練信號。模型最該花精力去學的題，不一定真的被重點學到了。

第二，是數據層面。

已有的數學推理數據增強方法，常見做法要么是從頭生成新的題目和答案，要么只是對原題做簡單重述。前者往往很難保證答案質量，尤其是高難度競賽數學題；后者雖然提升了表述多樣性，卻沒有真正提高了題目的內在難度。

二、MathForge：從算法

和數據兩端同時「鍛造」模型

為了解決上面這兩個問題，論文提出了一個雙輪驅動框架 MathForge。它由兩個核心部分組成：

DGPO：Difficulty-Aware Group Policy Optimization，難度感知的組策略優化
MQR：Multi-Aspect Question Reformulation，多方面問題改寫

一個解決「怎么學」，一個解決「學什么」。

1. DGPO：讓「更難但可學」的題真正被學到

DGPO 的核心思想，并不是一句簡單的「給難題更高權重」，而是一個非常清晰的兩步過程：先平衡，再重加權。

第一步，是 DGAE（Difficulty-balanced Group Advantage Estimation，難度平衡的組優勢估計）。

作者發現，GRPO 中對優勢的歸一化方式會帶來對不同難度問題的更新幅度的不平衡。具體來講，GRPO 的優化目標如下：

在不考慮梯度剪裁的情況下，GRPO 的策略梯度如下：

把 GRPO 的梯度拆開來看，會發現優勢項的符號決定更新方向，而優勢項的絕對值決定更新幅度。所以，一道題對參數更新的整體影響，可以用組內所有回答優勢絕對值之和來近似理解。

其中最值得注意的是那些困難但可答對的題目：它們正確率不高，但并不是完全不會做。作者認為這類題其實最有訓練價值，因為它們恰好暴露了模型尚未掌握、但已經接近掌握的能力邊界。

為此，DGAE 用平均絕對偏差（MAD）替代了原先的標準差歸一化，其組相關優勢的計算方式如下：

作者在下方的定理 2 中證明：在不依賴必須使用二值正確性獎勵的情況下，DGAE 對每道題的總更新幅度為相等的定值。這讓不同題目的更新幅度變得更加平衡，不再天然偏向中等難度題。

第二步，是 DQW（Difficulty-aware Question-level Weighting，難度感知的問題級別加權）。

在更新幅度被拉平之后，DQW 再根據題目當前的平均正確率來估計難度，對那些更難、但仍有有效學習信號的問題賦予更高權重。具體的權重計算方式如下：

2. MQR：把問題改得更難，但答案不變

如果說 DGPO 回答的是「怎么學」，那么 MQR 回答的就是「學什么」。

MQR 不滿足于對原題做淺層重述，而是系統性地從三個方向提升題目難度，同時嚴格保持原始標準答案不變。核心指令如下：

第一種是 Background。

給原題加入看似相關、但實際上會帶來干擾的信息背景，讓模型必須在更復雜的敘述里抓住真正關鍵的數學條件。

第二種是 Term。

給題目中的核心概念引入新的抽象術語，讓模型不能只靠熟悉的表面表達來作答，而必須真正理解定義和結構。

第三種是 Sub-Problem。

把原題中的一個關鍵數值條件改造成一個需要先求解的小問題，再返回主問題。這會顯著增加推理鏈條長度，也更考驗模型的多步推理和跨領域推理能力。

構造數據時有一個嚴格的限制條件是：所有改寫后的題目都必須保持原始 gold answer 不變。

這意味著，MQR 不是在重新造一套不穩定的新題，而是在盡量不破壞數學本質和標準答案的前提下，系統性地把同一道題改得更難、更有挑戰性。這樣既保證了訓練信號的可靠性，也降低了額外數據構造的成本和難度。

三、實驗結果：更難的訓練，

帶來更強、更穩、更泛化的推理

實驗結果非常清楚地說明了一點：更難的問題，確實更值得學。

如表 1 所示，在主實驗設置下，無論是只使用 DGPO，還是只使用 MQR，都能明顯超過強基線 GRPO；而當兩者結合成完整的 MathForge 后，效果進一步達到最好，相比 GRPO 帶來了超過 4.5 個點的平均提升。更重要的是，這個優勢并不是只在單一對比下成立，而是在與多種已有強化學習優化方法比較時，依然保持了最強的整體表現。

進一步地，如表 2 所示，MathForge 在不同大小、不同類型的基礎模型上都保持了穩定收益。從較小模型到 7B 級模型，它都能帶來大約 3 到 4.5 個點的平均提升。這說明它并不是依賴某一個特定 backbone 的「技巧性調參」，而是一種更普適的訓練原則。

在算法分析上，如表 3 所示，DGPO 的兩個關鍵設計也都被驗證是必要的：DGAE 負責先把不同難度問題的更新強度拉平，DQW 再把訓練重點推向更難但可學的問題，兩者是互補關系，而不是可有可無的附加項。與此同時，如表 4 所示，DGPO 還可以與多種現有強化學習方法直接結合，并繼續帶來額外收益，說明它并不是一個封閉替代方案，而更像是一種可插拔的通用增強機制。

更值得注意的是，這種「按難度組織學習」的思路并不只適用于文本數學任務。如表 5 所示，論文還把 DGPO 應用到了多模態數學推理場景中，結果同樣比 GRPO 有超過 2 個點的提升。這說明 MathForge 所強調的，并不是某個特定數據集上的偶然技巧，而可能是一種更廣泛適用的后訓練思路：不同問題不應該被一視同仁，訓練預算應該優先留給更難、但仍有學習價值的問題。

從數據角度看，MQR 的效果也并不只是「樣本變多了」。如表 6 和表 7 所示，論文專門控制了總訓練量后發現，使用 MQR 改寫后的數據依然優于只用原始數據的訓練版本；三種改寫策略單獨使用時都有效，組合起來效果最好。這意味著 MQR 真正帶來的，是更有價值的訓練樣本，而不是簡單的樣本堆疊。更細致的難度分析還表明，這三類改寫后的問題整體都比原題更難，其中把關鍵條件改造成子問題的方式最能拉高推理難度。

在訓練動態方面，如圖 1 所示，對于 DGPO 來說，模型不僅更準，而且輸出還更簡短，說明它學到的不是更冗長的推理，而是更高效的推理路徑。

如圖 2 所示，對于 MQR 來說，模型在訓練階段的準確率變得更低，但最終測試表現卻反而更好，呈現出非常直觀的「train harder, test better」現象。也就是說，更難的數據確實在逼著模型形成更強的泛化能力，而不是只在容易題上反復刷分。

四、總結

MathForge 真正回答了一個非常關鍵的問題：在強化學習里，哪些題最值得學？

答案不是最簡單的題，也不是完全不會的題，而是那些更難、但仍然可學的問題。DGPO 負責讓模型在訓練中真正重視這類問題，MQR 負責穩定地產生這類問題。兩者結合，最終把「更難的訓練」轉化成了「更強的推理」。

從這個意義上說，MathForge 的價值不只是把數學推理結果再往前推了一步，更重要的是它提供了一種非常清晰的訓練觀：不是所有樣本都應該被平等對待，真正高價值的學習，往往發生在難而可學的邊界地帶。

這也正是這篇工作的標題想表達的核心：Harder Is Better。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.