網易首頁 > 網易號 > 正文申請入駐

中科大與上海創新研究院聯手揭開AI學習秘密

2026-06-06 21:29:08　來源: 科技行者

天津舉報

分享至

這項由中國科學技術大學、上海創新研究院、武漢大學及京東聯合開展的研究，以預印本形式于2026年5月發表，論文編號為arXiv:2605.25381，有興趣深入了解的讀者可以通過該編號查詢完整論文。

一故事從一個老問題開始：怎么讓AI學得更聰明？

教一個孩子做數學題，你會怎么做？大多數家長的直覺是：先把基礎搞扎實，再挑戰難題。你不會在孩子剛學加法的時候就把所有題型一股腦全部塞給他——乘法、除數、方程式，全部同時開練。這種循序漸進的節奏，其實暗含著一種深刻的教學智慧：學習是有階段性的，不同的知識點需要在合適的時間被強化。

然而，當我們訓練當下最先進的大語言模型時，整個過程卻往往缺少這種時間維度的考量。研究團隊發現，現有的強化學習訓練方式，有點像把一個學生扔進一堆雜亂無序的習題中，所有題型混在一起、每道題的權重完全相同、從頭到尾沒有任何順序安排——然后只根據最終答案對不對來打分，完全不在乎學生的解題過程是否合理。這篇論文的核心貢獻，就是把"什么時候學哪部分內容"這個維度，正式引入到大模型的訓練體系中。

二大模型的"獎勵機制"到底是怎么工作的？

在正式介紹這項研究的創新點之前，有必要先搞清楚現在主流的大模型訓練方式是怎么運作的。

目前讓大模型變聰明的主流方法叫做"強化學習與可驗證獎勵"，英文縮寫是RLVR。這個方法的邏輯并不復雜：給模型出一道題，讓它自己生成一段回答，然后看回答最終對不對，對了就獎勵，錯了就懲罰。這個獎勵信號會反傳回去，告訴模型的每一個字符——哦，這次你做對了，你們都值得被鼓勵；或者，這次做錯了，你們都要被壓制。

關鍵問題在于，一段回答可能有幾千甚至上萬個字符，這些字符各司其職、承擔著截然不同的角色。比如，一段解題過程的開頭幾句話，往往是在搭建解題框架——"設x為未知數"、"根據題意，我們知道..."——這些屬于推理腳手架；中間部分可能是在做邏輯跳轉和反思驗證；而結尾部分則是得出最終答案的收斂語言——"所以答案是62"。這三種角色完全不同，但在傳統的RLVR訓練中，它們收到的獎勵信號卻是完全相同的那一個全局分數。

這就像是一個團隊完成了一個項目，老板只給出一個整體評價"做得不錯"，卻完全不區分誰在規劃階段貢獻了關鍵思路、誰在執行階段踏實落實、誰在收尾階段保證了質量。每個人的貢獻被無差別地對待，這顯然無法引導團隊朝著真正高效的方向迭代。

三 "信用分配"：已有的努力和它的局限

學術界早就意識到這個問題，并為此提出了不少解決方案，統稱為"信用分配"——也就是在那個全局獎勵信號之上，再想辦法給每個字符分配更精準的權重。

一種方式是訓練一個專門的"過程獎勵模型"，讓它對每一步推理給出評分，相當于請來一位閱卷老師，不只看最終答案，還要逐步批改解題過程。但這種方式成本極高，需要大量人工標注，難以大規模使用。

另一種更輕量的方式，是直接利用模型自身產生的信號來區分字符的重要性。比如，某個字符的"熵"（可以理解為這個字符有多少種可能性、有多難被預測）越高，說明模型在這里做出了更有意義的選擇，應該給予更多的優化關注。還有一些方法則直接選出一小部分"關鍵字符"來優化，忽略其余那些無關緊要的填充詞。

這些方法都有效果，但它們有一個共同的盲區：無論選擇什么標準來區分字符的重要性，這個標準從訓練開始到結束始終固定不變。就像一位從不調整教學策略的老師，第一天用同一套方法，最后一天還是同一套方法，完全不隨著學生的進步來動態調整。研究團隊把這種現象稱為"僵化的信用分配標準"，并認為這是當前訓練方法的核心瓶頸之一。

四時間維度：被忽視的訓練秘密

這篇論文的核心洞見可以用一句話概括：不只要關心"把獎勵分配給哪些字符"，還要關心"在訓練的哪個階段分配"。這就是所謂的"時間調度"——將信用分配的標準隨著訓練進程動態演變，而非一成不變。

研究團隊給出了一個具體的操作方案。訓練開始時，重點強化某一類特定字符（比如對應答案收斂部分的字符），給這些字符很高的優化權重；隨著訓練的推進，逐漸放開限制，讓越來越多的字符都參與到優化中來，直到最終變成接近全量優化。這個過程就像是先精雕細琢某個關鍵環節，等它穩定了，再逐步把整體品質一起帶上來。

用學習樂器來類比會更直觀：一個鋼琴老師不會讓學生從第一節課就同時練習手指靈活度、踏板技巧和樂感表達。她會先專注于最基礎的手型和音準，等這部分穩定了，再引入節奏訓練，最后才把所有要素綜合起來演奏完整曲目。這種由聚焦到綜合的時間節奏，正是時間調度的本質。

五軌跡百分位：一把讀懂模型行為的鑰匙

研究團隊在實踐中發現，想要實現有效的時間調度，首先需要一種簡單可靠的方式來區分不同字符所承載的"行為特征"。他們提出了一個叫做"軌跡百分位"的概念，這個概念本身并不復雜：一段回答從頭到尾，按位置分成早期、中期、晚期三段，處于不同位置的字符，往往承擔著截然不同的功能。

為了驗證這一點，研究團隊使用Qwen3-4B模型在一個包含78,000道題的數學數據集上生成了大量回答，總計產生了5.84億個字符的數據。他們統計了不同字符在軌跡的哪些位置最常出現，結果非常清晰：處于回答早期的字符，比如"Okay"、"hmm"、"first"等探索性詞語，幾乎只出現在軌跡開頭；處于回答中期的字符，往往是"but"、"therefore"、"alternatively"等邏輯轉折詞，反映了推理過程中的批判性思維；處于回答晚期的字符，則集中在"answer"、"since"、"must"等收斂性詞語，標志著答案的最終形成。

除此之外，研究團隊還發現，軌跡的不同位置對應著截然不同的"熵值"動態。早期字符的熵值最低，因為回答剛開始時模型的表達方式較為固定；中期字符的熵值最高，反映了推理過程中最強的探索性；晚期字符的熵值居中。更重要的是，這種熵值差異在整個訓練過程中持續存在，說明軌跡位置確實是一個穩定而有意義的行為錨點，可以用來組織優化過程。

六具體怎么做：時間調度的操作細節

研究團隊設計了一套通用的時間調度框架，可以靈活嫁接到已有的各類信用分配方法上。

基本思路是引入一個隨訓練進程單調遞減的"調度函數"。訓練剛開始時，調度函數的值接近1，意味著只優化滿足嚴格標準的那部分字符；隨著訓練推進，調度函數的值逐漸降低，對應的優化門檻也隨之放寬，越來越多的字符被納入優化范圍，直到訓練后期基本覆蓋所有字符。

具體到軌跡百分位調度（論文中稱為TP-Schedule），操作方式是這樣的：訓練初期，只優化處于回答后半段（比如最后10%）的字符；隨著訓練進行，逐步將優化范圍向前延伸，納入60%、30%、最終20%位置之后的所有字符。這樣做的邏輯是，回答的后半段對應著答案的直接生成，相對穩定且可驗證；先把這部分穩定下來，再回頭去訓練更復雜的推理腳手架，可以避免早期把不成熟的推理習慣固化下來。

調度函數的具體形狀有三種選擇：線性（勻速放開）、Sigmoid形（先慢后快再慢）和Gamma形（先快后慢）。實驗結果顯示，三種函數都比沒有調度的基線好，而且彼此之間差異不大，說明時間調度的收益主要來自"動態演變"這個原則本身，而非具體的衰減形狀。研究團隊推薦使用線性調度作為默認設置，既簡單又效果好。

七實驗結果：數字背后的故事

研究團隊在Qwen3-4B和Qwen3-8B兩個不同規模的模型上進行了系統測試，訓練數據來自OpenMathReasoning和DeepMath-103K兩個數據集，共30,000道經過難度篩選和去重處理的數學題。評測覆蓋了多個數學競賽基準（AIME24/25、HMMT25、Minerva等），以及通用推理基準（GPQA-Diamond科學題、Winogrande常識推理、MuSR多步推理）。

在Qwen3-4B模型上，單純的TP-Schedule（不引入任何額外的信用分配技巧，只是在GRPO基礎上加入軌跡百分位時間調度）比原始GRPO在數學基準上平均提升了2.2個百分點，在通用推理基準上提升了2.7個百分點。其中GPQA-Diamond單項提升高達4.5個百分點，MuSR提升2個百分點，HMMT25提升3.1個百分點。在Qwen3-8B上，整體提升約1個百分點，考慮到更大模型的基礎能力已經更強，這一提升同樣值得肯定。

時間調度與現有信用分配方法疊加使用時，同樣表現出穩定的提升效果。將時間調度加入到基于熵的優勢重加權方法（Entropy Adv.）后，各項指標均有0.5到1個百分點的提升。將時間調度加入到只優化"關鍵字符"的方法（Forking Tok.）后，提升幅度更大，在AIME24上提升了2.7個百分點。此外，將時間調度應用到另一種強化學習算法GSPO上，也同樣帶來了穩定提升，說明這一方法具有較好的普適性。

八為什么有效：熵值和KL散度的深層解讀

研究團隊對時間調度有效性的原因進行了深入分析，發現了兩條相互印證的線索。

第一條線索關于"熵值"。在訓練過程中，模型對每個字符的選擇不確定性（熵值）應該保持在一個合理水平——太低說明模型陷入了過于固定的表達模式，喪失了探索能力；太高說明模型沒有形成穩定的判斷。研究發現，標準GRPO在訓練過程中熵值下降明顯，說明模型在同時應對所有位置的字符時，不得不犧牲靈活性來換取一致性。而基于軌跡百分位的時間調度，由于每個階段只關注特定位置的字符，避免了不同行為特征之間的互相干擾，全序列熵值比標準GRPO高出約5.27%。特別值得一提的是，對比基于熵的信用分配方法（Entropy Adv.），加入時間調度后熵值提升幅度高達33.9%——這是因為純粹基于熵的方法會讓模型過度集中優化高熵字符，反而加速了整體熵值的崩塌。

第二條線索關于"KL散度"。KL散度可以理解為當前模型和初始模型之間的"變化幅度"，反映了訓練對模型行為的影響程度。研究團隊比較了訓練進行到30%和80%時，兩個時間點的模型與初始模型之間的KL散度，并按照軌跡位置進行了分解。結果顯示，在時間調度下，訓練初期的KL散度主要集中在軌跡后半段，說明模型首先在答案收斂部分發生了較大變化；隨著訓練推進，KL散度逐漸向前延伸，早期字符的變化幅度逐步增大。這種"從后往前"的有序演變，與時間調度的設計意圖完全吻合，說明模型確實在按照預期的節奏分階段習得不同的推理行為，而非像標準GRPO那樣對所有位置均勻地做出更新。

九消融實驗：哪些細節真正重要？

研究團隊還做了一系列消融實驗，用來回答幾個具體問題。

調度函數的形狀重要嗎？實驗結果顯示，線性、Sigmoid和Gamma三種形式的性能差異很小，三者在AIME25上的得分分別是67.1、66.7和66.4，而沒有調度的基線是65.3。這說明時間調度的核心價值在于"動態演變"本身，而非具體的曲線形狀。

時間調度應該持續多久？實驗測試了不同的"高點截止位置"（即調度生效的訓練比例上限），結果顯示在0.8時效果最好，高于0.8后性能反而略有下降。這意味著調度應該覆蓋訓練過程的前80%，讓最后約20%的訓練步驟回歸全量優化，形成一個自然的收尾。

用什么標準來定義優化順序？研究團隊對比了幾種不同的代理指標：軌跡百分位（從后往前）、熵值（從高到低）、后綴（只看結尾）、前綴（從前往后）以及隨機選擇。結果顯示，軌跡百分位和熵值都表現良好，而從前往后的前綴調度效果很差——這符合直覺，因為推理早期的字符語境不充分、行為最不穩定，用它們來啟動訓練會引入過多噪聲。隨機選擇的效果則是最差的，甚至會導致梯度出現不穩定的尖峰，說明無序的字符組織方式會嚴重破壞優化質量。

十案例分析：一道幾何旋轉題揭示的差距

論文中給出了一個具體的案例對比，直觀地說明了時間調度在質量上的提升。題目是這樣的：將拋物線 y = x? - 4 繞原點逆時針旋轉60°，求旋轉后的拋物線與原拋物線在第四象限的交點的縱坐標。

標準GRPO訓練的模型給出了正確的最終答案62，但在推理過程中犯了一個嚴重的方向性錯誤——把逆時針旋轉的條件處理成了順時針旋轉，因此推導出的中間方程是錯誤的。后來又悄悄把旋轉方向"改"回去，才湊出了正確答案。這是一種典型的"結果蒙對了、過程是錯的"情況，說明模型通過某種捷徑規避了對推理過程的真正學習。

而經過時間調度訓練的模型，從頭到尾都正確地使用了逆時針旋轉矩陣，推導出正確的旋轉坐標變換，代入原方程后得到正確的四次方程，最終通過合理的因式分解和四邊形條件篩選，穩步得出正確答案。整個推理鏈條清晰、邏輯自洽，沒有任何前后矛盾的地方。這個例子很好地說明了時間調度不只是提升了最終答案的正確率，更在推理過程的可靠性上產生了實質性的改善。

歸根結底，這項研究揭示了一個被長期忽視但十分重要的訓練維度：大模型的強化學習訓練不只需要關心"該優化哪些字符"，同樣需要關心"在訓練的哪個階段優化哪些字符"。通過把信用分配的標準隨時間動態演變，研究團隊讓模型能夠像一個真正按階段學習的學生一樣，先把關鍵的答案收斂行為穩定下來，再去雕琢復雜的推理腳手架，最終形成更連貫、更可靠的推理能力。

這項發現對普通用戶的意義，可能在于未來使用的AI助手在回答復雜問題時，不只是"答案更準了"，而是"推理過程更靠譜了"——你能看到它一步步想清楚，而不是湊出一個看似正確卻邏輯混亂的答案。對于那些需要驗證AI推理過程的應用場景（比如數學輔導、科學研究輔助、法律分析），這種改進會更加切實地體現出價值。

如果你對這項研究的細節感興趣，可以通過arXiv編號2605.25381查閱完整論文，標題為"Not only where, But when: Temporal Scheduling for RLVR"。

Q&A

Q1：強化學習訓練大模型時，"信用分配"解決的是什么問題？

A：大模型生成回答時，一段回答包含數千個字符，但訓練時只有一個"對或錯"的全局獎勵信號。信用分配就是要搞清楚這個獎勵應該怎么分給每個字符，避免所有字符不管貢獻大小都被一視同仁地對待，從而讓訓練更有針對性。

Q2：軌跡百分位調度（TP-Schedule）具體怎么操作？

A：TP-Schedule根據字符在回答中的位置來決定優化順序。訓練初期只優化回答后半段（答案收斂部分）的字符；隨著訓練推進，優化范圍逐步向前延伸，納入中期和早期字符，直到覆蓋整段回答。這樣做的好處是先穩定最關鍵的答案生成行為，再去訓練更復雜的推理過程。

Q3：時間調度為什么能保留更多的模型熵值？

A：標準GRPO同時優化所有位置的字符，不同行為特征（推理腳手架、邏輯跳轉、答案收斂）之間相互干擾，模型不得不犧牲靈活性來維持整體一致性，導致熵值快速下降。時間調度每次只關注特定位置的字符，減少了不同行為之間的沖突，讓模型在優化過程中保留了更多的探索空間。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.