![]()
這項由中國科學技術大學、上海創新研究院、武漢大學及京東聯合開展的研究,以預印本形式于2026年5月發表,論文編號為arXiv:2605.25381,有興趣深入了解的讀者可以通過該編號查詢完整論文。
一 故事從一個老問題開始:怎么讓AI學得更聰明?
教一個孩子做數學題,你會怎么做?大多數家長的直覺是:先把基礎搞扎實,再挑戰難題。你不會在孩子剛學加法的時候就把所有題型一股腦全部塞給他——乘法、除數、方程式,全部同時開練。這種循序漸進的節奏,其實暗含著一種深刻的教學智慧:學習是有階段性的,不同的知識點需要在合適的時間被強化。
然而,當我們訓練當下最先進的大語言模型時,整個過程卻往往缺少這種時間維度的考量。研究團隊發現,現有的強化學習訓練方式,有點像把一個學生扔進一堆雜亂無序的習題中,所有題型混在一起、每道題的權重完全相同、從頭到尾沒有任何順序安排——然后只根據最終答案對不對來打分,完全不在乎學生的解題過程是否合理。這篇論文的核心貢獻,就是把"什么時候學哪部分內容"這個維度,正式引入到大模型的訓練體系中。
二 大模型的"獎勵機制"到底是怎么工作的?
在正式介紹這項研究的創新點之前,有必要先搞清楚現在主流的大模型訓練方式是怎么運作的。
目前讓大模型變聰明的主流方法叫做"強化學習與可驗證獎勵",英文縮寫是RLVR。這個方法的邏輯并不復雜:給模型出一道題,讓它自己生成一段回答,然后看回答最終對不對,對了就獎勵,錯了就懲罰。這個獎勵信號會反傳回去,告訴模型的每一個字符——哦,這次你做對了,你們都值得被鼓勵;或者,這次做錯了,你們都要被壓制。
關鍵問題在于,一段回答可能有幾千甚至上萬個字符,這些字符各司其職、承擔著截然不同的角色。比如,一段解題過程的開頭幾句話,往往是在搭建解題框架——"設x為未知數"、"根據題意,我們知道..."——這些屬于推理腳手架;中間部分可能是在做邏輯跳轉和反思驗證;而結尾部分則是得出最終答案的收斂語言——"所以答案是62"。這三種角色完全不同,但在傳統的RLVR訓練中,它們收到的獎勵信號卻是完全相同的那一個全局分數。
這就像是一個團隊完成了一個項目,老板只給出一個整體評價"做得不錯",卻完全不區分誰在規劃階段貢獻了關鍵思路、誰在執行階段踏實落實、誰在收尾階段保證了質量。每個人的貢獻被無差別地對待,這顯然無法引導團隊朝著真正高效的方向迭代。
三 "信用分配":已有的努力和它的局限
學術界早就意識到這個問題,并為此提出了不少解決方案,統稱為"信用分配"——也就是在那個全局獎勵信號之上,再想辦法給每個字符分配更精準的權重。
一種方式是訓練一個專門的"過程獎勵模型",讓它對每一步推理給出評分,相當于請來一位閱卷老師,不只看最終答案,還要逐步批改解題過程。但這種方式成本極高,需要大量人工標注,難以大規模使用。
另一種更輕量的方式,是直接利用模型自身產生的信號來區分字符的重要性。比如,某個字符的"熵"(可以理解為這個字符有多少種可能性、有多難被預測)越高,說明模型在這里做出了更有意義的選擇,應該給予更多的優化關注。還有一些方法則直接選出一小部分"關鍵字符"來優化,忽略其余那些無關緊要的填充詞。
這些方法都有效果,但它們有一個共同的盲區:無論選擇什么標準來區分字符的重要性,這個標準從訓練開始到結束始終固定不變。就像一位從不調整教學策略的老師,第一天用同一套方法,最后一天還是同一套方法,完全不隨著學生的進步來動態調整。研究團隊把這種現象稱為"僵化的信用分配標準",并認為這是當前訓練方法的核心瓶頸之一。
四 時間維度:被忽視的訓練秘密
這篇論文的核心洞見可以用一句話概括:不只要關心"把獎勵分配給哪些字符",還要關心"在訓練的哪個階段分配"。這就是所謂的"時間調度"——將信用分配的標準隨著訓練進程動態演變,而非一成不變。
研究團隊給出了一個具體的操作方案。訓練開始時,重點強化某一類特定字符(比如對應答案收斂部分的字符),給這些字符很高的優化權重;隨著訓練的推進,逐漸放開限制,讓越來越多的字符都參與到優化中來,直到最終變成接近全量優化。這個過程就像是先精雕細琢某個關鍵環節,等它穩定了,再逐步把整體品質一起帶上來。
用學習樂器來類比會更直觀:一個鋼琴老師不會讓學生從第一節課就同時練習手指靈活度、踏板技巧和樂感表達。她會先專注于最基礎的手型和音準,等這部分穩定了,再引入節奏訓練,最后才把所有要素綜合起來演奏完整曲目。這種由聚焦到綜合的時間節奏,正是時間調度的本質。
五 軌跡百分位:一把讀懂模型行為的鑰匙
研究團隊在實踐中發現,想要實現有效的時間調度,首先需要一種簡單可靠的方式來區分不同字符所承載的"行為特征"。他們提出了一個叫做"軌跡百分位"的概念,這個概念本身并不復雜:一段回答從頭到尾,按位置分成早期、中期、晚期三段,處于不同位置的字符,往往承擔著截然不同的功能。
為了驗證這一點,研究團隊使用Qwen3-4B模型在一個包含78,000道題的數學數據集上生成了大量回答,總計產生了5.84億個字符的數據。他們統計了不同字符在軌跡的哪些位置最常出現,結果非常清晰:處于回答早期的字符,比如"Okay"、"hmm"、"first"等探索性詞語,幾乎只出現在軌跡開頭;處于回答中期的字符,往往是"but"、"therefore"、"alternatively"等邏輯轉折詞,反映了推理過程中的批判性思維;處于回答晚期的字符,則集中在"answer"、"since"、"must"等收斂性詞語,標志著答案的最終形成。
除此之外,研究團隊還發現,軌跡的不同位置對應著截然不同的"熵值"動態。早期字符的熵值最低,因為回答剛開始時模型的表達方式較為固定;中期字符的熵值最高,反映了推理過程中最強的探索性;晚期字符的熵值居中。更重要的是,這種熵值差異在整個訓練過程中持續存在,說明軌跡位置確實是一個穩定而有意義的行為錨點,可以用來組織優化過程。
六 具體怎么做:時間調度的操作細節
研究團隊設計了一套通用的時間調度框架,可以靈活嫁接到已有的各類信用分配方法上。
基本思路是引入一個隨訓練進程單調遞減的"調度函數"。訓練剛開始時,調度函數的值接近1,意味著只優化滿足嚴格標準的那部分字符;隨著訓練推進,調度函數的值逐漸降低,對應的優化門檻也隨之放寬,越來越多的字符被納入優化范圍,直到訓練后期基本覆蓋所有字符。
具體到軌跡百分位調度(論文中稱為TP-Schedule),操作方式是這樣的:訓練初期,只優化處于回答后半段(比如最后10%)的字符;隨著訓練進行,逐步將優化范圍向前延伸,納入60%、30%、最終20%位置之后的所有字符。這樣做的邏輯是,回答的后半段對應著答案的直接生成,相對穩定且可驗證;先把這部分穩定下來,再回頭去訓練更復雜的推理腳手架,可以避免早期把不成熟的推理習慣固化下來。
調度函數的具體形狀有三種選擇:線性(勻速放開)、Sigmoid形(先慢后快再慢)和Gamma形(先快后慢)。實驗結果顯示,三種函數都比沒有調度的基線好,而且彼此之間差異不大,說明時間調度的收益主要來自"動態演變"這個原則本身,而非具體的衰減形狀。研究團隊推薦使用線性調度作為默認設置,既簡單又效果好。
七 實驗結果:數字背后的故事
研究團隊在Qwen3-4B和Qwen3-8B兩個不同規模的模型上進行了系統測試,訓練數據來自OpenMathReasoning和DeepMath-103K兩個數據集,共30,000道經過難度篩選和去重處理的數學題。評測覆蓋了多個數學競賽基準(AIME24/25、HMMT25、Minerva等),以及通用推理基準(GPQA-Diamond科學題、Winogrande常識推理、MuSR多步推理)。
在Qwen3-4B模型上,單純的TP-Schedule(不引入任何額外的信用分配技巧,只是在GRPO基礎上加入軌跡百分位時間調度)比原始GRPO在數學基準上平均提升了2.2個百分點,在通用推理基準上提升了2.7個百分點。其中GPQA-Diamond單項提升高達4.5個百分點,MuSR提升2個百分點,HMMT25提升3.1個百分點。在Qwen3-8B上,整體提升約1個百分點,考慮到更大模型的基礎能力已經更強,這一提升同樣值得肯定。
時間調度與現有信用分配方法疊加使用時,同樣表現出穩定的提升效果。將時間調度加入到基于熵的優勢重加權方法(Entropy Adv.)后,各項指標均有0.5到1個百分點的提升。將時間調度加入到只優化"關鍵字符"的方法(Forking Tok.)后,提升幅度更大,在AIME24上提升了2.7個百分點。此外,將時間調度應用到另一種強化學習算法GSPO上,也同樣帶來了穩定提升,說明這一方法具有較好的普適性。
八 為什么有效:熵值和KL散度的深層解讀
研究團隊對時間調度有效性的原因進行了深入分析,發現了兩條相互印證的線索。
第一條線索關于"熵值"。在訓練過程中,模型對每個字符的選擇不確定性(熵值)應該保持在一個合理水平——太低說明模型陷入了過于固定的表達模式,喪失了探索能力;太高說明模型沒有形成穩定的判斷。研究發現,標準GRPO在訓練過程中熵值下降明顯,說明模型在同時應對所有位置的字符時,不得不犧牲靈活性來換取一致性。而基于軌跡百分位的時間調度,由于每個階段只關注特定位置的字符,避免了不同行為特征之間的互相干擾,全序列熵值比標準GRPO高出約5.27%。特別值得一提的是,對比基于熵的信用分配方法(Entropy Adv.),加入時間調度后熵值提升幅度高達33.9%——這是因為純粹基于熵的方法會讓模型過度集中優化高熵字符,反而加速了整體熵值的崩塌。
第二條線索關于"KL散度"。KL散度可以理解為當前模型和初始模型之間的"變化幅度",反映了訓練對模型行為的影響程度。研究團隊比較了訓練進行到30%和80%時,兩個時間點的模型與初始模型之間的KL散度,并按照軌跡位置進行了分解。結果顯示,在時間調度下,訓練初期的KL散度主要集中在軌跡后半段,說明模型首先在答案收斂部分發生了較大變化;隨著訓練推進,KL散度逐漸向前延伸,早期字符的變化幅度逐步增大。這種"從后往前"的有序演變,與時間調度的設計意圖完全吻合,說明模型確實在按照預期的節奏分階段習得不同的推理行為,而非像標準GRPO那樣對所有位置均勻地做出更新。
九 消融實驗:哪些細節真正重要?
研究團隊還做了一系列消融實驗,用來回答幾個具體問題。
調度函數的形狀重要嗎?實驗結果顯示,線性、Sigmoid和Gamma三種形式的性能差異很小,三者在AIME25上的得分分別是67.1、66.7和66.4,而沒有調度的基線是65.3。這說明時間調度的核心價值在于"動態演變"本身,而非具體的曲線形狀。
時間調度應該持續多久?實驗測試了不同的"高點截止位置"(即調度生效的訓練比例上限),結果顯示在0.8時效果最好,高于0.8后性能反而略有下降。這意味著調度應該覆蓋訓練過程的前80%,讓最后約20%的訓練步驟回歸全量優化,形成一個自然的收尾。
用什么標準來定義優化順序?研究團隊對比了幾種不同的代理指標:軌跡百分位(從后往前)、熵值(從高到低)、后綴(只看結尾)、前綴(從前往后)以及隨機選擇。結果顯示,軌跡百分位和熵值都表現良好,而從前往后的前綴調度效果很差——這符合直覺,因為推理早期的字符語境不充分、行為最不穩定,用它們來啟動訓練會引入過多噪聲。隨機選擇的效果則是最差的,甚至會導致梯度出現不穩定的尖峰,說明無序的字符組織方式會嚴重破壞優化質量。
十 案例分析:一道幾何旋轉題揭示的差距
論文中給出了一個具體的案例對比,直觀地說明了時間調度在質量上的提升。題目是這樣的:將拋物線 y = x? - 4 繞原點逆時針旋轉60°,求旋轉后的拋物線與原拋物線在第四象限的交點的縱坐標。
標準GRPO訓練的模型給出了正確的最終答案62,但在推理過程中犯了一個嚴重的方向性錯誤——把逆時針旋轉的條件處理成了順時針旋轉,因此推導出的中間方程是錯誤的。后來又悄悄把旋轉方向"改"回去,才湊出了正確答案。這是一種典型的"結果蒙對了、過程是錯的"情況,說明模型通過某種捷徑規避了對推理過程的真正學習。
而經過時間調度訓練的模型,從頭到尾都正確地使用了逆時針旋轉矩陣,推導出正確的旋轉坐標變換,代入原方程后得到正確的四次方程,最終通過合理的因式分解和四邊形條件篩選,穩步得出正確答案。整個推理鏈條清晰、邏輯自洽,沒有任何前后矛盾的地方。這個例子很好地說明了時間調度不只是提升了最終答案的正確率,更在推理過程的可靠性上產生了實質性的改善。
歸根結底,這項研究揭示了一個被長期忽視但十分重要的訓練維度:大模型的強化學習訓練不只需要關心"該優化哪些字符",同樣需要關心"在訓練的哪個階段優化哪些字符"。通過把信用分配的標準隨時間動態演變,研究團隊讓模型能夠像一個真正按階段學習的學生一樣,先把關鍵的答案收斂行為穩定下來,再去雕琢復雜的推理腳手架,最終形成更連貫、更可靠的推理能力。
這項發現對普通用戶的意義,可能在于未來使用的AI助手在回答復雜問題時,不只是"答案更準了",而是"推理過程更靠譜了"——你能看到它一步步想清楚,而不是湊出一個看似正確卻邏輯混亂的答案。對于那些需要驗證AI推理過程的應用場景(比如數學輔導、科學研究輔助、法律分析),這種改進會更加切實地體現出價值。
如果你對這項研究的細節感興趣,可以通過arXiv編號2605.25381查閱完整論文,標題為"Not only where, But when: Temporal Scheduling for RLVR"。
Q&A
Q1:強化學習訓練大模型時,"信用分配"解決的是什么問題?
A:大模型生成回答時,一段回答包含數千個字符,但訓練時只有一個"對或錯"的全局獎勵信號。信用分配就是要搞清楚這個獎勵應該怎么分給每個字符,避免所有字符不管貢獻大小都被一視同仁地對待,從而讓訓練更有針對性。
Q2:軌跡百分位調度(TP-Schedule)具體怎么操作?
A:TP-Schedule根據字符在回答中的位置來決定優化順序。訓練初期只優化回答后半段(答案收斂部分)的字符;隨著訓練推進,優化范圍逐步向前延伸,納入中期和早期字符,直到覆蓋整段回答。這樣做的好處是先穩定最關鍵的答案生成行為,再去訓練更復雜的推理過程。
Q3:時間調度為什么能保留更多的模型熵值?
A:標準GRPO同時優化所有位置的字符,不同行為特征(推理腳手架、邏輯跳轉、答案收斂)之間相互干擾,模型不得不犧牲靈活性來維持整體一致性,導致熵值快速下降。時間調度每次只關注特定位置的字符,減少了不同行為之間的沖突,讓模型在優化過程中保留了更多的探索空間。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.