![]()
這項由中國人民大學高嶺人工智能學院與中國礦業大學(北京)聯合開展的研究,以預印本形式于2026年4月發表,論文編號為arXiv:2604.11446。研究的核心問題是:訓練一個強大的推理AI,真的需要一步一步走完全程嗎?
要說清楚這項研究在做什么,先得聊聊AI是怎么"變聰明"的。現在最流行的方法叫做"強化學習"——給AI出一道數學題,讓它自己嘗試,答對了就獎勵,答錯了就懲罰,就這樣反復練習幾百次,AI的解題能力會顯著提升。這個過程有個專業名字叫RLVR(基于可驗證獎勵的強化學習),DeepSeek、OpenAI的o1等近年最火的推理模型,都是靠這套方法練出來的。
問題也隨之而來。這種訓練方式極其耗費計算資源。每一輪練習,AI都要生成大量嘗試性答案,這就像讓一個學生每道題都要寫八份不同的解題草稿,然后才能從中學習——代價驚人。隨著模型越來越大、問題越來越復雜,這筆"學費"正在變得難以承受。
中國人民大學的研究團隊換了一個思路:既然我們能觀察到AI在訓練過程中"參數"(可以理解為AI大腦內部的各種旋鈕和開關)如何變化,能不能根據前幾步的變化趨勢,直接預測未來某步的參數狀態,從而跳過中間大量重復的訓練步驟?
這個想法并非沒有先例。此前已有研究者嘗試過"線性外推"的方法——觀察參數按某個方向變化,然后用直線延伸來預測未來。然而,該團隊在仔細研究了AI訓練過程中參數的實際變化軌跡后發現,這些軌跡根本不是一條直線,而是彎彎曲曲的曲線。依靠畫直線來猜曲線終點,誤差自然難以避免。
基于這個發現,研究團隊提出了一套名為NExt(非線性低秩軌跡外推)的新框架。這套方法的核心思路是:不用直線,改用一個專門訓練的"軌跡預測器"來捕捉參數變化的真實彎曲規律,然后做更準確的預測跳躍。
實驗結果表明,NExt只需要250步訓練,就能達到傳統方法跑400步才能達到的效果,整體訓練時間縮短了約37.5%。對于一個3B參數的模型,訓練時間從18.7小時壓縮到了11.7小時。
一、AI訓練為什么這么"費錢"
理解這項研究的價值,先要理解這個"費錢"到底費在哪里。
當我們讓AI做強化學習時,每訓練一步,大致需要經歷這樣一個循環:給AI出一道題,AI生成多個解答(通常是8個甚至更多),評分系統判斷哪些對哪些錯,然后根據這些結果更新AI的參數,告訴它"這種思路更好,那種思路要避免"。
每次更新參數,AI內部成千上萬個矩陣(可以把每個矩陣想象成一張巨大的數字表格,記錄著神經網絡的連接強度)都會發生微小的改變。一個7B參數的模型,其內部有數以億計的參數需要管理。訓練400步,就意味著要重復這個龐大的循環400次。
計算量最大的環節恰恰是生成答案這一步。生成一個完整的解題過程,AI需要逐字逐詞地輸出,每輸出一個詞都要調用整個模型進行一次計算。生成8份草稿,就是8次這樣的計算。對于能寫出幾百字推理過程的復雜問題,這個代價是相當可觀的。
研究團隊因此提出了一個根本性的問題:這400步訓練是否每一步都不可或缺?參數從起點到終點的變化,是否存在某種可以提前預知的規律,讓我們能夠"預見未來",直接跳到更靠近終點的位置,再從那里繼續訓練?
二、大腦里的"主導方向":低秩子空間究竟是什么
要解釋這項研究,必須先講一個關鍵概念——低秩子空間,尤其是其中最簡單的"秩-1子空間"。
假設AI的某一層參數是一張1000行×1000列的數字表格,共100萬個數。要描述這張表格從訓練前到某個時間點"變化了多少",就需要另一張同樣大小的差值表格(研究中稱為"參數差異矩陣",即?W)。100萬個數,存儲和計算都很麻煩。
數學家很早就發現,很多這樣的差異矩陣具有一個特點:雖然它有100萬個數,但這些數之間有很強的規律性,可以用更少的信息來近似描述。最極端的情況是:整張表格幾乎可以由一列數字和一行數字的乘積來表達——這就是"秩-1近似"。一列1000個數加一行1000個數,只需要2000個數,就能近似還原一張100萬元素的表格,信息壓縮了500倍。
這個"一列一行"所定義的方向,就叫做"秩-1子空間",它代表著參數變化最主要、最集中的那個方向。可以把它理解為:雖然AI的大腦在訓練中有無數細微的調整,但最核心的變化實際上是朝著某一個主導方向在移動。
研究團隊想知道的是:在RLVR訓練過程中,這個主導方向究竟有多"主導"?隨著訓練的進行,它的影響力是在增強還是減弱?它的變化規律是直線還是曲線?
三、兩個關鍵發現:LoRA讓主導方向更強,但軌跡是彎曲的
研究團隊做了一系列實驗來回答上面的問題,得出了兩個重要結論,這兩個結論共同構成了NExt方法的理論基礎。
第一個發現關于"主導方向有多強"。研究者用一個叫做"能量比"的指標來衡量這個主導方向的影響力——簡單說,就是這個主導方向的變化量,占到參數總變化量的百分比。如果這個比例接近100%,說明參數變化幾乎全部集中在一個方向上,低秩近似非常精準;如果接近0%,說明變化非常分散,低秩近似誤差會很大。
實驗發現,在訓練早期,這個能量比會逐漸升高——說明隨著訓練推進,參數變化越來越集中。更重要的是,當使用一種叫做LoRA(低秩適配)的參數高效微調方法時,這個能量比會比全參數微調高得多。
LoRA是一種訓練技巧:不直接修改模型的全部參數,而是在原始參數旁邊附加一個小的"適配器"(兩個小矩陣的乘積),只訓練這個小適配器。因為適配器本身結構就是低秩的,所以用LoRA訓練出來的參數變化,天然就會更集中在低秩方向上。這就像用一支筆在紙上寫字,筆跡會自然地集中在某些筆畫方向上,而不是隨機涂抹。
這個發現意味著:用LoRA做RLVR訓練,參數變化會更容易被低秩近似所捕捉,后續的預測工作因此更準確。
第二個發現關于"主導方向如何隨時間變化"。研究者用前10個檢查點(訓練過程中定期保存的參數快照)來預測后5個檢查點的主導方向,使用的是最簡單的線性回歸——也就是假設變化是勻速直線運動,根據過去的軌跡畫一條直線推測未來。
結果令人意外:超過50%的參數對應的主導方向,用線性預測的效果非常差(R?小于0),有相當一部分甚至更差(R?小于-0.5)。R?是衡量預測質量的指標,R?為1表示預測完美,R?為0表示預測毫無價值,R?為負數則意味著比"直接用平均值來猜"還要糟糕。
這說明參數主導方向的演化路徑本質上是彎曲的,不能用直線來描述。此前那些依賴線性外推的方法,在預測遠期參數時會出現系統性偏差,把模型推向一個偏離最優方向的錯誤狀態。
四、NExt如何工作:一個三步走的預測方案
基于上述兩個發現,研究團隊設計了NExt框架。整個流程可以分為三個階段,下面逐一解釋。
第一階段是"收集訓練軌跡"。用LoRA方法對AI進行RLVR訓練,在前150步中每10步保存一次參數快照,共保存15個檢查點。然后,對相鄰檢查點之間的參數差異、當前檢查點與起點之間的參數差異,以及跨越多步的參數差異,分別進行計算,并對每個差異矩陣提取其秩-1近似(一個數值σ、一列向量u、一行向量v)。這三類差異在論文中分別被稱為"局部差異"、"全局差異"和"目標差異"。
局部差異反映的是模型最近一步的變化趨勢,類似于"最近在往哪個方向走";全局差異反映的是從訓練起點到現在的累積變化,類似于"總體上已經走了多遠、朝著什么方向";目標差異則是預測器需要學習的"答案",代表著未來若干步后參數會變化多少。
經過秩-1壓縮后,每個參數矩陣的差異不再是一張龐大的表格,而是三個向量(u、v和一個標量σ),參數量從O(n×m)降低到了O(n+m),大幅減少了計算開銷。
第二階段是"訓練軌跡預測器"。預測器是一個相對輕量的神經網絡,采用編碼器-解碼器結構:兩個獨立的編碼器分別處理全局差異和局部差異的向量信息,將它們編碼成隱藏表示;然后將兩個隱藏表示拼接,送入解碼器,輸出預測的目標差異向量。
訓練預測器時,輸入是歷史軌跡中各個檢查點的全局差異和局部差異,輸出目標是對應的目標差異,使用L1損失(絕對值誤差之和)來優化。選擇L1而非L2(均方誤差)的原因是:L2在誤差較小時梯度會變得很小,不利于訓練收斂;L1則不存在這個問題。
為了保證預測質量,研究者還加入了兩個工程細節:對預測出的u和v向量進行歸一化處理(確保它們是單位向量,因為SVD分解得到的奇異向量本來就應該是單位向量);以及將相同維度的向量批量拼接處理,充分利用GPU的并行計算能力加速訓練和推理。
第三階段是"預測并延伸"。訓練完預測器后,對最后一個檢查點的全局差異和局部差異進行提取,送入預測器得到預測的目標差異向量,重建成預測的差異矩陣?W,然后用公式 W = W + α·?W 更新模型參數,其中α是一個"延伸系數",默認設置為1.5。
這里的延伸系數起到了"適度放大預測步幅"的作用——預測器預測的是訓練50步后的狀態,乘以α=1.5相當于讓跳躍更遠一些,直接逼近更靠后的訓練效果。得到外推后的模型參數,再從這個新起點繼續做100步RLVR訓練,最終完成整個NExt流程,總計只需250步。
五、實驗結果:數字背后的真實差距
研究團隊在四個不同規模的模型(1.5B、3B、7B、14B參數,均為Qwen2.5系列)上進行了系統測試,評估任務包括五個數學競賽題集:AIME2024、AIME2025、AMC2023、Minerva和OlymMATH(簡單版)。
以7B模型為例,傳統GRPO方法(全參數微調)訓練250步后,五個任務的平均準確率為23.1%,訓練400步后提升到24.0%;使用NExt只需250步,平均準確率達到24.2%,不僅超過了400步全參數訓練,也超過了250步和400步的LoRA訓練(分別為22.1%和23.5%)。
對比同樣做了RLVR參數外推的競爭方法,差距更為明顯。AlphaRL在7B模型上250步訓練后平均準確率只有21.6%,RL-Extra是22.7%,而NExt是24.2%。兩個競爭方法都使用了線性外推策略,實驗結果的差距直接印證了"參數軌跡是彎曲的,線性假設會帶來偏差"這一核心論斷。
研究者還專門引入了一個綜合衡量指標——增量成本效益比(ICER),計算方式是"訓練步數除以性能提升量再乘以100%",數值越低表示每花一份資源能獲得的性能提升越大。NExt在7B模型上的ICER為49.0,而GRPO全參數250步為62.5、AlphaRL為100.0。
在資源消耗的直接對比上,用4×A800服務器測試,3B模型的GRPO訓練需要18.7小時,NExt只需11.7小時;1.5B模型從12小時降到7.4小時,均實現了約37.5%的時間節省。特別值得注意的是,NExt新引入的SVD計算、預測器訓練和外推操作,在整體時間中占比極小,幾乎可以忽略不計,節省的時間完全來自減少了RLVR訓練步數。
14B模型的表現同樣出色。傳統GRPO400步平均準確率為27.7%,而NExt只需250步就達到28.3%,ICER僅為33.3,是所有方法中效率最高的。
六、穩健性驗證:方法的邊界和適用范圍
一項好的方法必須經得起各種條件下的檢驗,研究團隊為此設計了多組補充實驗。
關于延伸系數α的敏感性,研究者測試了α從0.5到4.0的八個取值。當α在0.5到2.5之間時,模型性能相當穩定,始終好于外推前的狀態,說明方法對這個超參數不敏感;當α超過2.5后,性能開始出現波動,α極大時性能可能下降。這個現象同時也從側面證明了線性外推的局限性:用純線性方法放大步長,不穩定性會隨之迅速增加,而NExt的預測-延伸結構能在一定程度上緩解這個問題。
消融實驗中,研究團隊逐一"拆掉"NExt的不同組件來測試每部分的貢獻。去掉LoRA改用全參數微調(保持其他設置不變),性能明顯下降,證實了LoRA對提升秩-1子空間主導性的實際作用。去掉全局差異(只用局部差異做預測),或者去掉局部差異(只用全局差異),性能都會下降,而且后續再做RLVR訓練也無法完全彌補。這說明兩類信息缺一不可:全局差異提供了訓練積累的方向感,局部差異提供了當前變化的即時信息,二者結合才能準確估計未來的變化趨勢。
關于算法普適性,研究團隊將NExt與兩種不同的RLVR算法(RLOO和REINFORCE++)結合測試。以3B模型為例,RLOO傳統訓練400步平均準確率為27.3%,接入NExt后250步達到28.5%;REINFORCE++傳統400步為26.5%,NExt250步達到27.9%。兩種算法下NExt都表現出同樣的加速效果,證明該方法不依賴于具體RL算法的特性,可以作為通用加速模塊使用。
關于任務遷移能力,研究團隊還在MMLU-Pro(涵蓋生物、商業、化學、計算機科學、經濟、工程、健康、歷史、法律、數學、哲學、物理、心理、其他等14個學科的多選題綜合測試)和GPQA Diamond(研究生級別的科學知識問答)上進行了測試。在MMLU-Pro上,NExt在250步內就能達到GRPO 400步的平均水準,并在多個子領域(如數學、化學、心理學等)超過所有基線方法。在GPQA任務上,NExt在獲得相近甚至更好準確率的同時,GPU小時數明顯低于傳統RLVR,外推步驟本身消耗的算力極小。這些結果表明,NExt的加速效果并不局限于數學推理,可以推廣到更廣泛的知識密集型任務。
七、與同類方法的核心差異
研究團隊在論文中整理了一張對比表,將NExt與其他參數外推方法系統對比。在這之前已經有多種外推方法存在,但它們可以歸為幾類不同的路線。
WSM和MAEC主要用于預訓練階段,前者通過合并多個檢查點的權重來獲得更平穩的優化軌跡,后者專門識別并外推模型中的關鍵神經元,兩者都依賴線性組合。DARE是SFT階段的方法,通過隨機丟棄一部分參數后進行線性外推,降低對原始知識的干擾。Greedy Soup同樣用于SFT,將多個微調版本的參數做線性平均。
專為RLVR設計的AlphaRL和RL-Extra,是NExt最直接的競爭對手。AlphaRL對全參數進行訓練,然后對秩-1子空間進行線性外推;RL-Extra對全參數進行線性外推。兩者的共同缺陷是對線性假設的依賴。ExPO則應用于對齊階段,同樣是全參數的線性外推。
NExt在這張表里的獨特之處體現在兩個維度:訓練時只優化LoRA適配器而非全部參數,外推時使用非線性預測器而非線性公式。這兩個設計分別對應前文所述的兩個核心發現:LoRA能放大秩-1子空間的主導性,非線性預測能更準確地捕捉彎曲的演化軌跡。
說到底,這項研究做的事情用一句話概括就是:以前人們以為AI訓練過程中參數的變化是走直路,所以用尺子量了前幾步,然后順著直線預測終點;NExt發現這條路其實是彎的,于是訓練了一個能感知彎度的預測工具,預測得更準,跳躍的也更遠。
37.5%的時間節省,對個人研究者來說可能意味著幾天的等待變成了幾個小時;對大型研究機構來說,則意味著每次訓練都能節省可觀的電費和算力成本。更重要的是,這套方法揭示了一個此前被忽視的事實:AI在強化學習訓練中,內部參數的變化并非單調線性,而是有著更豐富的非線性結構,這個結構是可以被學習和利用的。
有興趣深入了解技術細節的讀者,可以通過arXiv編號2604.11446查閱完整論文,代碼已在GitHub上的RUCAIBox/NExt倉庫公開發布。
Q&A
Q1:NExt方法的"延伸系數α"設為多少比較合適,太大或太小有什么影響?
A:根據實驗結果,延伸系數α在0.5到2.5之間時,模型性能相當穩定,而且都能好于外推前的狀態。論文中默認使用α=1.5。當α超過2.5后,性能開始出現波動,α極大時模型表現甚至可能變差。這是因為延伸系數本質上是在做線性放大,放大倍數過大時線性外推的不穩定性就會暴露出來。所以實際使用時建議選1.0到2.0之間,不要設得太激進。
Q2:NExt中的"秩-1子空間"為什么能代表參數變化的主要信息?
A:參數差異矩陣經過奇異值分解(SVD)后,會得到一系列按重要性排序的"方向"。秩-1子空間對應其中最重要的那個方向,它的"能量比"(即這個方向的變化量占總變化量的比例)在LoRA訓練過程中會持續升高,表明參數變化越來越集中在這一個方向上。用秩-1近似,參數量從O(n×m)壓縮到O(n+m),信息損失卻很小,因此既高效又準確。
Q3:NExt適用于哪些AI訓練場景,只能用于數學推理任務嗎?
A:不局限于數學推理。論文在MMLU-Pro(14個學科的綜合知識測試)和GPQA Diamond(研究生級別科學問答)上同樣驗證了NExt的有效性,均能在更少訓練步數內達到傳統方法的效果。此外,NExt也不依賴特定的強化學習算法,與GRPO、RLOO、REINFORCE++都能兼容,屬于通用的訓練加速模塊,理論上可以應用于任何基于RLVR范式的LLM訓練場景。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.