網易首頁 > 網易號 > 正文申請入駐

中國人民大學團隊找到了讓AI訓練"抄近道"的方法

2026-04-21 22:04:30　來源: 科技行者

天津舉報

分享至

這項由中國人民大學高嶺人工智能學院與中國礦業大學（北京）聯合開展的研究，以預印本形式于2026年4月發表，論文編號為arXiv:2604.11446。研究的核心問題是：訓練一個強大的推理AI，真的需要一步一步走完全程嗎？

要說清楚這項研究在做什么，先得聊聊AI是怎么"變聰明"的。現在最流行的方法叫做"強化學習"——給AI出一道數學題，讓它自己嘗試，答對了就獎勵，答錯了就懲罰，就這樣反復練習幾百次，AI的解題能力會顯著提升。這個過程有個專業名字叫RLVR（基于可驗證獎勵的強化學習），DeepSeek、OpenAI的o1等近年最火的推理模型，都是靠這套方法練出來的。

問題也隨之而來。這種訓練方式極其耗費計算資源。每一輪練習，AI都要生成大量嘗試性答案，這就像讓一個學生每道題都要寫八份不同的解題草稿，然后才能從中學習——代價驚人。隨著模型越來越大、問題越來越復雜，這筆"學費"正在變得難以承受。

中國人民大學的研究團隊換了一個思路：既然我們能觀察到AI在訓練過程中"參數"（可以理解為AI大腦內部的各種旋鈕和開關）如何變化，能不能根據前幾步的變化趨勢，直接預測未來某步的參數狀態，從而跳過中間大量重復的訓練步驟？

這個想法并非沒有先例。此前已有研究者嘗試過"線性外推"的方法——觀察參數按某個方向變化，然后用直線延伸來預測未來。然而，該團隊在仔細研究了AI訓練過程中參數的實際變化軌跡后發現，這些軌跡根本不是一條直線，而是彎彎曲曲的曲線。依靠畫直線來猜曲線終點，誤差自然難以避免。

基于這個發現，研究團隊提出了一套名為NExt（非線性低秩軌跡外推）的新框架。這套方法的核心思路是：不用直線，改用一個專門訓練的"軌跡預測器"來捕捉參數變化的真實彎曲規律，然后做更準確的預測跳躍。

實驗結果表明，NExt只需要250步訓練，就能達到傳統方法跑400步才能達到的效果，整體訓練時間縮短了約37.5%。對于一個3B參數的模型，訓練時間從18.7小時壓縮到了11.7小時。

一、AI訓練為什么這么"費錢"

理解這項研究的價值，先要理解這個"費錢"到底費在哪里。

當我們讓AI做強化學習時，每訓練一步，大致需要經歷這樣一個循環：給AI出一道題，AI生成多個解答（通常是8個甚至更多），評分系統判斷哪些對哪些錯，然后根據這些結果更新AI的參數，告訴它"這種思路更好，那種思路要避免"。

每次更新參數，AI內部成千上萬個矩陣（可以把每個矩陣想象成一張巨大的數字表格，記錄著神經網絡的連接強度）都會發生微小的改變。一個7B參數的模型，其內部有數以億計的參數需要管理。訓練400步，就意味著要重復這個龐大的循環400次。

計算量最大的環節恰恰是生成答案這一步。生成一個完整的解題過程，AI需要逐字逐詞地輸出，每輸出一個詞都要調用整個模型進行一次計算。生成8份草稿，就是8次這樣的計算。對于能寫出幾百字推理過程的復雜問題，這個代價是相當可觀的。

研究團隊因此提出了一個根本性的問題：這400步訓練是否每一步都不可或缺？參數從起點到終點的變化，是否存在某種可以提前預知的規律，讓我們能夠"預見未來"，直接跳到更靠近終點的位置，再從那里繼續訓練？

二、大腦里的"主導方向"：低秩子空間究竟是什么

要解釋這項研究，必須先講一個關鍵概念——低秩子空間，尤其是其中最簡單的"秩-1子空間"。

假設AI的某一層參數是一張1000行×1000列的數字表格，共100萬個數。要描述這張表格從訓練前到某個時間點"變化了多少"，就需要另一張同樣大小的差值表格（研究中稱為"參數差異矩陣"，即?W）。100萬個數，存儲和計算都很麻煩。

數學家很早就發現，很多這樣的差異矩陣具有一個特點：雖然它有100萬個數，但這些數之間有很強的規律性，可以用更少的信息來近似描述。最極端的情況是：整張表格幾乎可以由一列數字和一行數字的乘積來表達——這就是"秩-1近似"。一列1000個數加一行1000個數，只需要2000個數，就能近似還原一張100萬元素的表格，信息壓縮了500倍。

這個"一列一行"所定義的方向，就叫做"秩-1子空間"，它代表著參數變化最主要、最集中的那個方向。可以把它理解為：雖然AI的大腦在訓練中有無數細微的調整，但最核心的變化實際上是朝著某一個主導方向在移動。

研究團隊想知道的是：在RLVR訓練過程中，這個主導方向究竟有多"主導"？隨著訓練的進行，它的影響力是在增強還是減弱？它的變化規律是直線還是曲線？

三、兩個關鍵發現：LoRA讓主導方向更強，但軌跡是彎曲的

研究團隊做了一系列實驗來回答上面的問題，得出了兩個重要結論，這兩個結論共同構成了NExt方法的理論基礎。

第一個發現關于"主導方向有多強"。研究者用一個叫做"能量比"的指標來衡量這個主導方向的影響力——簡單說，就是這個主導方向的變化量，占到參數總變化量的百分比。如果這個比例接近100%，說明參數變化幾乎全部集中在一個方向上，低秩近似非常精準；如果接近0%，說明變化非常分散，低秩近似誤差會很大。

實驗發現，在訓練早期，這個能量比會逐漸升高——說明隨著訓練推進，參數變化越來越集中。更重要的是，當使用一種叫做LoRA（低秩適配）的參數高效微調方法時，這個能量比會比全參數微調高得多。

LoRA是一種訓練技巧：不直接修改模型的全部參數，而是在原始參數旁邊附加一個小的"適配器"（兩個小矩陣的乘積），只訓練這個小適配器。因為適配器本身結構就是低秩的，所以用LoRA訓練出來的參數變化，天然就會更集中在低秩方向上。這就像用一支筆在紙上寫字，筆跡會自然地集中在某些筆畫方向上，而不是隨機涂抹。

這個發現意味著：用LoRA做RLVR訓練，參數變化會更容易被低秩近似所捕捉，后續的預測工作因此更準確。

第二個發現關于"主導方向如何隨時間變化"。研究者用前10個檢查點（訓練過程中定期保存的參數快照）來預測后5個檢查點的主導方向，使用的是最簡單的線性回歸——也就是假設變化是勻速直線運動，根據過去的軌跡畫一條直線推測未來。

結果令人意外：超過50%的參數對應的主導方向，用線性預測的效果非常差（R?小于0），有相當一部分甚至更差（R?小于-0.5）。R?是衡量預測質量的指標，R?為1表示預測完美，R?為0表示預測毫無價值，R?為負數則意味著比"直接用平均值來猜"還要糟糕。

這說明參數主導方向的演化路徑本質上是彎曲的，不能用直線來描述。此前那些依賴線性外推的方法，在預測遠期參數時會出現系統性偏差，把模型推向一個偏離最優方向的錯誤狀態。

四、NExt如何工作：一個三步走的預測方案

基于上述兩個發現，研究團隊設計了NExt框架。整個流程可以分為三個階段，下面逐一解釋。

第一階段是"收集訓練軌跡"。用LoRA方法對AI進行RLVR訓練，在前150步中每10步保存一次參數快照，共保存15個檢查點。然后，對相鄰檢查點之間的參數差異、當前檢查點與起點之間的參數差異，以及跨越多步的參數差異，分別進行計算，并對每個差異矩陣提取其秩-1近似（一個數值σ、一列向量u、一行向量v）。這三類差異在論文中分別被稱為"局部差異"、"全局差異"和"目標差異"。

局部差異反映的是模型最近一步的變化趨勢，類似于"最近在往哪個方向走"；全局差異反映的是從訓練起點到現在的累積變化，類似于"總體上已經走了多遠、朝著什么方向"；目標差異則是預測器需要學習的"答案"，代表著未來若干步后參數會變化多少。

經過秩-1壓縮后，每個參數矩陣的差異不再是一張龐大的表格，而是三個向量（u、v和一個標量σ），參數量從O(n×m)降低到了O(n+m)，大幅減少了計算開銷。

第二階段是"訓練軌跡預測器"。預測器是一個相對輕量的神經網絡，采用編碼器-解碼器結構：兩個獨立的編碼器分別處理全局差異和局部差異的向量信息，將它們編碼成隱藏表示；然后將兩個隱藏表示拼接，送入解碼器，輸出預測的目標差異向量。

訓練預測器時，輸入是歷史軌跡中各個檢查點的全局差異和局部差異，輸出目標是對應的目標差異，使用L1損失（絕對值誤差之和）來優化。選擇L1而非L2（均方誤差）的原因是：L2在誤差較小時梯度會變得很小，不利于訓練收斂；L1則不存在這個問題。

為了保證預測質量，研究者還加入了兩個工程細節：對預測出的u和v向量進行歸一化處理（確保它們是單位向量，因為SVD分解得到的奇異向量本來就應該是單位向量）；以及將相同維度的向量批量拼接處理，充分利用GPU的并行計算能力加速訓練和推理。

第三階段是"預測并延伸"。訓練完預測器后，對最后一個檢查點的全局差異和局部差異進行提取，送入預測器得到預測的目標差異向量，重建成預測的差異矩陣?W，然后用公式 W = W + α·?W 更新模型參數，其中α是一個"延伸系數"，默認設置為1.5。

這里的延伸系數起到了"適度放大預測步幅"的作用——預測器預測的是訓練50步后的狀態，乘以α=1.5相當于讓跳躍更遠一些，直接逼近更靠后的訓練效果。得到外推后的模型參數，再從這個新起點繼續做100步RLVR訓練，最終完成整個NExt流程，總計只需250步。

五、實驗結果：數字背后的真實差距

研究團隊在四個不同規模的模型（1.5B、3B、7B、14B參數，均為Qwen2.5系列）上進行了系統測試，評估任務包括五個數學競賽題集：AIME2024、AIME2025、AMC2023、Minerva和OlymMATH（簡單版）。

以7B模型為例，傳統GRPO方法（全參數微調）訓練250步后，五個任務的平均準確率為23.1%，訓練400步后提升到24.0%；使用NExt只需250步，平均準確率達到24.2%，不僅超過了400步全參數訓練，也超過了250步和400步的LoRA訓練（分別為22.1%和23.5%）。

對比同樣做了RLVR參數外推的競爭方法，差距更為明顯。AlphaRL在7B模型上250步訓練后平均準確率只有21.6%，RL-Extra是22.7%，而NExt是24.2%。兩個競爭方法都使用了線性外推策略，實驗結果的差距直接印證了"參數軌跡是彎曲的，線性假設會帶來偏差"這一核心論斷。

研究者還專門引入了一個綜合衡量指標——增量成本效益比（ICER），計算方式是"訓練步數除以性能提升量再乘以100%"，數值越低表示每花一份資源能獲得的性能提升越大。NExt在7B模型上的ICER為49.0，而GRPO全參數250步為62.5、AlphaRL為100.0。

在資源消耗的直接對比上，用4×A800服務器測試，3B模型的GRPO訓練需要18.7小時，NExt只需11.7小時；1.5B模型從12小時降到7.4小時，均實現了約37.5%的時間節省。特別值得注意的是，NExt新引入的SVD計算、預測器訓練和外推操作，在整體時間中占比極小，幾乎可以忽略不計，節省的時間完全來自減少了RLVR訓練步數。

14B模型的表現同樣出色。傳統GRPO400步平均準確率為27.7%，而NExt只需250步就達到28.3%，ICER僅為33.3，是所有方法中效率最高的。

六、穩健性驗證：方法的邊界和適用范圍

一項好的方法必須經得起各種條件下的檢驗，研究團隊為此設計了多組補充實驗。

關于延伸系數α的敏感性，研究者測試了α從0.5到4.0的八個取值。當α在0.5到2.5之間時，模型性能相當穩定，始終好于外推前的狀態，說明方法對這個超參數不敏感；當α超過2.5后，性能開始出現波動，α極大時性能可能下降。這個現象同時也從側面證明了線性外推的局限性：用純線性方法放大步長，不穩定性會隨之迅速增加，而NExt的預測-延伸結構能在一定程度上緩解這個問題。

消融實驗中，研究團隊逐一"拆掉"NExt的不同組件來測試每部分的貢獻。去掉LoRA改用全參數微調（保持其他設置不變），性能明顯下降，證實了LoRA對提升秩-1子空間主導性的實際作用。去掉全局差異（只用局部差異做預測），或者去掉局部差異（只用全局差異），性能都會下降，而且后續再做RLVR訓練也無法完全彌補。這說明兩類信息缺一不可：全局差異提供了訓練積累的方向感，局部差異提供了當前變化的即時信息，二者結合才能準確估計未來的變化趨勢。

關于算法普適性，研究團隊將NExt與兩種不同的RLVR算法（RLOO和REINFORCE++）結合測試。以3B模型為例，RLOO傳統訓練400步平均準確率為27.3%，接入NExt后250步達到28.5%；REINFORCE++傳統400步為26.5%，NExt250步達到27.9%。兩種算法下NExt都表現出同樣的加速效果，證明該方法不依賴于具體RL算法的特性，可以作為通用加速模塊使用。

關于任務遷移能力，研究團隊還在MMLU-Pro（涵蓋生物、商業、化學、計算機科學、經濟、工程、健康、歷史、法律、數學、哲學、物理、心理、其他等14個學科的多選題綜合測試）和GPQA Diamond（研究生級別的科學知識問答）上進行了測試。在MMLU-Pro上，NExt在250步內就能達到GRPO 400步的平均水準，并在多個子領域（如數學、化學、心理學等）超過所有基線方法。在GPQA任務上，NExt在獲得相近甚至更好準確率的同時，GPU小時數明顯低于傳統RLVR，外推步驟本身消耗的算力極小。這些結果表明，NExt的加速效果并不局限于數學推理，可以推廣到更廣泛的知識密集型任務。

七、與同類方法的核心差異

研究團隊在論文中整理了一張對比表，將NExt與其他參數外推方法系統對比。在這之前已經有多種外推方法存在，但它們可以歸為幾類不同的路線。

WSM和MAEC主要用于預訓練階段，前者通過合并多個檢查點的權重來獲得更平穩的優化軌跡，后者專門識別并外推模型中的關鍵神經元，兩者都依賴線性組合。DARE是SFT階段的方法，通過隨機丟棄一部分參數后進行線性外推，降低對原始知識的干擾。Greedy Soup同樣用于SFT，將多個微調版本的參數做線性平均。

專為RLVR設計的AlphaRL和RL-Extra，是NExt最直接的競爭對手。AlphaRL對全參數進行訓練，然后對秩-1子空間進行線性外推；RL-Extra對全參數進行線性外推。兩者的共同缺陷是對線性假設的依賴。ExPO則應用于對齊階段，同樣是全參數的線性外推。

NExt在這張表里的獨特之處體現在兩個維度：訓練時只優化LoRA適配器而非全部參數，外推時使用非線性預測器而非線性公式。這兩個設計分別對應前文所述的兩個核心發現：LoRA能放大秩-1子空間的主導性，非線性預測能更準確地捕捉彎曲的演化軌跡。

說到底，這項研究做的事情用一句話概括就是：以前人們以為AI訓練過程中參數的變化是走直路，所以用尺子量了前幾步，然后順著直線預測終點；NExt發現這條路其實是彎的，于是訓練了一個能感知彎度的預測工具，預測得更準，跳躍的也更遠。

37.5%的時間節省，對個人研究者來說可能意味著幾天的等待變成了幾個小時；對大型研究機構來說，則意味著每次訓練都能節省可觀的電費和算力成本。更重要的是，這套方法揭示了一個此前被忽視的事實：AI在強化學習訓練中，內部參數的變化并非單調線性，而是有著更豐富的非線性結構，這個結構是可以被學習和利用的。

有興趣深入了解技術細節的讀者，可以通過arXiv編號2604.11446查閱完整論文，代碼已在GitHub上的RUCAIBox/NExt倉庫公開發布。

Q&A

Q1：NExt方法的"延伸系數α"設為多少比較合適，太大或太小有什么影響？

A：根據實驗結果，延伸系數α在0.5到2.5之間時，模型性能相當穩定，而且都能好于外推前的狀態。論文中默認使用α=1.5。當α超過2.5后，性能開始出現波動，α極大時模型表現甚至可能變差。這是因為延伸系數本質上是在做線性放大，放大倍數過大時線性外推的不穩定性就會暴露出來。所以實際使用時建議選1.0到2.0之間，不要設得太激進。

Q2：NExt中的"秩-1子空間"為什么能代表參數變化的主要信息？

A：參數差異矩陣經過奇異值分解（SVD）后，會得到一系列按重要性排序的"方向"。秩-1子空間對應其中最重要的那個方向，它的"能量比"（即這個方向的變化量占總變化量的比例）在LoRA訓練過程中會持續升高，表明參數變化越來越集中在這一個方向上。用秩-1近似，參數量從O(n×m)壓縮到O(n+m)，信息損失卻很小，因此既高效又準確。

Q3：NExt適用于哪些AI訓練場景，只能用于數學推理任務嗎？

A：不局限于數學推理。論文在MMLU-Pro（14個學科的綜合知識測試）和GPQA Diamond（研究生級別科學問答）上同樣驗證了NExt的有效性，均能在更少訓練步數內達到傳統方法的效果。此外，NExt也不依賴特定的強化學習算法，與GRPO、RLOO、REINFORCE++都能兼容，屬于通用的訓練加速模塊，理論上可以應用于任何基于RLVR范式的LLM訓練場景。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.