網易首頁 > 網易號 > 正文 申請入駐

中國人民大學團隊找到了讓AI訓練"抄近道"的方法

0
分享至


這項由中國人民大學高嶺人工智能學院與中國礦業大學(北京)聯合開展的研究,以預印本形式于2026年4月發表,論文編號為arXiv:2604.11446。研究的核心問題是:訓練一個強大的推理AI,真的需要一步一步走完全程嗎?

要說清楚這項研究在做什么,先得聊聊AI是怎么"變聰明"的。現在最流行的方法叫做"強化學習"——給AI出一道數學題,讓它自己嘗試,答對了就獎勵,答錯了就懲罰,就這樣反復練習幾百次,AI的解題能力會顯著提升。這個過程有個專業名字叫RLVR(基于可驗證獎勵的強化學習),DeepSeek、OpenAI的o1等近年最火的推理模型,都是靠這套方法練出來的。

問題也隨之而來。這種訓練方式極其耗費計算資源。每一輪練習,AI都要生成大量嘗試性答案,這就像讓一個學生每道題都要寫八份不同的解題草稿,然后才能從中學習——代價驚人。隨著模型越來越大、問題越來越復雜,這筆"學費"正在變得難以承受。

中國人民大學的研究團隊換了一個思路:既然我們能觀察到AI在訓練過程中"參數"(可以理解為AI大腦內部的各種旋鈕和開關)如何變化,能不能根據前幾步的變化趨勢,直接預測未來某步的參數狀態,從而跳過中間大量重復的訓練步驟?

這個想法并非沒有先例。此前已有研究者嘗試過"線性外推"的方法——觀察參數按某個方向變化,然后用直線延伸來預測未來。然而,該團隊在仔細研究了AI訓練過程中參數的實際變化軌跡后發現,這些軌跡根本不是一條直線,而是彎彎曲曲的曲線。依靠畫直線來猜曲線終點,誤差自然難以避免。

基于這個發現,研究團隊提出了一套名為NExt(非線性低秩軌跡外推)的新框架。這套方法的核心思路是:不用直線,改用一個專門訓練的"軌跡預測器"來捕捉參數變化的真實彎曲規律,然后做更準確的預測跳躍。

實驗結果表明,NExt只需要250步訓練,就能達到傳統方法跑400步才能達到的效果,整體訓練時間縮短了約37.5%。對于一個3B參數的模型,訓練時間從18.7小時壓縮到了11.7小時。

一、AI訓練為什么這么"費錢"

理解這項研究的價值,先要理解這個"費錢"到底費在哪里。

當我們讓AI做強化學習時,每訓練一步,大致需要經歷這樣一個循環:給AI出一道題,AI生成多個解答(通常是8個甚至更多),評分系統判斷哪些對哪些錯,然后根據這些結果更新AI的參數,告訴它"這種思路更好,那種思路要避免"。

每次更新參數,AI內部成千上萬個矩陣(可以把每個矩陣想象成一張巨大的數字表格,記錄著神經網絡的連接強度)都會發生微小的改變。一個7B參數的模型,其內部有數以億計的參數需要管理。訓練400步,就意味著要重復這個龐大的循環400次。

計算量最大的環節恰恰是生成答案這一步。生成一個完整的解題過程,AI需要逐字逐詞地輸出,每輸出一個詞都要調用整個模型進行一次計算。生成8份草稿,就是8次這樣的計算。對于能寫出幾百字推理過程的復雜問題,這個代價是相當可觀的。

研究團隊因此提出了一個根本性的問題:這400步訓練是否每一步都不可或缺?參數從起點到終點的變化,是否存在某種可以提前預知的規律,讓我們能夠"預見未來",直接跳到更靠近終點的位置,再從那里繼續訓練?

二、大腦里的"主導方向":低秩子空間究竟是什么

要解釋這項研究,必須先講一個關鍵概念——低秩子空間,尤其是其中最簡單的"秩-1子空間"。

假設AI的某一層參數是一張1000行×1000列的數字表格,共100萬個數。要描述這張表格從訓練前到某個時間點"變化了多少",就需要另一張同樣大小的差值表格(研究中稱為"參數差異矩陣",即?W)。100萬個數,存儲和計算都很麻煩。

數學家很早就發現,很多這樣的差異矩陣具有一個特點:雖然它有100萬個數,但這些數之間有很強的規律性,可以用更少的信息來近似描述。最極端的情況是:整張表格幾乎可以由一列數字和一行數字的乘積來表達——這就是"秩-1近似"。一列1000個數加一行1000個數,只需要2000個數,就能近似還原一張100萬元素的表格,信息壓縮了500倍。

這個"一列一行"所定義的方向,就叫做"秩-1子空間",它代表著參數變化最主要、最集中的那個方向。可以把它理解為:雖然AI的大腦在訓練中有無數細微的調整,但最核心的變化實際上是朝著某一個主導方向在移動。

研究團隊想知道的是:在RLVR訓練過程中,這個主導方向究竟有多"主導"?隨著訓練的進行,它的影響力是在增強還是減弱?它的變化規律是直線還是曲線?

三、兩個關鍵發現:LoRA讓主導方向更強,但軌跡是彎曲的

研究團隊做了一系列實驗來回答上面的問題,得出了兩個重要結論,這兩個結論共同構成了NExt方法的理論基礎。

第一個發現關于"主導方向有多強"。研究者用一個叫做"能量比"的指標來衡量這個主導方向的影響力——簡單說,就是這個主導方向的變化量,占到參數總變化量的百分比。如果這個比例接近100%,說明參數變化幾乎全部集中在一個方向上,低秩近似非常精準;如果接近0%,說明變化非常分散,低秩近似誤差會很大。

實驗發現,在訓練早期,這個能量比會逐漸升高——說明隨著訓練推進,參數變化越來越集中。更重要的是,當使用一種叫做LoRA(低秩適配)的參數高效微調方法時,這個能量比會比全參數微調高得多。

LoRA是一種訓練技巧:不直接修改模型的全部參數,而是在原始參數旁邊附加一個小的"適配器"(兩個小矩陣的乘積),只訓練這個小適配器。因為適配器本身結構就是低秩的,所以用LoRA訓練出來的參數變化,天然就會更集中在低秩方向上。這就像用一支筆在紙上寫字,筆跡會自然地集中在某些筆畫方向上,而不是隨機涂抹。

這個發現意味著:用LoRA做RLVR訓練,參數變化會更容易被低秩近似所捕捉,后續的預測工作因此更準確。

第二個發現關于"主導方向如何隨時間變化"。研究者用前10個檢查點(訓練過程中定期保存的參數快照)來預測后5個檢查點的主導方向,使用的是最簡單的線性回歸——也就是假設變化是勻速直線運動,根據過去的軌跡畫一條直線推測未來。

結果令人意外:超過50%的參數對應的主導方向,用線性預測的效果非常差(R?小于0),有相當一部分甚至更差(R?小于-0.5)。R?是衡量預測質量的指標,R?為1表示預測完美,R?為0表示預測毫無價值,R?為負數則意味著比"直接用平均值來猜"還要糟糕。

這說明參數主導方向的演化路徑本質上是彎曲的,不能用直線來描述。此前那些依賴線性外推的方法,在預測遠期參數時會出現系統性偏差,把模型推向一個偏離最優方向的錯誤狀態。

四、NExt如何工作:一個三步走的預測方案

基于上述兩個發現,研究團隊設計了NExt框架。整個流程可以分為三個階段,下面逐一解釋。

第一階段是"收集訓練軌跡"。用LoRA方法對AI進行RLVR訓練,在前150步中每10步保存一次參數快照,共保存15個檢查點。然后,對相鄰檢查點之間的參數差異、當前檢查點與起點之間的參數差異,以及跨越多步的參數差異,分別進行計算,并對每個差異矩陣提取其秩-1近似(一個數值σ、一列向量u、一行向量v)。這三類差異在論文中分別被稱為"局部差異"、"全局差異"和"目標差異"。

局部差異反映的是模型最近一步的變化趨勢,類似于"最近在往哪個方向走";全局差異反映的是從訓練起點到現在的累積變化,類似于"總體上已經走了多遠、朝著什么方向";目標差異則是預測器需要學習的"答案",代表著未來若干步后參數會變化多少。

經過秩-1壓縮后,每個參數矩陣的差異不再是一張龐大的表格,而是三個向量(u、v和一個標量σ),參數量從O(n×m)降低到了O(n+m),大幅減少了計算開銷。

第二階段是"訓練軌跡預測器"。預測器是一個相對輕量的神經網絡,采用編碼器-解碼器結構:兩個獨立的編碼器分別處理全局差異和局部差異的向量信息,將它們編碼成隱藏表示;然后將兩個隱藏表示拼接,送入解碼器,輸出預測的目標差異向量。

訓練預測器時,輸入是歷史軌跡中各個檢查點的全局差異和局部差異,輸出目標是對應的目標差異,使用L1損失(絕對值誤差之和)來優化。選擇L1而非L2(均方誤差)的原因是:L2在誤差較小時梯度會變得很小,不利于訓練收斂;L1則不存在這個問題。

為了保證預測質量,研究者還加入了兩個工程細節:對預測出的u和v向量進行歸一化處理(確保它們是單位向量,因為SVD分解得到的奇異向量本來就應該是單位向量);以及將相同維度的向量批量拼接處理,充分利用GPU的并行計算能力加速訓練和推理。

第三階段是"預測并延伸"。訓練完預測器后,對最后一個檢查點的全局差異和局部差異進行提取,送入預測器得到預測的目標差異向量,重建成預測的差異矩陣?W,然后用公式 W = W + α·?W 更新模型參數,其中α是一個"延伸系數",默認設置為1.5。

這里的延伸系數起到了"適度放大預測步幅"的作用——預測器預測的是訓練50步后的狀態,乘以α=1.5相當于讓跳躍更遠一些,直接逼近更靠后的訓練效果。得到外推后的模型參數,再從這個新起點繼續做100步RLVR訓練,最終完成整個NExt流程,總計只需250步。

五、實驗結果:數字背后的真實差距

研究團隊在四個不同規模的模型(1.5B、3B、7B、14B參數,均為Qwen2.5系列)上進行了系統測試,評估任務包括五個數學競賽題集:AIME2024、AIME2025、AMC2023、Minerva和OlymMATH(簡單版)。

以7B模型為例,傳統GRPO方法(全參數微調)訓練250步后,五個任務的平均準確率為23.1%,訓練400步后提升到24.0%;使用NExt只需250步,平均準確率達到24.2%,不僅超過了400步全參數訓練,也超過了250步和400步的LoRA訓練(分別為22.1%和23.5%)。

對比同樣做了RLVR參數外推的競爭方法,差距更為明顯。AlphaRL在7B模型上250步訓練后平均準確率只有21.6%,RL-Extra是22.7%,而NExt是24.2%。兩個競爭方法都使用了線性外推策略,實驗結果的差距直接印證了"參數軌跡是彎曲的,線性假設會帶來偏差"這一核心論斷。

研究者還專門引入了一個綜合衡量指標——增量成本效益比(ICER),計算方式是"訓練步數除以性能提升量再乘以100%",數值越低表示每花一份資源能獲得的性能提升越大。NExt在7B模型上的ICER為49.0,而GRPO全參數250步為62.5、AlphaRL為100.0。

在資源消耗的直接對比上,用4×A800服務器測試,3B模型的GRPO訓練需要18.7小時,NExt只需11.7小時;1.5B模型從12小時降到7.4小時,均實現了約37.5%的時間節省。特別值得注意的是,NExt新引入的SVD計算、預測器訓練和外推操作,在整體時間中占比極小,幾乎可以忽略不計,節省的時間完全來自減少了RLVR訓練步數。

14B模型的表現同樣出色。傳統GRPO400步平均準確率為27.7%,而NExt只需250步就達到28.3%,ICER僅為33.3,是所有方法中效率最高的。

六、穩健性驗證:方法的邊界和適用范圍

一項好的方法必須經得起各種條件下的檢驗,研究團隊為此設計了多組補充實驗。

關于延伸系數α的敏感性,研究者測試了α從0.5到4.0的八個取值。當α在0.5到2.5之間時,模型性能相當穩定,始終好于外推前的狀態,說明方法對這個超參數不敏感;當α超過2.5后,性能開始出現波動,α極大時性能可能下降。這個現象同時也從側面證明了線性外推的局限性:用純線性方法放大步長,不穩定性會隨之迅速增加,而NExt的預測-延伸結構能在一定程度上緩解這個問題。

消融實驗中,研究團隊逐一"拆掉"NExt的不同組件來測試每部分的貢獻。去掉LoRA改用全參數微調(保持其他設置不變),性能明顯下降,證實了LoRA對提升秩-1子空間主導性的實際作用。去掉全局差異(只用局部差異做預測),或者去掉局部差異(只用全局差異),性能都會下降,而且后續再做RLVR訓練也無法完全彌補。這說明兩類信息缺一不可:全局差異提供了訓練積累的方向感,局部差異提供了當前變化的即時信息,二者結合才能準確估計未來的變化趨勢。

關于算法普適性,研究團隊將NExt與兩種不同的RLVR算法(RLOO和REINFORCE++)結合測試。以3B模型為例,RLOO傳統訓練400步平均準確率為27.3%,接入NExt后250步達到28.5%;REINFORCE++傳統400步為26.5%,NExt250步達到27.9%。兩種算法下NExt都表現出同樣的加速效果,證明該方法不依賴于具體RL算法的特性,可以作為通用加速模塊使用。

關于任務遷移能力,研究團隊還在MMLU-Pro(涵蓋生物、商業、化學、計算機科學、經濟、工程、健康、歷史、法律、數學、哲學、物理、心理、其他等14個學科的多選題綜合測試)和GPQA Diamond(研究生級別的科學知識問答)上進行了測試。在MMLU-Pro上,NExt在250步內就能達到GRPO 400步的平均水準,并在多個子領域(如數學、化學、心理學等)超過所有基線方法。在GPQA任務上,NExt在獲得相近甚至更好準確率的同時,GPU小時數明顯低于傳統RLVR,外推步驟本身消耗的算力極小。這些結果表明,NExt的加速效果并不局限于數學推理,可以推廣到更廣泛的知識密集型任務。

七、與同類方法的核心差異

研究團隊在論文中整理了一張對比表,將NExt與其他參數外推方法系統對比。在這之前已經有多種外推方法存在,但它們可以歸為幾類不同的路線。

WSM和MAEC主要用于預訓練階段,前者通過合并多個檢查點的權重來獲得更平穩的優化軌跡,后者專門識別并外推模型中的關鍵神經元,兩者都依賴線性組合。DARE是SFT階段的方法,通過隨機丟棄一部分參數后進行線性外推,降低對原始知識的干擾。Greedy Soup同樣用于SFT,將多個微調版本的參數做線性平均。

專為RLVR設計的AlphaRL和RL-Extra,是NExt最直接的競爭對手。AlphaRL對全參數進行訓練,然后對秩-1子空間進行線性外推;RL-Extra對全參數進行線性外推。兩者的共同缺陷是對線性假設的依賴。ExPO則應用于對齊階段,同樣是全參數的線性外推。

NExt在這張表里的獨特之處體現在兩個維度:訓練時只優化LoRA適配器而非全部參數,外推時使用非線性預測器而非線性公式。這兩個設計分別對應前文所述的兩個核心發現:LoRA能放大秩-1子空間的主導性,非線性預測能更準確地捕捉彎曲的演化軌跡。

說到底,這項研究做的事情用一句話概括就是:以前人們以為AI訓練過程中參數的變化是走直路,所以用尺子量了前幾步,然后順著直線預測終點;NExt發現這條路其實是彎的,于是訓練了一個能感知彎度的預測工具,預測得更準,跳躍的也更遠。

37.5%的時間節省,對個人研究者來說可能意味著幾天的等待變成了幾個小時;對大型研究機構來說,則意味著每次訓練都能節省可觀的電費和算力成本。更重要的是,這套方法揭示了一個此前被忽視的事實:AI在強化學習訓練中,內部參數的變化并非單調線性,而是有著更豐富的非線性結構,這個結構是可以被學習和利用的。

有興趣深入了解技術細節的讀者,可以通過arXiv編號2604.11446查閱完整論文,代碼已在GitHub上的RUCAIBox/NExt倉庫公開發布。

Q&A

Q1:NExt方法的"延伸系數α"設為多少比較合適,太大或太小有什么影響?

A:根據實驗結果,延伸系數α在0.5到2.5之間時,模型性能相當穩定,而且都能好于外推前的狀態。論文中默認使用α=1.5。當α超過2.5后,性能開始出現波動,α極大時模型表現甚至可能變差。這是因為延伸系數本質上是在做線性放大,放大倍數過大時線性外推的不穩定性就會暴露出來。所以實際使用時建議選1.0到2.0之間,不要設得太激進。

Q2:NExt中的"秩-1子空間"為什么能代表參數變化的主要信息?

A:參數差異矩陣經過奇異值分解(SVD)后,會得到一系列按重要性排序的"方向"。秩-1子空間對應其中最重要的那個方向,它的"能量比"(即這個方向的變化量占總變化量的比例)在LoRA訓練過程中會持續升高,表明參數變化越來越集中在這一個方向上。用秩-1近似,參數量從O(n×m)壓縮到O(n+m),信息損失卻很小,因此既高效又準確。

Q3:NExt適用于哪些AI訓練場景,只能用于數學推理任務嗎?

A:不局限于數學推理。論文在MMLU-Pro(14個學科的綜合知識測試)和GPQA Diamond(研究生級別科學問答)上同樣驗證了NExt的有效性,均能在更少訓練步數內達到傳統方法的效果。此外,NExt也不依賴特定的強化學習算法,與GRPO、RLOO、REINFORCE++都能兼容,屬于通用的訓練加速模塊,理論上可以應用于任何基于RLVR范式的LLM訓練場景。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
章子怡這張照片真的有點嚇到我了!就是后面那些墻壁

章子怡這張照片真的有點嚇到我了!就是后面那些墻壁

科學發掘
2026-04-21 00:17:28
你信與不信,女性過了55,基本都有如下五個方面的需求

你信與不信,女性過了55,基本都有如下五個方面的需求

熱心市民小黃
2026-04-21 18:41:29
伊朗萬噸大船無視封鎖線,美軍下令開火,特朗普暴怒,英法德失聲

伊朗萬噸大船無視封鎖線,美軍下令開火,特朗普暴怒,英法德失聲

幾人盡棄
2026-04-21 17:03:51
我的天哪,劉亦菲還穿過這么暴露的衣服啊

我的天哪,劉亦菲還穿過這么暴露的衣服啊

阿廢冷眼觀察所
2026-04-16 01:13:12
特朗普:伊朗已多次違反停火協議

特朗普:伊朗已多次違反停火協議

瀟湘晨報
2026-04-21 19:46:22
只為演好春麗!《街霸》女演員狂吃牛排"增肌大腿"

只為演好春麗!《街霸》女演員狂吃牛排"增肌大腿"

游民星空
2026-04-21 11:51:12
歷史性突破!人民幣石油結算躍居全球第二。

歷史性突破!人民幣石油結算躍居全球第二。

流蘇晚晴
2026-04-16 19:08:19
空軍全軍覆沒?伊朗突亮地下底牌!美以傻眼了,就這樣被騙幾十億

空軍全軍覆沒?伊朗突亮地下底牌!美以傻眼了,就這樣被騙幾十億

健身狂人
2026-04-22 00:14:10
庫克將要轉任的執行董事長是什么職務?

庫克將要轉任的執行董事長是什么職務?

少數派sspai
2026-04-21 20:22:08
市場上這5種魚,目前無法人工養殖,都是野生魚,肉厚刺少營養高

市場上這5種魚,目前無法人工養殖,都是野生魚,肉厚刺少營養高

秀廚娘
2026-04-15 10:25:17
伊朗自亂陣腳!外交和軍方各干各的,美軍已登船

伊朗自亂陣腳!外交和軍方各干各的,美軍已登船

知兵
2026-04-22 00:51:29
美國敢抓馬杜羅、敢炸哈梅內伊,為什么偏偏不敢動金正恩?

美國敢抓馬杜羅、敢炸哈梅內伊,為什么偏偏不敢動金正恩?

賤議你讀史
2026-04-12 21:40:28
賴清德不裝了、馬英九暴露真面目!國民黨發甲級動員,要決一死戰

賴清德不裝了、馬英九暴露真面目!國民黨發甲級動員,要決一死戰

悄悄史話
2026-04-20 21:02:03
1950年志愿軍摸進美軍炮兵陣地,發現24門重炮,營長當場違抗命令

1950年志愿軍摸進美軍炮兵陣地,發現24門重炮,營長當場違抗命令

鑒史錄
2026-04-09 20:22:15
賽季打完,5位小角色打出身價:阿夫頂薪了,小里拒絕肥約賭對了

賽季打完,5位小角色打出身價:阿夫頂薪了,小里拒絕肥約賭對了

大西體育
2026-04-20 23:32:49
接受審判!小S坦言后悔發起日本旅行害死姐姐 錯過3次機會拯救她

接受審判!小S坦言后悔發起日本旅行害死姐姐 錯過3次機會拯救她

娛樂小丸子
2026-04-21 14:07:10
深夜突發!美股三大指數全線轉跌,中國金龍指數下挫2%,中概股集體下跌,黃金白銀跳水,油價直線拉升|盤中速報

深夜突發!美股三大指數全線轉跌,中國金龍指數下挫2%,中概股集體下跌,黃金白銀跳水,油價直線拉升|盤中速報

每日經濟新聞
2026-04-22 00:16:06
廣東一餐廳被曝用腳洗碗,當地市場監管部門回應:屬實,已立案調查

廣東一餐廳被曝用腳洗碗,當地市場監管部門回應:屬實,已立案調查

大象新聞
2026-04-21 22:47:10
中國第一大汽車廠商易主:一季度零售銷量52.63萬輛,超過比亞迪

中國第一大汽車廠商易主:一季度零售銷量52.63萬輛,超過比亞迪

火星人雜談
2026-04-20 21:05:39
姐夫手術我墊50萬,他們不提還錢,今年他二次病危,姐撥99通電話

姐夫手術我墊50萬,他們不提還錢,今年他二次病危,姐撥99通電話

千秋文化
2026-04-20 19:48:09
2026-04-22 04:52:49
科技行者 incentive-icons
科技行者
科技正在如何變革商業世界
8088文章數 562關注度
往期回顧 全部

科技要聞

創造4萬億帝國、訪華20次,庫克留下了什么

頭條要聞

三國取消飛航許可 賴清德無法竄訪斯威士蘭

頭條要聞

三國取消飛航許可 賴清德無法竄訪斯威士蘭

體育要聞

一到NBA季后賽,四屆DPOY就成了主角

娛樂要聞

宋承炫曬寶寶B超照,宣布老婆懷孕

財經要聞

現實是最大的荒誕:千億平臺的沖突始末

汽車要聞

全新坦克700正式上市 售價42.8萬-50.8萬元

態度原創

家居
旅游
手機
數碼
軍事航空

家居要聞

詩意光影 窺見自然之境

旅游要聞

京城今春“濱水+”玩法迭代

手機要聞

iOS 26.5 Beta 3新版體驗:改進解鎖流暢度,信號也變好了?

數碼要聞

大疆DJI Mic Mini 2發布:329元起 可更換麥克風磁吸前蓋

軍事要聞

特朗普公開對伊開戰真正原因

無障礙瀏覽 進入關懷版