網易首頁 > 網易號 > 正文 申請入駐

LLM 僅靠自身就能增強推理?SePT 給出簡潔在線自訓練范式

0
分享至



本文第一作者李夢琦為香港中文大學(深圳)計算機科學專業博士生。本項研究是與上海交通大學趙磊老師、香港中文大學蘇文藻老師合作,并在香港中文大學(深圳)孫若愚老師與李肖老師的共同指導下完成。

在推理后訓練里,多數方法仍依賴獎勵模型、驗證器或額外教師信號。如果不依賴這些外部信號,只使用模型自身生成的答案進行自訓練,是否仍然能夠提升推理能力?是的!SePT(Self-evolving Post-Training)給出肯定答案,簡潔的自訓練方法,可在數學推理任務準確率直升10個點!



  • 論文標題:A Model Can Help Itself: Reward-Free Self-Training for LLM Reasoning
  • 論文:https://arxiv.org/pdf/2510.18814
  • 代碼:https://github.com/ElementQi/SePT



SePT的在線自訓練循環示意:樣本以采樣溫度 τ_s 生成,訓練階段采用標準 SFT;下一輪訓練數據由更新后的模型生成。

如流程圖所示,SePT 的核心極其簡潔:當前模型先生成答案,再用這些答案做標準 SFT,隨后由更新后的模型重新生成下一輪訓練數據。下面先看這種在線循環自訓練到底帶來了多少提升。

數學推理上的結果:SePT vs Baseline

主結果如圖所示。這里的 baseline 并非默認采樣設置下直接評測的基座模型,而是未做后訓練、但在推理階段經過 temperature sweep 并取最佳結果的強基線。經過 SePT 自訓練后, 在 6 個數學基準測試集平均后的 Pass@1、Pass@8、Pass@32 和 AVG 上均有明顯提升。



在 Qwen2.5-Math-7B 上,6 個數學基準測試集平均后的 Pass@1、Pass@8、Pass@32 和 AVG:SePT 在各項指標上均明顯高于上述 baseline。

數學推理上的結果:SePT vs RLVR

如果進一步與 RLVR 方法( GRPO) 比較,可以看到:自訓練方法SePT 已經能夠取得與 GRPO 較為接近的結果,尤其是在OTM數據集上。

結合表中的結果,在 Qwen2.5-Math-7B 上,使用 OTM 時,SePT 和 GRPO 的 AVG 分別為 55.2 和 56.6,差距只有 1.4;而在 DSR 上,這一差距擴大為 4.1(55.0 vs. 59.1)。在 DeepSeek-Math-7B-Instruct 上,同樣的差距分別為 0.4(33.0 vs. 33.4)和 1.7(33.9 vs. 35.6)。甚至在 Qwen2.5-Math-7B 的 OTM 設置下,SePT 的 Pass@1 還略高于 GRPO(40.8 vs. 39.5)。

這些結果說明,在本文的比較設置下,SePT 對訓練題集選擇表現出更小的波動,而 GRPO 在 DSR 上的增益更明顯。



OpenThoughts-Math(OTM)和 DeepScaleR(DSR)在 Qwen2.5-Math-7B 與 DeepSeek-Math-7B-Instruct 上的平均基準比較。兩套訓練題集規模相近。Δ 表示 DSR 相對 OTM 的變化,陰影標出 DSR 至少高出 OTM 2.0 分的情形。

SePT 算法具體流程

SePT 有著極其簡潔的自訓練框架設計,可以概括為以下三個步驟:



這一設計的關鍵可概括為:溫度解耦、標準SFT訓練,最新模型自生成數據。







SePT 中的在線自生成數據

本文進一步通過消融實驗驗證了這一設計的重要性:如果將“由最新模型逐輪生成下一輪訓練數據”改為固定數據訓練,性能會明顯下降。以 Qwen2.5-Math-7B 為例,SePT (Offline) 的 AVG 為 45.5,而在線版本的 SePT 可達到 55.0。



SePT 與 SePT (Offline) 在 Qwen2.5-Math-7B 上的比較,括號中的數值表示相對 baseline 的變化。

SePT 中的溫度解耦



為什么這件事重要?本文的定理一給出了一個直觀的理論論證





這一點在實驗上也被直接驗證了。以 Qwen2.5-Math-7B 為例,若使用 temperature coupling,Pass@1/Pass@8/Pass@32/AVG 只有 19.3/50.1/64.3/44.6,Pass@1 甚至低于 baseline;而采用 decoupling 后,四項指標可以提升到 39.5/57.7/67.9/55.0。

也就是說,SePT 里“低溫生成 + 標準 SFT”對于數學推理的提升并不是一個經驗 trick,而是理論與實驗都支持的重要設計。



Qwen2.5-Math-7B 在溫度耦合與解耦方案下的對比。括號內數值表示方法值與基準值的差(Method?Baseline)。





Pass@1、Pass@8、Pass@32 以及 AVG 在基座模型上隨采樣溫度變化的結果。

自訓練是否會損害模型通用能力?

模型的一般能力會不會因為只在數學自生成軌跡上繼續訓練而受損?本文在 Qwen2.5-Math-7B 上的一組 general-domain benchmark正面回答了這一問題,測試基準包括 IFEval、BBH、GPQA、MuSR 和 MMLU-Pro。結果基本是幾乎不掉:基礎模型分別為 23.4/47.5/29.9/41.4/32.1,SePT 為 23.6/47.3/30.6/41.5/32.2。也就是說,SePT 在 IFEval、GPQA、MuSR、MMLU-Pro 上都有輕微提升,BBH 基本不變;GRPO 也呈現了類似模式。這表明SePT自訓練方法不會明顯損害模型的通用能力。



Qwen2.5-Math-7B 基座模型及其 SePT、GRPO 訓練版本在通用領域的評測結果。

代碼簡單可用



特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
笑麻了!長大了竟然能理解反派了,網友:現在真的能共情容嬤嬤

笑麻了!長大了竟然能理解反派了,網友:現在真的能共情容嬤嬤

夜深愛雜談
2026-04-21 20:11:53
難怪特朗普對伊朗慫了,美國情報部門評估結果出爐,確實沒法打了

難怪特朗普對伊朗慫了,美國情報部門評估結果出爐,確實沒法打了

溫讀史
2026-04-22 00:27:49
內塔尼亞胡計劃訪問匈牙利,匈當選總理:他入境就會被抓!

內塔尼亞胡計劃訪問匈牙利,匈當選總理:他入境就會被抓!

每日經濟新聞
2026-04-21 18:39:15
沒有上場時限!杜蘭特今日復出帶傷戰湖人:力爭率火箭扳平總比分

沒有上場時限!杜蘭特今日復出帶傷戰湖人:力爭率火箭扳平總比分

羅說NBA
2026-04-22 09:17:00
劉少奇位次何以反超周恩來?長征殘兵營里死守一張底牌

劉少奇位次何以反超周恩來?長征殘兵營里死守一張底牌

人生錄
2026-04-21 20:24:11
助攻基因!22歲曼城新核碾壓全歐中場,藍月亮3650萬歐撿漏新梅西

助攻基因!22歲曼城新核碾壓全歐中場,藍月亮3650萬歐撿漏新梅西

體壇老球迷
2026-04-22 11:48:46
唐伯虎真跡現身美國,世上僅此一件,網友:讓當代書家汗顏

唐伯虎真跡現身美國,世上僅此一件,網友:讓當代書家汗顏

幸福娃3790
2025-12-04 11:10:09
周潤發也沒想到,梁家輝5奪影帝后說的一番話,幫他實現口碑暴漲

周潤發也沒想到,梁家輝5奪影帝后說的一番話,幫他實現口碑暴漲

天馬幸福的人生
2026-04-21 21:59:31
雷迪克:戰績波動影響了東契奇沖擊MVP,但大部分原因來自媒體

雷迪克:戰績波動影響了東契奇沖擊MVP,但大部分原因來自媒體

林子說事
2026-04-22 10:21:49
政治上封殺,文化上封神

政治上封殺,文化上封神

最愛歷史
2026-04-20 13:07:36
暴利時代!SK海力士人均發610萬獎金!

暴利時代!SK海力士人均發610萬獎金!

中國半導體論壇
2026-04-21 21:16:46
YSL“露腚裝”惹爭議,比巴黎世家還炸裂!

YSL“露腚裝”惹爭議,比巴黎世家還炸裂!

互聯網品牌官
2026-04-21 19:11:35
雖遠必誅!22歲中國女孩被日籍男尿澆頭,中領事館重拳出擊太解氣

雖遠必誅!22歲中國女孩被日籍男尿澆頭,中領事館重拳出擊太解氣

愛寫的櫻桃
2026-04-21 14:17:45
李亞鵬官宣!嫣然醫院告別14年租房,新院區地理位置優越

李亞鵬官宣!嫣然醫院告別14年租房,新院區地理位置優越

王楔曉
2026-04-21 04:42:47
河北一地用“冰紅茶”澆灌農作物 已持續幾年 自己不吃售賣

河北一地用“冰紅茶”澆灌農作物 已持續幾年 自己不吃售賣

原某報記者
2026-04-21 17:49:54
鄭麗文決心赴美,是兩頭下注還是真求和平?為什么賴清德怕了?

鄭麗文決心赴美,是兩頭下注還是真求和平?為什么賴清德怕了?

近史博覽
2026-04-22 02:05:10
健身房被罵后續:正臉照被扒,女子追到樓下繼續罵 揚言什么都不怕

健身房被罵后續:正臉照被扒,女子追到樓下繼續罵 揚言什么都不怕

削桐作琴
2026-04-21 17:14:02
DPOY冤案?場均13板3帽,連續3年防守效率聯盟第1!巔峰賽季0選票

DPOY冤案?場均13板3帽,連續3年防守效率聯盟第1!巔峰賽季0選票

阿浪的籃球故事
2026-04-21 16:05:11
祭拜鬼社當天,日本發出崩潰預警,美歐視而不見,中國不再伸援手

祭拜鬼社當天,日本發出崩潰預警,美歐視而不見,中國不再伸援手

阿傖說事
2026-04-22 10:54:35
浙江男子去世,信用卡欠5.8萬,銀行要求其妻女償還,女兒:你們先證明他是我爸!

浙江男子去世,信用卡欠5.8萬,銀行要求其妻女償還,女兒:你們先證明他是我爸!

吃貨的分享
2026-04-22 07:14:38
2026-04-22 13:35:00
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
12829文章數 142633關注度
往期回顧 全部

科技要聞

凌晨突發!ChatGPT Images 2.0發布

頭條要聞

KTV服務員被指強奸14歲女生 官方通報

頭條要聞

KTV服務員被指強奸14歲女生 官方通報

體育要聞

一到NBA季后賽,四屆DPOY就成了主角

娛樂要聞

復婚無望!baby黃曉明陪小海綿零交流

財經要聞

伊朗拒絕出席 特朗普宣布延長停火期限

汽車要聞

四款全球首秀+AI落地 大眾汽車集團在華轉型全面提速

態度原創

時尚
藝術
旅游
數碼
公開課

頂流復工,已判若兩人

藝術要聞

無花不風景

旅游要聞

赴東阿之約 品千年膠香——解鎖寶藏小城春日限定美好

數碼要聞

官宣!追覓硅谷發布會定檔,4月27日-30日登陸北美

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版