无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

大模型越訓越自信,卻越采不到新解?LED給LRM找回探索上限

0
分享至



本文一作為中國人民大學高瓴人工智能學院博士生譚文輝,師從宋睿華長聘副教授,研究方向為大模型推理與交互,預計 2027 年畢業。譚文輝在讀期間以第一作者身份在 ICLR、NeurIPS、ICML、CVPR 等會議共發表六篇論文,并獲得過 MMM 2025 Best Paper。

近一年,大型推理模型(Large Reasoning Models,LRMs)在數學競賽、代碼生成、科學問答等高難度任務上取得了令人印象深刻的進展。

從 OpenAI o1、DeepSeek-R1 到 Qwen3、MiMo,這一輪提升主要歸功于兩大引擎:(1)讓模型在 標簽里進行長鏈路的思考;(2)用以 GRPO 為代表的強化學習(RL)算法進行后訓練,把 pass@1 (平均正確率)推上去。

然而,pass@1 提高的同時,一個反常的現象正在出現:把解碼時的采樣溫度調高,模型的 pass@n (多次嘗試的上限正確率)不再隨之改善,有時甚至更差。這意味著:模型在單次采樣里更加「自信」,但在多次嘗試中「探索」新解的能力卻坍縮了。對于代碼生成、定理證明、數學競賽等「只要采到一次正解就判對」的任務,這種坍縮直接拉低了模型的真實能力上限。

在最新被 ICML 2026 接收的工作中,來自中國人民大學高瓴人工智能學院、小米 MiLM Plus 等單位的研究團隊提出了Latent Exploration Decoding(LED)。這是一種無需任何額外訓練的解碼策略,它從 LRM 內部的中間層恢復被 RL 壓扁的熵,將探索從最后一層重新搬到潛在空間。在 5 個模型與 6 個推理基準上,LED 一致地把 pass@1 與 pass@16 平均提升了 0.61 與 1.03 個百分點,并且把 GRPO 的 rollout 也變得更高效。



  • 論文標題:Restoring Exploration after Post-Training: Latent Exploration Decoding for Large Reasoning Models
  • 作者列表:Wenhui Tan,Fiorenzo Parascandolo,Enver Sangineto,Jianzhong Ju,Zhenbo Luo,Qian Cao,Rita Cucchiara,Ruihua Song,Jian Luan
  • 論文鏈接:https://arxiv.org/pdf/2602.01698
  • 代碼鏈接:https://github.com/AlbertTan404/LED

下圖為 Qwen3-4B-Thinking 在 AIME 2025 數據集上使用常規解碼(CoT)與本文提出的 LED 的案例研究。



一、問題發現:最后一層熵被 RL 后訓練壓扁



在相對更早的一代 LLM 上,調高采樣溫度幾乎是改善多次采樣表現核心方法。從 0.1 到 0.6,模型在解碼時更愿意探索其他可能性,pass@n 順勢升高。研究團隊用了一個簡單的指標來量化這種行為,叫作accuracy-temperature slope (alpha):把 pass@1 到 pass@16 在不同溫度下的準確率擬合成一個平面,平面沿溫度方向的斜率就是 alpha。alpha 越大,說明提高溫度對模型探索的正向激勵越高。

在 QwQ-32B、DeepSeek-R1-Distill-Llama-8B(早期思考模型)以及 Qwen3-4B-Instruct (非思考模型)上,alpha 都是正數。但到了最近一代 LRMs 上,alpha 開始接近零,甚至變成負數:在 Qwen3-4B-Thinking、Qwen3-30B-A3B-Thinking、MiMo-7B-RL 上,提高溫度并不能更高的 pass@n。

團隊從廣泛使用的 RL 后訓練算法 GRPO 出發給出了一個機制性的解釋:GRPO 在一個 group 內只獎勵「整段輸出是否正確」這一稀疏信號,于是真正承擔學習壓力的是少數分枝 token,也就是那些一旦選錯、整條推理就跑偏的關鍵位置。RL 反復把 token 預測概率推向「成功分支」,最終把這幾個關鍵位置的分布壓成接近 one-hot 的尖峰,即「熵坍縮」。因此,在這些模型上調高溫度本質上只是 「把一座單峰的高山變扁平」,并不會重新長出第二座山,即可能的另一條探索路徑。

二、關鍵觀察:熵保留在中間層



如果最后一層輸出已經坍縮了,模型還有探索能力嗎?團隊把視線轉向了 LLM 內部。

得益于 Transformer 的層間殘差連接,每一層的隱狀態都可以直接通過 LM-Head 得到一組詞表分布,即 LLM 早退 (early exit)。研究團隊系統統計了 LRMs 各層早退后的分布熵,發現了一個非常清晰的趨勢:早期與中間層保留著相當高的熵,而進入末幾層,熵急劇下降,到最后一層幾乎收斂到 0。

這意味著,模型在中間層還沒「拿定主意」,候選詞之間的概率分布相對平緩。也就是說,RL 雖然把最后一層壓扁了,但其算法本身對中間層的影響是間接的,所以這些中間層就像一片仍然蘊含「不確定性」的熵礦,是探索得以重啟的入口。

這一觀察回答了「溫度為什么不靈」的問題:溫度僅作用在最后一層已坍縮的分布上,無論怎么放縮,也補不回已經丟失的概率質量。要恢復探索,就必須把目光移到中間層。

三、提出方法:聚合中間層早退概率



LED 的核心很樸素:在解碼時,把中間層的分布也算進來,構造出一個最具探索價值的分布來采樣。但要讓這件事真正可用,團隊解決了三個具體問題。

第一,避免在詞表噪聲里探索。

中間層雖然熵高,但很多概率質量其實分布在與上下文無關的稀有詞上,直接采樣會讓模型胡言亂語。研究團隊對每一層的詞表分布做了一項 top-k 覆蓋率分析:把最后一層 top-k 的候選詞固定下來,看每一層中間分布給這些候選詞分配了多少概率。結果顯示,最后一層的 top-1 概率往往超過 90%,top-2 超過 99%,幾乎是 one-hot;而中間層在這些候選上的覆蓋率則平滑地從低到高過渡。LED 由此得到一個干凈的設計:只在「最后一層認可」的 top-k 候選詞上做探索,避免引入無意義的詞,也保證了最終生成的連貫性。

第二,跨層信息聚合。

直覺做法是給每一層一個權重做加權平均,但這要面對模型大小、深度差異等導致的超參敏感問題。LED 選擇了一種沒有超參的方式:從最后一層向更淺的層做累加(cumulative sum),每加進一層就得到一種聚合分布;然后對每一種聚合分布計算熵,挑出熵最高的那一種作為最終的「探索分布」。這相當于讓模型自己決定使用多深的潛在變量來拿到最有價值的探索信號,整個流程沒有手工調參。

第三,平衡探索 - 利用。

推理過程中并不是每一步都需要探索:很多 token 是高度確定的(比如標點符號),強行進行探索化反而會破壞推理。LED 用一個簡單直接的方法解決這個問題:最后一層 top-1 的概率本身就是模型的「自信度」。若 top-1 概率非常高,說明此處該走「利用」路線,直接按常規解碼;若 top-1 概率相對比較低,說明此處是分支點,啟用潛在探索分布去采樣。這一判據無須設閾值,也同樣沒有引入沒有超參數。

更進一步,LED 把這套機制限定在思考階段。論文統計了 LRM 在思考與回答兩段的行為,發現思考階段消耗了超過 90% 的 token、熵也明顯更高。而進入回答階段后,模型應當跟隨已經形成的思路,不再適合「再探索一條路」。LED 在回答階段自動退化為常規解碼,避免對最終答案造成擾動。

整套方法不需要任何額外訓練、幾乎不引入額外超參數,開銷只是把最后幾層(論文中默認 d=8,后續試驗證明 LED 對該超參數不敏感)的隱狀態多送進一次 LM-Head,配合一次累加和一次熵的比較。在 8×H100 、上下文 16K、批大小 128 的高并發場景下,LED 的吞吐量仍能保持常規解碼的 91.8% 左右,遠高于基線方法 DoLa 與 SoftThinking。

四、實驗效果:pass@k 穩定提升



研究團隊在 6 個標準基準上做了系統評估,涵蓋數學(GSM8K、MATH-500、AIME 2024、AIME 2025)、科學(GPQA-Diamond)和代碼(LiveCodeBench v5),并選取了從 4B 到 32B、覆蓋稠密和 MoE 架構的 5 個模型:Qwen3-4B-Thinking、MiMo-7B-RL、Qwen3-30B-A3B-Thinking、QwQ-32B 與 DeepSeek-R1-Distill-Llama-8B(后兩個模型為早期推理模型,實驗結果在論文附錄)。

在三種 LRM 上,LED 把 pass@1 平均從 77.4 提到 78.0,把 pass@16 平均從 88.8 提到 89.7;和 DoLa、SoftThinking、SoftThinking-Gumbel 這些強基線相比,LED 在 pass@1 與 pass@16 上幾乎全部領先,并且生成長度不增反持平(在 Qwen3-4B-Thinking 上是 12,269 vs 12,277 token),這意味著提升不是靠推理開銷換來的。



更直接體現 LED 價值的是溫度曲線。前文那張 alpha 由正變負的圖,在加上 LED 之后被反向扳了回來:對所有最新一代 LRM,alpha 重新變成了正數。低溫度下不掉點,高溫度下重新拿到收益,溫度調參又一次成為可用的探索方式。



消融實驗進一步說明了幾個關鍵設計:去掉「只在思考階段探索」,pass@1 會掉 0.58 個點;去掉「利用」分支,完全交給探索,pass@1 會暴跌約 14.7 個點,同時生成長度膨脹 33%;去掉 top-k 過濾,模型會陷入死循環,幾乎全部撞到上下文極限。在不同探索深度 d 下(也是 LED 引入的唯一超參數),LED 均能助力模型提升 pass@k,證明 LED 并不依賴超參調優。

五、為什么需要探索:把 LED 放進 RL 訓練



LED 增強探索能力的動機并不只在測試階段成立?,F有的在線強化學習算法,比如 GRPO 訓練本身就需要在每一步用模型自己生成多條軌跡再打分;如果生成階段就缺乏探索,那么 advantage 信號也會收斂到很小的值。

研究團隊把 LED 直接接進了 GRPO 的生成環節,在 Qwen3-4B-Thinking 與 MATH-lighteval 數據上對比常規 rollout。結果顯示,用 LED 做 rollout 訓練出來的模型,即便在測試時切回常規解碼,準確率也從 41.99 提升到 43.10。這樣的結果顯示 LED 不只是讓某次推理更高效地探索,它還幫助模型學到了更好的策略。如果訓練和測試都用 LED,最終精度可以達到 45.44。一個有趣的效果是:因為 LED 更高效的探索能力,整次 GRPO 平均生成長度降低了 10%,訓練時間也從 4.87 小時降到 4.44 小時。這一結果表明 LED 不僅是一種推理側的解碼補丁,也是在線 RL 訓練階段的一種探索增強機制。

六、總結

LED 從兩個方向展開了研究:

  1. 發現現象:RL post-training 把 LRM 的最后一層熵壓扁了,讓調高溫度這種最直觀的增強探索的手段失效;
  2. 找到機制:這種熵其實沒有消失,它被推到了中間層。只要把潛在分布從中間層調出來、做合適的過濾與聚合,就能把探索能力還給模型,而無需任何額外訓練。

LED 沒有引入新參數、改變模型架構、或是讓模型多出大量計算開銷,卻在 5 個模型、 6 個基準上穩定地提升了 pass@16(同時保持或提升 pass@1),并讓采樣溫度重新發揮其應有的作用。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
徹查!信號強烈!中央升級反腐“天網”!

徹查!信號強烈!中央升級反腐“天網”!

職場資深秘書
2026-06-21 14:07:53
黃粱一夢,俄國人加速撤離克島,烏3位前總統集體退還波蘭勛章

黃粱一夢,俄國人加速撤離克島,烏3位前總統集體退還波蘭勛章

史政先鋒
2026-06-21 20:15:46
德國總理站出來,呼吁27國聯手,用美國搞垮日本那套,來對付中國

德國總理站出來,呼吁27國聯手,用美國搞垮日本那套,來對付中國

流史歲月
2026-06-21 15:50:06
日本4-0大勝,賽后,看看中國球迷都怎么說

日本4-0大勝,賽后,看看中國球迷都怎么說

小樓侃體育
2026-06-21 15:02:41
手把手教徒弟反被抄家!中企印度遭洗劫,國家新規一招反殺!

手把手教徒弟反被抄家!中企印度遭洗劫,國家新規一招反殺!

52赫茲實驗室
2026-06-21 14:28:41
“讓巴基斯坦得不到一滴水”:印度的狠話表明,一些規則邊界正在被打破

“讓巴基斯坦得不到一滴水”:印度的狠話表明,一些規則邊界正在被打破

澎湃新聞
2026-06-21 13:24:28
紙尿褲全面失控!舉報人再拿重磅鐵證,真相恐不只是嬰兒生殖受損

紙尿褲全面失控!舉報人再拿重磅鐵證,真相恐不只是嬰兒生殖受損

冰語歷史
2026-06-21 11:09:21
央視曝光!多款水果跌落神壇,濫用甜味劑8000倍甜度、違規防腐劑

央視曝光!多款水果跌落神壇,濫用甜味劑8000倍甜度、違規防腐劑

陳博世財經
2026-06-21 16:42:08
老黃終于瞞不住了:直言大兒子確實去世了,大女兒一直在身邊

老黃終于瞞不住了:直言大兒子確實去世了,大女兒一直在身邊

以茶帶書
2026-06-21 15:54:37
世界杯主哨首秀 馬寧掏6黃牌搶鏡+拒判壓哨點球 霸氣喝退球員質疑

世界杯主哨首秀 馬寧掏6黃牌搶鏡+拒判壓哨點球 霸氣喝退球員質疑

我愛英超
2026-06-21 10:09:07
日本日清食品召回超28萬份杯裝炒面:工廠設備發生故障,混入了約1厘米長的合成樹脂碎片;有消費者投訴吃出異物

日本日清食品召回超28萬份杯裝炒面:工廠設備發生故障,混入了約1厘米長的合成樹脂碎片;有消費者投訴吃出異物

中國能源網
2026-06-20 22:17:04
一場5-1,日本漁翁得利!世界杯F組亂了:榜首易主,瑞典出線反轉

一場5-1,日本漁翁得利!世界杯F組亂了:榜首易主,瑞典出線反轉

侃球熊弟
2026-06-21 02:57:42
花80萬開店,90天就倒閉,火遍全國的零食店,“陰謀”露頭角了?

花80萬開店,90天就倒閉,火遍全國的零食店,“陰謀”露頭角了?

科技故事聚焦
2026-06-16 10:07:38
1457萬枚爛在銀行!武夷山紀念幣創下近十年最尷尬紀錄

1457萬枚爛在銀行!武夷山紀念幣創下近十年最尷尬紀錄

老孟談錢
2026-06-19 03:17:17
0-0!平局不可怕 ,可怕的是厄瓜多爾主帥的一番話,不如中國隊!

0-0!平局不可怕 ,可怕的是厄瓜多爾主帥的一番話,不如中國隊!

田先生籃球
2026-06-21 14:16:21
劉強東:將來根本不需要快遞員 希望送70萬藍領兄弟去培訓

劉強東:將來根本不需要快遞員 希望送70萬藍領兄弟去培訓

快科技
2026-06-21 16:33:05
日本隊惹巨大爭議,看臺出現旭日旗!韓國媒體炸鍋,國內媒體沉默

日本隊惹巨大爭議,看臺出現旭日旗!韓國媒體炸鍋,國內媒體沉默

全景體育V
2026-06-21 20:08:21
男籃首節壓制澳大利亞!全民皆兵,崔永熙回暖,王俊杰全面輸出!

男籃首節壓制澳大利亞!全民皆兵,崔永熙回暖,王俊杰全面輸出!

籃球資訊達人
2026-06-21 19:56:08
美國為何禁止種植竹子?終于明白,原來竹子比我們想象的更可怕

美國為何禁止種植竹子?終于明白,原來竹子比我們想象的更可怕

椰青美食分享
2026-06-20 05:50:32
為何延遲退休最近突然“沒聲了”?不是暫停,背后4大難題制約

為何延遲退休最近突然“沒聲了”?不是暫停,背后4大難題制約

芳姐侃社會
2026-06-20 18:26:43
2026-06-21 22:08:49
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
13319文章數 142674關注度
往期回顧 全部

科技要聞

馬斯克拿下7800億元天價薪酬 2028年可兌現

頭條要聞

巴防長強硬警告:一旦巴方水資源受到威脅 將與印開戰

頭條要聞

巴防長強硬警告:一旦巴方水資源受到威脅 將與印開戰

體育要聞

德國的超級替補,10年前還在工廠上班

娛樂要聞

原來她就是張頌文老婆

財經要聞

蔚來的“暗戰”時刻

汽車要聞

驚出冷汗!重慶實測奧迪A5L,華為智駕這波操作絕了…

態度原創

手機
本地
藝術
數碼
公開課

手機要聞

古爾曼:蘋果產品很快就會漲價,不會拖到秋季

本地新聞

龍騰資江 韻動邵陽

藝術要聞

絲綢滑落肩頭的瞬間、光影穿過窗欞的溫度:他用畫筆定格時間本身

數碼要聞

蘋果官網上架MOFT Snap Field磁吸卡包支架,498元

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版