无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

JustGRPO:擴散語言模型的極簡主義回歸

0
分享至



擴散語言模型(Diffusion LLMs, dLLMs)因支持「任意順序生成」和并行解碼而備受矚目。直覺上,打破傳統自回歸(AR)「從左到右」的束縛,理應賦予模型更廣闊的解空間,從而在數學、代碼等復雜任務上解鎖更強的推理潛力。

然而,本研究揭示了一個反直覺的現實:當前的任意順序生成,反而通過「規避不確定性」收窄了模型的推理邊界。

基于此,本文提出了一種回歸極簡的方法——JustGRPO。實驗表明,在 RL 階段讓模型自回歸生成,并直接用標準的 GRPO 進行訓練,即可超越當前各類針對 dLLM 設計的 RL 算法表現。更重要的是,這種訓練方式在提升推理表現的同時,并未犧牲dLLM 引以為傲的并行解碼能力。



  • 論文標題:The Flexibility Trap: Why Arbitrary Order Limits Reasoning Potential in Diffusion Language Models
  • 論文鏈接:https://huggingface.co/papers/2601.15165
  • 項目主頁:https://nzl-thu.github.io/the-flexibility-trap
  • 論文代碼:https://github.com/LeapLabTHU/JustGRPO

「靈活性陷阱」:

為什么選擇多反而考不好?

為了探究「靈活性是否等同于推理潛力」,本文引入了 Pass@k 作為核心衡量指標。該指標量化了在 k 次采樣中至少生成一個正確答案的概率,能夠有效反映模型解空間的覆蓋廣度以及 RL 訓練可激發的推理潛力上限(Yue et al., 2025)。

對比實驗涵蓋了兩種主要的解碼模式:

  • 任意順序(Arbitrary Order):允許模型根據置信度動態選擇生成順序,這是擴散語言模型的標準解碼方式。
  • AR 順序(AR Order):約束模型遵循傳統 LLM 從左到右的生成順序。

實驗結果揭示了一個值得深思的趨勢:雖然任意順序在 k=1 時表現尚可,但隨著采樣次數 k 的增加,AR 順序的 Pass@k 曲線不僅攀升速率更快,且最終達到的上限顯著更高。這表明,在涉及復雜推理時,AR 順序實際上可幫助模型覆蓋更廣闊的正確解空間。



圖:限制 dLLM 使用標準的 AR 順序,反而比靈活的任意順序擁有更高的推理上限。

熵坍塌現象

為何看似受限的 AR 順序反而更具潛力?這與兩種順序如何處理不確定性有關。

在自回歸模式下,模型被迫直面第一個未知 Token;而在任意順序模式下,模型則有跳過(bypass)當前不確定 Token、優先填充后續更確定的內容的「特權」。統計顯示,被頻繁跳過的往往是諸如「Therefore」、「Thus」、「To」等邏輯銜接詞(下圖左):



圖左:任意順序下,模型傾向于跳過不確定token而先填后續token,且這些被跳過的token往往是一些邏輯銜接詞;圖右:這些邏輯銜接詞解碼時的entropy顯著低于自回歸順序(虛線代表average token entropy)。以上結果為LLaDA-Instruct在MATH-500數據集的結果。

已有工作(Wang et al., 2025)表明,這些邏輯銜接詞往往起到通往不同推理路徑的功能,且將這些詞保持高熵狀態對模型探索豐富的解空間至關重要。而在任意順序下,這些銜接詞被解碼時的熵(Entropy)顯著低于自回歸順序(上圖右)。

我們將這種現象稱為「熵降級」(Entropy Degradation)。形象地說,模型利用了任意順序的靈活性進行了一種「局部貪婪優化」:它跳過了艱難的推理決策點,試圖通過先生成后續上下文來「湊」出邏輯連接。雖然這在單次生成中可能有效,但卻犧牲了對多樣化推理路徑的有效探索。



圖:任意順序生成傾向于繞過高熵的邏輯連接詞,導致解空間過早坍縮。

返璞歸真:

JustGRPO

既然「任意順序」反而可能限制推理路徑的探索,本文提出了一種回歸極簡的方法——JustGRPO。不同于現有 RL 算法,JustGRPO 不再試圖用各種近似處理以顯式保留任意順序特性,而是選擇了一條更為徹底的路徑:

在 RL 訓練階段,直接摒棄對任意順序的執念,強制擴散語言模型采用自回歸(AR)順序生成。這樣不僅保持了更廣闊的推理路徑,同時也讓我們得以直接復用成熟的 GRPO 算法進行優化。這種「生成軌跡的確定性」也自然使得強化學習時的信用分配(Credit Assignment)更加清晰,有助于模型更有效地學習魯棒的聯合分布。

值得一提的是:「訓練時的約束」≠「推理時的退化」

自回歸的約束僅存在于訓練階段。它的目的是為了讓模型更有效地進行 RL 階段的探索與信用分配,模型本身的雙向注意力機制并未被破壞。一旦訓練完成,我們依然可以在推理階段無損地應用并行解碼,在享受 AR 訓練帶來的更優推理表現的同時,保留擴散模型引以為傲的生成速度。

實驗結果:

簡單,但極其有效

性能大幅提升

在數學推理和代碼生成這兩類通用的推理任務上,JustGRPO 均有優秀的表現:

  • 數學推理:在 GSM8K 和 MATH-500 上,模型展現了極高的推理上限,準確率最高分別可達 89.8% 和 45.2%,相比之前的最佳方法(SPG)顯著提升。

  • 代碼生成:在 HumanEval 與 MBPP 數據集上,準確率分別達到 49.4% 和 52.4%。



表:JustGRPO在多個基準測試中超越了現有的 dLLM 強化學習方法,基座模型:LLaDA-Instruct。注:LLaDA-1.5使用了大規模私有數據集訓練、LLaDOU在訓練中引入了額外模塊,因此未列入對比。

并行能力不僅沒丟,還更強了

一個可能的擔憂是:用 AR 方式訓練是否會讓 dLLM 退化,失去其并行優勢?實驗結果恰恰相反。使用現成的 training-free 并行采樣器(Ben-Hamu et al., 2025),JustGRPO 訓練后的模型在并行解碼下表現更佳。例如在 MBPP 數據集上,當每步并行解碼 5 個 Token 時,JustGRPO 相比基座模型(LLaDA-Instruct)的準確率優勢從單步的 10.6% 擴大到了25.5%。

這表明訓練后的模型學到了更魯棒的聯合分布,使其更能適應并行采樣過程中的近似誤差。



圖:JustGRPO 訓練后的模型在并行解碼時表現出更好的速度-精度權衡。

結語:

少即是多

這篇工作挑戰了該領域的一個普遍假設,即「必須在 RL 中保留任意順序靈活性」。事實證明,通過限制訓練時的生成順序,迫使模型直面邏輯分叉點的高不確定性,反而能更有效地激發 dLLMs 的推理潛能。

JustGRPO以一種極簡的方式,實現了推理能力的大幅提升,同時未犧牲擴散模型標志性的推理速度。也希望借此工作啟發社區重新審視「任意順序生成」在通用推理任務中的真實價值。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
巴拉圭“胸神”16年后重返世界杯,靠火辣身材爆紅,愿為贏球裸奔

巴拉圭“胸神”16年后重返世界杯,靠火辣身材爆紅,愿為贏球裸奔

深析古今
2026-06-14 15:32:00
山東一化工企業爆炸!

山東一化工企業爆炸!

濟寧人
2026-06-14 11:15:20
45歲安以軒復出,好友透露其近況:沒有工作和任何收入,靠以往積蓄投資理財,獨自照顧兩個孩子

45歲安以軒復出,好友透露其近況:沒有工作和任何收入,靠以往積蓄投資理財,獨自照顧兩個孩子

無比
2026-06-13 20:42:09
曼谷民眾送別泰國公主:烈日下街頭守候,落淚送行,靈車駛向大皇宮

曼谷民眾送別泰國公主:烈日下街頭守候,落淚送行,靈車駛向大皇宮

極目新聞
2026-06-14 18:09:18
2026,中年失業的又一悲慘版本出爐…

2026,中年失業的又一悲慘版本出爐…

慧翔百科
2026-06-12 11:21:59
昆明南博會一商品二維碼涉黃:掃碼后會跳轉至色情網站,涉事公司:被涂抹的二維碼原本關聯企業公眾號,長期疏于運維,域名遭境外“攻克”

昆明南博會一商品二維碼涉黃:掃碼后會跳轉至色情網站,涉事公司:被涂抹的二維碼原本關聯企業公眾號,長期疏于運維,域名遭境外“攻克”

大風新聞
2026-06-14 08:55:03
伊朗國足佩戴徽章紀念168名遇難兒童,隊員反問美國記者:你確定我們在美國安全嗎?你對你的國家有信心嗎?

伊朗國足佩戴徽章紀念168名遇難兒童,隊員反問美國記者:你確定我們在美國安全嗎?你對你的國家有信心嗎?

政知新媒體
2026-06-14 19:09:36
16萬人口“小國”闖世界杯,陣中還有一位華裔球星

16萬人口“小國”闖世界杯,陣中還有一位華裔球星

瀟湘晨報
2026-06-14 17:34:16
蘋果:中國大陸暫不提供最新Siri AI

蘋果:中國大陸暫不提供最新Siri AI

界面新聞
2026-06-09 06:47:41
61歲知名歌手黃大煒意外離世,他與“大外公”張學良的過往曾令人津津樂道,近一個月還在籌劃音樂事業

61歲知名歌手黃大煒意外離世,他與“大外公”張學良的過往曾令人津津樂道,近一個月還在籌劃音樂事業

極目新聞
2026-06-14 16:54:14
中央氣象臺發布暴雨黃色預警、強對流天氣藍色預警,廣東沿海局地有特大暴雨

中央氣象臺發布暴雨黃色預警、強對流天氣藍色預警,廣東沿海局地有特大暴雨

界面新聞
2026-06-14 18:10:21
93%依賴瞬間清零:日本石油進口,徹底逃離霍爾木茲!

93%依賴瞬間清零:日本石油進口,徹底逃離霍爾木茲!

寰球經緯所
2026-06-13 21:01:31
同學聚會,發現一個扎心的現實:年過40的女同學中,1/3沒有工作,1/3做著低薪但沒前途工作,剩下的1/3基本都在體制內

同學聚會,發現一個扎心的現實:年過40的女同學中,1/3沒有工作,1/3做著低薪但沒前途工作,剩下的1/3基本都在體制內

品讀時刻
2026-06-13 09:03:28
美媒曾曝中國轟炸計劃:日本敢走錯半步,將被萬枚導彈雨包大餃子

美媒曾曝中國轟炸計劃:日本敢走錯半步,將被萬枚導彈雨包大餃子

龍隱天下
2026-06-12 13:36:23
帕金斯:布倫森已是尼克斯的GOAT,以后在紐約吃飯喝酒都不用花錢了

帕金斯:布倫森已是尼克斯的GOAT,以后在紐約吃飯喝酒都不用花錢了

懂球帝
2026-06-14 15:29:22
開封3歲男童失聯新進展!救援隊爆可疑疑點,家屬疑慮,恐要成真

開封3歲男童失聯新進展!救援隊爆可疑疑點,家屬疑慮,恐要成真

奇思妙想草葉君
2026-06-13 23:24:01
打中了,打中了!伊朗導彈打出“神級精準度”!打得太準了。

打中了,打中了!伊朗導彈打出“神級精準度”!打得太準了。

小馬姨
2026-06-14 11:57:06
警鐘長鳴!國務院安委辦通報典型案例 商洛高速橋梁垮塌等事故細節公布

警鐘長鳴!國務院安委辦通報典型案例 商洛高速橋梁垮塌等事故細節公布

極目新聞
2026-06-14 09:38:49
被制裁的菲律賓防長特奧多羅家族中的許寰哥家族核心是生力集團

被制裁的菲律賓防長特奧多羅家族中的許寰哥家族核心是生力集團

阿振觀點
2026-06-14 13:13:24
伊布:梅西奪世界杯后其實已終結了梅羅之爭,但我還是覺得我更強

伊布:梅西奪世界杯后其實已終結了梅羅之爭,但我還是覺得我更強

懂球帝
2026-06-14 01:23:30
2026-06-14 20:16:49
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
13256文章數 142669關注度
往期回顧 全部

科技要聞

Anthropic最強模型被禁,傳亞馬遜通風報信

頭條要聞

村民砍掉"孤獨樹":砍樹前一天跟紅裙女子發生沖突

頭條要聞

村民砍掉"孤獨樹":砍樹前一天跟紅裙女子發生沖突

體育要聞

8年8隊奪冠,鄧肯那句話,現在還給了馬刺

娛樂要聞

鄧超攜子觀戰NBA,等等帥氣十足

財經要聞

金價跌至900元關口,大媽又來抄底了!

汽車要聞

綜合續航超1600km/零百加速4秒級 2027款星途ES預售18.99萬起

態度原創

本地
手機
旅游
家居
公開課

本地新聞

AK劉彰邂逅河北南大港濕地

手機要聞

2026上半年旗艦銷量Top30:蘋果獨攬前三,國產僅華為撐場面

旅游要聞

泮水雅集,夜醉明府城

家居要聞

空間微調 移形換境

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版