无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

南大移動團隊提出TNT,破解「假裝不思考」騙獎勵

0
分享至



作者介紹: 南京大學(xué)智能科學(xué)與技術(shù)學(xué)院博士生甘思遠為本文第一作者;南京大學(xué)高陽教授為本文合作者;上海人工智能實驗室孟林建青年研究員和南京大學(xué)霍靜副教授為本文通訊作者。

以 DeepSeek-R1、OpenAI o1 為代表的大型推理模型,憑借長思維鏈的「思考」能力在數(shù)學(xué)、代碼等任務(wù)上大放異彩。但思考是有代價的:冗長、反復(fù)的推理過程帶來了巨大的推理開銷與延遲,這就是廣受關(guān)注的「過度思考」(Overthinking)問題。一個自然的解決思路是訓(xùn)練混合推理模型:讓模型根據(jù)問題難度,自動決定是「深思熟慮」(thinking 模式)還是「脫口而出」(non-thinking 模式),并使用強化學(xué)習(xí)(RL)訓(xùn)練模型掌握這種能力。

然而,這套看似合理的獎勵設(shè)計,卻埋下了一個經(jīng)典的隱患:獎勵欺騙(Reward Hacking)。模型很快學(xué)會了「鉆空子」—— 表面上輸出非思考模式的格式標記,骨子里卻照樣進行長篇思考,既靠思考拿到了正確答案,又騙取了非思考模式的額外獎勵。

為了解決這一問題,來自南京大學(xué)、上海人工智能實驗室和中國移動九天研究院的研究團隊提出了Thinking-Based Non-Thinking(TNT):不依賴昂貴的 SFT,僅利用思考模式回答中「答案部分」的長度信息,為每個問題動態(tài)設(shè)定非思考模式的 token 上限,就將獎勵欺騙的發(fā)生概率壓到了 10% 以下,同時在五個數(shù)學(xué)基準上實現(xiàn)了準確率與效率的最優(yōu)權(quán)衡。

目前,該論文已被自然語言處理頂級會議 ACL 2026 Main Conference 接收



  • 論文鏈接:https://arxiv.org/abs/2601.04805
  • 代碼鏈接:https://github.com/SiyuanGan/Thinking-Based_Non-thinking

背景介紹:混合推理模型與 RL 訓(xùn)練范式

我們先來回顧一下混合推理模型的基本設(shè)定。

給定一個以特殊 token 標記思考結(jié)束;其后 則是最終的解答(solution)部分,只包含正確的解題步驟與答案。沿用先前工作的約定,若思考部分為空,則該回答被判定為非思考模式,否則為思考模式。在 RL 訓(xùn)練中,為了鼓勵模型在能力允許時優(yōu)先選擇高效的非思考模式,正確的非思考回答會被賦予比正確的思考回答更高的獎勵。

結(jié)尾的輸入提示,推理模型的回答最初是思考部分 —— 包含不斷探索、反思與自我驗證的長思維鏈;

動機:一個被低估的獎勵欺騙問題

問題恰恰出在「更高的獎勵」上。由于模式判定僅依賴第一個 token 這種表面信號,模型完全可以先輸出 偽裝成非思考模式,隨后的內(nèi)容卻照樣反復(fù)推演,甚至再次生成 終止符 —— 靠真實的思考得到正確答案,卻領(lǐng)走了非思考模式的高額獎勵。



獎勵欺騙問題示例。模型生成的首個 token 為 ,被分類為 non-thinking 模式,但回答內(nèi)容明顯具有 thinking 模式特征(如使用 "Wait"、"Alternatively" 等關(guān)鍵詞),構(gòu)成了典型的獎勵欺騙行為。

這一問題的嚴重性超出想象。文章實測發(fā)現(xiàn),未處理獎勵欺騙的 RL 方法在 AIME24 上,被判定為「非思考模式」的回答平均 token 用量竟高達 10845,與思考模式的 11976 幾乎不相上下 —— 所謂的「非思考」已名存實亡,整個訓(xùn)練事實上已經(jīng)崩塌。

針對該問題,現(xiàn)有方案大致有兩條路,但各有硬傷:其一是引入 SFT 來固定模型兩種模式的輸出行,但 SFT 計算開銷極其高昂;更糟的是,SFT 還會帶來顯著的性能退化,先前工作的 SFT 模型在 AIME24 上準確率僅約 10%。其二是為非思考模式設(shè)定最大 token 上限,超限即視為欺騙,但現(xiàn)有工作對所有問題施加統(tǒng)一的上限,這在邏輯上是行不通的:簡單問題(如「1+1 等于幾」)即便用長思維鏈反復(fù)驗證,其 token 數(shù)也可能遠低于復(fù)雜 AIME 題目正常作答的長度。

方法:

用思考模式的「答案」

標定非思考模式的「尺子」



圖 1:TNT 方法概覽。

破局的關(guān)鍵洞見相當(dāng)優(yōu)雅:思考模式回答中 之后的解答部分,本身就不含思考 —— 而這恰好就是非思考模式的定義。換言之,思考模式回答自帶一份「該問題的答案正常應(yīng)該寫多長」的免費標尺。TNT 正是利用這一點,為每個問題動態(tài)設(shè)定非思考模式的 token 上限。









整套方法基于 GRPO 進行訓(xùn)練,無需任何 SFT,無需修改模型結(jié)構(gòu)或 tokenizer,并且與 Dr. GRPO、DAPO、GSPO 乃至經(jīng)典 PPO 等算法天然兼容,是一個即插即用的獎勵層面修正。

實驗驗證:準確率與效率的雙贏

文章以 DeepSeek-R1-Distill-Qwen-1.5B/7B 和 DeepScaleR-1.5B 為基座模型進行了實驗的驗證。

更少的 token,更高的準確率。在 1.5B 模型上,TNT 相比基座模型將平均 token 用量削減 46.2%,平均準確率反而提升 4.1 個百分點,超越全部同類方法配置。



不同混合推理模型訓(xùn)練方法在數(shù)學(xué)基準上的平均準確率與 token 用量對比。



各模型在 non-thinking 模式回答中出現(xiàn) thinking 相關(guān)動詞的概率。

獎勵欺騙被有效遏制。文章統(tǒng)計了非思考模式回答中「Wait」、「Alternatively」等思考類動詞的出現(xiàn)概率:未考慮該問題的 AutoThink 概率最高,采用統(tǒng)一上限的 AdaptThink 也顯著偏高,而 TNT 在所有測試集上均低于 10%,僅次于付出了高昂 SFT 代價的方法。

模型學(xué)會了「看菜下飯」。TNT 的非思考模式占比與任務(wù)難度呈清晰的負相關(guān):在 AIME24/25 這類難題上幾乎全程思考(占比僅 1.7%/0.8%),在相對簡單的 AMC23 上則有近 30% 的問題直接作答,實現(xiàn)了基于難度的自主模式選擇。

基座越強,優(yōu)勢越大。在 DeepScaleR-1.5B 與 7B 模型上,TNT 的 TE 分別達到 0.70 與 0.79,大幅領(lǐng)先次優(yōu)方法的 0.54 與 0.67;在 7B 上更是同時拿下最高平均準確率(54.2%)與最低 token 用量。此外,TNT 在與 CoT 壓縮方法的對比中全面勝出,并在 GPQA Diamond 這一分布外基準上取得最優(yōu)效果,展現(xiàn)了良好的泛化性。

總結(jié)和展望

總而言之,這篇論文直面了混合推理模型 RL 訓(xùn)練中一個具體而致命的失效模式,獎勵欺騙,并給出了一個四兩撥千斤的解法:與其用昂貴的 SFT 去「管住」模型的輸出,或用一刀切的上限去「猜」每道題的合理長度,不如讓思考模式自己的解答部分來告訴我們,這道題不思考時正常應(yīng)該寫多長。由此提出的 TNT 無需 SFT、無需改動模型結(jié)構(gòu),僅在獎勵層面引入一個動態(tài) token 上限,便在三個基座模型、五個數(shù)學(xué)基準上一致地實現(xiàn)了約 50% 的 token 削減與準確率提升,并將獎勵欺騙概率壓制在 10% 以內(nèi)。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
德比斯:我把一個冠軍獎杯送給了張雪!我們平時不常聯(lián)系 都太忙

德比斯:我把一個冠軍獎杯送給了張雪!我們平時不常聯(lián)系 都太忙

念洲
2026-06-17 14:20:26
“小馬云”突然歸來,拿下抖音帶貨榜一!

“小馬云”突然歸來,拿下抖音帶貨榜一!

新浪財經(jīng)
2026-06-16 17:59:51
雷軍又被網(wǎng)暴!攝像頭前吃早餐,被罵模仿黃仁勛,網(wǎng)友不給面子

雷軍又被網(wǎng)暴!攝像頭前吃早餐,被罵模仿黃仁勛,網(wǎng)友不給面子

譚談社會
2026-06-16 18:10:12
他27歲還買不起一部iPhone,四十一歲卻能日賺2.8億。

他27歲還買不起一部iPhone,四十一歲卻能日賺2.8億。

流蘇晚晴
2026-06-12 13:04:31
隨著阿根廷3-0大勝,法國3-1,挪威4-1,世界杯最新出線形勢出爐

隨著阿根廷3-0大勝,法國3-1,挪威4-1,世界杯最新出線形勢出爐

球場沒跑道
2026-06-17 11:05:56
世界杯歷史射手榜!梅西16球并列第一,姆巴佩14球,那C羅呢?

世界杯歷史射手榜!梅西16球并列第一,姆巴佩14球,那C羅呢?

鳴哥說體育
2026-06-17 18:47:26
CBA升降級確定!CBA后四VSNBL前四,競爭五名額下下賽季擴軍!

CBA升降級確定!CBA后四VSNBL前四,競爭五名額下下賽季擴軍!

籃球資訊達人
2026-06-17 16:12:28
王母前身竟是野獸?她和玉帝究竟什么關(guān)系?

王母前身竟是野獸?她和玉帝究竟什么關(guān)系?

大運河時空
2026-06-16 06:00:03
梅西踩小腿登頂熱搜!名記:覺得這是紅牌就別看球了 裁判都笑了

梅西踩小腿登頂熱搜!名記:覺得這是紅牌就別看球了 裁判都笑了

念洲
2026-06-17 16:34:50
快訊!菲律賓揚言,中方不撤就動手!

快訊!菲律賓揚言,中方不撤就動手!

故事終將光明磊落
2026-06-17 10:10:05
廣東中山一3歲男童被小區(qū)大堂大理石桌砸中身亡,多方回應(yīng):事故原因正在調(diào)查中

廣東中山一3歲男童被小區(qū)大堂大理石桌砸中身亡,多方回應(yīng):事故原因正在調(diào)查中

瀟湘晨報
2026-06-16 17:21:55
阿根廷3-0阿爾及利亞!可怕的不是贏球 是梅西賽后這番話,很實在

阿根廷3-0阿爾及利亞!可怕的不是贏球 是梅西賽后這番話,很實在

云隱南山
2026-06-17 17:26:22
腸子都悔青了!獨行俠18年選了兩個聯(lián)盟頂級超巨,結(jié)果一個沒留住

腸子都悔青了!獨行俠18年選了兩個聯(lián)盟頂級超巨,結(jié)果一個沒留住

阿訊說天下
2026-06-17 13:22:35
阿里員工:33歲,房貸還剩223萬,每月還款15178元。失業(yè)中

阿里員工:33歲,房貸還剩223萬,每月還款15178元。失業(yè)中

螞蟻大喇叭
2024-08-02 21:56:09
奔馳廣州4S店大興寶鴻悄然撤場 近千名車主預(yù)付權(quán)益懸空

奔馳廣州4S店大興寶鴻悄然撤場 近千名車主預(yù)付權(quán)益懸空

新快報新聞
2026-06-17 08:35:07
囚禁2000同胞斂財10億,假面僑領(lǐng),柬埔寨安徽商會長劉忍電詐黑幕

囚禁2000同胞斂財10億,假面僑領(lǐng),柬埔寨安徽商會長劉忍電詐黑幕

易玄
2026-06-16 21:23:31
抄底的很后悔,今日最慘股是只醫(yī)藥股,深度回調(diào)后,再度閃崩大跌

抄底的很后悔,今日最慘股是只醫(yī)藥股,深度回調(diào)后,再度閃崩大跌

丁丁鯉史紀
2026-06-17 17:18:54
“佛得角感謝中國”,沖上熱搜

“佛得角感謝中國”,沖上熱搜

第一財經(jīng)資訊
2026-06-17 08:52:33
1-3慘敗!亞洲球隊2連敗,卡納瓦羅18日率烏茲別克斯坦隊出戰(zhàn)

1-3慘敗!亞洲球隊2連敗,卡納瓦羅18日率烏茲別克斯坦隊出戰(zhàn)

何老師呀
2026-06-17 14:14:15
祝賀!徐嘉余50仰破亞洲紀錄奪冠

祝賀!徐嘉余50仰破亞洲紀錄奪冠

極目新聞
2026-06-17 19:29:25
2026-06-17 20:23:00
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
13289文章數(shù) 142672關(guān)注度
往期回顧 全部

科技要聞

馬斯克好友長文:他最可怕的,是這套方法論

頭條要聞

被問中方是否在美菲壓力下撤出黃巖島設(shè)施 外交部回應(yīng)

頭條要聞

被問中方是否在美菲壓力下撤出黃巖島設(shè)施 外交部回應(yīng)

體育要聞

梅西帽子戲法:紀錄厚重,球王輕盈

娛樂要聞

陳紅一反常態(tài)保持沉默

財經(jīng)要聞

陸家嘴論壇上 央行帶來6大新政策利好

汽車要聞

云南昆明高速一新能源車碰撞解體起火 車型尚待確認

態(tài)度原創(chuàng)

健康
藝術(shù)
游戲
家居
手機

營養(yǎng)師:粽子怎么吃美味又健康?

藝術(shù)要聞

清代最美的一幅楷書,水平不輸唐代大師!

任天堂官宣新福利!買就送會員 千萬別錯過

家居要聞

綠意盎然 自然之境

手機要聞

榮耀MagicOS 11預(yù)熱:行業(yè)首個支持動態(tài)場景液態(tài)玻璃效果

無障礙瀏覽 進入關(guān)懷版