![]()
過去這兩年,大語言模型走得實在太快,尤其在那些需要復雜邏輯推理的任務上,能力已經高到了一個我們以前不太敢想的水平。
我到現在還記得 ChatGPT-3.5 那個時代。那時候的 AI 頂多幫你做點簡單數學題,寫幾行基礎代碼,稍微繞一點的問題就卡殼。沒有聯網搜索,更別提什么深度思考,它能回答你每一個問題,靠的全是預訓練階段塞進腦子里的那些“存貨”,用完了就沒了。
但現在不一樣了。模型開始學會自己拆問題,一步一步推,生成超長的思維鏈,甚至在數學競賽、編程挑戰這種硬核任務里,做出了讓人類都瞪大眼睛的成績。
不過,Scaling Law這東西,帶來了“大力出奇跡”的同時,也悄悄埋了一個問題:思考過剩。
你回想一下那兩個經典的AI笑話,就特別能說明問題:
一個是美國人拿來測 AI 智商的:“Strawberry”這個單詞里有幾個字母“r”?這問題學前班小孩都能答出來。但一年前,ChatGPT 答錯過,DeepSeek 答錯過,豆包也答錯過。像 R1 這種推理模型,甚至會翻來覆去想十分鐘,自己跟自己辯論,最后慎重其事地告訴你:兩個。
![]()
等 AI 終于把這個坑填平了,中國人又出了個新題:要去 50 米外洗車,應該開車去還是走路去?
AI 又亂了。有的秒回“走路去”,有的把時間、路程、成本全算了一遍,最后還是得出結論:“走路去”。
![]()
看到了嗎?為了讓準確率再高那么一點點,模型一開啟深度思考,就會長出大量冗余的推理步驟。浪費算力、抬高成本、拖慢響應,這是實實在在的問題。
而且洗車那個例子也提醒我們,想得久,不代表想得對,有時候反而是因為想太多,自己把自己繞進去了。
所以大家開始問:一個能力已經溢出的模型,真的需要想那么久嗎?它自己知不知道,什么時候該停下來?
字節跳動和北航最近發了篇論文,專門回答這個問題。
![]()
這篇論文名為《Does Your Reasoning Model Implicitly Know When to Stop Thinking?》,研究團隊在這篇論文中提出了一套名為SAGE-RL的新方案,讓大模型在保持甚至提升現有準確率的同時,還能大幅減少推理環節所需的token消耗量。
01
診斷環節:問題出在哪里?
對于AI企業來說,token就是最重要的資源。減少大量token的無用消耗,無異于大大節約了推理成本。
對 AI 企業而言,token 即核心資源。減少大量無謂的 token 消耗,無異于大幅節約推理成本。
研究團隊在觀察模型運行過程后發現,問題的關鍵出在采樣策略。在現有采樣范式下,模型的高效推理能力難以充分發揮。
一般來說,人們評估模型能力經常采用的是一種名為“Pass@1”的策略,也就是只取模型生成的一次結果,看它是否能夠正確通過測試用例。
但在這種采樣模式下,我們可以從DeepSeek等模型的顯式思維鏈中明確看到:在得出正確答案后,模型通常不會立刻停止并告訴用戶答案,而是會繼續生成大量無效的驗證或重復步驟。
我們做個測試,讓AI計算20260226的平方,并強調直接輸出結果,DeepSeek思考了38秒才給出了正確答案:
![]()
這還只是顯式思維鏈中截取的一部分。事實上,在這38秒的思考過程中,模型在得出正確答案后還經過了檢查位數、檢查進位錯誤、檢查末位數字等多個毫無用處的驗證環節。
事實上,這不是DeepSeek獨有的情況。根據現有的研究,人們已經注意到了這個反直覺的現象:
思維鏈長度的延伸與答案的正確性并非正相關關系,有時思維鏈更短反而準確率更高。
例如,在AIME 2025基準測試中,DeepSeek-R1的回復長度足足是Claude 3.7 Sonnet的5倍,但準確率卻相差無幾。
而對于同一個模型在同一個問題上分別生成正確和錯誤的答案,有72%的概率是更長的回復出錯。
為了系統性地量化模型這種“過度思考”的現象,字節和北航的研究團隊定義了一個新指標:
首次正確步驟比率(RFCS)=正確答案首次出現的步驟索引/總推理步驟數。
![]()
而大量統計數據顯示:在超過一半的樣本中,模型在得出正確答案后都生成了大量冗余的內容。
![]()
例如,DeepSeek的1.5B輕量級模型在某些問題上只需花費500個token即可得出正確答案,但受限于現有的采樣策略,它要繼續生成452個冗余token才能結束思考。
看起來,在現有的采樣范式下,模型并不知道自己應該何時停止。
02
驚人發現:模型心里有數!
然而,研究團隊卻發現了一個反直覺的事實:
若是擴大采樣空間至“Pass@K”,也就是讓模型生成K個思維鏈,看其中是否有一個生成的答案能夠正確通過測試用例,結果就截然不同。
為此,論文定義了兩個指標和一個符號:
局部置信度(Next-token Probability):模型生成下一個詞的概率;
路徑置信度(Cumulative Log-Probability,即Φ):模型從頭到尾生成這條思維鏈的平均累計概率;
:思維鏈的結束標識。
![]()
如果模型只根據局部置信度來決定是否該在下一個詞輸出“”來停止思考,它總是沒什么信心,因為每次輸出下一個詞的概率都比輸出結束標識的概率要高。
因此,思維鏈的長度就這樣不斷的延伸下去。
但若是根據路徑置信度來判斷是否該停止思考,則情況完全相反:
當模型探索出了一條非常簡潔的正確思維鏈、到了該結束思考的時候,生成結束標識的概率將超過其他詞,瞬間升至第一名,順利結束思考。
這個現象非常驚人:模型其實非常確定這條簡潔的思維鏈是正確的,而且想要立刻中止思考。
因此,模型并非不知道應該思考到什么時候停止,而是采樣策略的短視,掩蓋了模型具備全局視野的高效推理潛力。
03
SAGE算法:實現高效推理
在順利找到問題根源和機制后,解決方案也就呼之欲出了。
上述研究表明,只要給予大模型足夠的采樣空間,讓其更自由地探索多種解法,它就能憑借路徑置信度準確選出那條“短小精悍”的正確思維鏈。
字節與北航團隊據此提出SAGE 算法:自我認知引導的高效推理(Self-Aware Guided Efficient Reasoning)。
考慮到詞元級(Token-Level)評估的計算成本太高,對每個token都要計算概率直到生成結束符,SAGE算法使出了“降維打擊”,改為步驟級(Step-wise)探索:
對于思維鏈中的每一個步驟,SAGE算法會利用底層的隨機采樣,讓模型向外探索出多個完整的推理步驟;
而這些候選的步驟分支中,只要有一條順利地以結束標識“”結尾,SAGE立刻降下判決:模型已經想清楚了,可以立即停止思考。
然后,這條思維鏈路分支就會被作為高置信度結果保留。
為了更直觀地展現SAGE算法的有效性,研究團隊在論文中列出了對比實驗的結果:
![]()
讓最聰明的模型去做最難的奧數題時,SAGE算法能讓模型找到更短的路徑,顯著提升解答準確率的同時,還避免了冗長的廢話帶來的幻覺;
讓稍弱一些的模型面對較為簡單的數據集(比如數字母)時,題目本身就處于模型的能力范圍內,SAGE算法能讓模型在計算出正確答案后迅速停止思考,大幅提升token利用率。
這就是SAGE算法的價值:
它無需人為強制截斷思考過程,避免了模型思維鏈的無意義延伸,將模型本就具備的“自我認知”轉換為實際推理效率的提升。
04
SAGE-RL:發揮商業價值
SAGE算法確實非常好用,但它的實質仍然是推理階段的一種策略。
每次推理仍然需要生成多個思維鏈路分支,算力開銷問題仍然存在。
算法終究是論文中的內容,只有把它應用到大模型真實的訓練過程中,才會產生實際價值。
目前,對于DeepSeek等推理模型,業界最前沿的訓練方法是以GRPO為代表的基于可驗證獎勵的強化學習。
用一個論文中的例子來說明標準GRPO的訓練過程:
給模型一道題,讓模型隨機生成8個互不相同的解答,其中正確的解答將會得到獎勵,以此更新模型的權重。行業內常說的“獎勵模型”就是用來做這件事的。
不過,由于這8個解答都是通過標準的隨機采樣而產生的,“反復思考”的現象自然無法避免。最后的結果就會是:模型能夠做對題目,但也學會了說一大堆廢話。
為了讓SAGE算法投入使用,研究團隊開始對現有的GRPO算法進行替換:
同樣是生成8個解答,其中的6個使用原有的隨機采樣,剩下的2個使用SAGE算法生成。
我們已經知道,SAGE算法給出的回答既正確,又簡練,強化學習的獎勵機制雖然不知道哪兩個解答是SAGE算法生成的,卻總是會給它們打高分。
如此循環下去,SAGE算法生成的答案逐漸成為“榜樣”,模型逐步更新權重后就會一點點改正自己說廢話的毛病,思維鏈的生成模式也逐漸向SAGE算法的高效模式轉變。
這樣一來,SAGE算法就成功烙印在大模型的DNA中,成為SAGE-RL運行機制。
最后,研究團隊選擇了MATH-500、AIME 2025等6個極高難度的AI數學基準測試來評估SAGE-RL的效果:
現有的一些縮減推理長度的算法為了壓縮token消耗量會降低模型回答的準確率。
而基于GRPO的SAGE-RL卻能實現“降本增效”。
![]()
研究團隊在7B級別模型的測試中發現,加入SAGE能將模型的平均回復長度從3219個token壓縮至2141個,大約減少了1/3的計算量。
同時,模型在MATH-500上的Pass@1準確率從92%提升到了93%,Token效率更是斷崖式領先。
而此前介紹的新定義指標:首次正確步驟比率(RFCS)也顯示,無效冗余步驟的比例大幅下降,模型終于改掉了“過度思考”的習慣,學會了“點到為止”。
目前,市場上的AI企業普遍采用API計費模式。表面上,增加token的輸出看似能夠增加收入。
實際上,頭部AI廠商做夢都想實現降低冗余token的消耗。能讓服務器接收更多的并發請求獲得的利潤,遠比讓單個請求多說幾句廢話要多。
在AI智能代理投入實際工作流的今天,延遲已經成為產品的“斬殺線”,響應速度慢的模型無法實時滿足用戶的需求,必然會被用戶無情地拋棄。
DeepSeek在一年前震驚硅谷,不僅是因為開源了強大的技術和先進的算法,更是因為他們把推理成本打到了不可思議的低價。
現有的模型若是無法改變生成答案時伴隨大量冗余token的現狀,API的綜合成本就永遠降不下來。
而掌握了類似SAGE這種高效推理技術的廠商,就可以憑借極少的算力達到相同甚至更高的準確率。在頂尖模型提升智能程度的邊際收益銳減的情況下,這正是降價打價格戰的底氣。
以后,大模型也無需再靠長篇大論證明自己。最高級的智能,其實就藏在那個恰到好處的“”中。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.