網易首頁 > 網易號 > 正文申請入駐

字節跳動新算法，直接把1/3的算力砍掉了

2026-02-27 07:32:51　來源: 硅基星芒AI

北京舉報

分享至

過去這兩年，大語言模型走得實在太快，尤其在那些需要復雜邏輯推理的任務上，能力已經高到了一個我們以前不太敢想的水平。

我到現在還記得 ChatGPT-3.5 那個時代。那時候的 AI 頂多幫你做點簡單數學題，寫幾行基礎代碼，稍微繞一點的問題就卡殼。沒有聯網搜索，更別提什么深度思考，它能回答你每一個問題，靠的全是預訓練階段塞進腦子里的那些“存貨”，用完了就沒了。

但現在不一樣了。模型開始學會自己拆問題，一步一步推，生成超長的思維鏈，甚至在數學競賽、編程挑戰這種硬核任務里，做出了讓人類都瞪大眼睛的成績。

不過，Scaling Law這東西，帶來了“大力出奇跡”的同時，也悄悄埋了一個問題：思考過剩。

你回想一下那兩個經典的AI笑話，就特別能說明問題：

一個是美國人拿來測 AI 智商的：“Strawberry”這個單詞里有幾個字母“r”？這問題學前班小孩都能答出來。但一年前，ChatGPT 答錯過，DeepSeek 答錯過，豆包也答錯過。像 R1 這種推理模型，甚至會翻來覆去想十分鐘，自己跟自己辯論，最后慎重其事地告訴你：兩個。

等 AI 終于把這個坑填平了，中國人又出了個新題：要去 50 米外洗車，應該開車去還是走路去？

AI 又亂了。有的秒回“走路去”，有的把時間、路程、成本全算了一遍，最后還是得出結論：“走路去”。

看到了嗎？為了讓準確率再高那么一點點，模型一開啟深度思考，就會長出大量冗余的推理步驟。浪費算力、抬高成本、拖慢響應，這是實實在在的問題。

而且洗車那個例子也提醒我們，想得久，不代表想得對，有時候反而是因為想太多，自己把自己繞進去了。

所以大家開始問：一個能力已經溢出的模型，真的需要想那么久嗎？它自己知不知道，什么時候該停下來？

字節跳動和北航最近發了篇論文，專門回答這個問題。

這篇論文名為《Does Your Reasoning Model Implicitly Know When to Stop Thinking?》，研究團隊在這篇論文中提出了一套名為SAGE-RL的新方案，讓大模型在保持甚至提升現有準確率的同時，還能大幅減少推理環節所需的token消耗量。

診斷環節：問題出在哪里？

對于AI企業來說，token就是最重要的資源。減少大量token的無用消耗，無異于大大節約了推理成本。

對 AI 企業而言，token 即核心資源。減少大量無謂的 token 消耗，無異于大幅節約推理成本。

研究團隊在觀察模型運行過程后發現，問題的關鍵出在采樣策略。在現有采樣范式下，模型的高效推理能力難以充分發揮。

一般來說，人們評估模型能力經常采用的是一種名為“Pass@1”的策略，也就是只取模型生成的一次結果，看它是否能夠正確通過測試用例。

但在這種采樣模式下，我們可以從DeepSeek等模型的顯式思維鏈中明確看到：在得出正確答案后，模型通常不會立刻停止并告訴用戶答案，而是會繼續生成大量無效的驗證或重復步驟。

我們做個測試，讓AI計算20260226的平方，并強調直接輸出結果，DeepSeek思考了38秒才給出了正確答案：

這還只是顯式思維鏈中截取的一部分。事實上，在這38秒的思考過程中，模型在得出正確答案后還經過了檢查位數、檢查進位錯誤、檢查末位數字等多個毫無用處的驗證環節。

事實上，這不是DeepSeek獨有的情況。根據現有的研究，人們已經注意到了這個反直覺的現象：

思維鏈長度的延伸與答案的正確性并非正相關關系，有時思維鏈更短反而準確率更高。

例如，在AIME 2025基準測試中，DeepSeek-R1的回復長度足足是Claude 3.7 Sonnet的5倍，但準確率卻相差無幾。

而對于同一個模型在同一個問題上分別生成正確和錯誤的答案，有72%的概率是更長的回復出錯。

為了系統性地量化模型這種“過度思考”的現象，字節和北航的研究團隊定義了一個新指標：

首次正確步驟比率（RFCS）=正確答案首次出現的步驟索引/總推理步驟數。

而大量統計數據顯示：在超過一半的樣本中，模型在得出正確答案后都生成了大量冗余的內容。

例如，DeepSeek的1.5B輕量級模型在某些問題上只需花費500個token即可得出正確答案，但受限于現有的采樣策略，它要繼續生成452個冗余token才能結束思考。

看起來，在現有的采樣范式下，模型并不知道自己應該何時停止。

驚人發現：模型心里有數！

然而，研究團隊卻發現了一個反直覺的事實：

若是擴大采樣空間至“Pass@K”，也就是讓模型生成K個思維鏈，看其中是否有一個生成的答案能夠正確通過測試用例，結果就截然不同。

為此，論文定義了兩個指標和一個符號：

局部置信度（Next-token Probability）：模型生成下一個詞的概率；

路徑置信度（Cumulative Log-Probability，即Φ）：模型從頭到尾生成這條思維鏈的平均累計概率；

：思維鏈的結束標識。

如果模型只根據局部置信度來決定是否該在下一個詞輸出“”來停止思考，它總是沒什么信心，因為每次輸出下一個詞的概率都比輸出結束標識的概率要高。

因此，思維鏈的長度就這樣不斷的延伸下去。

但若是根據路徑置信度來判斷是否該停止思考，則情況完全相反：

當模型探索出了一條非常簡潔的正確思維鏈、到了該結束思考的時候，生成結束標識的概率將超過其他詞，瞬間升至第一名，順利結束思考。

這個現象非常驚人：模型其實非常確定這條簡潔的思維鏈是正確的，而且想要立刻中止思考。

因此，模型并非不知道應該思考到什么時候停止，而是采樣策略的短視，掩蓋了模型具備全局視野的高效推理潛力。

SAGE算法：實現高效推理

在順利找到問題根源和機制后，解決方案也就呼之欲出了。

上述研究表明，只要給予大模型足夠的采樣空間，讓其更自由地探索多種解法，它就能憑借路徑置信度準確選出那條“短小精悍”的正確思維鏈。

字節與北航團隊據此提出SAGE 算法：自我認知引導的高效推理（Self-Aware Guided Efficient Reasoning）。

考慮到詞元級（Token-Level）評估的計算成本太高，對每個token都要計算概率直到生成結束符，SAGE算法使出了“降維打擊”，改為步驟級（Step-wise）探索：

對于思維鏈中的每一個步驟，SAGE算法會利用底層的隨機采樣，讓模型向外探索出多個完整的推理步驟；

而這些候選的步驟分支中，只要有一條順利地以結束標識“”結尾，SAGE立刻降下判決：模型已經想清楚了，可以立即停止思考。

然后，這條思維鏈路分支就會被作為高置信度結果保留。

為了更直觀地展現SAGE算法的有效性，研究團隊在論文中列出了對比實驗的結果：

讓最聰明的模型去做最難的奧數題時，SAGE算法能讓模型找到更短的路徑，顯著提升解答準確率的同時，還避免了冗長的廢話帶來的幻覺；

讓稍弱一些的模型面對較為簡單的數據集（比如數字母）時，題目本身就處于模型的能力范圍內，SAGE算法能讓模型在計算出正確答案后迅速停止思考，大幅提升token利用率。

這就是SAGE算法的價值：

它無需人為強制截斷思考過程，避免了模型思維鏈的無意義延伸，將模型本就具備的“自我認知”轉換為實際推理效率的提升。

SAGE-RL：發揮商業價值

SAGE算法確實非常好用，但它的實質仍然是推理階段的一種策略。

每次推理仍然需要生成多個思維鏈路分支，算力開銷問題仍然存在。

算法終究是論文中的內容，只有把它應用到大模型真實的訓練過程中，才會產生實際價值。

目前，對于DeepSeek等推理模型，業界最前沿的訓練方法是以GRPO為代表的基于可驗證獎勵的強化學習。

用一個論文中的例子來說明標準GRPO的訓練過程：

給模型一道題，讓模型隨機生成8個互不相同的解答，其中正確的解答將會得到獎勵，以此更新模型的權重。行業內常說的“獎勵模型”就是用來做這件事的。

不過，由于這8個解答都是通過標準的隨機采樣而產生的，“反復思考”的現象自然無法避免。最后的結果就會是：模型能夠做對題目，但也學會了說一大堆廢話。

為了讓SAGE算法投入使用，研究團隊開始對現有的GRPO算法進行替換：

同樣是生成8個解答，其中的6個使用原有的隨機采樣，剩下的2個使用SAGE算法生成。

我們已經知道，SAGE算法給出的回答既正確，又簡練，強化學習的獎勵機制雖然不知道哪兩個解答是SAGE算法生成的，卻總是會給它們打高分。

如此循環下去，SAGE算法生成的答案逐漸成為“榜樣”，模型逐步更新權重后就會一點點改正自己說廢話的毛病，思維鏈的生成模式也逐漸向SAGE算法的高效模式轉變。

這樣一來，SAGE算法就成功烙印在大模型的DNA中，成為SAGE-RL運行機制。

最后，研究團隊選擇了MATH-500、AIME 2025等6個極高難度的AI數學基準測試來評估SAGE-RL的效果：

現有的一些縮減推理長度的算法為了壓縮token消耗量會降低模型回答的準確率。

而基于GRPO的SAGE-RL卻能實現“降本增效”。

研究團隊在7B級別模型的測試中發現，加入SAGE能將模型的平均回復長度從3219個token壓縮至2141個，大約減少了1/3的計算量。

同時，模型在MATH-500上的Pass@1準確率從92%提升到了93%，Token效率更是斷崖式領先。

而此前介紹的新定義指標：首次正確步驟比率（RFCS）也顯示，無效冗余步驟的比例大幅下降，模型終于改掉了“過度思考”的習慣，學會了“點到為止”。

目前，市場上的AI企業普遍采用API計費模式。表面上，增加token的輸出看似能夠增加收入。

實際上，頭部AI廠商做夢都想實現降低冗余token的消耗。能讓服務器接收更多的并發請求獲得的利潤，遠比讓單個請求多說幾句廢話要多。

在AI智能代理投入實際工作流的今天，延遲已經成為產品的“斬殺線”，響應速度慢的模型無法實時滿足用戶的需求，必然會被用戶無情地拋棄。

DeepSeek在一年前震驚硅谷，不僅是因為開源了強大的技術和先進的算法，更是因為他們把推理成本打到了不可思議的低價。

現有的模型若是無法改變生成答案時伴隨大量冗余token的現狀，API的綜合成本就永遠降不下來。

而掌握了類似SAGE這種高效推理技術的廠商，就可以憑借極少的算力達到相同甚至更高的準確率。在頂尖模型提升智能程度的邊際收益銳減的情況下，這正是降價打價格戰的底氣。

以后，大模型也無需再靠長篇大論證明自己。最高級的智能，其實就藏在那個恰到好處的“”中。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

DECS從源頭消除冗余思考，實現推理token減半且性能不降反升

機器之心Pro 2026-05-12 12:58:05
0 跟貼 0
絕殺！OpenAI正式接管人類耳朵，首個GPT-5級推理音頻模型來了

新智元 2026-05-12 19:36:49
6 跟貼 6

一個框架，重塑具身研發流程：Dexbotic走向具身PyTorch

機器之心Pro 2026-05-12 09:27:08
0 跟貼 0

從字節、騰訊出走后，他們做起視頻Agent，融資千萬美元

智東西 2026-05-12 18:16:15
0 跟貼 0
光輪智能與谷歌、英偉達共同定義物理AI仿真標準

機器之心Pro 2026-05-12 20:21:07
0 跟貼 0

OpenAI又吃官司！佛州槍擊案兇手問哪種武器和彈藥最適合，何時何地能造成最大傷亡，ChatGPT均給出回答

每日經濟新聞 2026-05-12 21:13:07
13 跟貼 13

沖刺3400億估值，翁荔親自出鏡，交出一款更像人的大模型

智東西 2026-05-12 15:33:00
3 跟貼 3
告別云端依賴！字節開源新作DreamLite讓手機秒變 AI 畫板

機器之心Pro 2026-05-12 20:47:59
0 跟貼 0

00后小哥復刻Claude最強神話模型OpenMythos

量子位 2026-04-23 11:44:18
0 跟貼 0
智元APC香港觀察：具身智能的終極角色是先進生產力單元

華爾街見聞官方 2026-05-12 21:49:18
0 跟貼 0
智元殺進香港！2026成為部署態元年，機器人不再只會跳舞了

雷科技 2026-05-12 21:59:45
0 跟貼 0
零樣本 Sim-to-Real ！2

機器之心Pro 2026-03-25 11:40:23
0 跟貼 0
AI組織坍縮效應：中層管理者正在失去的，不是職位，是“信息稅”

虎嗅APP 2026-05-12 23:50:21
0 跟貼 0
海外投資人集體轉向！AI最關注這個指標

財聯社 2026-04-30 10:25:38
0 跟貼 0
一場有趣的社會實驗

鹽不能當飯吃 2026-05-11 07:12:31
11 跟貼 11
獨立游戲人正在小紅書"起號"，但沒人知道算法在想什么

宇宙來信發 2026-05-12 16:34:00
0 跟貼 0
生存游戲大挑戰，沒有算法全憑運氣

腿毛影視劇 2026-05-09 16:11:36
10 跟貼 10
大模型高效推理新答案：ICLR 2026提出Balanced Thinking

機器之心Pro 2026-04-27 11:46:27
0 跟貼 0
男子理發付款，魔鬼算法把老板娘繞進去，最后竟然還賺錢了

豆莢看生活 2026-05-12 10:20:09
0 跟貼 0
車內自衛術，男子教女子遇襲后的應對策略，你往后躺啊

班子愛生活 2026-05-11 11:13:52
3 跟貼 3
清華女碩士參與瑞文推理智力測驗100分僅得25分，這是什么情況？

之乎者也小魚兒 2026-05-11 12:18:35
3 跟貼 3
姚來英已任中國煙草總公司總經理

界面新聞 2026-05-12 11:12:28
7930 跟貼 7930
女兒在保溫箱住了整整六天，現在各項指標全部正常

徐Toso 2026-05-09 04:30:45
0 跟貼 0
主場拿下了，騎士確認4件事，哈登策略有效果，賽眼也找到了

體壇大辣椒 2026-05-12 15:51:07
1 跟貼 1
算力熱潮暫歇：美股芯片與半導體設備股同步回落

財聯社 2026-05-12 23:45:29
1 跟貼 1
SM公司策略揭秘：后輩必修前輩作品，肥水不流外人田

今夜繁星墜落 2026-05-11 03:33:12
1 跟貼 1
全球最強算力！理想自研馬赫M100芯片官宣：理想L9 Livis首發

快科技 2026-05-12 18:41:07
0 跟貼 0
樣本失控具備吞噬萬物之力

卡彈機追劇 2026-05-10 09:45:49
1 跟貼 1
利弗莫爾中概股龍頭指數跌1.39%

財聯社 2026-05-13 04:07:09
0 跟貼 0
ARR飆至5億美元仍困“估值洼地” 快手擬分拆可靈AI，程一笑的“AI野望”能否借資本突圍？

每日經濟新聞 2026-05-13 01:12:07
0 跟貼 0
8系SUV廝殺白熱化，真正的比拼早已不在表面

百姓評車 2026-05-11 15:15:59
0 跟貼 0
熬夜3天寫完的文章，閱讀量只有2：比寫不出更崩潰的是這個

心事寄山海 2026-05-12 11:15:15
0 跟貼 0
算法“破籠”：打工人終于能從“永動機”上下來了

迷世書童 2026-05-11 09:27:50
0 跟貼 0
國產工業交換機怎么選？宇航工業交換機服務多行業場景

新浪財經 2026-05-09 09:34:50
0 跟貼 0
剪不斷，理還亂：波斯灣海底光纜威脅背后的“文理分科”鬧劇

民間胡扯老哥 2026-05-12 13:43:44
106 跟貼 106
納斯達克金龍中國指數收跌0.82%，報7009.21點

每日經濟新聞 2026-05-13 05:18:08
0 跟貼 0
鎖藏玄機，智破迷局——密室懸疑劇《上鎖的房間》

文析社 2026-05-11 17:46:27
0 跟貼 0
網易把1978年的恐龍塞進漫威射擊游戲，還能騎

峽谷一級保護廢物 2026-05-13 02:45:38
0 跟貼 0
樂高AT-AT walker降到史低，但我勸你先冷靜

晚星歸航2 2026-05-13 02:59:48
0 跟貼 0
芝商所將與Silicon Data合作推出算力期貨市場

財聯社 2026-05-12 21:14:59
0 跟貼 0

硅基星芒AI

錦緞旗下人工智能研究與媒體服務平臺

58文章數 6關注度

往期回顧全部

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

教育

本地

手機

旅游

公開課

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
七個無法存下錢的壞習慣
李彥宏：百度離破產30天

手機 / 數碼

房產 / 家居

字節跳動新算法，直接把1/3的算力砍掉了

宇樹發布載人變形機甲，定價390萬元起

特朗普稱將同中方討論對臺軍售和黎智英案 外交部回應

特朗普稱將同中方討論對臺軍售和黎智英案 外交部回應

騎士終于玩明白了？

白鹿風波升級！掉粉20萬評論區淪陷

利潤再腰斬 京東干外賣后就沒過過好日子

吉利銀河“TT”申報圖曝光 電動尾翼+激光雷達

態度原創

求求你試試「5+1+1」學習法!!!

用蘇繡的方式，打開江西婺源

10年支持不變：谷歌力保現有Chromebook

故宮擠滿游客，人人撐傘前行：寧愿熱到出汗，也要奔赴紫禁城！

特朗普稱將同中方討論對臺軍售和黎智英案外交部回應

特朗普稱將同中方討論對臺軍售和黎智英案外交部回應

利潤再腰斬京東干外賣后就沒過過好日子

吉利銀河“TT”申報圖曝光電動尾翼+激光雷達