无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

拒絕盲目猜token,阿里x浙大將投機解碼帶入彈性預算時代

0
分享至



本文共同第一作者為阿里巴巴千問事業部胡欣怡博士、浙江大學博士生沈宇豪,以及阿里巴巴千問事業部張堡霖。其中,胡欣怡博士長期從事高效大模型算法與系統研究,重點關注模型結構-系統協同設計、推理加速與生成鏈路優化等方向,是本工作的項目負責人。通訊作者為阿里巴巴千問事業部戈霜。

隨著大模型參數規模持續擴大,推理成本已經成為生產級 LLM 服務的核心瓶頸。投機解碼(Speculative Decoding, SD)通過「小模型 draft + 大模型 verify」的方式,將多個候選 token 放到一次目標模型前向中并行驗證,從而緩解自回歸解碼的串行瓶頸。

但一個常被忽略的問題是:投機解碼在單請求或低并發下有效,不代表它在真實高并發服務中依然有效。當 batch size 增大時,多個請求會同時爭奪目標模型的驗證計算資源;此時每多驗證一個低價值 token,都可能直接轉化為吞吐下降和尾延遲上升。



為了解決這一問題,來自阿里 ATH 事業群 - 千問事業部 - 基礎工程團隊和浙江大學的研究者提出了ECHO(Elastic Speculative Decoding with Sparse Gating for High-Concurrency Scenarios)



  • 作者: Xinyi Hu, Yuhao Shen, Baolin Zhang, Hengxin Zhang, Jun Dai, Shuang Ge, Lei Chen, Yue Li, Mingcheng Wan
  • 單位: Alibaba Qwen Applications Business Group;Zhejiang University
  • 論文: ECHO: Elastic Speculative Decoding with Sparse Gating for High-Concurrency Scenarios
  • 鏈接: https://arxiv.org/abs/2604.09603

ECHO 不再把投機樹構造看作 「盡可能多猜 token」的問題,而是將其重新建模為一個固定驗證預算下的調度問題:在嚴格的全局 token 驗證預算內,動態決定哪些請求應該繼續加深、哪些請求應該提前截斷、哪些預算應該轉向擴寬候選集。

實驗結果顯示,在 BS=256 的高負載場景下,ECHO 將 Qwen3-235B-A22B 模型推理吞吐從 2,803 tok/s 提升至 3,207 tok/s,提升 14.4%,說明當 verification compute 逐漸成為稀缺資源時,驗證預算調度能夠顯著提升投機解碼的系統收益



1. 為什么投機解碼在高并發下會失效?

傳統投機解碼通常假設:目標模型一次驗證多個 draft token 的成本,接近一次普通自回歸前向。因此,只要 draft token 被接受得足夠多,就能獲得可觀加速。

然而,在生產級服務中,這個假設并不總成立。



換句話說,投機解碼在真實 serving 中不再是「免費驗證更多 token」,而是在有限驗證預算里選擇「最值得驗證的 token」。

現有方法主要面臨兩類問題:

  • 靜態樹方法:采用固定結構,簡單穩定,但容易在低置信度分支上浪費大量驗證計算;
  • 動態樹方法:嘗試根據 token 概率在線調整樹結構,但往往依賴密集的逐層 / 逐節點決策,容易積累誤判,并產生 ragged batch,難以適配高性能 serving kernel。

ECHO 的出發點正是:在高并發 serving 中,核心資源不是「draft token 數量」,而是目標模型每一步能夠承受的驗證預算

2. ECHO:把投機樹構造變成預算調度

ECHO 的核心思想可以概括為一句話:

在一個 batch 內,將所有請求的候選 token 樹看作統一的 Super-Tree,并在全局驗證預算 K_max 下彈性分配深度與寬度。

在每個投機解碼 step 中,batch 內有 B 個并發請求。對于第 i 個請求,假設其構造的候選樹包含 K_i 個待驗證 token,那么目標模型實際要驗證的是整個 batch 中所有候選節點的并集。ECHO 對其施加全局約束:



其中 K_max 代表當前硬件和 serving 系統在 compute-bound 區間附近能夠承受的驗證上限。這樣,投機解碼就從「每個請求獨立擴樹」轉變為「多個請求共享一個全局預算池”」。

這帶來了一個關鍵變化:給某個請求多分配一個候選 token,就意味著其他請求可用預算減少。因此,ECHO 不再盲目增加 draft depth 或 top-k,而是根據請求置信度動態決定預算如何流動。

3. 稀疏門控:只在可靠的 sweet spots 做決策



動態樹方法的一個難點在于:如果每一層、每個節點都做決策,控制開銷會迅速累積;更重要的是,不同深度上的置信度信號并不都同樣可靠。

論文通過分析 accepted token 與 rejected token 的置信度分布發現:并非所有 draft depth 都適合做決策。某些深度上,接受與拒絕樣本的分布區分度較高,論文稱之為 sweet spots;而大量中間層的分布邊界模糊,在這些位置頻繁決策反而容易引入誤判。

因此,ECHO 采用 Sparse Confidence Gating:

  • 只在 root、target depth,以及少量自適應選擇的中間深度進行門控;
  • 通過 warm-up /calibration 階段識別高區分度位置;
  • 在推理時根據路徑置信度判斷當前請求是繼續 deepen,還是 truncate 并釋放預算。

對于第 i 個請求在深度 d 的候選集合,ECHO 使用最大似然路徑概率作為置信度:



若 ci,d>τd,則認為當前路徑高置信,可以繼續向更深層擴展;否則提前截斷,將預算釋放給更高價值的請求或用于局部擴寬。

4. 彈性預算調度:從「多猜 token」到「驗證預算重分配」



ECHO 的第二個核心組件是Unified Elastic Budget Scheduler。它在全局預算下,同時處理兩類資源分配:

  1. 同一請求內部的 depth vs. width 調度:當深度擴展風險較高時,利用剩余預算在當前截斷深度擴寬候選集;
  2. 不同請求之間的預算重分配:當某些低置信度請求被截斷時,將節省出的預算轉移給其他高置信度請求,用于繼續加深。

具體來說,ECHO 采用兩級優先級:

  • Priority 1:Global Depth Extension

如果某個請求在 sparse gate 上通過置信度檢查,則優先將預算用于繼續加深,以減少后續全局驗證 step 數。

  • Priority 2:Opportunistic Width Expansion

如果沒有請求能夠繼續高置信度加深,剩余預算才用于擴寬被截斷請求的候選集合,提高當前深度覆蓋正確 token 的概率。

這種機制自然適配不同驗證預算狀態:

  • 在低負載場景下,驗證預算相對充足,ECHO 可以將截斷節省下來的預算重新用于當前請求的 width expansion;
  • 當系統逐漸進入 verification compute-bound 區間時,驗證預算競爭變強,低置信度請求釋放出的預算會被優先轉移給高置信度請求,用于 global depth extension。

這也是 ECHO 名稱中「Elastic」的含義:它不是固定地追求更深或更寬,而是在請求熵、batch 負載和硬件預算之間動態調整。

5. 面向系統落地:ECHO 集成到 SGLang

很多動態投機樹方法雖然在原始 transformer 實驗中有效,但一旦進入真實 serving 框架,就會遇到 ragged batch 與 kernel 兼容性問題。

ECHO 在系統層面專門處理了這一點。論文將 ECHO 集成到工業級推理框架SGLang中,并通過Flatten & Pack將不同請求產生的非規則候選 token 樹打包成 dense、kernel-compatible 的布局,再交給目標模型進行一次性驗證。

這一步非常關鍵:如果算法產生的動態樹結構無法高效進入 serving kernel,那么理論上的 token 節省很可能被系統開銷抵消。ECHO 的設計目標不是單點優化 MAT,而是在真實高并發推理系統中提升 end-to-end goodput。

目前團隊正在整理 ECHO 相關代碼和文檔,計劃于 6 月向 SGLang 提交 MR,進一步推動代碼開源、社區復現和系統集成。

6. 實驗:從 8B 到 235B,驗證預算受限區間收益更明顯

論文在多種模型規模上驗證了 ECHO,包括 Vicuna-13B、LLaMA-3.1-8B、LLaMA-3.3-70B,以及 Qwen3 系列的 8B、32B、235B。任務覆蓋 HumanEval、GSM8K、CNN/DM、Alpaca 和 MT-Bench,實驗在 8×NVIDIA H100 80GB GPU 上進行;低負載場景使用 HuggingFace transformers,高并發場景使用 SGLang。

在低負載 BS=1 的設置下,ECHO 在所有 benchmark 上達到1.63×–5.35×的 wall-time speedup。其中:

  • LLaMA3.3-70B上,ECHO 最高達到5.35×加速;
  • Qwen3-235B上,ECHO 平均加速達到2.02×,優于 DDD 的 1.77× 和 EAGLE-3 的 1.69×;
  • Qwen3-32B上,ECHO 相比代表性動態方法 DDD 帶來15.8%的提升。

ECHO 的主要有效區間,是 target verification 從近似免費并行逐漸進入 compute-bound 的驗證預算受限區間。論文在 MT-Bench、GSM8K、HumanEval 上評估了 4 個模型配置,并對比 EAGLE-3 以及兩個 ECHO 變體。結果顯示,當 verification compute 逐漸成為稀缺資源時,ECHO 依然能夠穩定提升吞吐,最大提升分別達到:

  • LLaMA3.1-8B:7.92%
  • LLaMA3.3-70B:12.96%
  • Qwen3-8B:10.00%
  • Qwen3-235B:14.95%

對于 Qwen3-235B 這類工業級大模型,verification compute 更早進入 compute-bound 區間,因此錯誤的預算分配會更快傷害吞吐。ECHO 通過將低置信度請求節省的 token 預算重新分配給高置信度請求,在 BS=256 時將吞吐從2,803 tok/s提升至3,207 tok/s,提升14.4%

7. 消融實驗:為什么 sparse gating 和 depth-aware threshold 都重要



論文還比較了 ECHO 與兩個簡化變體:

  • Dense Gating:在每一層都做門控決策;
  • Fixed Threshold:所有深度共用同一個置信度閾值。

結果表明,完整 ECHO 表現最好。原因在于:

  • Dense Gating 雖然看似更精細,但在不可靠深度上頻繁決策會引入額外開銷與誤判;
  • Fixed Threshold 無法適應深度變化,因為 token 概率通常會隨 depth 下降,單一閾值容易在深層過度剪枝,或在淺層放入過多低價值 token。

在 LLaMA3.1-8B、BS=256 設置下,Dense Gating 比 ECHO 低約 5% 吞吐;在 Qwen3-235B 上,ECHO 相比 Fixed Threshold 提升5.3%(3,046 → 3,207 tok/s)。

結語:投機解碼進入「預算時代」

ECHO 的意義不只是提出了一個新的動態投機樹策略,更重要的是給出了一個面向生產 serving 的觀察:在高并發大模型推理中,投機解碼的核心不再是「猜得越多越好」,而是「在固定驗證預算內,讓每個被驗證 token 都更有價值」。通過 Super-Tree 視角、Sparse Confidence Gating、Elastic Budget Scheduling,以及面向 SGLang 的系統實現,ECHO 將投機解碼從局部樹結構優化推進到 batch-level 預算調度,為大模型高并發服務中的解碼加速提供了新的思路。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
1987年,馬季宴請馮鞏等幾位徒弟,這一桌菜,可不便宜

1987年,馬季宴請馮鞏等幾位徒弟,這一桌菜,可不便宜

喜文多見01
2026-05-12 10:54:13
24小時內,中國收3個好消息!特朗普的第一份大禮,已經到位了!

24小時內,中國收3個好消息!特朗普的第一份大禮,已經到位了!

千里持劍
2026-05-13 11:31:35
我一直糾結劉濤的長相很久了,昨天拿去讓老人家幫忙看看面相。

我一直糾結劉濤的長相很久了,昨天拿去讓老人家幫忙看看面相。

小光侃娛樂
2026-05-13 11:59:03
安帥談內馬爾:我很清楚他非常受歡迎;沒有人施壓讓我征召他

安帥談內馬爾:我很清楚他非常受歡迎;沒有人施壓讓我征召他

懂球帝
2026-05-13 07:33:06
無才無德、整日裝瘋賣傻博眼球,究竟是誰把這群小丑捧上天?

無才無德、整日裝瘋賣傻博眼球,究竟是誰把這群小丑捧上天?

夢醉為紅顏一笑
2026-05-11 11:34:43
6月入戶調查啟動!不查房產不查存款,看完這些徹底不慌了

6月入戶調查啟動!不查房產不查存款,看完這些徹底不慌了

老特有話說
2026-05-11 13:39:00
中方一錘定音給特朗普最高禮遇,普京通告全球:中俄關系獨一無二

中方一錘定音給特朗普最高禮遇,普京通告全球:中俄關系獨一無二

快看張同學
2026-05-13 09:52:25
皇馬為穆里尼奧回歸開啟大清洗!9名球員將離隊,今夏折價拋售

皇馬為穆里尼奧回歸開啟大清洗!9名球員將離隊,今夏折價拋售

夜白侃球
2026-05-13 09:20:50
津媒:U19國青出戰土倫杯以小打大,隊內不少頗具潛質的球員

津媒:U19國青出戰土倫杯以小打大,隊內不少頗具潛質的球員

懂球帝
2026-05-13 11:27:05
徹底不裝了!央視拒付天價轉播費僅48小時,炸出一堆“牛鬼蛇神”

徹底不裝了!央視拒付天價轉播費僅48小時,炸出一堆“牛鬼蛇神”

好賢觀史記
2026-05-08 16:10:06
5月13日至5月19日,本市部分路段交通臨時管制

5月13日至5月19日,本市部分路段交通臨時管制

上海交通
2026-05-13 13:41:37
騎士全隊出征底特律!ESPN預測騎士僅三成勝率,哈登天王山7勝6負

騎士全隊出征底特律!ESPN預測騎士僅三成勝率,哈登天王山7勝6負

錢說體育
2026-05-13 12:39:00
陪玩陪睡根本不夠!認干爹、舔手指,背地里的陰暗面完全藏不住了

陪玩陪睡根本不夠!認干爹、舔手指,背地里的陰暗面完全藏不住了

杰絲聊古今
2026-05-03 13:35:27
開羅會議時,羅斯福:把越南琉球歸還中國,蔣介石:不要!

開羅會議時,羅斯福:把越南琉球歸還中國,蔣介石:不要!

鶴羽說個事
2026-05-12 22:42:24
國乒太太天團貌美如花:邱貽可娶學霸,梁靖崑娶明星,王皓贏麻了

國乒太太天團貌美如花:邱貽可娶學霸,梁靖崑娶明星,王皓贏麻了

手工制作阿殲
2026-05-13 12:29:49
三名美人并排站著,你最偏愛哪一個

三名美人并排站著,你最偏愛哪一個

可樂談情感
2026-05-13 01:20:36
明星卸妝后,曾黎邋遢憔悴,田曦薇像無眉大俠,黃曉明撞臉大衣哥

明星卸妝后,曾黎邋遢憔悴,田曦薇像無眉大俠,黃曉明撞臉大衣哥

流云隨風去遠方
2026-05-13 08:12:48
主角:四個女人四種結局,李青娥慘死,米蘭嫁富商,花彩香最可惜

主角:四個女人四種結局,李青娥慘死,米蘭嫁富商,花彩香最可惜

阿廢冷眼觀察所
2026-05-13 01:40:05
尼日利亞一女星用500個面包制成禮服 驚艷亮相電影獎 現場撕下一塊大快朵頤

尼日利亞一女星用500個面包制成禮服 驚艷亮相電影獎 現場撕下一塊大快朵頤

快科技
2026-05-12 15:00:24
痛惜!衡陽5死2傷火災背后:無物業老小區的生存困境

痛惜!衡陽5死2傷火災背后:無物業老小區的生存困境

老貓觀點
2026-05-13 06:45:49
2026-05-13 14:51:00
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
12983文章數 142648關注度
往期回顧 全部

科技要聞

谷歌劇透安卓重大升級 Gemini深度集成底層

頭條要聞

特朗普空中發文:很榮幸與杰出人士同去偉大的中國

頭條要聞

特朗普空中發文:很榮幸與杰出人士同去偉大的中國

體育要聞

14年半,74萬,何冰嬌沒選那條更安穩的路

娛樂要聞

白鹿掉20萬粉,網友為李晨鳴不平

財經要聞

創業板指突破4037.96點創歷史新高

汽車要聞

4月新能源滲透率首破60% BBA無車型銷量破萬

態度原創

數碼
家居
房產
游戲
手機

數碼要聞

三星Exynos 2700或棄用WLP封裝 成本壓力成主因

家居要聞

內在自敘,無域有方

房產要聞

海口禁摩,3.3萬名車主要慌了!

《寂靜嶺f》全球累計出貨量突破200萬套!美麗而令人戰栗的風潮席卷全球

手機要聞

索粉最期待的年度旗艦來了!索尼Xperia 1 VIII發布:售價1.2萬元起

無障礙瀏覽 進入關懷版