網易首頁 > 網易號 > 正文 申請入駐

大模型推理8倍加速,完全無損,以Qwen3.5-27B-DFlash為例

0
分享至

前文介紹了 Qwen3.5-27B-DFlash,非常神奇

本文更進一步,深入了解一下 DFlash 技術細節


DFlash + DDTree 加速流水線 先說背景:推測解碼(Speculative Decoding)

大模型生成文本的時候,最大的瓶頸是什么?一個 token 一個 token 地吐

不管你 GPU 有多猛,自回歸生成就是一步一步來,快不了

推測解碼(Speculative Decoding)是目前主流的加速思路:用一個小模型快速"猜"一串 token,再讓大模型一次性驗證。猜對了就賺了,猜錯了也不虧——大模型自己糾正就行

但傳統推測解碼有個問題:小模型也是自回歸的,猜的速度也不夠快。

DFlash:用擴散模型替代自回歸草稿

DFlash(Block Diffusion for Flash Speculative Decoding)來自 Z Lab,核心創新就一句話:用輕量級 block diffusion 模型,單次前向傳播并行生成整個 token block 作為草稿

傳統小模型一個一個猜,DFlash 一次猜一整塊(block size = 16)


DFlash 方法流水線

怎么做到的?

關鍵技術叫 KV Injection——把目標大模型多層 hidden features 融合后注入草稿小模型的 KV cache,讓小模型也能高質量預測

加速效果有多猛?

基準

模型

DFlash 加速

HumanEval T=0.0

Qwen3-30B-MoE

6.09x

MATH-500 T=0.0

Qwen3-8B

6.17x

GSM8K T=0.0

Qwen3-8B

5.20x

AIME24 T=0.0

Qwen3-8B

5.91x

MBPP T=0.0

Qwen3-8B

4.75x

對比 EAGLE-3(目前最流行的推測解碼方案),DFlash 快了約 2.5 倍。EAGLE-3 的極限大概 2-3x 加速,DFlash 直接干到 5-6x

而且在采樣模式(Temperature=1)和 thinking mode 下仍然保持約 4.5x 加速,這一點非常重要——大部分加速方案在有隨機性的時候就拉胯了

DDTree:把 DFlash 再推一把

DDTree(Diffusion Draft Tree)是以色列理工學院 Liran Ringel 在 DFlash 基礎上做的進一步優化

核心思路:DFlash 一次前向傳播輸出的是每個位置的概率分布。DDTree 不是從中只取一條路徑,而是用 best-first heap 算法構建一棵草稿樹,選出最有希望的多條分支,然后讓目標模型一次前向傳播驗證整棵樹


DDTree 四步流程:

  1. Block diffusion 一次前向生成 L 個位置的分布

  2. Best-first heap 在節點預算 B 下構建最優草稿樹

  3. Tree attention 編譯為目標模型輸入

  4. 驗證遍歷:匹配子節點則繼續,不匹配則取 bonus token 進入下輪

這套方案有個數學保證:構建的樹在 draft 模型分布下可證明最大化期望接受長度

效果:

在 HumanEval T=0.0 上,DDTree 把 DFlash 的 6.09x 直接拉到了 8.22x,額外多賺了 2.13x。

最關鍵的是——完全無損。目標模型用自己的解碼規則,DDTree 只是幫它更高效地探索搜索空間,輸出分布和不加速時完全一致。

已支持的模型

DFlash 已經為一批主流模型訓好了 Draft 模型:

目標模型

Draft 模型

Kimi-K2.5 (Preview)

z-lab/Kimi-K2.5-DFlash

Qwen3.5-4B/9B/27B

z-lab/Qwen3.5-*-DFlash

Qwen3.5-35B-A3B

z-lab/Qwen3.5-35B-A3B-DFlash

Qwen3-Coder-30B-A3B

z-lab/Qwen3-Coder-30B-A3B-DFlash

Llama-3.1-8B-Instruct

z-lab/LLaMA3.1-8B-Instruct-DFlash

Qwen3.5-122B、397B 和 GLM-5.1 的 Draft 模型也在路上了。

怎么用?

DFlash 已經接入了三大推理框架:

SGLang:

python -m sglang.launch_server \
--model-path Qwen/Qwen3.5-35B-A3B \
--speculative-algorithm DFLASH \
--speculative-draft-model-path z-lab/Qwen3.5-35B-A3B-DFlash \
--tp-size 1 --attention-backend trtllm_mha

vLLM:

vllm serve Qwen/Qwen3.5-27B \
--speculative-config '{"method": "dflash", "model": "z-lab/Qwen3.5-27B-DFlash", "num_speculative_tokens": 15}'

Apple Silicon(MLX):

pip install -e ".[mlx]"

對,Mac 用戶也能用。

DDTree 跑基準測試:

git clone https://github.com/liranringel/ddtree
cd ddtree
pip install -r requirements.txt
bash run_benchmark.sh
python3 plot_results.py
總結

DFlash + DDTree 這對組合拳,代表了推測解碼的下一個階段:

  • DFlash 解決了"猜得慢"的問題 ——用 block diffusion 一次猜一整塊

  • DDTree 解決了"猜得不夠多"的問題 ——用概率樹探索多條路徑

最終效果是 8x+ 無損加速,而且已經接入 SGLang、vLLM、MLX 三大框架,實際可用。

對于部署大模型推理服務的團隊來說,這幾乎是免費的午餐——加速 5-8 倍,不犧牲任何輸出質量,只需要加載一個很小的 Draft 模型

制作不易,如果這篇文章覺得對你有用,可否點個關注。給我個三連擊:點贊、轉發和在看。若可以再給我加個,謝謝你看我的文章,我們下篇再見!

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
“好拉胯”!深圳一熱門演唱會出現舞臺事故,網友紛紛避雷!部門公開回應

“好拉胯”!深圳一熱門演唱會出現舞臺事故,網友紛紛避雷!部門公開回應

南方都市報
2026-04-26 11:55:52
現在教師已經嚴重過剩了!

現在教師已經嚴重過剩了!

微微熱評
2026-04-26 18:19:14
又打起來了!德黑蘭巨響,美軍不宣而戰?伊朗或再中圈套

又打起來了!德黑蘭巨響,美軍不宣而戰?伊朗或再中圈套

咸魚金腦袋
2026-04-26 07:35:40
大年三十被媽9次嫌多余,我拎行李就走,隔天全家瞅著201余額急了

大年三十被媽9次嫌多余,我拎行李就走,隔天全家瞅著201余額急了

麥子情感故事
2026-04-26 17:52:19
本想逼宮老俞,卻讓臉面碎了一地!甄選4大主播的離職瓜變味了

本想逼宮老俞,卻讓臉面碎了一地!甄選4大主播的離職瓜變味了

觀察鑒娛
2026-04-26 13:11:53
黑八要來了?60勝徒有虛名,當家球星場均31+8燃盡,身邊卻無幫手

黑八要來了?60勝徒有虛名,當家球星場均31+8燃盡,身邊卻無幫手

你的籃球頻道
2026-04-26 07:41:05
張凌赫腳傷上了熱搜!車內痛苦表情曝光!對接方回應

張凌赫腳傷上了熱搜!車內痛苦表情曝光!對接方回應

麥芽是個小趴菜
2026-04-26 16:58:21
黃巖島激烈對峙,中方做好最壞打算,美媒:轟6和055已部署

黃巖島激烈對峙,中方做好最壞打算,美媒:轟6和055已部署

啟迪你的思維
2026-04-24 02:35:20
火鍋店野生菌“見手青”煮12分鐘,顧客食用后中毒維權無果,消委科普稱需煮20分鐘;廣州天河區市監局:沒充分證據不予立案

火鍋店野生菌“見手青”煮12分鐘,顧客食用后中毒維權無果,消委科普稱需煮20分鐘;廣州天河區市監局:沒充分證據不予立案

大風新聞
2026-04-25 20:38:04
驚天內幕!1984年中美黑鷹交易只交付24架,真相竟是戰略失誤!

驚天內幕!1984年中美黑鷹交易只交付24架,真相竟是戰略失誤!

人生錄
2026-04-25 15:13:17
經常“放屁”是肝不好嗎?提醒:放屁多很可能與這5種疾病有關!

經常“放屁”是肝不好嗎?提醒:放屁多很可能與這5種疾病有關!

芹姐說生活
2026-04-25 16:12:39
中國西北舉行大規模空戰演習,250架戰機參演

中國西北舉行大規模空戰演習,250架戰機參演

午夜搭車a
2026-04-26 18:08:28
【中超】冷門!多點開花笑傲齊魯德比 海牛4比1泰山

【中超】冷門!多點開花笑傲齊魯德比 海牛4比1泰山

體壇周報
2026-04-26 19:15:10
馬德興:朝鮮U17退出亞洲杯賽事,亞足聯暫不尋求遞補球隊

馬德興:朝鮮U17退出亞洲杯賽事,亞足聯暫不尋求遞補球隊

懂球帝
2026-04-26 18:15:18
外交部一錘定音!賴清德沒資格,鄭麗文就算贏了選舉也不認!

外交部一錘定音!賴清德沒資格,鄭麗文就算贏了選舉也不認!

果媽聊娛樂
2026-04-25 13:48:35
統一臺灣后,第一任省長由誰擔任最合適?五人上榜,一人脫穎而出

統一臺灣后,第一任省長由誰擔任最合適?五人上榜,一人脫穎而出

知鑒明史
2026-04-24 20:05:03
恒大夏海鈞600億資產4次解封失敗

恒大夏海鈞600億資產4次解封失敗

地產微資訊
2026-04-26 15:52:24
當年劉愷威楊冪兩個確實是生理性喜歡

當年劉愷威楊冪兩個確實是生理性喜歡

科學發掘
2026-04-24 06:45:03
杜鋒看看!徐昕單賽季勇奪最具進步球員+入選二陣,攻守全面盤活

杜鋒看看!徐昕單賽季勇奪最具進步球員+入選二陣,攻守全面盤活

籃球資訊達人
2026-04-26 19:13:33
0-2!劉洋各種失誤,韓鵬3中衛被完爆!苗原:又見泰山經典丟球

0-2!劉洋各種失誤,韓鵬3中衛被完爆!苗原:又見泰山經典丟球

建哥說體育
2026-04-26 17:55:44
2026-04-26 19:59:00
Ai學習的老章 incentive-icons
Ai學習的老章
Ai學習的老章
3352文章數 11139關注度
往期回顧 全部

科技要聞

漲價浪潮下,DeepSeek推動AI“價格戰”

頭條要聞

特朗普內閣又一女部長落馬:強迫男下屬為其提供性服務

頭條要聞

特朗普內閣又一女部長落馬:強迫男下屬為其提供性服務

體育要聞

森林狼3比1掘金:逆境中殺出了多孫穆?!

娛樂要聞

僅次《指環王》的美劇,有第二季

財經要聞

事關新就業群體,中辦、國辦發文

汽車要聞

預售19.38萬元起 哈弗猛龍PLUS七座版亮相

態度原創

數碼
教育
手機
藝術
軍事航空

數碼要聞

一加120W充電寶有多猛?30分鐘充68%

教育要聞

休學率上漲,驚到很多人!北大六院醫生直言:這背后其實是夫妻關系和家庭關系……

手機要聞

一加Ace 6至尊版規格全揭曉,堆料堆到友商沉默!

藝術要聞

18幅 列賓美院教師Artem Tikhonov風景寫生

軍事要聞

伊朗總統:不會在壓力、威脅下進行談判

無障礙瀏覽 進入關懷版