網易首頁 > 網易號 > 正文申請入駐

Gemma 4 多詞元預測：生成速度最高提升約 3 倍

2026-05-28 16:42:19　來源: InfoQ

北京舉報

分享至

作者 | Sergio De Simone

譯者 | 明知山

Gemma 4 可與多詞元預測（MTP）草稿模型配合使用，草稿模型使用投機解碼技術并行生成多個詞元，讓模型能夠在單次前向傳播中完成校驗，從而實現高達約 3 倍的推理加速，且不損失生成質量。

多詞元預測草稿模型是一種輕量級輔助模型，與 Gemma 4 協同工作，用于解決大語言模型的內存帶寬瓶頸問題。正如谷歌工程師所解釋的，在推理過程中，處理器大部分時間都在重復地將數十億參數從顯存（VRAM）搬運到計算單元——每生成一個詞元就要搬運一次。這種持續的數據搬運增加了延遲，并導致計算資源閑置，在消費級硬件上尤為明顯。

這種低效問題會進一步被放大，因為大語言模型預測“淺顯內容”與解答“復雜邏輯謎題”所耗費的計算量是相同的——這正是多詞元預測草稿模型能夠發揮作用的關鍵場景。

通過將大型主模型（如 Gemma 4 31B）與輕量級草稿模型搭配使用，我們可以更好地利用閑置的計算資源，讓草稿模型在比主模型處理單個詞元更短的時間內“預測”多個后續詞元。隨后，主模型對這些候選詞元進行并行驗證。

谷歌表示，借助多詞元預測草稿模型能夠顯著提升響應速度，讓各類設備實現更快推理：個人電腦與消費級 GPU 可運行 Gemma 26B MoE 和 31B Dense 模型，移動設備則可使用 E2B、E4B 版本，且不會損失輸出質量。

由于核心的 Gemma 4 模型掌握最終驗證權，你依舊可以獲得同等頂尖的推理能力與準確率，同時響應速度得到大幅提升。

谷歌進行了多項架構優化與硬件專屬適配，確保 MTP 草稿模型實現最高的運行效率，并在 x.com 發布推文，通過可視化內容詳細介紹了草稿模型的工作原理。

Reddit 用戶 FarrisAT 稱 Gemma 4 MTP 是 “一項相當出色的技術”，同時他也提醒，目前本地部署的模型仍存在不少問題，其真正優勢要等到模型性能躋身行業頂尖水準后才能充分體現出來。

另一位用戶 Gohab2001 表示，MTP 并非一種全新的技術，但在本地部署時有一個明顯短板：需要同時在內存中加載兩個模型。同時他也強調，Gemma 4 MTP 的真正改進在于它們共享目標模型的 KV 緩存，這確實有效降低了這項技術產生的額外開銷。

在 Hacker News 上，用戶 zozbot234 表示：“MTP 主要適用于用戶體量小、計算資源充足的場景，比如移動端與邊緣計算場景，對于大型 API 服務廠商來說，這項技術帶來的提升則比較有限。”

啟用了 MTP 的 Gemma 4 版本已在多個平臺上線，包括 Hugging Face、Kaggle、Ollama 等。

查看英文原文：

https://www.infoq.com/news/2026/05/gemma4-multi-token-prediction/

聲明：本文由 InfoQ 翻譯，未經許可禁止轉載。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.