![]()
作者 | Sergio De Simone
譯者 | 明知山
Gemma 4 可與多詞元預測(MTP)草稿模型配合使用,草稿模型使用 投機解碼 技術并行生成多個詞元,讓模型能夠在單次前向傳播中完成校驗,從而實現高達約 3 倍的推理加速,且不損失生成質量。
多詞元預測草稿模型是一種輕量級輔助模型,與 Gemma 4 協同工作,用于解決大語言模型的內存帶寬瓶頸問題。正如谷歌工程師所解釋的,在推理過程中,處理器大部分時間都在重復地將數十億參數從顯存(VRAM)搬運到計算單元——每生成一個詞元就要搬運一次。這種持續的數據搬運增加了延遲,并導致計算資源閑置,在消費級硬件上尤為明顯。
這種低效問題會進一步被放大,因為大語言模型預測“淺顯內容”與解答“復雜邏輯謎題”所耗費的計算量是相同的——這正是多詞元預測草稿模型能夠發揮作用的關鍵場景。
通過將大型主模型(如 Gemma 4 31B)與輕量級草稿模型搭配使用,我們可以更好地利用閑置的計算資源,讓草稿模型在比主模型處理單個詞元更短的時間內“預測”多個后續詞元。隨后,主模型對這些候選詞元進行并行驗證。
谷歌表示,借助多詞元預測草稿模型能夠顯著提升響應速度,讓各類設備實現更快推理:個人電腦與消費級 GPU 可運行 Gemma 26B MoE 和 31B Dense 模型,移動設備則可使用 E2B、E4B 版本,且不會損失輸出質量。
由于核心的 Gemma 4 模型掌握最終驗證權,你依舊可以獲得同等頂尖的推理能力與準確率,同時響應速度得到大幅提升。
谷歌進行了多項架構優化與硬件專屬適配,確保 MTP 草稿模型實現最高的運行效率,并在 x.com 發布推文,通過可視化內容詳細介紹了草稿模型的工作原理。
Reddit 用戶 FarrisAT 稱 Gemma 4 MTP 是 “一項相當出色的技術”,同時他也提醒,目前本地部署的模型仍存在不少問題,其真正優勢要等到模型性能躋身行業頂尖水準后才能充分體現出來。
另一位用戶 Gohab2001 表示,MTP 并非一種全新的技術,但在本地部署時有一個明顯短板:需要同時在內存中加載兩個模型。同時他也強調,Gemma 4 MTP 的真正改進在于它們共享目標模型的 KV 緩存,這確實有效降低了這項技術產生的額外開銷。
在 Hacker News 上,用戶 zozbot234 表示:“MTP 主要適用于用戶體量小、計算資源充足的場景,比如移動端與邊緣計算場景,對于大型 API 服務廠商來說,這項技術帶來的提升則比較有限。”
啟用了 MTP 的 Gemma 4 版本 已在多個平臺上線,包括 Hugging Face、Kaggle、Ollama 等。
查看英文原文:
https://www.infoq.com/news/2026/05/gemma4-multi-token-prediction/
聲明:本文由 InfoQ 翻譯,未經許可禁止轉載。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.