網易首頁 > 網易號 > 正文申請入駐

每秒狂吐1000個token！谷歌開源擴散模型新作，4090單卡可跑

2026-06-11 16:01:51　來源: 智東西

北京舉報

分享至

智東西
編譯劉煜
編輯陳駿達

智東西6月11日消息，今天凌晨，谷歌DeepMind推出一款探索文本擴散（text diffusion）技術的開放實驗模型DiffusionGemma。這款模型基于Apache 2.0許可協議發布，是260億參數的混合專家（MoE）模型，能夠一次性生成整段文本，在GPU上文本生成速度最高可達自回歸LLM的4倍。

▲DeepMind官宣（圖源：X）

DeepMind還聯合英偉達完成了全硬件棧優化，DiffusionGemma可適配消費級硬件（已針對GeForce RTX 5090、4090顯卡完成量化適配），同時在企業級設備上也能發揮性能。

無論是搭載Hopper架構、Blackwell架構并支持NVFP4內核的設備，還是面向本地桌面部署的英偉達DGX Spark、DGX Station，以及面向AI專業人員的RTX PRO系列產品，都能流暢運行DiffusionGemma。

值得一提的是，該模型原生支持NVFP4技術，能夠在幾乎不損失生成精度的前提下，大幅提升計算吞吐量，進一步提速整體運行效率。

模型權重：
DiffusionGemma 26B 指令微調版（A4B?it）：
https://huggingface.co/google/diffusiongemma-26B-A4B-it

框架地址：
Hugging Face Transformers：
https://github.com/huggingface/transformers

一、DiffusionGemma速度占優，生成質量不及Gemma 4

DeepMind稱，盡管自回歸模型的生成質量相對較高，但如果用戶想要一邊寫、一邊實時補全、或者來回修改，模型可能要重新生成一整段，響應速度不夠快。同時，不少開發實時交互式AI應用的開發者，也常常會面臨本地推理帶來的延遲問題。

自回歸語言模型的工作原理類似打字機，從左至右逐一生成token。在云端場景中，服務端可批量處理數千條用戶請求、分攤硬件負載，因此該模式具備較高效率。

但當模型在本地為單一用戶運行時，這種逐詞生成的方式會造成專用GPU或TPU利用率低下，硬件大部分時間都處于等待下一個“輸入字符”的空閑狀態。

不少研發團隊在思考如何從模型架構層面提高推理速度，而擴散模型架構被認為是頗有潛力的一個方向。業界對其進行了長期研究，但要把這項技術用在大模型上一直困難重重。

具體而言，擴散模型的計算成本高，長文本的生成質量也難以保證，其對離得近的信息敏感，對遠距離信息容易忽略，以致對長上下文理解存在局限，要在不犧牲質量、不燒掉太多算力的前提下把它做大、做穩定，長期以來缺乏有效的工程方案。

DeepMind此次推出DiffusionGemma正是為了改變了這一現狀，它的核心思路是重新設計模型調用硬件的方式。

DiffusionGemma依托Gemma 4系列模型的單位參數性能，結合Gemini Diffusion相關研究打造，同時搭載全新的diffusion head（擴散輸出頭），能突破傳統自回歸LLM逐個token串行處理的模式，以最大化提升文本生成速度。

DiffusionGemma沒有進行串行逐詞預測，而是一次性生成包含256個token的完整文本段落。其一次性向處理器分配更大的計算任務，能夠讓硬件算力得到充分利用。這一特性在行內編輯、代碼補全、氨基酸序列、數學圖譜等非線性應用場景中有一定優勢。

這款模型推理模式由此從單臺串行工作的打字機，升級為可一次性輸出整段文本的大型印刷設備。

不止如此，該模型推理階段僅激活38億參數，經過量化處理后，可流暢運行在高端消費級專用顯卡18GB顯存的硬件限制內。

DiffusionGemma的文本擴散技術，其原理與AI圖像生成模型相似。圖像模型從隨機噪點開始，迭代優化最終生成清晰畫面，DiffusionGemma則將這套邏輯應用于文本生成中。

首先，DiffusionGemma會先生成一組隨機的占位token，作為文本生成的初始基底。隨后該模型會進行多輪迭代計算，先鎖定已經生成準確的token內容，再將這些有效信息作為上下文依據，持續修正和優化剩余文本。

如下所示，經過層層打磨后，該模型生成的整體內容不斷收斂優化，最終形成通順、完整、可直接使用的文本結果。

此外，在生成文本的全過程中，該模型能夠同步處理整段內容，由此衍生出新的實用能力，比如精準補全復雜的Markdown格式，或是近乎實時地生成并渲染代碼等。

二、能生成3D SVG圖形，支持開發者微調優化

DiffusionGemma能直擊本地推理帶來延遲問題這一痛點，不過它也并非十全十美。以下是該款模型的功能特點：

首先是極速推理。DiffusionGemma將解碼瓶頸從內存帶寬轉移至計算單元，在專用GPU上token輸出速度實現提升。例如，其在單張英偉達H100的生成速度可達每秒1000個token以上，在GeForce RTX 5090的生成速度可達每秒700個token以上。

第二點則是智能自糾錯。該模型會迭代優化輸出內容，可一次性對整段文本進行校驗，實時修正錯誤。

不止如此，該模型不局限于純文本創作，還能理解文字語義、輸出圖形相關內容，可根據文字描述生成3D SVG圖形。這一生成過程如下圖所示，Hugging Face制作了演示樣例，直觀呈現了DiffusionGemma根據文字描述生成圖形的全過程。

同時，開發者還可通過微調進一步提升DiffusionGemma在特定任務中的表現。

如下圖所示，大模型高效微調開源框架Unsloth對DiffusionGemma進行數獨任務微調，數獨任務中每個token都與后續token存在關聯，自回歸模型處理該任務難度較大，而DiffusionGemma的雙向注意力機制則能降低處理難度。

DiffusionGemma面向追求高速、本地實時交互的研究人員與開發者設計，適用于各類對速度敏感的交互式本地工作場景，例如行內編輯、內容快速迭代以及非線性文本結構生成等。

不過，DiffusionGemma主打的提速優勢主要體現在本地部署及低并發推理場景。這種“快”不是所有場景都試用，尤其不適合高并發云端服務。

在高查詢量（QPS）的云端服務場景中，自回歸模型可充分榨取計算資源，DiffusionGemma的并行解碼優勢會不斷弱化，還可能推高服務成本。

綜合來看，DiffusionGemma的吞吐性能優勢，在單張加速卡、中小批次任務的場景下最為突出。也就是說，個人開發者、小團隊在本地跑實驗的場景，使用DiffusionGemma能最大程度發揮其性能優勢。

如下圖所示，由于DiffusionGemma優先兼顧生成速度與并行輸出架構，單請求生成token的速度約為Gemma 4的3.65倍，但整體輸出質量不及Gemma 4。對于追求極致生成質量的應用場景，DeepMind建議用戶繼續使用標準版Gemma 4。

結語：聚焦端側提速需求，探索文本生成新路徑

DiffusionGemma的推出，并不意味著文本擴散模型將立即取代當前主流的自回歸大模型。至少在生成質量、云端高并發部署效率等方面，自回歸架構依然占據主導地位。

但DiffusionGemma展示了另一種可能。在本地推理、實時交互和低并發場景下，通過改變文本生成方式，該模型可以突破傳統逐token解碼帶來的速度限制。

隨著端側AI和本地部署需求持續增長，如何在生成質量、推理速度與硬件成本之間取得平衡，正成為大模型發展的重要方向。DiffusionGemma更像是一次針對這一問題的前沿探索，其最終價值仍有待開發者社區和實際應用場景進一步驗證。

來源：谷歌官網

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.