无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

谷歌最新大模型 DiffusionGemma 續集:Unsloth 把它壓到 18GB,單卡飆到 2000+ Token/s

0
分享至

大家好,我是 Ai 學習的老章

,當時 vLLM 在 H100 上跑出 1000+ tok/s 已經夠炸裂了,結果不到三天,Unsloth 直接把它壓成 GGUF,丟進 llama. cpp,單卡 2000+ tok/s 起飛——而且最低 18GB RAM 就能跑


這次有什么新東西

簡單說三句話:

  1. GGUF 來了:Unsloth 把 DiffusionGemma-26B-A4B-it 量化成 5 個 GGUF 版本,最小 16GB,24GB 顯卡一張就吃得下

  2. llama. cpp 上車:Daniel Han(Unsloth 創始人)給 llama .cpp 提了 PR ,新增了llama-diffusion-cli專用運行器

  3. 2000+ tok/s 實測:Unsloth 官方在 RTX 6000 上跑出了2000+ tokens/s的單請求速度,比 vLLM 在 H100 上的 1000 tok/s 還快一倍

也就是說,擴散式大模型從"云端 H100 專屬"直接下沉到了"消費級 24GB 顯卡",門檻低到離譜

用一張圖直觀感受一下這三天的變化:


DiffusionGemma 三天進化對比 量化版本怎么選

Unsloth 這次給了 5 檔量化,從 BF16 全精度到 Q4_K_M 都覆蓋了:

量化

體積

BF16

47 GB

全精度參考版,不建議日常用

Q8_0

25 GB

接近無損,推薦,單張 32GB+ 顯卡(如 RTX 6000 Pro / V100 32G)夠用

Q6_K

21 GB

折中選擇

Q5_K_M

18 GB

內存敏感場景可選

Q4_K_M

16 GB

最小,單張 24GB 顯卡(4090/3090/RTX 6000)即可塞下


? 注意是"塞下",不是"跑得動";Unsloth 官方推薦總內存(RAM + VRAM)≥ 18 GB,這是包含 KV Cache 和 canvas 狀態緩沖區的最低要求

我個人的選擇建議:

  • 24GB 單卡(4090/3090/RTX 6000)→ Q4_K_M(16GB 模型 + 8GB 留給 KV cache)

  • 32GB 單卡(RTX 6000 Pro/V100 32G)→ Q8_0(精度最優)

  • Apple Silicon 統一內存(M2 Max/M3 Max 32G+)→ Q4_K_M 或 Q5_K_M

  • 純 CPU + 大內存(64GB+)→ Q8_0,速度慢但精度穩

跑法一:llama. cpp 原生路線

這條路線適合喜歡命令行、想看清楚每個參數的玩家;關鍵點:必須用 PR 分支,不是 main——DiffusionGemma 是塊擴散架構,標準的llama-clillama-server還跑不起來

1. 編譯專用分支

git clone https://github. com/ggml-org/llama. cpp
cd llama. cpp
gh pr checkout 24423


# CUDA 編譯(Apple Mac/Metal 改成 -DGGML_CUDA=OFF)
cmake -B build -DGGML_CUDA=ON
cmake --build build -j --config Release --target llama-diffusion-cli

注意編譯目標是llama-diffusion-cli這個新二進制,不是llama-cli;這是 Daniel Han 在 PR 里專門加的,因為擴散模型生成路徑完全不同

2. 下載 GGUF

pip install -U "huggingface_hub[cli]"
hf download unsloth/diffusiongemma-26B-A4B-it-GGUF \
--local-dir unsloth/diffusiongemma-26B-A4B-it-GGUF \
--include "Q4_K_M" # 24GB 顯卡用這個

如果想跑 Q8_0 把*Q4_K_M*改成*Q8_0*即可

3. 啟動對話

./build/bin/llama-diffusion-cli \
-m unsloth/diffusiongemma-26B-A4B-it-GGUF/diffusiongemma-26B-A4B-it-Q4_K_M.gguf \
-ngl 99 -cnv -n 2048

參數解讀:

  • -ngl 99:所有層卸到 GPU(純 CPU 跑改-ngl 0

  • -cnv:開啟多輪對話模式

  • -n 2048:目標 token 數;這個參數會自動推導--diffusion-blocks數量并擴展 batch / context 大小,所以你只需要管這一個長度參數

熵邊界采樣器(Entropy-Bound)默認開啟,這是 DiffusionGemma 推薦的標準配置——溫度 0.8 → 0.4 線性衰減、熵上限 0.1、最大去噪步數 48;直接用就行,調反而會掉分

下面是 llama-diffusion-cli 啟動后的樣子:


llama-diffusion-cli 啟動界面 跑法二:Unsloth Studio 一鍵路線(推薦新手)

如果你不想折騰 cmake 編譯,Unsloth 6 月 12 號剛推了一個更新——Unsloth Studio 已經內置 DiffusionGemma 支持,不用自己編 llama. cpp

Unsloth Studio 是個開源的本地 AI Web UI,相當于 Ollama + Open WebUI 的合體,但是把推理和訓練做到了一個面板里;MacOS / Windows / Linux 都支持


安裝(任選一行):

# MacOS / Linux / WSL
curl -fsSL https://unsloth. ai/install .sh | sh


# Windows PowerShell
irm https://unsloth. ai/install .ps1 | iex

啟動 Web UI:

unsloth studio -H 0.0.0.0 -p 8888

然后瀏覽器打開http://127.0.0.1:8888,第一次會讓你設個密碼(保護本地賬戶),登進去之后到 Studio Chat 標簽頁搜 "DiffusionGemma",選量化版本下載,就能直接對話

最舒服的是:所有擴散采樣參數自動配好,不用記那串 entropy bound、temperature schedule、canvas length;新手黨直接起飛

下面是 Unsloth Studio 里跑 4-bit GGUF DiffusionGemma 并帶可執行代碼輸出的實際效果:



DiffusionGemma 在 Unsloth Studio 里運行 王炸功能:實時看擴散去噪

這是我覺得 DiffusionGemma 這次最值得玩的東西——加一個--diffusion-visual參數,可以親眼看到 256 個 token 怎么從噪聲一點點收斂成答案

./build/bin/llama-diffusion-cli \
-m unsloth/diffusiongemma-26B-A4B-it-GGUF/diffusiongemma-26B-A4B-it-Q4_K_M.gguf \
-ngl 99 -cnv -n 2048 --diffusion-visual

效果是這樣的:


diffusion-visual 實時去噪

整個畫布上的字符在屏幕上反復擦寫、收斂、定型,最后一次性"啪"地全部清晰——這才是擴散語言模型的靈魂可視化;flicker-free 設計,不會糊屏,scrollback 也不會亂

我自己看了三分鐘才反應過來:原來"擴散模型生成文本"不是一個比喻,它真的就在你眼前像圖像擴散模型一樣工作

微調也能玩了

更狠的是 Unsloth 把 DiffusionGemma 的微調鏈路也打通了;官方 demo 是用數獨數據集 finetune,下面這張前后對比圖很說明問題——基礎模型解數獨完全瞎填,微調之后能穩定解出每一道:


Sudoku 微調前后對比

官方提供了 Colab 筆記本(A100 即可),擴散采樣器、溫度調度、熵閾值這些擴散專屬參數全部預置;如果你手頭有領域數據(金融文檔、醫療報告、代碼庫),完全可以拿這套直接 SFT,把 DiffusionGemma 微調成你領域的快速生成專家

速度的代價

老板要冷靜,2000+ tok/s 聽起來很爽,但有幾個固有局限要提前知道:

首 Token 延遲(TTFT)依然偏高:擴散模型必須先把整個 256 token 的 canvas 去噪到位才會吐出第一個字;如果你做的是流式聊天 / 實時打字效果,TTFT 會讓用戶感覺"卡了一下"——這是架構層面沒法繞開的代價

并發上不去:擴散模型每路對話都要維護一塊 canvas × vocab_size 的狀態緩沖區,顯存占用是 AR 模型的好幾倍;本地單用戶場景沒問題,多并發服務直接勸退

精度比 Gemma 4 略低:MMLU Pro 77.6% vs 82.6%、AIME 2026 69.1% vs 88.3%、Codeforces ELO 1429 vs 1718——拿速度換了大約 5-15% 的精度;如果你做的是奧數級推理或競賽編程,老老實實跑 Gemma 4 自回歸版

llama. cpp PR 還沒合并主線:PR 目前在 draft 狀態,被 ggml-gh-bot 標記"過大",社區也對 per-model server 設計有討論;短期內你只能在 Unsloth 的 PR 分支或 Unsloth Studio 里玩,原生 llama. cpp 還得等

誰適合

場景

是否推薦

24GB 單卡本地推理(4090/3090)

? 強烈推薦,Q4_K_M 起飛

Apple Silicon 大內存機器

? 推薦,Metal 默認支持

私有領域知識 SFT

? 推薦,擴散微調鏈路已通

想體驗擴散語言模型可視化

? 必玩--diffusion-visual

高并發 API 服務

? 別碰,AR 模型更合適

奧數 / 競賽級推理任務

? 跑 Gemma 4 26B AR 版

流式聊天 / 實時打字效果

? TTFT 太慢

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
祝賀!徐嘉余50仰破亞洲紀錄奪冠

祝賀!徐嘉余50仰破亞洲紀錄奪冠

極目新聞
2026-06-17 19:29:25
葡萄牙1-1平局,主帥賽后言論揭示無C羅困境

葡萄牙1-1平局,主帥賽后言論揭示無C羅困境

陳鋅特色美食
2026-06-18 05:13:06
徐悲鴻因厭惡妻子,故意給剛出生兒子起一個晦氣名字,沒想到7年后,卻字字應驗

徐悲鴻因厭惡妻子,故意給剛出生兒子起一個晦氣名字,沒想到7年后,卻字字應驗

LULU生活家
2026-06-17 15:25:14
菲律賓與廣東同是1億多人口,菲律賓創造3.3萬億,廣東是多少呢?

菲律賓與廣東同是1億多人口,菲律賓創造3.3萬億,廣東是多少呢?

混沌錄
2026-06-03 23:37:06
比賽還有1天開打,北京國安卻先迎3個大喜訊,取勝廣州豹基本穩了

比賽還有1天開打,北京國安卻先迎3個大喜訊,取勝廣州豹基本穩了

零度眼看球
2026-06-18 06:46:53
男童溺亡后續,奶奶口供前后不一,最后影像曝光,父母已精神崩潰

男童溺亡后續,奶奶口供前后不一,最后影像曝光,父母已精神崩潰

有范又有料
2026-06-16 18:49:33
博士畢業后才明白:進高校、進體制、進企業,根本不是差一點半點

博士畢業后才明白:進高校、進體制、進企業,根本不是差一點半點

王姐懶人家常菜
2026-06-14 06:52:51
世界杯殘酷:英格蘭4-2,前十僅四隊取勝

世界杯殘酷:英格蘭4-2,前十僅四隊取勝

墨史軒
2026-06-18 07:33:33
“不怕被取消成績嗎?”高考換答題卡事件持續發酵,當事人道歉

“不怕被取消成績嗎?”高考換答題卡事件持續發酵,當事人道歉

妍妍教育日記
2026-06-15 19:11:32
徐州市公安局常務副局長李海波,擬任縣(市、區)委書記

徐州市公安局常務副局長李海波,擬任縣(市、區)委書記

揚子晚報
2026-06-17 14:55:09
奉勸所有的男人們,尤其是五六十歲的,千萬不能貪色

奉勸所有的男人們,尤其是五六十歲的,千萬不能貪色

王二哥老搞笑
2026-06-11 18:18:12
多國監管圍堵!特斯拉FSD安全神話徹底動搖

多國監管圍堵!特斯拉FSD安全神話徹底動搖

環球網資訊
2026-06-17 11:24:21
伊朗最新喊話:全面關閉!局勢突變,全線大漲

伊朗最新喊話:全面關閉!局勢突變,全線大漲

新浪財經
2026-06-14 13:54:47
阿根廷神級預言家,1000多幅預言畫幾乎全中?未來世界3國主導?

阿根廷神級預言家,1000多幅預言畫幾乎全中?未來世界3國主導?

飛云如水
2024-08-01 21:28:13
陳妍希申請強制執行后,陳曉在人民日報發文,卓偉曝倆人離婚原因

陳妍希申請強制執行后,陳曉在人民日報發文,卓偉曝倆人離婚原因

記錄天下風云
2026-06-04 00:15:06
以色列已經告訴世界:日本若敢擁有核武器,美國并不會第一個翻臉

以色列已經告訴世界:日本若敢擁有核武器,美國并不會第一個翻臉

趣文說娛
2026-04-17 21:37:03
1-1&4-2!世界杯瘋狂一夜:葡萄牙翻車&C羅啞火 英格蘭大勝劍指冠

1-1&4-2!世界杯瘋狂一夜:葡萄牙翻車&C羅啞火 英格蘭大勝劍指冠

梅亭談
2026-06-18 06:50:41
減重效果超司美35%輝瑞GLP-1新藥上市,能否復制萬艾可商業神話?

減重效果超司美35%輝瑞GLP-1新藥上市,能否復制萬艾可商業神話?

果殼
2026-06-17 14:44:33
深夜嚴查!廣州白云機場攔下大批外籍旅客缺三樣東直接原地勸返

深夜嚴查!廣州白云機場攔下大批外籍旅客缺三樣東直接原地勸返

原廣工業
2026-06-18 02:49:10
種族歧視?阿根廷解說稱法國vs塞內加爾是兩非洲隊對決

種族歧視?阿根廷解說稱法國vs塞內加爾是兩非洲隊對決

懂球帝
2026-06-17 22:00:43
2026-06-18 08:16:49
Ai學習的老章 incentive-icons
Ai學習的老章
Ai學習的老章
3435文章數 11165關注度
往期回顧 全部

數碼要聞

存儲漲價的荒誕現實:一塊游戲機硬盤已能抵三臺完整主機

頭條要聞

凱恩也梅開二度了 C羅簡單回應"顆粒無收":遠未結束

頭條要聞

凱恩也梅開二度了 C羅簡單回應"顆粒無收":遠未結束

體育要聞

梅西帽子戲法:紀錄厚重,球王輕盈

娛樂要聞

陳紅一反常態保持沉默

財經要聞

“100%加息”!凌晨,全線跳水!

科技要聞

馬斯克好友長文:他最可怕的,是這套方法論

汽車要聞

23.99萬起 比亞迪大唐帶2+2+3大七座掀桌子 這才是中國大家庭夢中情車!

態度原創

藝術
數碼
教育
公開課
軍事航空

藝術要聞

235米!曼谷地標“金字塔”動工,BIG操刀

數碼要聞

Silicon Motion明年推PCIe 6.0 SSD控制器

教育要聞

李希貴:校長不必做學校里最聰明的人

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

伊朗外交部:美伊已簽署諒解備忘錄

無障礙瀏覽 進入關懷版