无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

Mythos陰影里谷歌悄悄發模型,速度暴漲4倍

0
分享至

別再只盯著“AO”兩家的新模型大戰了!

就在剛剛,谷歌悶頭干了件大事:

把生成圖片的擴散模型,拿來寫文字了,而且一出手就是4倍加速。

新模型名為DiffusionGemma,它直接拋棄了傳統自回歸那套“逐Token生成”的打字機模式,而是像“印刷機”一樣工作——

一次鋪開256個token的“畫布”,從隨機噪聲出發,多輪去噪,整段文字同時浮現。



靠這套新模式,DiffusionGemma在生成速度方面交出了亮眼的成績:

單塊H100上每秒1000+ tokens,消費級RTX 5090上700+,比同規格自回歸模型快了4倍。

更關鍵的是,這個26B參數的MoE模型,推理時只激活3.8B參數,量化后18GB顯存就能裝下。

翻譯過來就是,一張4090就能本地跑。

目前DiffusionGemma采用允許商用的Apache 2.0開源協議,權重可在Hugging Face直接下載。

天下武功,唯快不破

說到這估計大家都明白了,DiffusionGemma身上最大的標簽無疑就是“快”。

有多快呢?成績單說話。

在同一塊H100上(fp8,batch size=1),DiffusionGemma跑出了1000+ tokens/s,而采用標準自回歸的Gemma 4 26B A4B加上MTP加速也只有300+ tokens/s——

速度拉開近4倍。



而要理解DiffusionGemma為什么快,咱得先說說當前大模型為什么“慢”。

今天的主流大模型,不管是GPT、Claude還是Gemini,底層都是自回歸架構——就像一臺打字機,從左到右,一個token一個token地敲出來。每生成一個新詞,都要重新加載一遍幾十億參數的模型權重。

在云端,這不是大問題。服務器可以同時處理上千個用戶請求,把硬件利用率拉滿。

但如果你在本地跑模型,場景就完全不同了——

只有你一個人在用,GPU的大量算力其實在空轉,等著一個字一個字地往外蹦。

工程師管這叫“內存帶寬瓶頸”(memory-bandwidth bound)。



而為了解決這一問題,DiffusionGemma就盯上了擴散模型。

回想一下,擴散模型在生成圖片時,是不是直接對整張圖的所有像素同時去噪——

沒錯,其工作方式就是一次性對一整塊token同時操作,天然“并行”。

這意味著GPU一次性接到一大塊并行計算任務,Tensor Core火力全開,不再干等。計算瓶頸從“內存搬不過來”變成了“算力夠不夠”,而算力恰恰是GPU最不缺的東西。

具體到DiffusionGemma,原理和Stable Diffusion一樣,只不過去噪得到的不是圖片,而是文字。

Step 1:鋪開一張全是隨機占位符的256個token的畫布。
Step 2:多輪迭代去噪,高置信度的token先鎖定,再用它們當上下文線索去修正其余部分。
Step 3:整段文字收斂為最終輸出。

用谷歌自己的比喻,這是從單線程的打字機,升級成了整版印刷的印刷機。

看看下面這個Hugging Face制作的DiffusionGemma文本到3D SVG演示,可以直觀感受逐步生成的過程——

模型不是從第一行代碼寫到最后一行,而是整塊SVG代碼同時浮現、同時修正,最終收斂成一把完整的3D寶劍。



雙向注意力:不止是快

速度之外,DiffusionGemma身上還有一個點值得關注:雙向注意力。

傳統自回歸模型只能往前看,模型在生成第N+1個token時,只能看到第1到第N個token,看不到自己還沒寫出來的未來內容。

而DiffusionGemma的256個token同時生成,每個token都能看到畫布上所有其他token,前后文同時可見。

這就帶來了一個自回歸模型很難做到的能力——實時自我糾錯

模型邊生成邊評估整段文字的一致性,發現不對立刻修正,不用等全寫完再回頭改。

這里谷歌舉了個直觀例子:數獨。



數獨本質是“后面的數影響前面的數”,自回歸模型由于只能往前看,所以做起來極痛苦。

但DiffusionGemma微調后成功率從0%飆到80%

所以,如果未來接觸到代碼補全、行內編輯、復雜markdown格式化……這些“需要前后文同時協調”的場景,擴散模型無疑更有結構性優勢。

谷歌CEO皮猜:DiffusionGemma是一匹“賽馬”

不過這也并不是說擴散模型就千好萬好。

其最大局限在圖像生成領域也已得到驗證,那就是速度和質量的平衡——

去噪步數越少速度越快,但質量越差;步數越多質量越好,但速度優勢也就越小。

質量方面,和同參數量的Gemma 4 26B A4B相比,DiffusionGemma在多項基準上確實存在差距。

谷歌也很坦誠,生產環境推薦標準Gemma 4,DiffusionGemma面向的是速度敏感的本地交互場景。



所以,或許正如谷歌CEO皮猜所言,DiffusionGemma目前更像一匹“賽馬”——

先把速度提起來。

它目前只是谷歌對下一代模型形態的一次實驗:

如果不再執著于一個token一個token往外生成,而是讓模型充分利用現代GPU的并行算力,大模型的速度上限究竟還能被推到多高?



而且說實話,谷歌也不是第一個嘗試驗證這條路線的人。

早在今年2月,初創公司Inception Labs就發布了擴散文本模型Mercury 2,號稱比Claude、Gemini快5到10倍,是業內第一個真正投產的擴散語言模型。

谷歌自己去年I/O上也展示過Gemini Diffusion實驗,當時采樣速度達到每秒1479 token,但之后沉寂了一整年,外界一度猜測“跑不起來”。

直到現在,DiffusionGemma卷土重來,并且NVIDIA從RTX到H100全線給它護航——

4090到H100到DGX Spark全覆蓋,vLLM、MLX、Unsloth、NeMo全部支持,llama.cpp也在路上。



只能說,嘴上說著“實驗性”,身體卻很誠實。

谷歌這次給DiffusionGemma配上的資源和生態支持,顯然不是來做技術Demo的。

從模型到推理框架,再到硬件生態,DiffusionGemma已經拿到了足夠多的支持。

至于它最終能不能挑戰自回歸模型的主流地位,現在還沒人知道。

但至少,谷歌把這條路真正開源了。

HuggingFace:
https://huggingface.co/unsloth/diffusiongemma-26B-A4B-it-GGUF
使用指南:
https://unsloth.ai/docs/models/diffusiongemma

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
向太大爆料!劉亦菲媽媽追求者眾多卻終身不嫁,難怪她圈內口碑好

向太大爆料!劉亦菲媽媽追求者眾多卻終身不嫁,難怪她圈內口碑好

觀察者海風
2026-06-09 19:10:12
出生在電影第一世家,初戀是王志文,如今57歲定居北京單身沒孩子

出生在電影第一世家,初戀是王志文,如今57歲定居北京單身沒孩子

白面書誏
2026-06-10 17:14:44
孫浩今年58歲沒結過婚,拍完《主角》后他買了張硬座回老家了……

孫浩今年58歲沒結過婚,拍完《主角》后他買了張硬座回老家了……

手工制作阿殲
2026-06-11 10:47:53
跑高速時,其實車速120最費油,內行人:保持這個速度才是最省油

跑高速時,其實車速120最費油,內行人:保持這個速度才是最省油

小怪吃美食
2026-06-11 11:21:18
樸信惠挺孕肚出游!身旁竟是巨星裴勇浚一家 13年姐妹情誼曝光

樸信惠挺孕肚出游!身旁竟是巨星裴勇浚一家 13年姐妹情誼曝光

ETtoday星光云
2026-06-10 17:42:06
美國急壞了!中國為什么遮住神舟20的舷窗?中國到底在藏什么?

美國急壞了!中國為什么遮住神舟20的舷窗?中國到底在藏什么?

赫埰足球解說
2026-06-09 18:14:05
中建集團大重組!

中建集團大重組!

新浪財經
2026-06-11 01:41:49
美專家猛然發現:中國早就準備好,一旦沖突,先廢掉美軍最強戰力

美專家猛然發現:中國早就準備好,一旦沖突,先廢掉美軍最強戰力

健身狂人
2026-06-10 20:28:50
面對性欲,我們所有人都不是對手

面對性欲,我們所有人都不是對手

長安一孤客
2026-06-09 13:24:36
新藥注射降血脂效果更好,“他汀”真的要退位了嗎?醫生講清楚

新藥注射降血脂效果更好,“他汀”真的要退位了嗎?醫生講清楚

重癥醫生張偉
2026-06-11 13:52:17
河南“零分女生”蔣多多:因不滿高考制度,在試卷上寫8000字長文

河南“零分女生”蔣多多:因不滿高考制度,在試卷上寫8000字長文

混沌錄
2026-06-09 22:03:13
看熱鬧的網友尷尬了!李佳琦直播賣奔馳:上架40臺秒售罄

看熱鬧的網友尷尬了!李佳琦直播賣奔馳:上架40臺秒售罄

快科技
2026-06-11 08:48:07
鐘南山發現:能活到90歲的老人,基本在60歲,就已經不做這6事了

鐘南山發現:能活到90歲的老人,基本在60歲,就已經不做這6事了

番外行
2026-06-08 08:20:59
布朗:追加處罰是聯盟的事,我只希望判罰標準能保持一致

布朗:追加處罰是聯盟的事,我只希望判罰標準能保持一致

林子說事
2026-06-11 13:30:31
張桂梅送考僅1天,難堪的一幕發生,人民日報一句話引得眾人反思

張桂梅送考僅1天,難堪的一幕發生,人民日報一句話引得眾人反思

八斗小先生
2026-06-09 12:00:03
廣西興安發生爆炸事件,官方通報7死17傷;2公里處居民:“兩聲巨響,第二聲把人從床上震下來”

廣西興安發生爆炸事件,官方通報7死17傷;2公里處居民:“兩聲巨響,第二聲把人從床上震下來”

大風新聞
2026-06-11 11:56:24
印度官員確認該國3名船員在阿曼灣附近遭襲死亡

印度官員確認該國3名船員在阿曼灣附近遭襲死亡

財聯社
2026-06-11 15:38:04
民怨沸騰,新加坡緊急滅火,部長甩4個字,死捂“印加坡”遮羞布

民怨沸騰,新加坡緊急滅火,部長甩4個字,死捂“印加坡”遮羞布

溫讀史
2026-06-11 01:17:17
八段錦這場“騙局”,到底忽悠了多少中國女人

八段錦這場“騙局”,到底忽悠了多少中國女人

七叔東山再起
2026-06-10 20:23:25
央媒銳評刀郎被神話風波,釋放三個強烈信號,云朵的話有人信了

央媒銳評刀郎被神話風波,釋放三個強烈信號,云朵的話有人信了

小曙說娛
2026-06-11 13:10:23
2026-06-11 16:19:00
量子位 incentive-icons
量子位
追蹤人工智能動態
12780文章數 176490關注度
往期回顧 全部

科技要聞

淘寶、京東、拼多多、抖音、小紅書被約談

頭條要聞

媒體:29分大逆轉+補籃絕殺 尼克斯隊的"劇本"太神奇

頭條要聞

媒體:29分大逆轉+補籃絕殺 尼克斯隊的"劇本"太神奇

體育要聞

文班:付出那么多努力,卻把勝利拱手讓人

娛樂要聞

《花少8》陣容大揭秘!秒殺前一季

財經要聞

干細胞生意:17萬一針的希望

汽車要聞

埃安i60 530寧德時代版上市限時煥新價10.36萬起

態度原創

藝術
家居
教育
游戲
旅游

藝術要聞

四川美術學院,2026屆研究生畢業作品集(一)

家居要聞

空間微調 移形換境

教育要聞

還在用“船到橋頭自然直”翻譯這句話?它的原始毒舌程度你想不到

《最終幻想:共鳴》內容體量曝光 主線約30-40小時

旅游要聞

粵看粵美|廣州:金色花海美成童話世界

無障礙瀏覽 進入關懷版