无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

首個三模式大語言模型:4倍token吞吐量,長文本秒級時代要來了?

0
分享至



編輯 | 澤南

這是一個打破傳統(tǒng)大語言模型解碼限制的研究。

英偉達提出了全球首個三模式的大語言模型系列,只需簡單更改注意力模式 / 掩碼,即可在自回歸、擴散和自推測解碼之間切換。

一個模型,三種解碼模式,沒有額外的草稿模型,沒有架構變更。最快的模式 token 吞吐量能提升 4 倍



我們知道,傳統(tǒng)上大語言模型主要采用的自回歸解碼(Autoregressive,AR)方式在低 batch sizes 時嚴重受內存限制,你必須為每個生成的 token 將海量權重從 HBM 移動到 SRAM。這種模式雖然準確率高,但由于無法并行,在并發(fā)量較低、追求單用戶極速響應的場景(如個人 AI 助手)下,GPU 算力常常無法被充分利用,導致生成速度遭遇瓶頸。

與之相對的是,擴散模型(Diffusion Model)能夠提供并行生成的能力,但由于訓練時平等對待所有 token 排列,缺乏自回歸模型天然的從左到右的語言先驗,歷史上它們的生成質量一直落后。

如果有一個模型能同時結合兩者的優(yōu)勢,會是什么樣?英偉達這項研究的核心目的,就是通過統(tǒng)一的模型架構消除這兩種范式的隔閡,做到「準確率與速度兼得」。



  • HuggingFace:https://huggingface.co/collections/nvidia/nemotron-labs-diffusion
  • 項目頁面:https://research.nvidia.com/publication/2026-05_nemotron-labs-diffusion-tri-mode-language-model-unifying-autoregressive
  • 技術報告:https://d1qx31qr3h6wln.cloudfront.net/publications/Nemotron_Diffusion_Tech_Report_v1.pdf?VersionId=db8_EMO8B.vmU26.jr7Le9pN3MqcUDNL

英偉達提出的模型不使用弱外部 MTP 模型或額外 heads,而是利用自身的擴散模式同時起草多個 token,然后在 AR 模式下使用相同的 KV cache 驗證它們。這樣,你就獲得了擴散模型的并行生成,同時具備 AR 的嚴格準確性。

該方法比起之前的 Eagle/MTP 方法具有更高的接受率,無需額外權重,或者只需少量額外權重即可獲得更高的接受率。



訓練時,模型同時優(yōu)化兩個損失函數(shù):AR Loss 和 Diffusion Loss,這完全改變了擴散語言模型質量的游戲規(guī)則。為了穩(wěn)定訓練,團隊采用了兩階段訓練策略,并引入了 Global Loss Averaging 技術,大幅降低了擴散模型訓練中因隨機掩碼導致的梯度激增問題。

借助這種訓練方式,模型在推理時可任意切換以下三種模式:

  • 自回歸模式(AR Mode): 傳統(tǒng)的從左到右逐字生成,保留完整的因果注意力機制。適合高并發(fā)、計算密集型的云端服務;
  • 擴散模式(Diffusion Mode): 采用分塊去噪(Block-wise Denoising),利用雙流注意力機制(Dual-stream Attention)在塊內進行大規(guī)模并行 token 推測。為了進一步壓榨并行的上限,英偉達還專門訓練了一個輕量化采樣器(Trained Sampler)來替代傳統(tǒng)的置信度閾值判定;
  • 自猜測模式(Self-Speculation Mode): 它將傳統(tǒng)的 Speculative Decoding(需要一個額外的小模型來墊字)改造成「單模型自我博弈」。

該研究給出了 3B、8B、14B 三個尺寸的基座模型,展現(xiàn)出了對現(xiàn)有開源自回歸模型及擴散模型的全方位碾壓。研究人員在之前的開源 dLLM(如 LLaDA、Dream 和 SDAR)上看到了從 9% 到 22.4% 的巨大準確率提升。也就是說,現(xiàn)在我們有了新的 SOTA dLLM。

在測試中,新模型匹配了 Qwen3-8B 的基線 AR 準確率,但在前向傳播中達到了 5.9 個 token(TPF)。





dLLM 的主要優(yōu)勢在于效率。

NLD 在實際應用中的加速效果(8B 模型,單用戶場景)如下:

  • DGX Spark:FP8 精度下提速 3.14 倍;INT4 精度下提速 2.7 倍(112 token/s vs 41.8 AR);
  • RTX 6000 Pro:FP8 精度下提速 3.4 倍;INT 精度下提速 2.3 倍;
  • GB200:提速 3.3 倍(850 tok/s);若配合自定義 CUDA 內核,最高可提速 4 倍。

在 SPEED-Bench 基準測試中,線性自推測(linear self-speculation)機制實現(xiàn)了 8.7 的平均接受長度,相比之下,Qwen3.5-9B-MTP 為 4.7,Qwen3-8B-Eagle3 為 2.81。該數(shù)據(jù)為針對數(shù)學、代碼、推理及多語言任務的綜合估算值。



具體方法上,這種能力并不是單個的解決方案。

在低到中等并發(fā)度下,自行推測絕對占據(jù)主導地位(非常適合個人 AI 和交互式代理)。但在巨大的批處理規(guī)模下(>64 個流),推理會變成計算受限。英偉達的解決方法是:只需將注意力掩碼切換回純 AR 模式。一個模型,在所有部署場景下都能實現(xiàn)通用高效。





最后,英偉達公布了他們的訓練配方(從 Ministral3-3B/8B/14B 開始):

  • 1T 個 token 的 AR-only 持續(xù)預訓練
  • 300B 個 token 的聯(lián)合 AR + Diffusion 訓練
  • 隨后進行 SFT 和 VLM 對齊

使用的關鍵技術:

  • 全局損失平均 + DP-rank 變化掩碼
  • 嚴格因果干凈流(防止標簽泄漏)
  • LoRA 增強的起草器以改進自我推測

這項研究指明了未來大模型架構演進的一個方向:不要去刻意挑選自回歸還是擴散模型,將它們揉碎在同一個全連接 / 因果注意力切換的 Transformer 體系內或許才是正解。

更令人興奮的是,論文最后的分析指出,如果未來能夠開發(fā)出更完美的擴散采樣器,擴散模式的理論性能上限比現(xiàn)有的自猜測模式還要再高出 76.5%—— 這表明擴散大語言模型依然留有巨大潛能,長文本的「秒級生成」時代可能離我們不遠了。

更多細節(jié)詳見論文。

參考內容:

https://x.com/PavloMolchanov/status/2056799786377039995

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
淮興泰高鐵啟動!誰才是京滬二通道江蘇段主流走向?

淮興泰高鐵啟動!誰才是京滬二通道江蘇段主流走向?

小怪吃美食
2026-05-22 12:52:24
官宣加盟休城!4冠王歸來!火箭管理層休賽期首簽

官宣加盟休城!4冠王歸來!火箭管理層休賽期首簽

劉哥談體育
2026-05-22 12:11:09
“碳水臉”引爭議,網(wǎng)友:令人不適的網(wǎng)絡詞!

“碳水臉”引爭議,網(wǎng)友:令人不適的網(wǎng)絡詞!

科學大觀園
2026-05-21 14:01:05
四大衛(wèi)視聯(lián)播!張嘉益羅海瓊主演,雷佳音王勁松加盟,陣容強勁

四大衛(wèi)視聯(lián)播!張嘉益羅海瓊主演,雷佳音王勁松加盟,陣容強勁

樂楓電影
2026-05-22 14:06:55
ESPN:維尼修斯獲皇馬放行,將赴巴西隊報到

ESPN:維尼修斯獲皇馬放行,將赴巴西隊報到

懂球帝
2026-05-21 21:53:51
別總怪基因!研究證實:這9個生活習慣,才是真正的“長壽鑰匙”

別總怪基因!研究證實:這9個生活習慣,才是真正的“長壽鑰匙”

人民日報健康客戶端
2026-05-19 20:49:35
尼格買提不再隱瞞!無兒無女的他自曝病情,給中年男人提了個醒

尼格買提不再隱瞞!無兒無女的他自曝病情,給中年男人提了個醒

看盡落塵花q
2026-05-21 04:47:45
巴薩挖到寶了!18歲埃及神鋒橫空出世

巴薩挖到寶了!18歲埃及神鋒橫空出世

格斗社
2026-05-22 15:25:03
張愛玲吃下墮胎藥,在床上疼得打滾,孩子掉下來后,隨手扔進馬桶

張愛玲吃下墮胎藥,在床上疼得打滾,孩子掉下來后,隨手扔進馬桶

云霄紀史觀
2026-05-07 19:38:06
詹姆斯:文班亞馬強大不只是因為高,他的協(xié)調性是前所未有的

詹姆斯:文班亞馬強大不只是因為高,他的協(xié)調性是前所未有的

懂球帝
2026-05-22 14:47:07
簽完大單,為了應對中國,特朗普把“全球最大冤大頭”推了出來

簽完大單,為了應對中國,特朗普把“全球最大冤大頭”推了出來

井普獨白
2026-05-22 14:14:43
馬家人出面都不行,金溥聰繼續(xù)興風作浪,李德維:做人要厚道

馬家人出面都不行,金溥聰繼續(xù)興風作浪,李德維:做人要厚道

一口娛樂
2026-05-22 12:59:25
調整!央視直播北京VS上海有變,許利民迎下課危機,趙睿引發(fā)爭議

調整!央視直播北京VS上海有變,許利民迎下課危機,趙睿引發(fā)爭議

林雁飛
2026-05-22 15:13:26
頂尖特工為美效力多年,卻落得凄慘下場,投靠伊朗后狠狠反擊

頂尖特工為美效力多年,卻落得凄慘下場,投靠伊朗后狠狠反擊

阿鳧愛吐槽
2026-05-20 17:39:24
麥基:給我足夠長的上場時間我會作出貢獻,今晚會傾盡所有

麥基:給我足夠長的上場時間我會作出貢獻,今晚會傾盡所有

懂球帝
2026-05-22 14:47:08
奧納納7月加薪執(zhí)意要回曼聯(lián),俱樂部通知必賣!巴因迪爾轉會已定

奧納納7月加薪執(zhí)意要回曼聯(lián),俱樂部通知必賣!巴因迪爾轉會已定

羅米的曼聯(lián)博客
2026-05-22 11:54:54
馬奎爾為何落選?圖赫爾3月已預言,難比這5人,中衛(wèi)搭檔曝光

馬奎爾為何落選?圖赫爾3月已預言,難比這5人,中衛(wèi)搭檔曝光

奧拜爾
2026-05-22 09:15:56
5年2.44億!愛德華茲或申請交易,森林狼徹底慌了,王朝夢要碎了

5年2.44億!愛德華茲或申請交易,森林狼徹底慌了,王朝夢要碎了

體育大朋說
2026-05-22 14:30:03
金平日:與金正日爭權失敗,駐外30年躲過暗殺,因這件事允許回國

金平日:與金正日爭權失敗,駐外30年躲過暗殺,因這件事允許回國

阿胡
2025-04-03 13:59:42
誰先撐不住——俄烏戰(zhàn)爭的終局猜想

誰先撐不住——俄烏戰(zhàn)爭的終局猜想

民間胡扯老哥
2026-05-21 07:01:49
2026-05-22 16:11:00
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
13060文章數(shù) 142651關注度
往期回顧 全部

科技要聞

雷軍:輸給特斯拉不丟人

頭條要聞

媒體:特朗普對華"越頂外交"引危機感 高市纏上李在明

頭條要聞

媒體:特朗普對華"越頂外交"引危機感 高市纏上李在明

體育要聞

最糟糕裁判?他想要退役當市長

娛樂要聞

周也戀情曝光!對象身份不簡單

財經(jīng)要聞

又一存儲芯片類產(chǎn)品,價格暴漲300%

汽車要聞

配1.5L動力/增加新配色 吉利帝豪向上系列將于5月24日上市

態(tài)度原創(chuàng)

本地
游戲
教育
藝術
軍事航空

本地新聞

用云錦的方式,打開江蘇南京

神鬼寓言4重申今年發(fā)售!不存在為GTA6讓路之說

教育要聞

中考數(shù)學常考題型:求角度?

藝術要聞

海市蜃樓水中樹

軍事要聞

俄羅斯試射具備核打擊能力的高超音速導彈

無障礙瀏覽 進入關懷版