无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

<source id="bechc"></source>

網易首頁

網易新聞
網易公開課
網易紅彩
網易嚴選
郵箱大師
網易云課堂

注冊免費郵箱

注冊VIP郵箱（特權郵箱，付費）
免費下載網易官方手機郵箱應用

移動端
網易公開課
網易嚴選
支付
郵箱

網易首頁 > 網易號 > 正文申請入駐

首個三模式大語言模型：4倍token吞吐量，長文本秒級時代要來了？

2026-05-22 14:21:21　來源: 機器之心Pro

河北舉報

0

分享至

編輯 | 澤南

這是一個打破傳統大語言模型解碼限制的研究。

英偉達提出了全球首個三模式的大語言模型系列，只需簡單更改注意力模式 / 掩碼，即可在自回歸、擴散和自推測解碼之間切換。

一個模型，三種解碼模式，沒有額外的草稿模型，沒有架構變更。最快的模式 token 吞吐量能提升 4 倍

我們知道，傳統上大語言模型主要采用的自回歸解碼（Autoregressive，AR）方式在低 batch sizes 時嚴重受內存限制，你必須為每個生成的 token 將海量權重從 HBM 移動到 SRAM。這種模式雖然準確率高，但由于無法并行，在并發量較低、追求單用戶極速響應的場景（如個人 AI 助手）下，GPU 算力常常無法被充分利用，導致生成速度遭遇瓶頸。

與之相對的是，擴散模型（Diffusion Model）能夠提供并行生成的能力，但由于訓練時平等對待所有 token 排列，缺乏自回歸模型天然的從左到右的語言先驗，歷史上它們的生成質量一直落后。

如果有一個模型能同時結合兩者的優勢，會是什么樣？英偉達這項研究的核心目的，就是通過統一的模型架構消除這兩種范式的隔閡，做到「準確率與速度兼得」。

HuggingFace：https://huggingface.co/collections/nvidia/nemotron-labs-diffusion
項目頁面：https://research.nvidia.com/publication/2026-05_nemotron-labs-diffusion-tri-mode-language-model-unifying-autoregressive
技術報告：https://d1qx31qr3h6wln.cloudfront.net/publications/Nemotron_Diffusion_Tech_Report_v1.pdf?VersionId=db8_EMO8B.vmU26.jr7Le9pN3MqcUDNL

英偉達提出的模型不使用弱外部 MTP 模型或額外 heads，而是利用自身的擴散模式同時起草多個 token，然后在 AR 模式下使用相同的 KV cache 驗證它們。這樣，你就獲得了擴散模型的并行生成，同時具備 AR 的嚴格準確性。

該方法比起之前的 Eagle/MTP 方法具有更高的接受率，無需額外權重，或者只需少量額外權重即可獲得更高的接受率。

訓練時，模型同時優化兩個損失函數：AR Loss 和 Diffusion Loss，這完全改變了擴散語言模型質量的游戲規則。為了穩定訓練，團隊采用了兩階段訓練策略，并引入了 Global Loss Averaging 技術，大幅降低了擴散模型訓練中因隨機掩碼導致的梯度激增問題。

借助這種訓練方式，模型在推理時可任意切換以下三種模式：

自回歸模式（AR Mode）：傳統的從左到右逐字生成，保留完整的因果注意力機制。適合高并發、計算密集型的云端服務；
擴散模式（Diffusion Mode）：采用分塊去噪（Block-wise Denoising），利用雙流注意力機制（Dual-stream Attention）在塊內進行大規模并行 token 推測。為了進一步壓榨并行的上限，英偉達還專門訓練了一個輕量化采樣器（Trained Sampler）來替代傳統的置信度閾值判定；
自猜測模式（Self-Speculation Mode）：它將傳統的 Speculative Decoding（需要一個額外的小模型來墊字）改造成「單模型自我博弈」。

該研究給出了 3B、8B、14B 三個尺寸的基座模型，展現出了對現有開源自回歸模型及擴散模型的全方位碾壓。研究人員在之前的開源 dLLM（如 LLaDA、Dream 和 SDAR）上看到了從 9% 到 22.4% 的巨大準確率提升。也就是說，現在我們有了新的 SOTA dLLM。

在測試中，新模型匹配了 Qwen3-8B 的基線 AR 準確率，但在前向傳播中達到了 5.9 個 token（TPF）。

dLLM 的主要優勢在于效率。

NLD 在實際應用中的加速效果（8B 模型，單用戶場景）如下：

DGX Spark：FP8 精度下提速 3.14 倍；INT4 精度下提速 2.7 倍（112 token/s vs 41.8 AR）；
RTX 6000 Pro：FP8 精度下提速 3.4 倍；INT 精度下提速 2.3 倍；
GB200：提速 3.3 倍（850 tok/s）；若配合自定義 CUDA 內核，最高可提速 4 倍。

在 SPEED-Bench 基準測試中，線性自推測（linear self-speculation）機制實現了 8.7 的平均接受長度，相比之下，Qwen3.5-9B-MTP 為 4.7，Qwen3-8B-Eagle3 為 2.81。該數據為針對數學、代碼、推理及多語言任務的綜合估算值。

具體方法上，這種能力并不是單個的解決方案。

在低到中等并發度下，自行推測絕對占據主導地位（非常適合個人 AI 和交互式代理）。但在巨大的批處理規模下（>64 個流），推理會變成計算受限。英偉達的解決方法是：只需將注意力掩碼切換回純 AR 模式。一個模型，在所有部署場景下都能實現通用高效。

最后，英偉達公布了他們的訓練配方（從 Ministral3-3B/8B/14B 開始）：

1T 個 token 的 AR-only 持續預訓練
300B 個 token 的聯合 AR + Diffusion 訓練
隨后進行 SFT 和 VLM 對齊

使用的關鍵技術：

全局損失平均 + DP-rank 變化掩碼
嚴格因果干凈流（防止標簽泄漏）
LoRA 增強的起草器以改進自我推測

這項研究指明了未來大模型架構演進的一個方向：不要去刻意挑選自回歸還是擴散模型，將它們揉碎在同一個全連接 / 因果注意力切換的 Transformer 體系內或許才是正解。

更令人興奮的是，論文最后的分析指出，如果未來能夠開發出更完美的擴散采樣器，擴散模式的理論性能上限比現有的自猜測模式還要再高出 76.5%—— 這表明擴散大語言模型依然留有巨大潛能，長文本的「秒級生成」時代可能離我們不遠了。

更多細節詳見論文。

參考內容：

https://x.com/PavloMolchanov/status/2056799786377039995

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

Fable 5被網友薅出省錢神招！最高減70%！

量子位 2026-07-06 13:18:09
2 跟貼 2
把Agent丟入1000+文件：人大CoDA-Bench揭示Code Agent瓶頸

機器之心Pro 2026-07-05 16:28:08
0 跟貼 0

Claude Code用不了？DeepSeek上新：Deep Code來了

智東西 2026-07-06 17:40:13
0 跟貼 0

別爭了！香農老婆，才是世界上第一個大語言模型

量子位 2026-07-05 21:48:44
0 跟貼 0
eICU 數據提取太耗時？這套零代碼方案更高效

醫咖會 2026-06-08 18:38:08
0 跟貼 0

具身智能的數據困境，不只在數量

智東西 2026-06-24 22:11:53
0 跟貼 0

高考志愿靠AI“翻車”：通用AI時代的數據安全危機

通信信息 2026-07-06 18:06:23
0 跟貼 0
50英寸AR-HUD上車，零跑B01/B10把座艙卷到什么程度？

字節漫游指南 2026-07-06 00:38:24
0 跟貼 0

零跑B01出新款：AR-HUD比中控屏大，這是要干嗎？

硅嶼手記 2026-07-05 01:11:16
1 跟貼 1
暑假帶娃好去處！小王子空降東方明珠，AR互動、音樂劇、健康問診一站集齊

新浪財經 2026-07-06 19:22:42
0 跟貼 0
英偉達CEO黃仁勛：Token就是資產、已經成為獲利的營收單位

每日經濟新聞 2026-06-02 06:05:39
0 跟貼 0
幼兒園小男孩不想吃飯，老師一招機制化解

嗨拍日記 2026-07-05 12:39:16
3 跟貼 3
女孩面對騎車歹徒，絲毫不驚慌，從容不迫機制化解險情！

思考人生的狗子 2026-07-05 10:32:46
1 跟貼 1
哈蘭德淘汰巴西后在更衣室慶祝赤膊擁抱挪威未來女王

紅星新聞 2026-07-06 12:32:12
10220 跟貼 10220
日本這項技術不僅領先中國30年，甚至還能壟斷全球？有沒有夸張

一飲山河 2026-07-05 16:39:03
0 跟貼 0
泰山景區回應修建滾筒式刀片刺繩隔離鐵絲網：與正常游覽路線不交叉不重疊

北京日報客戶端 2026-07-02 08:55:17
19762 跟貼 19762
給Transformer變個形，LLM竟能變得更聰明

機器之心Pro 2026-06-29 18:39:15
0 跟貼 0
理發師技術高超，三下五除二的剪發，真是高手在民間！

搞怪趣星球 2026-07-02 11:23:48
1 跟貼 1
AI長文本推理省內存神器面世，省53%顯存還更準

DeepTech深科技 2026-07-05 17:47:58
2 跟貼 2
ICML 2026｜從「鑒偽」到「修復」，AI圖像取證進入閉環時代

機器之心Pro 2026-06-21 19:01:01
0 跟貼 0
TCL回應永樂款菩薩像現其廣告：未授權或參與涉事文物展陳

南方都市報 2026-07-05 21:14:13
9433 跟貼 9433
從模型到工作流：2026 上半年圖片與視頻模型盤點

阿真Irene 2026-07-04 16:24:51
0 跟貼 0
韓國32年來首次重啟鎢礦開采被指"最有可能挑戰中國"

澎湃新聞 2026-07-06 14:05:44
1808 跟貼 1808
LiveWorld：視頻世界模型新范式，讓鏡頭之外的世界繼續演化

機器之心Pro 2026-06-30 16:13:43
0 跟貼 0
ICML放榜！清華阿里拿下最高獎，谷歌DeepMind再封經典

智東西 2026-07-06 17:08:51
0 跟貼 0
安切洛蒂也當不好"大廚" 巴西足球面對歐洲已無力翻身

澎湃新聞 2026-07-06 16:00:27
229 跟貼 229
中國男籃92比74中國臺北，晉級世預賽第二階段

澎湃新聞 2026-07-06 15:50:27
24 跟貼 24
降價銷售！仁恒置地?？谝豁椖勘患s談

中國能源網 2026-07-06 13:01:07
50 跟貼 50
震驚！不是造假，但照樣撤稿：約 40% 的圖像問題出在?WB?上

生物學霸 2026-07-06 17:57:00
0 跟貼 0
網友分享自己新買的西瓜，一刀切下去瞬感不妙

南陽日報 2026-07-06 16:36:10
161 跟貼 161
馬未都：如佛像確為海口五公祠當年失竊普庵祖師坐像，愿意高高興興送回

界面新聞 2026-07-05 20:56:35
1087 跟貼 1087
我的“情緒樹洞”要消失了！豆包、千問將同步下線智能體：有人心碎、有人叫好，背后合規壓力、算力燒錢兩頭難扛

每日經濟新聞 2026-07-06 19:52:05
0 跟貼 0
半年重建，一次交卷：5分鐘生成3D跑酷小游戲，騰訊混元 Hy3 正式發布

鈦媒體APP 2026-07-06 19:14:07
0 跟貼 0
中國海軍成功組織潛射戰略導彈試射

新華社 2026-07-06 13:02:35
4041 跟貼 4041
20年工業級水準！這套國產全能BIM工具，適配全建筑場景-eZWalker

BIMBOX 2026-07-04 09:40:37
0 跟貼 0
《Meccha Chameleon》剛上線，有人用掃描技術作弊了

隊友祭天法力無邊 2026-07-06 19:11:57
0 跟貼 0
刷短視頻停不下來的原因找到了專家：根源在于大腦的獎賞機制

財經網 2026-07-03 22:55:53
0 跟貼 0
挪威隊主帥：這是一個糟糕、糟糕、糟糕、糟糕、糟糕的決定

澎湃新聞 2026-07-06 19:00:07
9 跟貼 9
40周年紀念《三國志14》終極完整版上架Steam 全DLC打包

快科技 2026-07-06 16:57:25
2 跟貼 2
印媒：4家中企獲準參與印度電力項目政府招標

環球網資訊 2026-07-06 07:01:05
374 跟貼 374

楊瀚森：贏球靠的是全隊拼搏，二階段比賽我有100%的信心

楊瀚森：贏球靠的是全隊拼搏，二階段比賽我有100%的信心

懂球帝

2026-07-06 17:08:18

魏德爾大鬧德國，歐洲要變天！終于有人站出來，替中國說句公道話

魏德爾大鬧德國，歐洲要變天！終于有人站出來，替中國說句公道話

呼呼歷史論

2026-07-06 15:32:20

世界杯：葡萄牙VS西班牙，C羅今晚要回家？看完這兩點再下結論

世界杯：葡萄牙VS西班牙，C羅今晚要回家？看完這兩點再下結論

生活新鮮市

2026-07-06 15:29:57

鹿晗再被爆私密床照，聊天記錄露骨關曉彤痛哭，知情人稱抓到兩次

鹿晗再被爆私密床照，聊天記錄露骨關曉彤痛哭，知情人稱抓到兩次

胡一舸南游y

2026-07-06 15:01:52

相親都踩過哪些奇葩大坑？網友：你們都是相到第幾個找到對象的

相親都踩過哪些奇葩大坑？網友：你們都是相到第幾個找到對象的

解讀熱點事件

2026-07-01 00:05:14

英國《衛報》：歐洲“空調之爭”正演化成政治斗爭

英國《衛報》：歐洲“空調之爭”正演化成政治斗爭

IT之家

2026-07-05 14:18:19

7月6日俄烏最新：野生軍事家萬斯的高見

7月6日俄烏最新：野生軍事家萬斯的高見

西樓飲月

2026-07-06 18:54:03

央視曝光后，江西章貢連夜調查

上觀新聞

2026-07-06 10:01:32

梅西賽后遇到阿根廷女記者索菲-馬丁內斯，兩人當面澄清緋聞

梅西賽后遇到阿根廷女記者索菲-馬丁內斯，兩人當面澄清緋聞

懂球帝

2026-07-05 23:11:06

1-2！巴西為何不敵挪威？安切洛蒂毫不客氣說出原因，很實在

1-2！巴西為何不敵挪威？安切洛蒂毫不客氣說出原因，很實在

林子說事

2026-07-06 09:56:35

大羅質疑安帥：為何不帶佩德羅，恩德里克坐替補？

大羅質疑安帥：為何不帶佩德羅，恩德里克坐替補？

懂球帝

2026-07-06 17:51:19

1年2574萬美金！聯盟第5！中投王德羅贊要重返NBA夢開始的地方

1年2574萬美金！聯盟第5！中投王德羅贊要重返NBA夢開始的地方

世界體育圈

2026-07-06 13:02:46

A股：不必等明天開盤，股市已經有變化，周二可能這樣走了

A股：不必等明天開盤，股市已經有變化，周二可能這樣走了

財經大拿

2026-07-06 15:54:03

晉級后哈蘭德連發5條中文動態，配樂尤愛伍佰《挪威的森林》：我們還沒到回家的時候；回應淘汰巴西：可能是挪威歷史上最瘋狂的一天

晉級后哈蘭德連發5條中文動態，配樂尤愛伍佰《挪威的森林》：我們還沒到回家的時候；回應淘汰巴西：可能是挪威歷史上最瘋狂的一天

大風新聞

2026-07-06 15:37:03

終于有經濟學家批評體制內退休金太高、加劇代際矛盾，評論區炸鍋

終于有經濟學家批評體制內退休金太高、加劇代際矛盾，評論區炸鍋

慧翔百科

2026-06-23 08:47:02

王艷熬出頭了，婆婆去世、兒子轉性、老公失聯，終于能放手做自己

王艷熬出頭了，婆婆去世、兒子轉性、老公失聯，終于能放手做自己

皮皮電影

2026-07-06 16:30:49

韓國男籃81-79險勝日本晉級第二階段，霍金森空砍30分

韓國男籃81-79險勝日本晉級第二階段，霍金森空砍30分

懂球帝

2026-07-06 20:40:15

歐洲人徹底被中國逼瘋了！

安安說

2026-06-26 10:24:14

豬價再回10元時代

財聯社

2026-07-06 17:46:05

管不住下半身，唱再好也沒用！演唱會剛結束，任素汐就被扒光體面

管不住下半身，唱再好也沒用！演唱會剛結束，任素汐就被扒光體面

調侃國際觀點

2026-07-04 21:22:25

機器之心Pro

專業的人工智能媒體

13450文章數 142689關注度

往期回顧全部

科技要聞

你在笑機器人摔跤,工程師在想怎么不砸死人

頭條要聞

受賄超22億元楊有林一審被判死刑

頭條要聞

受賄超22億元楊有林一審被判死刑

體育要聞

世界杯最強17歲，貝林厄姆主動和他交換球衣

娛樂要聞

繼床照后，司曉迪再爆鹿晗親密視頻

財經要聞

特朗普，從“霸凌全班”到“克己復禮”

汽車要聞

縱置后驅2.3T+10AT 新款福特探險者售30.98萬起

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

游戲

家居

健康

旅游

軍事航空

知名制作人自信稱《黑暗之魂》不難！動作很簡單

家居要聞

2026建博會(廣州) 公裝聯探展交流活動

傳奇筑日常詩
綠意盎然自然之境
空間微調移形換境

突發中風腦梗和腦出血怎么判斷？

旅游要聞

美麗中國丨湖光攬盛夏醉美興凱湖

軍事要聞

俄烏沖突再升級康斯坦丁諾夫卡成爭奪焦點

© 1997-2026 網易公司版權所有 About NetEase | 公司簡介 | 聯系方法 | 招聘信息 | 客戶服務 | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權投訴

無障礙瀏覽進入關懷版

<source id="hxjwy"></source>

<td id="hxjwy"></td>