无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

英偉達加速版 Qwen3.6-35B,雙4090本地部署,性能實測

0
分享至

前文:,我用 vLLM 部署的這個版本


本文測下 Red Hat 量化團隊 Qwen3.6-35B-A3B-NVFP4(4-bit 浮點)的性能

NVFP4 量化版:Red Hat 出品
模型地址:huggingface.co/RedHatAI/Qwen3.6-35B-A3B-NVFP4

這個 NVFP4 版本由 Red Hat AI 團隊使用 llm-compressor 完成量化

? llm-compressor 是 vLLM 項目下的量化工具庫,專門為 vLLM 推理做優化,支持 GPTQ、AWQ、SmoothQuant、FP8、NVFP4 等多種方案

NVFP4 的核心:權重和激活都量化到 FP4(W4A4),使用 E2M1 格式 + 16 元素微塊縮放

Red Hat 跑了 GSM8K Platinum 評測,初步結果相當驚艷:

版本

GSM8K Platinum 準確率

原版 BF16

NVFP4 量化版

恢復率

100.69%

量化后精度居然比原版高了一丟丟

當然這有統計波動因素,但至少說明 NVFP4 量化對精度的損失可以忽略不計

實測部署:vLLM + Docker

我在雙 4090 GPU 服務器上用 Docker + vLLM 部署了這個模型

Docker 啟動命令

docker run -d --name qwen36-35b-a3b-int4 \
--gpus all \
-v /data/llm-models/Qwen3.6-35B-A3B-NVFP4:/model \
-p 8000:8000 \
vllm/vllm-openai:v0.19.1 \
--model /model \
--served-model-name qwen3.6-35-int4 \
--tensor-parallel-size 2 \
--max-model-len 102400 \
--kv-cache-dtype fp8 \
--enable-prefix-caching \
--language-model-only \
--max-num-batched-tokens 8192 \
--max-num-seqs 24 \
--default-chat-template-kwargs '{"enable_thinking": false}'

幾個關鍵參數說明

  • --tensor-parallel-size 2:雙卡張量并行

  • --kv-cache-dtype fp8:KV Cache 用 FP8 存儲,進一步節省顯存

  • --language-model-only:跳過視覺編碼器,把顯存省給 KV Cache

  • --enable-prefix-caching:開啟前綴緩存加速

  • --default-chat-template-kwargs '{"enable_thinking": false}':默認關閉思考模式,需要的時候再開

部署數據一覽

從啟動日志里扒出來的關鍵數據:

指標

數值

vLLM 版本

0.19.1

模型加載耗時

24 秒

模型顯存占用10.61 GiB

(每卡)

torch.compile 編譯耗時

39.49 秒

初始化總耗時

136.49 秒

GPU KV Cache 容量

494,656 tokens

最大并發(102K 上下文)

17.18x

CUDA Graph 顯存

0.81 GiB


非 Blackwell GPU 跑 NVFP4

WARNING: Your GPU does not have native support for FP4 computation 
but FP4 quantization is being used. Weight-only FP4 compression
will be used leveraging the Marlin kernel. This may degrade
performance for compute-heavy workloads.

我的 GPU 設備能力是 8.9(Ada Lovelace 架構),不支持原生 FP4 計算

vLLM 自動退回到Marlin 內核做 weight-only FP4 解壓——推理時權重從 FP4 解壓到高精度再參與計算,激活量化的加速效果就沒了

GPU 架構

FP4 原生支持

NVFP4 實際行為

Blackwell (B100/B200)

支持

W4A4 全量化加速

Hopper (H100/H200)

不支持

Weight-only + Marlin 解壓

Ada (L40S/4090)不支持Weight-only + Marlin 解壓

所以如果你和我一樣用 Ada 架構的 GPU,NVFP4 的核心收益是省顯存

推理速度的提升主要來自模型變小后降低的內存帶寬需求,要拿到 NVFP4 真正的 W4A4 全量化加速,需要 Blackwell GPU

還有兩個值得留意的細節:

  • Mamba Cache 實驗性支持:日志里提示 prefix caching 對 Mamba 層的支持還在實驗階段。Qwen3.6 用了 Gated DeltaNet(一種線性注意力變體),vLLM 對這類層的緩存機制還在打磨中

  • Custom AllReduce 被禁用:因為 GPU 之間不支持 P2P 直連,退回到 NCCL 通信。多卡并行的效率會有一點點損失

對比前文同為 vLLM 0.19.1 拉起的 Qwen3.6-35B-A3B-AWQ-4bit

各方面都有提升


部署建議

硬件選擇

  • 最低 2x RTX 4090(24GB),可以跑 100K 上下文,或許可以更高,我沒再加

  • 有 Blackwell GPU 的話能獲得最完整的 NVFP4 加速

推理框架

  • vLLM 版本 0.19.0 以上,推薦 0.19.1,前文我也測了 v0.17 也可以

  • 官方同時支持 SGLang 和 KTransformers

采樣參數建議

  • Thinking 模式:temperature=1.0, top_p=0.95, top_k=20, presence_penalty=1.5

  • 精確編程任務:temperature=0.6, top_p=0.95, top_k=20, presence_penalty=0.0

  • 非思考模式:temperature=0.7, top_p=0.8, top_k=20, presence_penalty=1.5

Agent 場景推薦開啟preserve_thinking,能在多輪對話中保留思維鏈上下文,減少重復推理的 token 消耗

.6

制作不易,如果這篇文章對你有幫助,可否幫我個忙。給我個三連擊:點贊、轉發和在看。若可以再給我加個星標,謝謝你看我的文章,我們下篇再見!

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
國際原油期貨日內漲幅擴大至2%

國際原油期貨日內漲幅擴大至2%

財聯社
2026-06-17 22:34:24
網約車司機的秘密武器:一根空調管讓手機不罷工

網約車司機的秘密武器:一根空調管讓手機不罷工

影視情報室
2026-06-17 01:03:20
沉默5天后,國防部通告菲律賓,中國停止仁慈,對菲反制說到就到

沉默5天后,國防部通告菲律賓,中國停止仁慈,對菲反制說到就到

聞識
2026-06-17 14:27:37
李連杰曬與“兒子”謝苗合影:一眨眼,就長大了,曾回應“為何不幫他”;謝苗原計劃去一中學當體育老師,后因接到片約又做動作演員

李連杰曬與“兒子”謝苗合影:一眨眼,就長大了,曾回應“為何不幫他”;謝苗原計劃去一中學當體育老師,后因接到片約又做動作演員

極目新聞
2026-06-17 19:29:25
中方通告全球,馬尼拉的回應來了,菲反對黨:拆除所有中方建筑!

中方通告全球,馬尼拉的回應來了,菲反對黨:拆除所有中方建筑!

真的好愛你
2026-06-18 03:51:32
國家金融監管總局局長丁向群:支持配合化解房地產、地方政府債務風險

國家金融監管總局局長丁向群:支持配合化解房地產、地方政府債務風險

財聯社
2026-06-17 10:32:22
茄子大量上市,提醒:二者萬不可同吃,吃茄子禁忌要牢記

茄子大量上市,提醒:二者萬不可同吃,吃茄子禁忌要牢記

華庭講美食
2026-06-16 16:34:37
鄭欽文0-2不敵吉布森,止步WTA250諾丁漢站第二輪

鄭欽文0-2不敵吉布森,止步WTA250諾丁漢站第二輪

懂球帝
2026-06-18 02:53:16
世體:皇馬內部許多人說對小蜘蛛是假報價,真正目標是奧利塞

世體:皇馬內部許多人說對小蜘蛛是假報價,真正目標是奧利塞

懂球帝
2026-06-17 21:58:07
炸裂!捐精有多亂,雙方直接在賓館完成懷孕過程,一次八百到幾萬

炸裂!捐精有多亂,雙方直接在賓館完成懷孕過程,一次八百到幾萬

就一點
2026-06-02 15:45:51
月銷7萬到幾乎絕跡!2026年最慘車型,去年還被封神,如今無人問津

月銷7萬到幾乎絕跡!2026年最慘車型,去年還被封神,如今無人問津

周哥一影視
2026-06-12 19:36:11
從今日起,中國不再需要日本道歉!這覺醒,來自3500萬亡魂的重量

從今日起,中國不再需要日本道歉!這覺醒,來自3500萬亡魂的重量

國際阿嘗
2026-05-14 16:02:15
哈佛最新研究實錘:4種運動睪酮漲25% 男人越練越有勁兒 越有男人味

哈佛最新研究實錘:4種運動睪酮漲25% 男人越練越有勁兒 越有男人味

普陀動物世界
2026-06-16 17:18:46
雷諾聯手泰雷茲開發軍用車輛

雷諾聯手泰雷茲開發軍用車輛

參考消息
2026-06-17 10:10:21
雷霆薪金即將暴漲!砍掉5300萬美元開支?需放走哈滕多爾特肯威

雷霆薪金即將暴漲!砍掉5300萬美元開支?需放走哈滕多爾特肯威

羅說NBA
2026-06-17 06:28:06
囚禁2000同胞斂財10億,假面僑領,柬埔寨安徽商會長劉忍電詐黑幕

囚禁2000同胞斂財10億,假面僑領,柬埔寨安徽商會長劉忍電詐黑幕

易玄
2026-06-16 21:23:31
被罵“酸黃瓜”3個月后,54歲閆學晶現狀曝光,模樣發生了改變

被罵“酸黃瓜”3個月后,54歲閆學晶現狀曝光,模樣發生了改變

阿晭評論哥
2026-05-09 20:18:02
朝鮮向來誰都不服,唯獨把3個中國人寫進教科書,還立了銅像

朝鮮向來誰都不服,唯獨把3個中國人寫進教科書,還立了銅像

梅姨在路上
2026-06-09 14:43:55
合肥人口增量,爆冷了

合肥人口增量,爆冷了

城市財經
2026-06-17 11:46:01
踢飛了?再踢!1:0!凱恩用同一腳,踹開英格蘭60年點球噩夢

踢飛了?再踢!1:0!凱恩用同一腳,踹開英格蘭60年點球噩夢

海右那人
2026-06-18 04:20:29
2026-06-18 04:52:50
Ai學習的老章 incentive-icons
Ai學習的老章
Ai學習的老章
3435文章數 11165關注度
往期回顧 全部

科技要聞

馬斯克好友長文:他最可怕的,是這套方法論

頭條要聞

C羅啞火!葡萄牙1-1爆冷 送民主剛果隊史世界杯首分

頭條要聞

C羅啞火!葡萄牙1-1爆冷 送民主剛果隊史世界杯首分

體育要聞

梅西帽子戲法:紀錄厚重,球王輕盈

娛樂要聞

陳紅一反常態保持沉默

財經要聞

拉加德警告:AI可能引爆下一場金融危機

汽車要聞

23.99萬起 比亞迪大唐帶2+2+3大七座掀桌子 這才是中國大家庭夢中情車!

態度原創

教育
游戲
健康
數碼
公開課

教育要聞

認知天性|一本改變你人生的書

終于又有好游戲玩啦!這10款獨立游戲新作創意拉滿,強推入庫!

營養師:粽子怎么吃美味又健康?

數碼要聞

GuliKit推出Switch 2便攜底座 可連電視亦可桌面充電 售價29.99美元

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版