无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

Qwen3.6-27B 量化版本推薦,本地部署

0
分享至


一文講過 Qwen3.6-27B 原版 FP16 的 27B 模型,文件 55GB,太大了

好消息是 Qwen3.6-27B 開源24小時內,量化版本就已經百花齊放了——FP8、AWQ-INT4、NVFP4、GGUF、MLX,從服務端 vLLM 到 Mac 本地、到消費級顯卡,各種部署場景都能找到對應的版本

本文推薦幾個 Qwen3.6-27B 量化版本,以及本地部署教程

第一路:vLLM 服務端部署

生產環境的首選,兼顧速度和并發,Qwen3.6 官方推薦 vllm>=0.19.0 起步

1. 官方 FP8 版本(最穩)

Qwen/Qwen3.6-27B-FP8

這是 Qwen 官方自己放出來的 FP8 量化,細粒度 fp8 量化,block size = 128,官方原話:性能指標幾乎跟原版一模一樣

文件大小比 FP16 原版直接砍半(27B 模型約 27GB 權重),兼容 Transformers / vLLM / SGLang / KTransformers,基本上是零風險選項

啟動命令:

vllm serve Qwen/Qwen3.6-27B-FP8 \
--port 8000 \
--tensor-parallel-size 2 \
--max-model-len 262144 \
--reasoning-parser qwen3

要開工具調用加一句:

  --enable-auto-tool-choice --tool-call-parser qwen3_coder

想開 MTP(Multi-Token Prediction)推測解碼提速:

  --speculative-config '{"method":"qwen3_next_mtp","num_speculative_tokens":2}'

適合誰:兩張 A100/H100/L40S 起,追求最穩妥部署的生產環境

2. AWQ-INT4 版本(消費級友好)

cyankiwi/Qwen3.6-27B-AWQ-INT4

社區開發者 cyankiwi 做的 AWQ(Activation-aware Weight Quantization)4bit 量化,文件壓到 20GB 左右

這個版本上個周期的 Qwen3.5-35B-A3B 就是他家出的,vLLM 0.19 直接拉起來,單卡 4090 就能跑,雙卡可以支撐更大上下文

啟動腳本參考:

vllm serve cyankiwi/Qwen3.6-27B-AWQ-INT4 \
--port 8000 \
--max-model-len 65536 \
--gpu-memory-utilization 0.9 \
--reasoning-parser qwen3 \
--trust-remote-code

適合誰:家用消費級卡(4090、3090、5090)、或者兩張 4090 想拉高上下文的玩家

3. NVFP4 版本(Blackwell 專屬)

sakamakismile/Qwen3.6-27B-NVFP4

這個是 Lna-Lab 團隊用 NVFP4 格式做的量化——權重 FP4、激活 FP4、scale FP8,真正的 W4A4

關鍵數據:55.6 GB → 19.7 GB,壓縮比 0.35x,vision tower 保留在 BF16,單張 Blackwell GPU 能跑

量化配方很克制,只量化語言模型的 Linear 層:

QuantizationModifier:
targets: [Linear]
ignore: [lm_head, 're:.*visual.*', 're:.*mlp.gate$', 're:.*mlp.shared_expert_gate$']
scheme: NVFP4

啟動:

vllm serve sakamakismile/Qwen3.6-27B-NVFP4 \
--max-model-len 8192 \
--gpu-memory-utilization 0.92 \
--dtype auto \
--trust-remote-code

硬性要求:NVIDIA Blackwell GPU(SM 120),vLLM ≥ 0.19

作者在 RTX PRO 6000 Blackwell(96GB)上實測過

適合誰:手里有 5090 / 5090D / RTX PRO 6000 這類 Blackwell 卡的,NVFP4 是目前 Blackwell 架構吃得最香的格式

第二路:GGUF 本地部署(llama.cpp)

GGUF 是 llama.cpp 的親兒子格式,家用 PC、Mac、甚至 CPU 純推都能跑

1. Unsloth Dynamic 2.0 GGUF(推薦)

unsloth/Qwen3.6-27B-GGUF

Unsloth 家的 Dynamic 2.0 量化,基于真實世界數據集做校準,關鍵層做 upcast,同等 bit 數下質量比普通 GGUF 好不少

官方的硬件表直接給出需求(RAM+VRAM 總和,或統一內存):

量化

27B 需求

UD-Q2_K_XL

15 GB

UD-Q4_K_XL

18 GB

Q5_K_M

24 GB

Q6_K

30 GB

Q8_0

55 GB

Unsloth 推薦日常用 UD-Q4_K_XL,24GB RAM 或者 Mac 設備都能流暢跑

?? 兩個關鍵坑位(Unsloth 官方文檔明確提醒):

  1. 不要用 CUDA 13.2 ,會輸出亂碼,NVIDIA 正在修

  2. 目前 Ollama 跑不了 Qwen3.6 GGUF ,因為 mmproj 視覺文件是分離的,只能用兼容 llama.cpp 的后端

llama.cpp 啟動命令示例:

./llama-server \
-hf unsloth/Qwen3.6-27B-GGUF:UD-Q4_K_XL \
--jinja \
--ctx-size 32768 \
--n-gpu-layers 99

推理參數(非常重要,hybrid reasoning 兩種模式不一樣):

Thinking 模式(一般任務)temperature=0.6, top_p=0.95, top_k=20, min_p=0.0

Non-thinking 模式(一般任務)temperature=1.0, top_p=0.95, top_k=20, presence_penalty=1.5

2. LM Studio 社區版 GGUF

lmstudio-community/Qwen3.6-27B-GGUF

LM Studio 團隊基于 llama.cpp b8883 做的量化。如果你用 LM Studio 作為本地大模型面板,這個版本集成度最好,直接在 LM Studio 里搜索就能下載。

量化質量上,比 Unsloth Dynamic 2.0 略樸素——沒有針對關鍵層 upcast,但勝在工具鏈集成完整、開箱即用

3. Unsloth UD-MLX-4bit(Mac 專屬)

unsloth/Qwen3.6-27B-UD-MLX-4bit

Unsloth 團隊也出了動態 MLX 4bit 版本,專門給 Apple Silicon 用。

Unsloth 給了一鍵腳本:

curl -fsSL https://raw.githubusercontent.com/unslothai/unsloth/refs/heads/main/scripts/install_qwen3_6_mlx.sh | sh
source ~/.unsloth/unsloth_qwen3_6_mlx/bin/activate
python -m mlx_vlm.chat --model unsloth/Qwen3.6-27B-UD-MLX-4bit

Mac Studio / MacBook Pro M 系列,32GB 以上統一內存都能跑

第三路:蘋果 MLX 生態 mlx-community/Qwen3.6-27B-nvfp4

mlx-community/Qwen3.6-27B-nvfp4

MLX 社區基于 mlx-vlm 0.4.4 做的 NVFP4 格式 Mac 專用版。跟服務端的 NVFP4 不是一回事——這個是 MLX 格式,走 Apple Silicon 的 Metal。

調用非常簡單:

pip install -U mlx-vlm


python -m mlx_vlm.generate \
--model mlx-community/Qwen3.6-27B-nvfp4 \
--max-tokens 100 \
--temperature 0.0 \
--prompt "Describe this image." \
--image

適合誰:Mac 用戶里想吃 MLX 生態的(MLX 在蘋果芯片上的性能往往比 llama.cpp-metal 更好)。

怎么選?一張表決定

場景

推薦版本

核心原因

生產部署(雙卡 A100/H100)

官方 FP8

原汁原味,幾乎無損

消費級單卡(4090/3090)

cyankiwi AWQ-INT4

15GB 能裝下,vLLM 直接跑

Blackwell 卡(5090/RTX PRO 6000)

sakamakismile NVFP4

充分利用 FP4 算力

Windows/Linux PC + 24GB 顯存

Unsloth UD-Q4_K_XL

動態量化質量最好

用 LM Studio 做面板

lmstudio-community GGUF

工具鏈集成最好

Mac Studio / MacBook

Unsloth MLX-4bit 或 mlx-community nvfp4

走 MLX 吃滿 Metal

低配機器 + 大內存

Unsloth UD-Q2_K_XL

15GB 就能跑


幾個通用注意事項

  1. Qwen3.6-27B 是 dense 模型,不是 MoE 。跟 Qwen3.6-35B-A3B 不一樣,后者是 3B 激活的 MoE,跑起來更快。27B dense 的優勢是能力更穩定、沒有專家路由的不確定性

  2. 上下文默認 262K 。OOM 的話把 --max-model-len / --ctx-size 降下來,但 Unsloth 建議至少保 128K 來保住 thinking 能力

  3. hybrid reasoning 兩種模式參數差異大 。寫代碼用 thinking 模式 + temp=0.6,寫文用 non-thinking + temp=1.0,別搞混

  4. Ollama 暫時跑不了 ,等 Ollama 適配 mmproj 分離結構

下篇文章咱們聊聊 Qwen3.6-27B 的另一個神奇版本,推理風格有大變化

.6

制作不易,如果這篇文章覺得對你有用,可否點個關注。給我個三連擊:點贊、轉發和在看。若可以再給我加個,謝謝你看我的文章,我們下篇再見!

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
韓乒內杠?主帥吳尚垠辭職原因曝光!兒子與林鐘勛奪冠成導火索!

韓乒內杠?主帥吳尚垠辭職原因曝光!兒子與林鐘勛奪冠成導火索!

好乒乓
2026-06-17 19:37:17
國家衛健委等14部門重磅出手!院內醫療、醫藥反腐全面升級!

國家衛健委等14部門重磅出手!院內醫療、醫藥反腐全面升級!

新浪財經
2026-06-17 17:59:03
有退休金的人發現一個奇怪的現象:手里有20、30萬存款的老人,最后過得好的,幾乎都做了同兩個讓子女意外的決定

有退休金的人發現一個奇怪的現象:手里有20、30萬存款的老人,最后過得好的,幾乎都做了同兩個讓子女意外的決定

心理觀察局
2026-06-07 06:37:04
向佐坦白曾“為了熱度跟錢,哄郭碧婷配合上節目”,稱向太“親手撕破我好多段感情”

向佐坦白曾“為了熱度跟錢,哄郭碧婷配合上節目”,稱向太“親手撕破我好多段感情”

南方都市報
2026-06-17 21:39:47
河北省550萬離退休人員養老金將迎調整,看一看過去三年變化情況

河北省550萬離退休人員養老金將迎調整,看一看過去三年變化情況

暖心人社
2026-06-17 22:48:36
葡萄牙爆冷都怪C羅?賽后揪出四大水貨,一人堪稱罪魁,早該走人

葡萄牙爆冷都怪C羅?賽后揪出四大水貨,一人堪稱罪魁,早該走人

老骾體育解說
2026-06-18 03:33:56
“足球小將”父親公開發聲,揭開董路私下一面,有一點可以肯定

“足球小將”父親公開發聲,揭開董路私下一面,有一點可以肯定

小許論事
2026-06-17 10:23:08
得中鋒者得天下!本屆世界杯證明:超級射手才是奪冠的終極底牌!

得中鋒者得天下!本屆世界杯證明:超級射手才是奪冠的終極底牌!

田先生籃球
2026-06-17 11:10:04
濟南市人民代表大會常務委員會任免名單:馬志勇任濟南市人民政府副市長

濟南市人民代表大會常務委員會任免名單:馬志勇任濟南市人民政府副市長

中國山東網
2026-06-17 20:29:09
世界上每個人都在使用他寫的軟件,他卻過得窮困潦倒......

世界上每個人都在使用他寫的軟件,他卻過得窮困潦倒......

碼農翻身
2026-06-16 08:57:55
1換1!交易徹底失??!頂級內線告別NBA

1換1!交易徹底失敗!頂級內線告別NBA

籃球實戰寶典
2026-06-17 20:15:43
中國刷鍋神器絲瓜瓤現身舊金山,售價6美元,河南企業認領:深耕絲瓜絡行業已整整10年,研發的產品有100多款,出口50多個國家

中國刷鍋神器絲瓜瓤現身舊金山,售價6美元,河南企業認領:深耕絲瓜絡行業已整整10年,研發的產品有100多款,出口50多個國家

大風新聞
2026-06-17 16:47:36
兩個和尚沒水喝?華為內斗加劇,上半年業務增速不及預期!

兩個和尚沒水喝?華為內斗加劇,上半年業務增速不及預期!

小陸搞笑日常
2026-06-17 17:39:05
G7峰會變烏克蘭專場,澤連斯基風頭蓋過川普

G7峰會變烏克蘭專場,澤連斯基風頭蓋過川普

史政先鋒
2026-06-17 14:59:42
被“VCD”逼退圈的女星!

被“VCD”逼退圈的女星!

文刀萬
2026-06-15 07:00:12
小女孩一句話,戳破了雷總的“吃面大秀”

小女孩一句話,戳破了雷總的“吃面大秀”

說財貓
2026-06-17 21:05:16
女子租奔馳出差,租車公司收回發現重了40斤,打開后備箱夾層愣住

女子租奔馳出差,租車公司收回發現重了40斤,打開后備箱夾層愣住

曉艾故事匯
2025-08-22 08:11:11
周杰倫《女兒殿下》MV上線 復古舞步混搭萌娃“瘋”玩親子日常

周杰倫《女兒殿下》MV上線 復古舞步混搭萌娃“瘋”玩親子日常

縱相新聞
2026-06-17 17:34:45
曝霍啟山11月海南大婚,娜然將和郭晶晶成為妯娌!網友推測已懷孕

曝霍啟山11月海南大婚,娜然將和郭晶晶成為妯娌!網友推測已懷孕

往史過眼云煙
2026-06-17 19:35:13
意媒:歐冠資格賽第二輪抽簽結果出爐,世界杯決賽兩天后開踢

意媒:歐冠資格賽第二輪抽簽結果出爐,世界杯決賽兩天后開踢

懂球帝
2026-06-17 21:05:49
2026-06-18 06:19:00
Ai學習的老章 incentive-icons
Ai學習的老章
Ai學習的老章
3435文章數 11165關注度
往期回顧 全部

科技要聞

馬斯克好友長文:他最可怕的,是這套方法論

頭條要聞

C羅啞火!葡萄牙1-1爆冷 送民主剛果隊史世界杯首分

頭條要聞

C羅啞火!葡萄牙1-1爆冷 送民主剛果隊史世界杯首分

體育要聞

梅西帽子戲法:紀錄厚重,球王輕盈

娛樂要聞

陳紅一反常態保持沉默

財經要聞

拉加德警告:AI可能引爆下一場金融危機

汽車要聞

23.99萬起 比亞迪大唐帶2+2+3大七座掀桌子 這才是中國大家庭夢中情車!

態度原創

家居
本地
藝術
時尚
公開課

家居要聞

綠意盎然 自然之境

本地新聞

世界杯黑馬佛得角:河北人開超市,溫州人當老板

藝術要聞

235米!曼谷地標“金字塔”動工,BIG操刀

1分鐘1萬塊:我在飯圈,交易人性

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版