網易首頁 > 網易號 > 正文 申請入駐

Qwen3.6-27B 開源了,27B 小身板干翻 397B 巨無霸

0
分享至

一文中,我就表達了對 Qwen 開源順序的稍稍不滿,大家明明最期待的是 27B 啊

后來又測了幾個 Qwen3.6-35B 的量化版本,都是關閉思考,已經完全可以取代釘子戶 Qwen3-32B 了

剛剛,萬眾期待的 Qwen3.6-27B 終于來了


FP8 版的模型權重已經來到 30GB 級別,后面再來個 AWQ-4bit,簡直完美,單卡 4090 都輕松

簡介

先說結論:這是一個 27B 的 Dense 多模態模型,把上一代開源旗艦 Qwen3.5-397B-A17B(397B 總參 / 17B 激活)在幾乎所有編碼 Benchmark 上都干翻了

是的,你沒看錯,小了 15 倍,反手給了老大哥一巴掌


上圖是官方放出的分數對比,我挑幾個關鍵的給大家翻譯翻譯:

  • SWE-bench Verified :77.2(3.5-397B 是 76.2)

  • SWE-bench Pro :53.5(3.5-397B 是 50.9)

  • Terminal-Bench 2.0 :59.3(3.5-397B 是 52.5)

  • SkillsBench Avg5 :48.2(3.5-397B 只有 30.0,這個差距有點離譜)

  • GPQA Diamond :87.8

  • AIME 2026 :94.1

橫向對比 Claude 4.5 Opus 這種閉源旗艦,編碼上基本也就差個 1~5 分,Terminal-Bench 居然打平(都是 59.3)

這個參數量做到這個水平,我只能說阿里這波是真卷出來了,對得起大家的期待

這次更新的核心賣點就兩個:

  • Agentic Coding :前端任務、倉庫級代碼推理都明顯更順滑,這次是 real-world coding 直接對標 Claude

  • Thinking Preservation :多輪對話時可以保留歷史的 thinking 上下文,代碼迭代開發場景下,不用每輪都重新"想一遍"了

模型架構也有點意思:

  • 參數量:27B(Dense,不是 MoE,部署簡單)

  • 上下文:原生 262,144 tokens,可擴展到 1,010,000 tokens (百萬級)

  • 層數:64 層,隱藏維度 5120

  • Hidden Layout: 16 × (3 × (Gated DeltaNet → FFN) → 1 × (Gated Attention → FFN))

  • 多模態:自帶 Vision Encoder,圖片、視頻、文檔通吃

  • 支持 MTP(Multi-Token Prediction),推理速度有加成

Gated DeltaNet + Gated Attention 的混合架構,是 Qwen3.5 就開始用的,和純 Attention 比,長上下文時顯存友好很多。這也是為什么它敢說百萬上下文。

順便提一句,這次還同步放出了 FP8 量化版Qwen/Qwen3.6-27B-FP8:fine-grained fp8、block size 128,官方說「性能指標幾乎與原始模型一致」,顯存能砍掉一半左右,對本地部署是重磅利好

為什么這個 27B 值得你重點關注

老章這里掰開聊一下,27B Dense 這個尺寸對社區為什么是 sweet spot:

  1. 部署簡單 :Dense 架構沒有 MoE 路由那一套,不用折騰專家并行,vLLM/SGLang 直接一把梭

  2. 硬件門檻適中 :BF16 大約需要 54GB 顯存,2 × A100 40G、1 × H100 80G、或者 4 × 4090 都能跑; FP8 版只要 27GB 左右,單張 48G 的 L40S / A6000 Ada 就能跑

  3. 能力不妥協 :前面 benchmark 已經證明了,它比上一代 397B 還強

  4. 純開源權重 :Hugging Face 和 ModelScope 都有官方權重,商用隨便

你用 Ollama 跑 Qwen3-30B 嫌小、跑 Qwen3.5-397B 跑不動的,現在中間這檔終于有了像樣的選手

本地部署(重點來了)

這次官方推薦 3 條路子:SGLang / vLLM / Hugging Face Transformers,另外還支持 KTransformers 做 CPU-GPU 異構推理。

老章個人生產環境里最喜歡的是 vLLM

1. vLLM 部署(推薦)

版本要求 vllm>=0.19.0,裝新一點準沒錯:

uv pip install vllm --torch-backend=auto

標準啟動(8 卡 tensor parallel、262K 上下文):

vllm serve Qwen/Qwen3.6-27B \
--port 8000 \
--tensor-parallel-size 8 \
--max-model-len 262144 \
--reasoning-parser qwen3

帶 Tool Call(Coding Agent 場景必開):

vllm serve Qwen/Qwen3.6-27B \
--port 8000 \
--tensor-parallel-size 8 \
--max-model-len 262144 \
--reasoning-parser qwen3 \
--enable-auto-tool-choice \
--tool-call-parser qwen3_coder

開啟 MTP(多 Token 預測,推理提速)

vllm serve Qwen/Qwen3.6-27B \
--port 8000 \
--tensor-parallel-size 8 \
--max-model-len 262144 \
--reasoning-parser qwen3 \
--speculative-config '{"method":"qwen3_next_mtp","num_speculative_tokens":2}'

只用文本能力(省顯存,砍掉視覺編碼器,給 KV Cache 讓路):

vllm serve Qwen/Qwen3.6-27B \
--port 8000 \
--tensor-parallel-size 8 \
--max-model-len 262144 \
--reasoning-parser qwen3 \
--language-model-only

老章提個醒:官方明確說"如果 OOM 別無腦降 context,建議最少保留 128K,否則 thinking 能力會被閹割"

2. SGLang 部署

版本 sglang>=0.5.10

uv pip install sglang[all]

標準啟動:

python -m sglang.launch_server \
--model-path Qwen/Qwen3.6-27B \
--port 8000 \
--tp-size 8 \
--mem-fraction-static 0.8 \
--context-length 262144 \
--reasoning-parser qwen3

帶 Tool Use:

python -m sglang.launch_server \
--model-path Qwen/Qwen3.6-27B \
--port 8000 --tp-size 8 \
--mem-fraction-static 0.8 \
--context-length 262144 \
--reasoning-parser qwen3 \
--tool-call-parser qwen3_coder

開啟 MTP(投機解碼):

python -m sglang.launch_server \
--model-path Qwen/Qwen3.6-27B \
--port 8000 --tp-size 8 \
--mem-fraction-static 0.8 \
--context-length 262144 \
--reasoning-parser qwen3 \
--speculative-algo NEXTN \
--speculative-num-steps 3 \
--speculative-eagle-topk 1 \
--speculative-num-draft-tokens 4
3. Transformers 輕量部署(測試用)

顯存夠、但懶得裝 vLLM/SGLang,直接官方 Transformers 自帶的 server 也行:

pip install "transformers[serving]"
transformers serve Qwen/Qwen3.6-27B --port 8000 --continuous-batching

注意這個是輕量級的,測試可以,上生產還是老老實實 vLLM/SGLang。

4. 顯存不夠?上 FP8 版

本地卡不夠的兄弟,直接把模型名換成 Qwen/Qwen3.6-27B-FP8 即可,其他啟動參數一毛一樣

官方說指標幾乎無損,顯存需求直接腰斬

vllm serve Qwen/Qwen3.6-27B-FP8 \
--port 8000 \
--tensor-parallel-size 2 \
--max-model-len 131072 \
--reasoning-parser qwen3

雙卡 4090、單卡 L40S/A6000 Ada 跑起來都挺香

使用

起好服務后,接口完全兼容 OpenAI,老配方了

采樣參數官方推薦值(這個很關鍵,別瞎調):

  • 思考模式(通用): temperature=1.0, top_p=0.95, top_k=20, presence_penalty=0.0

  • 思考模式(精確編碼,如 WebDev): temperature=0.6, top_p=0.95, top_k=20

  • 非思考模式: temperature=0.7, top_p=0.80, top_k=20, presence_penalty=1.5

純文本請求:

from openai import OpenAI
client = OpenAI(base_url="http://localhost:8000/v1", api_key="EMPTY")

messages = [
{"role": "user", "content": "Type \"I love Qwen3.6\" backwards"},
]

resp = client.chat.completions.create(
model="Qwen/Qwen3.6-27B",
messages=messages,
max_tokens=81920,
temperature=1.0,
top_p=0.95,
presence_penalty=0.0,
extra_body={"top_k": 20},
)
print(resp)

默認開啟思考,輸出里會有 ... 包裹的思考內容,不想要就按非思考模式的參數調。

多模態(圖片)請求:

messages = [{
"role": "user",
"content": [
{"type": "image_url",
"image_url": {"url": "https://your-image-url.jpg"}},
{"type": "text", "text": "這張圖里有幾個圓?"},
]
}]


resp = client.chat.completions.create(
model="Qwen/Qwen3.6-27B",
messages=messages,
max_tokens=81920,
temperature=1.0,
top_p=0.95,
extra_body={"top_k": 20},
)

視頻輸入也一樣,把 type 換成 video_url 即可,官方 demo 里都有。

老章小結

優點:

  • 27B Dense,部署友好,社區期盼已久的甜點尺寸終于來了

  • Agentic Coding 能力真的強,SWE-bench 干翻 397B MoE 老大哥

  • 原生 262K,可擴到 1M 上下文,倉庫級代碼任務夠用

  • 多模態 + 文本雙修,一個模型吃到底

  • FP8 量化版同步放出,本地部署門檻再降一半

  • vLLM / SGLang / Transformers / KTransformers 全棧支持

局限:

  • 27B 的盤子再怎么煉,HLE 這種超硬核推理題還是打不過 397B 和 Claude 4.5 Opus

  • 默認開啟 thinking,某些對延遲敏感的線上場景要注意切模式

  • context 不建議壓縮到 128K 以下,否則 thinking 會退化(說明這個長上下文是設計內的,硬核縮不動)

  • 關注?一波,明天出本地部署性能實測

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
7國南海搞軍演,轉頭求中國救急?中方一句話:不會拉你一把

7國南海搞軍演,轉頭求中國救急?中方一句話:不會拉你一把

墨印齋
2026-04-23 12:35:16
日媒報道北京國際車展,比亞迪9分鐘充電震撼全場!日本網友炸鍋了...

日媒報道北京國際車展,比亞迪9分鐘充電震撼全場!日本網友炸鍋了...

今日日本
2026-04-26 10:03:45
為啥越來越多男生不主動幫女生搬行李?網友:最怕來一句不加微信

為啥越來越多男生不主動幫女生搬行李?網友:最怕來一句不加微信

夜深愛雜談
2026-04-26 07:36:03
觸目驚心!央視曝光上海一中醫館:從醫生到病人全是演員!

觸目驚心!央視曝光上海一中醫館:從醫生到病人全是演員!

番外行
2026-04-24 08:59:12
山東校長崔玉軍被查,巨額回扣損害教育公平,家長心聲引發關注!

山東校長崔玉軍被查,巨額回扣損害教育公平,家長心聲引發關注!

金哥說新能源車
2026-04-26 08:47:09
33歲章澤天風格大變!穿艷俗紗裙、副乳突出,比實際年齡成熟10歲

33歲章澤天風格大變!穿艷俗紗裙、副乳突出,比實際年齡成熟10歲

阿訊說天下
2026-04-18 14:53:39
東方甄選全員告別:這場逼宮為何徹底失控?

東方甄選全員告別:這場逼宮為何徹底失控?

時尚的弄潮
2026-04-26 06:43:56
電力央企違法違規典型問題被通報!

電力央企違法違規典型問題被通報!

能見
2026-04-26 12:07:39
倆女子大鬧上海地鐵,拳打薅頭滿臉血,攔都攔不住,結局令人舒適

倆女子大鬧上海地鐵,拳打薅頭滿臉血,攔都攔不住,結局令人舒適

奇思妙想草葉君
2026-04-26 02:02:15
58歲江珊差點認不出,膀大腰圓,身材壯碩,滿頭白發太真實

58歲江珊差點認不出,膀大腰圓,身材壯碩,滿頭白發太真實

林輕吟
2026-04-25 07:44:35
突發!臺高層已抵達非洲,大陸徹底看清:特朗普的最壞打算是什么

突發!臺高層已抵達非洲,大陸徹底看清:特朗普的最壞打算是什么

愛下廚的阿釃
2026-04-26 03:10:11
“都絕戶了,還拼命掙錢干嘛?”看見父親50歲就躺平,我崩潰了

“都絕戶了,還拼命掙錢干嘛?”看見父親50歲就躺平,我崩潰了

素十三兒
2026-04-13 07:12:36
052D過橫當水道后,遼寧艦抵臺海,日本向中國抗議,不滿東海行動

052D過橫當水道后,遼寧艦抵臺海,日本向中國抗議,不滿東海行動

老赳說歷史
2026-04-23 16:08:53
人的命,天注定,這10句話,人越活越信

人的命,天注定,這10句話,人越活越信

金沛的國學筆記
2026-04-24 14:22:27
民進黨高層竟敢偷偷離臺,大陸火速行動!美國來陰的,鄭麗文拼了

民進黨高層竟敢偷偷離臺,大陸火速行動!美國來陰的,鄭麗文拼了

致敬明天的太陽
2026-04-26 17:14:46
同是影視巨頭,為何萬達有人接盤,華誼卻無人相救?真相太扎心

同是影視巨頭,為何萬達有人接盤,華誼卻無人相救?真相太扎心

八斗小先生
2026-04-25 11:47:21
網紅莫氏雞煲涼透了!從通宵排隊到空無一人,終究逃不過曇花一現

網紅莫氏雞煲涼透了!從通宵排隊到空無一人,終究逃不過曇花一現

阿郎娛樂
2026-04-23 15:28:38
1949年傅作義上西柏坡會見毛主席,臨行前:我得拿些哈德門做禮物

1949年傅作義上西柏坡會見毛主席,臨行前:我得拿些哈德門做禮物

海佑講史
2026-04-26 19:20:05
時間有變!趙心童VS丁俊暉,央視更改直播頻道,誰能進世錦賽8強

時間有變!趙心童VS丁俊暉,央視更改直播頻道,誰能進世錦賽8強

體育大學僧
2026-04-26 08:50:39
一場4-1,讓中超負分清零第8隊誕生!火爆齊魯德比,海牛掀翻泰山

一場4-1,讓中超負分清零第8隊誕生!火爆齊魯德比,海牛掀翻泰山

小彭美識
2026-04-26 19:21:41
2026-04-26 20:03:00
Ai學習的老章 incentive-icons
Ai學習的老章
Ai學習的老章
3352文章數 11139關注度
往期回顧 全部

科技要聞

漲價浪潮下,DeepSeek推動AI“價格戰”

頭條要聞

特朗普內閣又一女部長落馬:強迫男下屬為其提供性服務

頭條要聞

特朗普內閣又一女部長落馬:強迫男下屬為其提供性服務

體育要聞

森林狼3比1掘金:逆境中殺出了多孫穆?!

娛樂要聞

僅次《指環王》的美劇,有第二季

財經要聞

事關新就業群體,中辦、國辦發文

汽車要聞

預售19.38萬元起 哈弗猛龍PLUS七座版亮相

態度原創

本地
親子
手機
教育
公開課

本地新聞

云游中國|逛世界風箏都 留學生探秘中國傳統文化

親子要聞

#健康躍動生活#孩子碰頭別大意,出現這5種情況,立刻就醫

手機要聞

一加Ace 6至尊版規格全揭曉,堆料堆到友商沉默!

教育要聞

休學率上漲,驚到很多人!北大六院醫生直言:這背后其實是夫妻關系和家庭關系……

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版