網易首頁 > 網易號 > 正文 申請入駐

vLLM 部署 Qwen3.5 滿血&量化版,并發性能測試,附部署腳本

0
分享至

最近openclaw在國內火的優點離譜,脫離其實力范圍的火,以至于我也要在文中加上兩句才可能有流量。。。主要是我個人一直玩的是自己折騰的一套,比較放心

不過本周我會測試國產的兩個claw,敬請期待。

本文繼續折騰Qwen3.5 不出意外是最后一篇了。

Qwen3.5 系列我一直沒有拿 vLLM 部署,,趁著周末,玩一下。

首先需要升級 vLLM,唯一需要注意的是自己的硬件及 CUDA 版本


我的系統總是有幺蛾子,所有還是用的 Docker

正常拉取鏡像即可:docker pull vllm/vllm-openai:v0.17.0

我是 4090 的卡,所以選擇官方 FP8

35B 權重文件 37GB

27B 權重文件 30GB


遭遇各種 OOM 之后。。。。


最終調整到了一版合適的參數,腳本以 35B 為例,27B 僅需修改模型文具地址和對應 name 即可,我只有 4 卡,所有還要測完 35B 后 stop 才能起 27B

#!/usr/bin/env bash
set -euo pipefail

MODEL_DIR="/data/models/Qwen3.5-35B-A3B-FP8"
CONTAINER_NAME="qwen35-35b-a3b-fp8"
PORT=8000

docker rm -f ${CONTAINER_NAME} 2>/dev/null || true

docker run -d \
--name ${CONTAINER_NAME} \
--gpus '"device=0,1,2,3"' \
--ipc=host \
--shm-size=16g \
-p ${PORT}:8000 \
-v ${MODEL_DIR}:/model:ro \
-e NCCL_P2P_DISABLE=0 \
-e NCCL_IB_DISABLE=1 \
-e VLLM_USE_V1=1 \
vllm/vllm-openai:v0.17.0 \
--model /model \
--served-model-name qwen3.5-35b-a3b-fp8 \
--tensor-parallel-size 4 \
--max-model-len 262144 \
--kv-cache-dtype fp8 \
--gpu-memory-utilization 0.9 \
--max-num-seqs 4 \
--max-num-batched-tokens 8192 \
--language-model-only \
--enable-prefix-caching \
--default-chat-template-kwargs '{"enable_thinking": false}' \
--host 0.0.0.0 \
--port 8000

這里說明一下
--tensor-parallel-size 4我又 4 張 4090 顯卡
--max-model-len 262144是我的強需求,可以稍微犧牲一點并發
--kv-cache-dtype fp8這是為了降低 KV cache 內存占用,從而支持更長上下文
--gpu-memory-utilization 0.9是為了給真實運行時留空間。實際部署中,除了權重和 KV cache,還會吃掉顯存的還有:CUDA graph、NCCL 通信 buffer、allocator 碎片、連續 batching 帶來的波動等等
--max-num-seqs 4避免長上下文 + 高并發疊加把顯存直接頂爆,感覺還有空間往上加
--max-num-batched-tokens 8192參數控制一次調度里的總 token 規模。它過大時,會帶來更高吞吐,但也會加大運行時顯存波動和調度壓力
--language-model-only我不需要多模態,所以只要文本推理
--enable-prefix-caching高效的 KV 管理和吞吐優化參數
--default-chat-template-kwargs '{"enable_thinking": false}':加了思考我這配置卡的很,思考太過漫長了

而且我用的 FP8 它的思考居然是英文


實際運行,性能特別差 27B 幾乎沒有并發能力,35B-A3B 還可以,但是 RPS 很低,首 Token 延遲都奔 10s 了


沒辦法,我放棄官方 FP8,上了 4bit


cyankiwi/Qwen3.5-35B-A3B-AWQ-4bitcyankiwi/Qwen3.5-27B-AWQ-4bit

然后使用了同樣的部署腳本,只是它倆更省卡,2 張 4090 就能跑起來,我可以同時跑 27B 和 35B,而且我還在原代碼基礎上 加大了 max-num-seqs


Moe 確實省顯卡

我把它倆接入到了 openwebui,都關閉思考情況下,27B 也慢得多!看樣子我之前的判斷大錯特錯了,27 太拉垮了。

日志顯示 27B 70+ t/s


35B 100+ t/s



代碼能力呢,都不太能看,臥龍鳳雛了


性能方面,27B 依然相當差勁,比 PF8 好多了


35B 比 FP8 提升多了,也比 27B 強多了


總結,以我的需求,暫時不想替代 Qwen3-32B,還是 32B 跟穩。

而且 3.5 還整了騷操作,把開頭的 從“動態生成”變成了“靜態預置”,下游對接的系統苦了。。。要么模型測,要么應用測,是要改的。

再加上它本身不支持思考與否的軟關閉,這個級別能力提升也不見得能彌補這些缺點,企業級應用,我感覺很多都不太樂意升 3.5

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
“好拉胯”!深圳一熱門演唱會出現舞臺事故,網友紛紛避雷!部門公開回應

“好拉胯”!深圳一熱門演唱會出現舞臺事故,網友紛紛避雷!部門公開回應

南方都市報
2026-04-26 11:55:52
現在教師已經嚴重過剩了!

現在教師已經嚴重過剩了!

微微熱評
2026-04-26 18:19:14
又打起來了!德黑蘭巨響,美軍不宣而戰?伊朗或再中圈套

又打起來了!德黑蘭巨響,美軍不宣而戰?伊朗或再中圈套

咸魚金腦袋
2026-04-26 07:35:40
大年三十被媽9次嫌多余,我拎行李就走,隔天全家瞅著201余額急了

大年三十被媽9次嫌多余,我拎行李就走,隔天全家瞅著201余額急了

麥子情感故事
2026-04-26 17:52:19
本想逼宮老俞,卻讓臉面碎了一地!甄選4大主播的離職瓜變味了

本想逼宮老俞,卻讓臉面碎了一地!甄選4大主播的離職瓜變味了

觀察鑒娛
2026-04-26 13:11:53
黑八要來了?60勝徒有虛名,當家球星場均31+8燃盡,身邊卻無幫手

黑八要來了?60勝徒有虛名,當家球星場均31+8燃盡,身邊卻無幫手

你的籃球頻道
2026-04-26 07:41:05
張凌赫腳傷上了熱搜!車內痛苦表情曝光!對接方回應

張凌赫腳傷上了熱搜!車內痛苦表情曝光!對接方回應

麥芽是個小趴菜
2026-04-26 16:58:21
黃巖島激烈對峙,中方做好最壞打算,美媒:轟6和055已部署

黃巖島激烈對峙,中方做好最壞打算,美媒:轟6和055已部署

啟迪你的思維
2026-04-24 02:35:20
火鍋店野生菌“見手青”煮12分鐘,顧客食用后中毒維權無果,消委科普稱需煮20分鐘;廣州天河區市監局:沒充分證據不予立案

火鍋店野生菌“見手青”煮12分鐘,顧客食用后中毒維權無果,消委科普稱需煮20分鐘;廣州天河區市監局:沒充分證據不予立案

大風新聞
2026-04-25 20:38:04
驚天內幕!1984年中美黑鷹交易只交付24架,真相竟是戰略失誤!

驚天內幕!1984年中美黑鷹交易只交付24架,真相竟是戰略失誤!

人生錄
2026-04-25 15:13:17
經常“放屁”是肝不好嗎?提醒:放屁多很可能與這5種疾病有關!

經常“放屁”是肝不好嗎?提醒:放屁多很可能與這5種疾病有關!

芹姐說生活
2026-04-25 16:12:39
中國西北舉行大規模空戰演習,250架戰機參演

中國西北舉行大規模空戰演習,250架戰機參演

午夜搭車a
2026-04-26 18:08:28
【中超】冷門!多點開花笑傲齊魯德比 海牛4比1泰山

【中超】冷門!多點開花笑傲齊魯德比 海牛4比1泰山

體壇周報
2026-04-26 19:15:10
馬德興:朝鮮U17退出亞洲杯賽事,亞足聯暫不尋求遞補球隊

馬德興:朝鮮U17退出亞洲杯賽事,亞足聯暫不尋求遞補球隊

懂球帝
2026-04-26 18:15:18
外交部一錘定音!賴清德沒資格,鄭麗文就算贏了選舉也不認!

外交部一錘定音!賴清德沒資格,鄭麗文就算贏了選舉也不認!

果媽聊娛樂
2026-04-25 13:48:35
統一臺灣后,第一任省長由誰擔任最合適?五人上榜,一人脫穎而出

統一臺灣后,第一任省長由誰擔任最合適?五人上榜,一人脫穎而出

知鑒明史
2026-04-24 20:05:03
恒大夏海鈞600億資產4次解封失敗

恒大夏海鈞600億資產4次解封失敗

地產微資訊
2026-04-26 15:52:24
當年劉愷威楊冪兩個確實是生理性喜歡

當年劉愷威楊冪兩個確實是生理性喜歡

科學發掘
2026-04-24 06:45:03
杜鋒看看!徐昕單賽季勇奪最具進步球員+入選二陣,攻守全面盤活

杜鋒看看!徐昕單賽季勇奪最具進步球員+入選二陣,攻守全面盤活

籃球資訊達人
2026-04-26 19:13:33
0-2!劉洋各種失誤,韓鵬3中衛被完爆!苗原:又見泰山經典丟球

0-2!劉洋各種失誤,韓鵬3中衛被完爆!苗原:又見泰山經典丟球

建哥說體育
2026-04-26 17:55:44
2026-04-26 19:59:00
Ai學習的老章 incentive-icons
Ai學習的老章
Ai學習的老章
3352文章數 11139關注度
往期回顧 全部

科技要聞

漲價浪潮下,DeepSeek推動AI“價格戰”

頭條要聞

特朗普內閣又一女部長落馬:強迫男下屬為其提供性服務

頭條要聞

特朗普內閣又一女部長落馬:強迫男下屬為其提供性服務

體育要聞

森林狼3比1掘金:逆境中殺出了多孫穆?!

娛樂要聞

僅次《指環王》的美劇,有第二季

財經要聞

事關新就業群體,中辦、國辦發文

汽車要聞

預售19.38萬元起 哈弗猛龍PLUS七座版亮相

態度原創

時尚
本地
健康
藝術
公開課

IU的臉,真的有自己的時間線

本地新聞

云游中國|逛世界風箏都 留學生探秘中國傳統文化

干細胞如何讓燒燙傷皮膚"再生"?

藝術要聞

18幅 列賓美院教師Artem Tikhonov風景寫生

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版