无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

英偉達出手,GLM 5.2 本地部署,成本驟降50%

0
分享至

兄弟們

我已經確信GLM5.2的諸多能力確實已經與Claude 旗艦模型不相上下了


剛刷到知名代碼安全公司 Semgrep 發了一篇博客,標題直接叫「We have Mythos at Home」。他們用 IDOR(越權漏洞)檢測基準,把 GLM-5.2、Claude Code、GPT-5.5 等一眾模型拉出來跑了個遍

結果您猜怎么著?在完全沒有任何外掛腳手架、只給一個 Prompt 的"裸跑"條件下,開源的 GLM-5.2 拿下了 39% 的 F1 分數,排名第三,僅次于 Semgrep 自家帶完整 harness 的流水線(61% 和 53%),直接超越了 Claude Code(37%)和 Claude Opus 4.8(28%)

最關鍵的是成本——GLM-5.2 每發現一個漏洞只需要 0.17 美元,只有頂尖閉源模型的六分之一。Semgrep 的研究人員自己都說"genuinely shocked"

排名

模型

運行方式

F1 分數

1

Semgrep Multimodal (GPT 5.5)

完整 harness

61%

2

Semgrep Multimodal (Opus 4.8)

完整 harness

53%

3

GLM 5.2純 Prompt(無腳手架)39%

4

Claude Code (Opus 4.6)

Claude Code SDK

37%

5

Claude Code (Opus 4.8/4.7)

Claude Code SDK

28%

6

MiniMax M3

純 Prompt

23%

7

Kimi K2.7 Code

純 Prompt

22%

8

GPT-5.5

Codex

20%

這說明什么?說明 GLM-5.2 已經是目前開源大模型里絕對的第一梯隊

問題只剩一個——這貨 753B 的參數量,誰部署得起?

今天英偉達給出了答案

GLM-5.2 到底有多猛

先花一分鐘了解下為什么這么多人饞這個模型

GLM-5.2 是 ZAI(智譜)最新的旗艦模型,采用 MoE(混合專家)架構,總參數 753B,每個 token 激活 40B。MIT 協議開源,沒有地域限制,商用、研究隨便搞

它的幾個核心賣點讓同行壓力山大:

  • 1M token 實打實的長文本:這個 1M 不是花架子。ZAI 用了自研的 IndexShare 稀疏注意力機制,每 4 層共享一個 indexer,在 1M 上下文長度下把每 token 的 FLOPs 降低了 2.9 倍。長文本不掉智商,這是最難的

  • 代碼能力直追閉源天花板:SWE-bench Pro 62.1(Claude Opus 4.8 是 69.2,GPT-5.5 才 58.6);Terminal Bench 2.1 得分 81.0,接近 Claude 的 85 分;FrontierSWE 74.4 分直接超過 GPT-5.5(72.6)

  • 推理能力炸裂:AIME 2026 數學競賽 99.2 分,GPQA Diamond 博士級科學推理 91.2 分,屬于開源模型里"別人還在追的時候你已經到了"的水平

  • MTP 推測解碼優化:改進后的 MTP 層讓推測解碼的接受長度提升了 20%,實際使用時延遲會更低

看完這些跑分,你就明白為什么 Semgrep 的安全研究員會說"把 GLM-5.2 加進基準純屬好奇,結果出來后我們自己都震驚了"

痛點:753B 誰跑得起

然而現實很骨感

753B 的 MoE 模型,即使用 FP8 精度,部署一套也需要至少 8 張高端 GPU。對大多數團隊來說這就是一道墻——模型再好,跑不起來等于零

這就是為什么英偉達這次出手意義重大

英偉達祭出 NVFP4:顯存腰斬,性能不掉

6 月 25 日,英偉達在 Hugging Face 上悄悄上架了nvidia/GLM-5.2-NVFP4

這個模型是英偉達用自家的 Model Optimizer(nvidia-modeloptv0.46.0)對 GLM-5.2 進行 NVFP4 量化后的產物。簡單來說就是把權重和激活值從 FP8 壓縮到 FP4,顯存占用直接腰斬


Nvidia Model Optimizer

量化策略很講究——它只對 MoE 專家層里的 Transformer block 線性算子做量化,共享專家層(Shared Expert)完全保留原始精度。這種"該省省、該花花"的策略是精度損失極小的關鍵

來看看實際跑分對比,數據來自 NVIDIA 官方:

精度

GPQA Diamond

SciCode

IFBench

AA-LCR

τ2-Bench Telecom

FP8(基線)

97.9

NVFP4

看到沒有?GPQA Diamond 這種博士級科學基準,從 89.52 到 89.39,差了 0.13,完全在誤差范圍內。更離譜的是 IFBench 和 τ2-Bench Telecom 兩項,NVFP4 反而比 FP8 還高。壓縮到一半精度還能漲分,這屬于賺到了


GLM-5.2 FP8 vs NVFP4 部署成本對比 部署實戰:SGLang 和 vLLM 兩條路

英偉達把部署體驗也安排得明明白白,目前官方支持 SGLang 和 vLLM 兩大推理框架

方案一:SGLang(官方推薦)

用最新的 SGLang 鏡像lmsysorg/sglang:latest,先把 transformers 升到 5.3.0 以上(GLM-5.2 的架構GlmMoeDsaForCausalLM是新的):

pip install -U "transformers>=5.3.0" && \
python3 -m sglang.launch_server \
--model nvidia/GLM-5.2-NVFP4 \
--tensor-parallel-size 8 \
--quantization modelopt_fp4 \
--tool-call-parser glm47 \
--reasoning-parser glm45 \
--trust-remote-code \
--chunked-prefill-size 16384 \
--mem-fraction-static 0.80

方案二:vLLM

習慣用 vLLM 的朋友,直接拉vllm/vllm-openai:v0.23.0鏡像:

vllm serve nvidia/GLM-5.2-NVFP4 \
--tensor-parallel-size 8 \
--enable-expert-parallel \
--trust-remote-code \
--reasoning-parser glm45 \
--tool-call-parser glm47 \
--enable-auto-tool-choice \
--kv-cache-dtype fp8_e4m3 \
--host 0.0.0.0 --port 8000

注意幾個要點:

  • --enable-expert-parallel是 MoE 模型的關鍵參數,打開專家并行

  • --kv-cache-dtype fp8_e4m3把 KV Cache 也壓到 FP8,進一步省顯存

  • --tool-call-parser glm47--reasoning-parser glm45分別對應 GLM-5.2 的工具調用和推理格式

官方測試硬件是 B200 和 B300,也就是 Blackwell 架構的新卡。如果你手里有這些卡,NVFP4 的原生 FP4 計算單元會讓吞吐量直接起飛

Model Optimizer:英偉達的"瘦身工廠"

下面這張圖完整展示了從原始模型到量化部署的全流程:


GLM-5.2 NVFP4 量化部署全流程

順便聊聊這次的幕后功臣——NVIDIA Model Optimizer

之前我介紹過多次

這個工具不是新東西了,之前 DeepSeek-R1、Llama 3.3 70B、Nemotron-3 Super 120B 的 NVFP4 量化版本全都是用它做的。英偉達從 2025 年 1 月開源了這個工具,到現在已經是一條成熟的量化流水線

它支持的優化技術矩陣相當豪華:

  • 訓練后量化(PTQ):模型體積壓縮 2-4 倍,推理直接加速

  • 量化感知訓練(QAT):在量化基礎上通過少量訓練步驟進一步恢復精度

  • 剪枝(Pruning):直接砍掉不重要的權重,Domyn 用它把 355B 模型壓到 260B

  • 蒸餾(Distillation):用大模型教小模型,Bielik.AI 用它做出了小 33%、快 50%、精度保留 90% 的模型

  • 推測解碼:訓練 draft 模塊預測額外 token,降低推理延遲

  • 稀疏化:只存儲非零參數,進一步壓縮

如果你想自己量化模型,安裝非常簡單:

pip install -U nvidia-modelopt[all]

量化后的模型可以直接部署到 SGLang、vLLM、TensorRT-LLM 等主流推理框架,完全無縫銜接

總結:開源部署的最優解

GLM-5.2 本身已經是開源大模型的巔峰之作

Semgrep 的安全基準測試證明了它在實戰場景中甚至能打贏 Claude Code,而且成本只有后者的六分之一

英偉達這次用 NVFP4 量化把部署門檻壓到了之前的一半。精度幾乎無損,部分指標甚至反超。對于想要在本地部署 AI Agent、RAG 系統、或者需要 1M 超長文本能力的團隊來說,這可能是目前性價比最高的方案

唯一的遺憾是對硬件還有要求——想充分發揮 NVFP4 的優勢,最好用 Blackwell 架構的 B200/B300。但話說回來,Hopper 架構跑也不是不行,只是吃不到原生 FP4 算力的紅利

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
賭王千金何超蓮上海被偶遇,個子小小卻比例超好,身材也太頂了吧

賭王千金何超蓮上海被偶遇,個子小小卻比例超好,身材也太頂了吧

木子愛娛樂大號
2026-06-29 17:26:11
美股全線走高,芯片股V型反轉,西部數據漲超11%,谷歌首秀道指破52000點,黃金跳水,國際油價反彈

美股全線走高,芯片股V型反轉,西部數據漲超11%,谷歌首秀道指破52000點,黃金跳水,國際油價反彈

第一財經資訊
2026-06-30 07:20:21
“你這面相很難找到工作!”本科女孩印堂發黑,驗證了老話沒說錯

“你這面相很難找到工作!”本科女孩印堂發黑,驗證了老話沒說錯

熙熙說教
2026-06-29 19:26:42
Shams:灰熊將莫蘭特交易至開拓者,換回格蘭特和克里斯-穆雷

Shams:灰熊將莫蘭特交易至開拓者,換回格蘭特和克里斯-穆雷

懂球帝
2026-06-30 04:46:05
吉馬良斯:日本隊整場都處于防守狀態,但他們確實進步了很多

吉馬良斯:日本隊整場都處于防守狀態,但他們確實進步了很多

懂球帝
2026-06-30 04:25:07
阿爾茲海默癥的“禍根”被揪出,若有這2個吃飯習慣,要趁早改掉

阿爾茲海默癥的“禍根”被揪出,若有這2個吃飯習慣,要趁早改掉

醫學科普匯
2026-06-29 21:30:04
熱聞|補時絕殺接連上演!巴西逆轉日本晉級16強,安切洛蒂盡顯世界級臨場調整水準

熱聞|補時絕殺接連上演!巴西逆轉日本晉級16強,安切洛蒂盡顯世界級臨場調整水準

齊魯壹點
2026-06-30 06:54:19
追夢拒絕執行2770萬選項!勇士目標組四巨頭:交易濃眉+追逐老詹

追夢拒絕執行2770萬選項!勇士目標組四巨頭:交易濃眉+追逐老詹

羅說NBA
2026-06-29 22:15:06
2026年三伏天要來了!2個壞消息,1個好消息,3個要注意,別大意

2026年三伏天要來了!2個壞消息,1個好消息,3個要注意,別大意

阿龍美食記
2026-06-28 16:52:24
庫明加成為自由球員!老鷹拒絕執行2430萬選項 國王騎士有意簽他

庫明加成為自由球員!老鷹拒絕執行2430萬選項 國王騎士有意簽他

羅說NBA
2026-06-30 05:30:56
普京:烏克蘭就俄烏戰事提出兩條新建議

普京:烏克蘭就俄烏戰事提出兩條新建議

新華社
2026-06-29 13:45:04
4個月浮虧近5億,“杭州股神”章建平割肉

4個月浮虧近5億,“杭州股神”章建平割肉

深圳晚報
2026-06-29 23:07:54
世界杯|這份榜單上兩人對陣德國時進球,04一代“60大新星”混得如何

世界杯|這份榜單上兩人對陣德國時進球,04一代“60大新星”混得如何

上觀新聞
2026-06-30 07:33:41
巴西逆轉絕殺日本:漫畫般結局,只換了主角

巴西逆轉絕殺日本:漫畫般結局,只換了主角

張佳瑋寫字的地方
2026-06-30 03:33:10
日本1-2遭絕殺出局!森保一賽后發言有點可怕,還有自己的打算

日本1-2遭絕殺出局!森保一賽后發言有點可怕,還有自己的打算

陌識
2026-06-30 05:56:44
遭絕殺出局!日本眾將崩潰倒地+掩面痛哭,連續3屆先破門卻被逆轉

遭絕殺出局!日本眾將崩潰倒地+掩面痛哭,連續3屆先破門卻被逆轉

我愛英超
2026-06-30 03:48:04
韓紅基金會被扒多次對外投資,幾個億善款閑置,網友要求公開說明

韓紅基金會被扒多次對外投資,幾個億善款閑置,網友要求公開說明

萌神木木
2026-06-29 18:33:42
陳震:韓紅誤會走個面意思了,在北京這是抱怨的意思

陳震:韓紅誤會走個面意思了,在北京這是抱怨的意思

映射生活的身影
2026-06-29 17:04:11
名帥有能!巴西隊2比1絕殺逆轉日本隊晉級,勝利屬于意大利教練安切洛蒂

名帥有能!巴西隊2比1絕殺逆轉日本隊晉級,勝利屬于意大利教練安切洛蒂

上觀新聞
2026-06-30 03:28:50
上半場封神 下半場崩盤!安帥1招擊潰日本鐵桶陣,巴西贏在教練!

上半場封神 下半場崩盤!安帥1招擊潰日本鐵桶陣,巴西贏在教練!

看透足球專欄
2026-06-30 03:57:30
2026-06-30 08:48:49
Ai學習的老章 incentive-icons
Ai學習的老章
Ai學習的老章
3447文章數 11168關注度
往期回顧 全部

科技要聞

DeepSeek V4正式版要來 高峰期API價格翻倍

頭條要聞

牛彈琴:韓國對男足恥辱出局激烈反應 全世界震驚不已

頭條要聞

牛彈琴:韓國對男足恥辱出局激烈反應 全世界震驚不已

體育要聞

日本眾將掩面痛哭 連續3屆先破門卻被逆轉

娛樂要聞

跟風電影《給阿公的牛肉丸》開機

財經要聞

中歐貿易投資磋商機制聯合聲明

汽車要聞

全新寶馬iX3長軸版將于成都車展預售 四季度交付

態度原創

時尚
藝術
數碼
健康
旅游

“復古波點”又流行回來了!夏天簡單穿就很時髦

藝術要聞

16幅 冉茂芹小幅風景油畫寫生

數碼要聞

從「大APP」到「大任務」:vivo黃韜談折疊屏AI輕辦公哲學

狂吃“糯嘰嘰”小心腸梗阻!

旅游要聞

濟南古村方峪村

無障礙瀏覽 進入關懷版