網易首頁 > 網易號 > 正文 申請入駐

英偉達發力了,新模型在 OpenClaw 成功率排行榜殺進前五,目前免費用

0
分享至

我之前的文章,測試 N 多開源模型,尤其是本地部署系列,評論區永遠有一個高頻問題:能不能接入 OpenClaw(小龍蝦)?

大多數其實都不行,理由也很簡單——模型能力不足是最核心、最致命的短板。Agent 的自動化、工具調用、多步驟任務執行能力,全都建立在大模型的基礎能力之上。模型不行,Agent 就是個花瓶。

打開 PinchBench 排行榜()就知道了,排在前面的清一色是旗艦閉源模型。你用一個小模型跑 Agent,和用筷子喝湯差不多,工具不對。

最近英偉達有個開源模型 Nemotron-3-Super 殺進 PinchBench 前五

直接看排行榜:


**85.6% 的成功率超越了 Claude Opus 4.5(85.4%),只比 GPT-5.4 低了 0.4 個百分點。

最關鍵的一點:前五里面,它是唯一的開源模型。另外四個全是 Anthropic 和 OpenAI 的閉源旗艦,都是拿錢砸出來的。

而且,它這個數據還是被CREATIVE脫了后腿的,它沒有文生圖的能力



  • BasicCalendarCodingFile Ops都是100%

  • Data Analysis到了98%

  • Research90%

  • Comprehension91%

  • Organization89%

  • Creativity只有18%

  • Memory甚至只有0%

  • Context這一項也只有70%

這模型的強項非常像一個“干活型” Agent 大腦:寫腳本、改文件、跑流程、處理任務,確實強;但你要它靠長期上下文記憶、或者靠創意型表達去吃分,它就沒那么驚艷。

換句話說,它更像一個靠譜的工程經理加執行助手,不太像一個文藝青年。

PinchBench 測的是什么?

可能有同學不了解這個榜單。

簡單說,PinchBench 測的是模型驅動 AI Coding Agent 執行真實編碼任務的能力。不是做選擇題,不是寫作文,而是:

  • 文件讀寫操作

  • 代碼修改和重構

  • 工具調用和 API 交互

  • 多步驟復雜任務

  • 出錯后的自我修復

這些恰恰是 OpenClaw 這類 AI Coding Agent 的核心能力。所以 PinchBench 的排名非常實在——它基本決定了模型驅動 Agent 的實際表現。

這也是為什么我之前一直說:與小龍蝦最搭配的大模型,大多都是旗艦模型。

這貨憑什么這么強?

先上硬參數:

指標

數值

總參數量

120B

激活參數量

僅 12B

架構

LatentMoE(Mamba-2 + MoE + Attention 混合)

上下文窗口

1M tokens

最低 GPU 需求

1× B200-80GB 或 1× DGX Spark

推理模式

支持推理開/關(enable_thinking=True/False

量化精度

NVFP4(訓練即量化,不是后量化)

Nemotron 3 Super 120B A12B 不是“窮人版 Opus”,它更像是 NVIDIA 親自下場,給 Agent 賽道遞了一張旗艦級入場券。

架構設計有點東西

Nemotron-3-Super 不是傳統的純 Transformer,而是一個三合一混合體:

Mamba-2(狀態空間模型):擅長處理長序列,線性復雜度。這也是它能支持 1M 上下文的關鍵——傳統 Transformer 的注意力機制在超長序列上會被二次復雜度卡死。

MoE(混合專家):120B 參數里每次只激活 12B。用的是 LatentMoE,先把 token 投射到更小的潛在維度做路由,精度更高、開銷更低。

Attention 層:在關鍵位置保留注意力機制,保證關鍵信息不丟。

三者配合,NVIDIA 管這叫 LatentMoE 架構。又快又準。

還有一個彩蛋:Multi-Token Prediction(MTP)。模型訓練時不只預測下一個 token,而是同時預測后面好幾個 token。推理的時候可以做 speculative decoding,生成速度直接起飛。

NVFP4 量化,幾乎零損失,畢竟就是英偉達獨創的

下面這張圖是官方的基準對比:


Nemotron-3-Super 基準精度對比圖

基準

BF16 原版

FP8

NVFP4

MMLU-Pro

HMMT Feb25(含工具)

GPQA(無工具)

LiveCodeBench v6

IFBench

Arena-Hard-V2

RULER-500 @128k

有意思吧?NVFP4 版本在 HMMT、GPQA、IFBench 上甚至反超了 BF16 原版。這不是傳統的"訓完再量化",而是訓練的時候就在 FP4 精度下跑,模型天然適配低精度推理。

這才是真正的實用主義工程——精度不丟,顯存還省。

訓練方法論:這次是真開源

NVIDIA 這次把"開源"兩個字做到了實處:

  • 預訓練數據:25T+ tokens,全部公開(Nemotron Pre-Training Datasets)

  • 后訓練數據:SFT + RL 數據集,全部公開(Nemotron Post-Training v3)

  • 訓練配方:完整訓練腳本在 GitHub 上

  • 評估工具:NeMo Evaluator SDK,可以復現所有 benchmark 結果

  • RL 環境:NeMo Gym,異步 GRPO 多環境強化學習

訓練三大階段:預訓練 → SFT(合成代碼、工具調用、指令跟隨等) → RL(數學、代碼、科學、工具使用等多環境 GRPO)。

怎么體驗?

方式一:NVIDIA API(最快上手)

直接去build.nvidia.com注冊,免費額度直接用。

在線對話體驗,零門檻。



方式二:OpenRouter 等第三方 API

很多 API 平臺已經上架了。但是要注意:PinchBench 上免費版nemotron-3-super-120b-a12b:free只拿了 75.0%,和付費版 85.6% 差了超過 10 個百分點。省錢和效果之間,得想清楚。

方式三:本地部署(硬核玩家)

支持 vLLM 和 SGLang,單卡 B200-80GB 即可運行:

# vLLM 部署
vllm serve $MODEL_CKPT \
--async-scheduling \
--served-model-name nvidia/nemotron-3-super \
--dtype auto \
--kv-cache-dtype fp8 \
--tensor-parallel-size 1 \
--trust-remote-code \
--enable-auto-tool-choice \
--tool-call-parser qwen3_coder \
--reasoning-parser-plugin "./super_v3_reasoning_parser.py" \
--reasoning-parser super_v3

推理參數官方建議:temperature=1.0top_p=0.95,所有場景通用。

部署后暴露的是 OpenAI 兼容 API,可以直接接入 OpenCode 等終端 Agent:

{
"model": "local/nvidia-nemotron-3-super",
"provider": {
"local": {
"npm": "@ai-sdk/openai-compatible",
"options": {
"baseURL": "http://localhost:8000/v1",
"apiKey": "EMPTY"
}
}
}
}
HuggingFace 模型頁(含完整部署指南):https://huggingface.co/nvidia/NVIDIA-Nemotron-3-Super-120B-A12B-NVFP4

說完好的,說說現實問題:

GPU 門檻還是高。B200-80GB 不是消費級顯卡,你的 4090 跑不了,或許可以等等Unsloth對極致量化版。DGX Spark 是 NVIDIA 推的桌面方案,但價格也不便宜。對大多數個人開發者來說,API 調用更現實。

Benchmark ≠ 實戰。PinchBench 85.6% 很好看,但實際項目中的復雜度、特定語言框架支持、長時間多輪對話的穩定性,都得實測才知道。

開源 Agent 模型的格局正在變

Qwen 3.5-122B-A10B 也值得關注——同樣是 MoE 架構,122B 總參數 / 10B 激活,和 Nemotron 思路非常接近。兩家不約而同選了 100B+ 總參數、10B 級別激活的 MoE 路線,這不是巧合。

MoE + 混合架構正在成為開源 Agent 模型的主流技術路線。用小激活量撬動大參數量,在效率和能力之間找到一個甜點。

制作不易,如果這篇文章覺得對你有用,可否點個關注。給我個三連擊:點贊、轉發和在看。若可以再給我加個,謝謝你看我的文章,我們下篇再見!


特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
華晨宇哭了損失大了,在云南投資上億拿下地皮,如今緊急叫停

華晨宇哭了損失大了,在云南投資上億拿下地皮,如今緊急叫停

以茶帶書
2026-04-25 16:22:06
王石真的老了!突然現身大梅沙,他赤裸著上半身,貼著胰島素針頭

王石真的老了!突然現身大梅沙,他赤裸著上半身,貼著胰島素針頭

火山詩話
2026-04-26 06:11:32
5月1日起,有房有車有身份證的人,或要吃大虧了!

5月1日起,有房有車有身份證的人,或要吃大虧了!

小談食刻美食
2026-04-26 09:09:28
趙麗穎在上海某高檔餐廳被偶遇,瘦是真的瘦,素顏依然很美

趙麗穎在上海某高檔餐廳被偶遇,瘦是真的瘦,素顏依然很美

一盅情懷
2026-04-25 19:36:00
中國第四艘航母官宣:是核動力!舷號19,命名大概率是“江蘇號”

中國第四艘航母官宣:是核動力!舷號19,命名大概率是“江蘇號”

福建睿平
2026-04-26 10:53:36
小米:李某華已被行拘

小米:李某華已被行拘

南方都市報
2026-04-26 12:01:47
曝球球退出陳翔六點半!疑細節原因曝光,否認與“蘑菇頭”是夫妻

曝球球退出陳翔六點半!疑細節原因曝光,否認與“蘑菇頭”是夫妻

橙星文娛
2026-04-26 14:26:26
華為余承東:尊界新車價格在200萬左右

華為余承東:尊界新車價格在200萬左右

界面新聞
2026-04-26 13:08:56
馬齒莧立功!研究發現:其天然成分4周降脂33%,還能減少血管斑塊

馬齒莧立功!研究發現:其天然成分4周降脂33%,還能減少血管斑塊

思思夜話
2026-04-25 11:16:17
網友開盒掛出“深圳派出所煙男”名單,微博官方:嚴重違規,已關號處理

網友開盒掛出“深圳派出所煙男”名單,微博官方:嚴重違規,已關號處理

極目新聞
2026-04-26 17:45:26
月入過萬!“崩老頭”登上熱搜,80后90后男性,成為年輕女性目標

月入過萬!“崩老頭”登上熱搜,80后90后男性,成為年輕女性目標

火山詩話
2026-04-26 15:18:10
全變味了?蘇超開幕不到半月,不對勁的一幕上演,輿論風向又變了

全變味了?蘇超開幕不到半月,不對勁的一幕上演,輿論風向又變了

墨印齋
2026-04-25 18:07:43
飯店老板被顧客踹續:一腳踹出三米遠,強喂服務員吃菜,警方介入

飯店老板被顧客踹續:一腳踹出三米遠,強喂服務員吃菜,警方介入

奇思妙想草葉君
2026-04-25 15:02:47
斯諾克世錦賽:吳宜澤出師不利!2局僅得1分,塞爾比狂轟2破百!

斯諾克世錦賽:吳宜澤出師不利!2局僅得1分,塞爾比狂轟2破百!

劉姚堯的文字城堡
2026-04-26 17:56:36
田馥甄曬3人合體爬山,陳嘉樺帶包子接地氣,任家萱現在最沒星味

田馥甄曬3人合體爬山,陳嘉樺帶包子接地氣,任家萱現在最沒星味

離離言幾許
2026-04-25 20:49:13
手機拍完相機拍 白宮晚宴槍擊現場男子淡定記錄

手機拍完相機拍 白宮晚宴槍擊現場男子淡定記錄

看看新聞Knews
2026-04-26 12:48:06
白宮晚宴槍擊案全網最全細節:特工疑與槍手互開數槍,特朗普在臺上十分淡定

白宮晚宴槍擊案全網最全細節:特工疑與槍手互開數槍,特朗普在臺上十分淡定

爆角追蹤
2026-04-26 10:29:13
網紅女主播因父親重病去世失聯停播,公司要求其支付違約金:親人去世值得同情,但違約事實已發生;經法院調解,公司降低違約金數額

網紅女主播因父親重病去世失聯停播,公司要求其支付違約金:親人去世值得同情,但違約事實已發生;經法院調解,公司降低違約金數額

魯中晨報
2026-04-26 15:40:06
孩子脫臼復位只收100元,家長舉報亂收費!衛健委:應收110元,你還少給了!家長拒繳費后離開!

孩子脫臼復位只收100元,家長舉報亂收費!衛健委:應收110元,你還少給了!家長拒繳費后離開!

醫脈圈
2026-04-25 20:04:06
結束了!再見愛德華茲!NBA最慘季后賽球隊

結束了!再見愛德華茲!NBA最慘季后賽球隊

籃球實戰寶典
2026-04-26 19:48:57
2026-04-26 20:00:49
Ai學習的老章 incentive-icons
Ai學習的老章
Ai學習的老章
3352文章數 11139關注度
往期回顧 全部

科技要聞

漲價浪潮下,DeepSeek推動AI“價格戰”

頭條要聞

特朗普內閣又一女部長落馬:強迫男下屬為其提供性服務

頭條要聞

特朗普內閣又一女部長落馬:強迫男下屬為其提供性服務

體育要聞

森林狼3比1掘金:逆境中殺出了多孫穆?!

娛樂要聞

僅次《指環王》的美劇,有第二季

財經要聞

事關新就業群體,中辦、國辦發文

汽車要聞

預售19.38萬元起 哈弗猛龍PLUS七座版亮相

態度原創

藝術
本地
教育
游戲
房產

藝術要聞

18幅 列賓美院教師Artem Tikhonov風景寫生

本地新聞

云游中國|逛世界風箏都 留學生探秘中國傳統文化

教育要聞

休學率上漲,驚到很多人!北大六院醫生直言:這背后其實是夫妻關系和家庭關系……

傳言稱索尼PS5數字版游戲需要每30天在線驗證一次

房產要聞

新一輪教育大爆發來了!海口,開始瘋狂建學校!

無障礙瀏覽 進入關懷版