无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

英偉達最新開源多模態(tài)大模型,本地部署,量化后消費級顯卡輕松跑,缺點是:僅支持英文輸入

0
分享至

英偉達又發(fā)新模型了——NVIDIA Nemotron 3 Nano Omni 30B-A3B-Reasoning

老黃這次很狠:30B 總參數(shù)、3B 激活的 MoE,視頻 + 音頻 + 圖像 + 文本全吃,256K 上下文,還自帶推理鏈

最關(guān)鍵的是——它的開源協(xié)議是真·開源(NVIDIA Open Model Agreement),允許商用,權(quán)重數(shù)據(jù)集訓(xùn)練配方都開放

Unsloth 一夜之間就把 GGUF 跑通了,4-bit 25GB 內(nèi)存就能跑

簡介

先把家底亮一下

項目

參數(shù)

總參數(shù) / 激活參數(shù)

31B / 3B

架構(gòu)

Mamba2-Transformer 混合 MoE

視覺編碼器

C-RADIO v4-H

語音編碼器

Parakeet

LLM 主干

Nemotron-3-Nano-30B-A3B

上下文

最長 256K tokens

輸入

視頻 (mp4, ≤2 分鐘)、音頻 (wav/mp3, ≤1 小時)、圖像、文本

輸出

文本(支持 JSON、CoT 推理、tool calling、詞級時間戳)

量化

官方提供 BF16 / FP8 / NVFP4 三檔

License

NVIDIA Open Model Agreement(可商用)

這個組合最有意思的地方是Mamba2 + Transformer 混合,再疊 MoE,單次推理只激活 3B,所以同樣的卡能扛更高并發(fā)——官方給出的數(shù)據(jù)是比"另一家開源 Omni 模型"(暗指 Qwen3-Omni-30B-A3B)在視頻任務(wù)上9.2 倍吞吐,多文檔任務(wù)上7.4 倍吞吐


Pareto 曲線:多文檔與視頻場景的系統(tǒng)吞吐對比

為什么能差這么多?官方給的解法叫Efficient Video Sampling (EVS)+ 3D 卷積時空感知,再加上視頻幀剪枝(--video-pruning-rate 0.5),讓一段 1080p 視頻可以以 1FPS / 128 幀采樣,720p 可以 2FPS / 256 幀——本質(zhì)上是用結(jié)構(gòu)化稀疏把"看視頻"的算力賬省下來了

定位:多模態(tài)感知子代理

vLLM 團隊博客里的描述很到位:把它當(dāng)成 Agent 系統(tǒng)里的"眼睛和耳朵",專門負(fù)責(zé)屏幕、文檔、音視頻流的感知,再把結(jié)構(gòu)化理解喂給下游的編排和執(zhí)行 Agent。它不是要替你寫代碼、跑工具,它是要成為 Agent 系統(tǒng)里"那個看得到聽得見的家伙"——這跟 Qwen3-Omni 想"全都干"的路線是不一樣的

典型場景官方也給了:

  • 客服:Doordash 投遞地點 OCR 驗證、得來速點單確認(rèn)

  • M&E 媒體娛樂:視頻/語音密集字幕、檢索、摘要

  • 文檔智能:合同、SOW/MSA、科研、財務(wù)文檔

  • GUI 自動化:事件管理、Agentic 搜索、瀏覽器/郵件 Agent

測評數(shù)據(jù)

NVIDIA 給的口徑是"同尺寸里最強的 Omni 模型",并且在六個公開榜單上都拿了第一


Nemotron 3 Nano Omni 橫掃六大多模態(tài)榜單

六個榜單分別是:

  • MMlongbench-Doc(長文檔理解)

  • OCRBenchV2(OCR 綜合)

  • WorldSense(視頻常識)

  • DailyOmni(日常多模態(tài))

  • VoiceBench(語音理解)

  • MediaPerf(多模態(tài)吞吐 + 成本)

跟自家上一代 Nemotron Nano VL V2 對比,全面上漲,視覺、視頻、OCR、音頻四條線都有提升


相比 Nemotron Nano VL V2 的精度提升

Unsloth 那邊也跑了一份對比,他們的結(jié)論更直白——全面碾壓 Qwen3-Omni-30B-A3B


Unsloth 給出的橫向 benchmark

我個人的態(tài)度:榜單數(shù)據(jù)看看就行,真正決定你用不用的,是后面這套部署鏈路順不順手——這才是我重點寫的部分

關(guān)于開源協(xié)議(NVIDIA Open Model Agreement)

順便說一下 License,因為這次老黃給的協(xié)議比 Llama 那一票"看似開源"的協(xié)議清爽得多。我把官方原文核心點提煉了一下(原文鏈接):

  • ?可商用:永久、全球、免版稅、不可撤銷

  • ?可改可分發(fā):允許做衍生模型并以源/二進制形式發(fā)布

  • ?輸出歸你:NVIDIA 不主張你用模型生成內(nèi)容的所有權(quán)

  • ?? 分發(fā)時要附帶 License 副本,保留版權(quán)和歸屬聲明

  • ?? 如果你拿這個協(xié)議去告 NVIDIA 侵權(quán),授權(quán)立刻終止

  • ?? 不能用 NVIDIA 商標(biāo)做品牌背書(描述來源除外)

對中小團隊和個人開發(fā)者來說,這就是**"拿來就能用"**級別的協(xié)議,比那些"7 億月活以上要單獨申請"的"偽開源"友好太多

Unsloth GGUF 火速到位:本地部署詳細(xì)步驟

這次 Unsloth 真的快,Day Zero 就和 NVIDIA 聯(lián)動出了 GGUF。模型倉庫在這:

? https://huggingface.co/unsloth/NVIDIA-Nemotron-3-Nano-Omni-30B-A3B-Reasoning-GGUF

資源占用:消費級顯卡很輕松!害得是 Unsloth!


? ?? 一個大坑:不要用 CUDA 13.2,會輸出亂碼,NVIDIA 在修。建議 12.9 或 13.0
方式一:Unsloth Studio(最省事)

Unsloth 自己出了一個 Web UI,叫 Unsloth Studio,可以本地跑 GGUF、對比模型、聊天、傳圖傳音頻


Unsloth Studio 界面

MacOS / Linux / WSL 一鍵安裝:

curl -fsSL https://unsloth.ai/main/install.sh | sh
source unsloth_studio/bin/activate
unsloth studio -H 0.0.0.0 -p 8888

Windows PowerShell:

irm https://unsloth.ai/install.ps1 | iex
& .\unsloth_studio\Scripts\unsloth.exe studio -H 0.0.0.0 -p 8888

然后瀏覽器打開http://localhost:8888,搜 Nemotron-3-Nano-Omni,選你要的量化版下載就行


在 Studio 中搜索并下載模型 方式二:llama.cpp 命令行(更可控)

先編譯 llama.cpp(CUDA 版):

apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \
-DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON -DLLAMA_CURL=ON
cmake --build llama.cpp/build --config Release -j --clean-first \
--target llama-cli llama-mtmd-cli llama-server llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp
? Apple Silicon 把 -DGGML_CUDA=ON 改成 OFF,Metal 默認(rèn)開

純文本對話(NVIDIA 推薦temp=1.0, top-p=1.0):

./llama.cpp/llama-cli \
-hf unsloth/NVIDIA-Nemotron-3-Nano-Omni-30B-A3B-Reasoning-GGUF:UD-Q4_K_XL \
--temp 1.0 --top-p 1.0

圖片 + 音頻混合輸入(需要llama-mtmd-cli):

./llama.cpp/llama-mtmd-cli \
-hf unsloth/NVIDIA-Nemotron-3-Nano-Omni-30B-A3B-Reasoning-GGUF:UD-Q4_K_XL \
--image screenshot.png \
--audio meeting.wav \
-p "Summarize what is shown and said. Return key actions as bullet points." \
--temp 1.0 --top-p 1.0

視頻按幀采樣(llama.cpp 暫不直吃視頻,曲線救國先抽幀):

mkdir -p frames
ffmpeg -i demo.mp4 -vf "fps=1/2,scale=1280:-1" frames/frame_%04d.png

FRAMES=$(python - <<'PY'
from pathlib import Path
frames = sorted(Path("frames").glob("*.png"))[:16]
print(",".join(str(x) for x in frames))
PY
)

./llama.cpp/llama-mtmd-cli \
-hf unsloth/NVIDIA-Nemotron-3-Nano-Omni-30B-A3B-Reasoning-GGUF:UD-Q4_K_XL \
--image "$FRAMES" \
-p "Analyze these sampled video frames. Summarize the sequence of events." \
--temp 1.0 --top-p 1.0

起 OpenAI 兼容服務(wù)(推薦這種,方便接業(yè)務(wù)):

./llama.cpp/llama-server \
-hf unsloth/NVIDIA-Nemotron-3-Nano-Omni-30B-A3B-Reasoning-GGUF:UD-Q4_K_XL \
--alias "unsloth/NVIDIA-Nemotron-3-Nano-Omni-30B-A3B-Reasoning" \
--prio 3 --temp 1.0 --top-p 1.0 --port 8001

Python 客戶端調(diào)用:

from openai import OpenAI

client = OpenAI(
base_url="http://127.0.0.1:8001/v1",
api_key="sk-no-key-required",
)

completion = client.chat.completions.create(
model="unsloth/NVIDIA-Nemotron-3-Nano-Omni-30B-A3B-Reasoning",
messages=[{"role": "user", "content": "What is 2+2?"}],
)
print(completion.choices[0].message.content)
? ?? Ollama 用戶注意:當(dāng)前 Ollama 還跑不了它的多模態(tài)部分,因為 mmproj 視覺文件是分開的,Ollama 還沒適配。要玩多模態(tài)請走 llama.cpp 系

工具調(diào)用場景把temp=0.6, top-p=0.95即可

官方部署:vLLM 0.20.0(生產(chǎn)級)

官方推薦的生產(chǎn)部署是vLLM 0.20.0(必須這個版本,別上下浮動)。兩個鏡像選一個:

  • CUDA 13.0:vllm/vllm-openai:v0.20.0

  • CUDA 12.9:vllm/vllm-openai:v0.20.0-cu129

pip install vllm[audio]==0.20.0
# 或
docker pull vllm/vllm-openai:v0.20.0
? 只要用到音頻(包括視頻里抽音頻 use_audio_in_video: true),就必須裝 vllm[audio]

起服務(wù)(單卡 B200/H200/H100,推薦配置):

vllm serve nvidia/Nemotron-3-Nano-Omni-30B-A3B-Reasoning-BF16 \
--served-model-name nemotron \
--host 0.0.0.0 --port 5000 \
--tensor-parallel-size 1 \
--max-model-len 131072 \
--trust-remote-code \
--video-pruning-rate 0.5 \
--media-io-kwargs '{"video": {"num_frames": 512, "fps": 1}}' \
--reasoning-parser nemotron_v3 \
--enable-auto-tool-choice \
--tool-call-parser qwen3_coder

跑 NVFP4 / FP8 時,加上--kv-cache-dtype fp8進一步省顯存

幾個平臺坑(官方明示)

平臺

需要追加的參數(shù)

原因

RTX Pro 6000

--moe-backend triton

FlashInfer + RTX Pro 當(dāng)前有 bug

NVFP4 + TP>1

--moe-backend flashinfer_cutlass

TRTLLM_GEN MoE 內(nèi)核 bug

DGX Spark (ARM64)

--gpu-memory-utilization 0.70--max-model-len 32768--max-num-seqs 8

統(tǒng)一 LPDDR5X 內(nèi)存(128GB CPU/GPU 共享),需讓出空間

調(diào)用示例(思考模式 + 視頻):

from openai import OpenAI
from pathlib import Path

client = OpenAI(base_url="http://localhost:5000/v1", api_key="")
video_url = Path("media/demo.mp4").resolve().as_uri()

resp = client.chat.completions.create(
model="nemotron",
messages=[{
"role": "user",
"content": [
{"type": "video_url", "video_url": {"url": video_url}},
{"type": "text", "text": "Describe this video."},
],
}],
max_tokens=20480, temperature=0.6, top_p=0.95,
extra_body={
"thinking_token_budget": 16384 + 1024,
"chat_template_kwargs": {
"enable_thinking": True,
"reasoning_budget": 16384,
},
"mm_processor_kwargs": {"use_audio_in_video": False},
},
)
print(resp.choices[0].message.reasoning, "\n---\n", resp.choices[0].message.content)

采樣參數(shù)官方推薦

模式

temperature

top_p

top_k

max_tokens

reasoning_budget

Thinking

0.6

0.95

Instruct

0.2

1

1024

支持的 GPU

  • Blackwell:B200、RTX Pro 6000 SE、DGX Spark、Jetson Thor、RTX 5090

  • Hopper:H100、H200

  • Ampere:A100 80GB

  • Lovelace:L40S

除了 vLLM,SGLang也已經(jīng)支持(BF16 變體,F(xiàn)P8/NVFP4 待跟進),TensorRT-LLM、TensorRT Edge-LLM(Jetson Thor)也都有 cookbook

一些個人觀察

聊聊我的態(tài)度,不全說好話:

我看好的地方

  • 協(xié)議是真開放——商用零摩擦,對國內(nèi)中小廠、個人開發(fā)者就是白嫖級別的福利

  • 3B 激活的 MoE + 視頻幀剪枝這套組合,是把"持續(xù)感知"這個 Agent 真痛點直接打中了,9 倍吞吐不是噱頭,是給永遠(yuǎn)在線的 Agent 準(zhǔn)備的

  • 256K 上下文 + 詞級時間戳的轉(zhuǎn)寫 + tool calling,幾乎可以一個模型把會議助理、視頻檢索、屏幕代理三件事一起干

  • Unsloth Day Zero GGUF,25GB 內(nèi)存就能跑 4-bit,意味著一臺普通游戲本就能本地起 Agent,這是 Qwen3-Omni 沒做到的

我潑冷水的地方

  • 只支持英文——中文能力官方明確沒承諾,國內(nèi)業(yè)務(wù)場景需要自己評估

  • vLLM 必須 0.20.0,版本鎖得很死,老鏡像別想直接升

  • CUDA 13.2 輸出亂碼,老黃家自己的 CUDA 還有這種 bug

  • Ollama 暫不支持多模態(tài),想一鍵ollama run的朋友再等等

  • 視頻 ≤2 分鐘,長視頻還是得切片喂

適合誰

  • 想做 GUI Agent / 瀏覽器 Agent / 屏幕監(jiān)控類應(yīng)用 → 極力推薦

  • 文檔智能(合同/財務(wù)/科研 OCR + 推理)→ MMlongbench-Doc 和 OCRBenchV2 第一,閉眼上

  • 短視頻/會議紀(jì)要/語音轉(zhuǎn)寫 + 提煉 → 一把梭

  • 中文為主的 toC 場景 → 再等等,或者拿這個做底座微調(diào)

我自己接下來會拿它做兩件事:一是接到本地的錄屏 → 操作回放分析流程里看看;二是把會議視頻丟進去做"看完一段視頻自動產(chǎn)出 todo + 時間戳"的工作流

制作不易,如果這篇文章覺得對你有用,可否點個關(guān)注。給我個三連擊:點贊、轉(zhuǎn)發(fā)和在看。若可以再給我加個,謝謝你看我的文章,我們下篇再見!

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
世界杯再爆大冷!葡萄牙戰(zhàn)平,證明四大不爭事實,C羅陷梅西陰影

世界杯再爆大冷!葡萄牙戰(zhàn)平,證明四大不爭事實,C羅陷梅西陰影

余飩搞笑段子
2026-06-18 03:35:05
美加墨世界杯,中東土豪手持手機被電視現(xiàn)場直播,37萬網(wǎng)友圍觀

美加墨世界杯,中東土豪手持手機被電視現(xiàn)場直播,37萬網(wǎng)友圍觀

扶蘇聊歷史
2026-06-17 14:43:42
再打假!耿同學(xué)發(fā)視頻稱北航杰青副院長Nature論文漏洞百出,共同通訊作者單位已刪除宣傳稿

再打假!耿同學(xué)發(fā)視頻稱北航杰青副院長Nature論文漏洞百出,共同通訊作者單位已刪除宣傳稿

TOP大學(xué)來了
2026-06-17 18:00:35
奔現(xiàn)翻車實錄:這事真不是戴了套就穩(wěn)了

奔現(xiàn)翻車實錄:這事真不是戴了套就穩(wěn)了

淺遇時光
2026-06-18 00:13:02
美B52轟炸機墜毀,8人無人生還,同一天,俄圖22M3戰(zhàn)略轟炸機墜毀

美B52轟炸機墜毀,8人無人生還,同一天,俄圖22M3戰(zhàn)略轟炸機墜毀

麓谷隱士
2026-06-17 09:03:05
61歲港星自爆年過五旬還會被潛規(guī)則,幾乎都是明碼談價!

61歲港星自爆年過五旬還會被潛規(guī)則,幾乎都是明碼談價!

陳意小可愛
2026-06-18 01:38:47
世界杯首次點球重罰,VAR改判!英格蘭頭牌點球超梅西,歷史第1人

世界杯首次點球重罰,VAR改判!英格蘭頭牌點球超梅西,歷史第1人

侃球熊弟
2026-06-18 04:30:56
梅西帽子戲法不到24小時,惡心的一幕發(fā)生了,口碑兩極分化嚴(yán)重

梅西帽子戲法不到24小時,惡心的一幕發(fā)生了,口碑兩極分化嚴(yán)重

往史過眼云煙
2026-06-17 16:54:13
世體:梅西C羅首輪表現(xiàn)高下立判,現(xiàn)在C羅無法與梅西平起平坐

世體:梅西C羅首輪表現(xiàn)高下立判,現(xiàn)在C羅無法與梅西平起平坐

懂球帝
2026-06-18 03:45:07
朱一龍長城敲日本鼓升級!更多辱華丑聞被錘,網(wǎng)友:必須嚴(yán)查三代

朱一龍長城敲日本鼓升級!更多辱華丑聞被錘,網(wǎng)友:必須嚴(yán)查三代

秋姐居
2026-06-17 17:15:40
全隊倒數(shù)第1!41歲C羅被批:3射0正+6數(shù)據(jù)掛零 國家隊近8個月0球

全隊倒數(shù)第1!41歲C羅被批:3射0正+6數(shù)據(jù)掛零 國家隊近8個月0球

侃球熊弟
2026-06-18 03:11:21
上海市民驚呆:知名品牌進口牛奶怎么是淡黃色的水,還有股酸臭味?類似情況不止一次發(fā)生,網(wǎng)友:萬一小朋友直接用吸管吸

上海市民驚呆:知名品牌進口牛奶怎么是淡黃色的水,還有股酸臭味?類似情況不止一次發(fā)生,網(wǎng)友:萬一小朋友直接用吸管吸

新民晚報
2026-06-17 09:14:37
“男女就餐時與鄰桌未成年女生發(fā)生肢體沖突”,警方通報

“男女就餐時與鄰桌未成年女生發(fā)生肢體沖突”,警方通報

澎湃新聞
2026-06-17 23:11:07
廣州白云機場邊檢的硬核操作:直接勸返零準(zhǔn)備外籍游客,引發(fā)熱議

廣州白云機場邊檢的硬核操作:直接勸返零準(zhǔn)備外籍游客,引發(fā)熱議

魔都姐姐雜談
2026-06-17 10:05:09
王毅外長與蒙古女外長合影,火爆全網(wǎng),引發(fā)兩國老百姓內(nèi)心感嘆

王毅外長與蒙古女外長合影,火爆全網(wǎng),引發(fā)兩國老百姓內(nèi)心感嘆

李昕言溫度空間
2026-06-17 07:33:30
現(xiàn)實版“低智商犯罪”:上海一男子凌晨5點用瓦斯罐炸ATM機,機內(nèi)34萬余元現(xiàn)金分文未得,還甩鍋“無名朋友”,最終獲刑6年

現(xiàn)實版“低智商犯罪”:上海一男子凌晨5點用瓦斯罐炸ATM機,機內(nèi)34萬余元現(xiàn)金分文未得,還甩鍋“無名朋友”,最終獲刑6年

極目新聞
2026-06-17 20:00:43
球迷實拍,退場時C羅跟隊友比劃大家只會橫傳,隨后隊友加速走開

球迷實拍,退場時C羅跟隊友比劃大家只會橫傳,隨后隊友加速走開

側(cè)身凌空斬
2026-06-18 04:14:19
高市早苗在G7峰會會場“轉(zhuǎn)椅子”畫面引爭議,日本網(wǎng)民:沒教養(yǎng),真丟人

高市早苗在G7峰會會場“轉(zhuǎn)椅子”畫面引爭議,日本網(wǎng)民:沒教養(yǎng),真丟人

環(huán)球網(wǎng)資訊
2026-06-17 09:58:22
央媒發(fā)聲!養(yǎng)路費改革落地,油電車輛統(tǒng)一征收不一刀切

央媒發(fā)聲!養(yǎng)路費改革落地,油電車輛統(tǒng)一征收不一刀切

生活魔術(shù)專家
2026-06-17 02:52:55
央媒罕見連發(fā)三問!4400萬輛電車免費用路,公平的天平何時能平?

央媒罕見連發(fā)三問!4400萬輛電車免費用路,公平的天平何時能平?

混沌錄
2026-06-16 19:23:06
2026-06-18 05:47:00
Ai學(xué)習(xí)的老章 incentive-icons
Ai學(xué)習(xí)的老章
Ai學(xué)習(xí)的老章
3435文章數(shù) 11165關(guān)注度
往期回顧 全部

數(shù)碼要聞

存儲漲價的荒誕現(xiàn)實:一塊游戲機硬盤已能抵三臺完整主機

頭條要聞

C羅啞火!葡萄牙1-1爆冷 送民主剛果隊史世界杯首分

頭條要聞

C羅啞火!葡萄牙1-1爆冷 送民主剛果隊史世界杯首分

體育要聞

梅西帽子戲法:紀(jì)錄厚重,球王輕盈

娛樂要聞

陳紅一反常態(tài)保持沉默

財經(jīng)要聞

拉加德警告:AI可能引爆下一場金融危機

科技要聞

馬斯克好友長文:他最可怕的,是這套方法論

汽車要聞

23.99萬起 比亞迪大唐帶2+2+3大七座掀桌子 這才是中國大家庭夢中情車!

態(tài)度原創(chuàng)

本地
家居
房產(chǎn)
教育
數(shù)碼

本地新聞

世界杯黑馬佛得角:河北人開超市,溫州人當(dāng)老板

家居要聞

綠意盎然 自然之境

房產(chǎn)要聞

最新房價:???、三亞;新房、二手房全線下跌!

教育要聞

認(rèn)知天性|一本改變你人生的書

數(shù)碼要聞

GuliKit推出Switch 2便攜底座 可連電視亦可桌面充電 售價29.99美元

無障礙瀏覽 進入關(guān)懷版