網易首頁 > 網易號 > 正文 申請入駐

最近很熱門的oMLX,Mac端大模型本地部署新選擇,Claude-Opus-4.6 蒸餾版 Qwen3.5-9B 實測

0
分享至

oMLX 走的是 Apple Silicon + MLX 這條路,Windows 和 NVIDIA 這邊的朋友,這篇先看看熱鬧就好

前文,評論區好幾個兄弟推薦測試 oMLX:

  • 博主有時間可以研究一下oMLX這個替代 LM Studio,據說比 lm 快很多倍。

  • 聽說 omlx 比 lm studio 更好用些,占用內存更小,有沒有嘗試部署一下?

  • 有大佬做成適合 omlx 跑的 fp8 量化版了,大概 10G,可以試試。同樣機器配置,換用了 oMLX 跑 qwen3.5 9b MLX Q4 版,利落了些,15token 左右吧。雖然回復慢,但還能用。而 ollama 跑就卡頓的很。

花半天玩了一下,先看大家最關心的測試情況:

  • oMLX 有很多亮點,UI、菜單欄、管理后臺儀表板,Chat 頁面都很漂亮,底層有 SSD KV 緩存、設置熱緩存、支持 MCP、一鍵對接各種 AI Coding Agent,OpenAI/Anthropic 兼容接口、針對 Claude Code 優化等

  • 單請求生成速度約 20 token/s,峰值顯存/統一內存占用約 5.7GB

  • 無法硬跑 Qwen3.5-27B-Claude-4.6-Opus-Distilled-MLX-4bit,LM Studio 可以強跑,但只能加載,執行任務直接徹底卡死

安裝、配置、使用教程

安裝后直接進入 Perference,自定義模型位置,端口號

模型位置后面我把他改到了外接移動硬盤


菜單欄確實方便,一鍵啟停 server、進入管理后臺,進入聊天界面


先要進入模型 tab 然后點下載器


下面的瀏覽模型可以直接看能否支持當前主機


下載速度極慢,后來我換成了 modelcope


感覺也有 bug,直接從上面下載,他會默認下載整個項目下的不同精度模型,而我只需要 Q4


27B 我也下了


沒有選擇 Jackrong 原版,主要是被 mlx-community 這句話吸引了


但是 27B 最低使得 24 GB 及以上統一內存的 Mac 都能運行該模型,且還有足夠空間容納大型上下文窗口,推薦是 32GB

官方測試數據:

Metric

Result

Model load time

2.4 seconds

Prompt ingestion

86.5 tokens/sec

Generation speed

15.7 tokens/sec

Peak RAM usage

15.6 GB

Bit-rate

4.501 bits/weight

Final size

14 GB (3 shards)

下載過程中進入設置頁


資源管理這里可以控制內存占用情況,


下載完畢,可以選擇在設置 - 模型設置中啟動,剛開始居然沒找到哪里加載


聊天頁面,很清爽


儀表盤會記錄模型運行情況


現在往下也能把啟動的模型一見接入到 Codex、OpenCode、OpenClaw


它還可以做基準測試


32K 單請求測試,電腦已經有點卡了,TTFT 高的離譜,TPS 只有 11

測試

TTFT (ms)

TPOT (ms/tok)

pp TPS

tg TPS

端到端延遲

吞吐量

峰值內存

pp32768/tg128

187.4 tok/s

11.8 tok/s

185.686s

177.2 tok/s

9.06 GB

單請求 + 批處理能力沒敢開高,tg TPS 20.2 tok/s。輸入拉長到 4096 token 后 TTFT 從 4.8s 變成 18.8s,tg TPS 還在 19.8 tok/s,幾乎沒掉,Peak Mem 從 5.66 GB 到 6.40 GB

并發到 2-4 路時總吞吐提升明顯,但 8 路已經接近平臺上限,延遲代價很大。


依舊測試閱讀理解+SVG 代碼生成 + 審美

感覺不穩了,需要抽卡


重新嘗試可以識別到四次,svg 寫的很丑


讓其優化之后,它的腦回路讓我想笑,它直接設計了模擬人物動作,完全偏離了主題


27B 無法跑起來

改了 N 多配置都不行,有高手可以出出主意

我要換 32G 的 Mac 了


但是 LM Studio 就可以用 option 按鍵強跑,只是無法執行任務,機器卡死


其他再說說

看了官方文檔,再說幾個 oMLX 的亮點,可是我都沒嘗試

1. 連續批處理

它基于mlx-lmBatchGenerator做并發處理,首頁給了一組非常直觀的 benchmark,機器是 M3 Ultra 512GB,模型是 Qwen3.5-122B-A10B-4bit:

  • 單請求、8k 上下文時,Prompt 處理速度能到941 tok/s

  • Token 生成速度大約54.0 tok/s

  • 8x連續批處理下,總吞吐能到190.2 tok/s

  • 對應3.36 倍吞吐提升

  • 內存占用峰值 73 GB

另一組我很關注的數據是Qwen3-Coder-Next-8bit

  • 8k 上下文時,Prompt 處理速度2009 tok/s

  • 8x批處理總吞吐243.3 tok/s

  • 加速比來到4.14 倍

  • 內存占用峰值 85GB

2. Claude Code 優化

README 里有一句:

支持在 Claude Code 中使用較小上下文模型的上下文縮放。通過縮放上報的 Token 數量,讓自動壓縮在合適的時機觸發,同時提供 SSE keep-alive 防止長時間預填充導致的讀取超時。

官方給出的方向主要有兩個:

  • 通過上下文縮放,讓較小上下文模型在 Claude Code 里更容易觸發合適的自動壓縮時機

  • 通過 SSE keep-alive,降低長時間 prefill 時讀超時的風險

它本身還支持:

  • OpenAI 兼容接口:http://localhost:8000/v1

  • Anthropic 兼容接口:POST /v1/messages

  • 工具調用

  • MCP 集成

3. 多模型服務

它在同一服務里支持:

  • 文本 LLM

  • VLM

  • OCR 模型

  • Embedding

  • Reranker

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
青島海牛4-1山東泰山,賽后評分:青島海牛28號排第一

青島海牛4-1山東泰山,賽后評分:青島海牛28號排第一

凌空倒鉤
2026-04-26 19:04:02
比鄭麗文更直接!洪秀柱訪問上海,上來就強調祖國要統一!

比鄭麗文更直接!洪秀柱訪問上海,上來就強調祖國要統一!

小嵩
2026-04-26 20:15:03
歐爾班宣布辭任議員職位,馬扎爾指控其圈子正在轉移資產

歐爾班宣布辭任議員職位,馬扎爾指控其圈子正在轉移資產

山河路口
2026-04-26 20:21:01
四川控煙新規5月1日生效,室內全禁煙,違規最高罰2000元!

四川控煙新規5月1日生效,室內全禁煙,違規最高罰2000元!

老特有話說
2026-04-26 16:04:05
又一個3-0!SGA42+8雷霆再勝太陽,布魯克斯33+7布克16中6

又一個3-0!SGA42+8雷霆再勝太陽,布魯克斯33+7布克16中6

湖人崛起
2026-04-26 06:03:20
張雪身后的摩幫江湖

張雪身后的摩幫江湖

上觀新聞
2026-04-26 08:30:22
杭州23歲小伙打籃球僅20多分鐘,突發心臟驟停!41歲球友邊打120邊做按壓,還用上了AED緊急搶救……跪到腿麻,壓到手酸,人救回來了

杭州23歲小伙打籃球僅20多分鐘,突發心臟驟停!41歲球友邊打120邊做按壓,還用上了AED緊急搶救……跪到腿麻,壓到手酸,人救回來了

都市快報橙柿互動
2026-04-26 20:41:14
經?!胺牌ā笔歉尾缓脝??提醒:放屁多很可能與這5種疾病有關!

經?!胺牌ā笔歉尾缓脝??提醒:放屁多很可能與這5種疾病有關!

芹姐說生活
2026-04-25 16:12:39
猛降14℃!暴雨大暴雨、冰雹、雷暴大風馬上到湖北

猛降14℃!暴雨大暴雨、冰雹、雷暴大風馬上到湖北

極目新聞
2026-04-26 08:40:20
外交部一錘定音!賴清德沒資格,鄭麗文就算贏了選舉也不認!

外交部一錘定音!賴清德沒資格,鄭麗文就算贏了選舉也不認!

果媽聊娛樂
2026-04-25 13:48:35
體育局正式宣布,陳夢走馬上任

體育局正式宣布,陳夢走馬上任

最愛乒乓球
2026-04-26 00:04:52
中國全面斷供開始,高市請出日本八旬老將訪華,中方已讀未答應

中國全面斷供開始,高市請出日本八旬老將訪華,中方已讀未答應

流史歲月
2026-04-25 14:00:03
全市領導干部會議召開,宣布省委關于景德鎮市委主要負責同志調整的決定

全市領導干部會議召開,宣布省委關于景德鎮市委主要負責同志調整的決定

景德鎮瓷局
2026-04-26 09:16:19
趙露思真把“看著不大,實則敞亮”玩明白了!

趙露思真把“看著不大,實則敞亮”玩明白了!

飛娛日記
2026-04-26 08:49:04
羽協主席張軍失聯超十天被查!近照曝光,小4歲妻子是奧運冠軍

羽協主席張軍失聯超十天被查!近照曝光,小4歲妻子是奧運冠軍

老貓觀點
2026-04-26 07:29:30
快訊!芬蘭外長強硬放話了!

快訊!芬蘭外長強硬放話了!

有態度的何總
2026-04-26 14:53:05
全院6部門指認院長王行環,長期大搞權色交易、錢色交易

全院6部門指認院長王行環,長期大搞權色交易、錢色交易

雪中風車
2026-04-26 19:32:33
曾獲山西省五一勞動獎章的49歲局長猝死,被認定為因公犧牲,遺體告別儀式三天后舉行

曾獲山西省五一勞動獎章的49歲局長猝死,被認定為因公犧牲,遺體告別儀式三天后舉行

極目新聞
2026-04-26 20:01:20
取消戶籍限制!教育部突發新規!9月1日起執行:家長再也不用焦慮

取消戶籍限制!教育部突發新規!9月1日起執行:家長再也不用焦慮

芳姐侃社會
2026-04-24 22:52:50
楊威雙胞胎女兒太爭氣,9歲同臺拿下全國冠軍+季軍,體操最強二代

楊威雙胞胎女兒太爭氣,9歲同臺拿下全國冠軍+季軍,體操最強二代

觀魚聽雨
2026-04-25 23:23:30
2026-04-26 22:55:00
Ai學習的老章 incentive-icons
Ai學習的老章
Ai學習的老章
3353文章數 11139關注度
往期回顧 全部

科技要聞

漲價浪潮下,DeepSeek推動AI“價格戰”

頭條要聞

以色列政壇重大變局 內塔尼亞胡迎來勁敵

頭條要聞

以色列政壇重大變局 內塔尼亞胡迎來勁敵

體育要聞

森林狼3比1掘金:逆境中殺出了多孫穆?!

娛樂要聞

僅次《指環王》的美劇,有第二季

財經要聞

事關新就業群體,中辦、國辦發文

汽車要聞

預售19.38萬元起 哈弗猛龍PLUS七座版亮相

態度原創

家居
藝術
房產
手機
公開課

家居要聞

自然肌理 溫潤美學

藝術要聞

總投資35億!汾酒集團太原的地標大樓,呈現白酒文化!

房產要聞

新一輪教育大爆發來了!???,開始瘋狂建學校!

手機要聞

鴻蒙6,玻璃,光,和我

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版