无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

8G 內存的手機,能跑多大的模型?|MiniCPM-V 4.6 開源

0
分享至

端側模型

面壁的 MiniCPM-V 4.6 今天開源,1.3B 大小

這是 MiniCPM 系列的模型,能夠輕松跑在主流手機中,支持多模態

架構是 SigLIP2-400M 視覺編碼器加 Qwen3.5-0.8B 語言模型。多模態綜合能力在同尺寸模型中排第一,與原版的 Qwen3.5-0.8B 相比,有以下核心突破:

  • 基于 vLLM 的 token 吞吐量,是 Qwen3.5-0.8B 的 1.5 倍

  • 在 AA 評測中,以 2.5% 的token量,超過了Qwen3.5-0.8B

然后,今天就能把這款端側模型,下載到手機里:http://testflight.apple.com/join/yNKyFZwW


以上為該模型的簡明信息,下面的內容,則是能成為大家的飯桌談資

  • 8G 內存,能跑多大的模型?

  • 為什么模型需要量化,怎么進行換算?

  • 未來幾年,為啥我們只能跑 1B 的端側模型?

  • 端側模型的技術實現,有哪些要點?

模型占多少內存

我盡量用簡單的語言,解釋模型尺寸和內存占用的關系,這里我先放一張圖,幫助大家直觀理解,在常見的 int4 量化下,不同尺寸的模型要多少內存


在上面的圖里,你會發現模型的內存占用分為兩塊:模型權重 + KV Cache。前者是模型裝載所需要的內存,而后者則是上下文長度所需要的內存,咱們分開來說

模型權重

模型訓練完之后,默認用 16 位浮點數(FP16)存儲。對于純粹的語言模型來說,一個參數占 2 個字節,1.3B 參數就是 2.6GB,8B 參數就是 16GB

對于 DeepSeek R1 這個模型,它的默認大小是 671B,也就是需要 1342 GB 內存的顯卡才能跑起來...等等!這似乎和大家的記憶不對,看之前很多人拿著 192 GB 的 Mac 就跑起來 R1 了,這是怎么回事兒?

這里用到了一種手段,叫量化:減少參數的儲存位數,把模型權重壓小

比如 FP16 用 16 位存一個小數,能表示 65,536 種不同的值,現在給他壓到 8 位(Q8 或 INT8),只能表示 256 種值,存儲空間減半。壓到 4 位(Q4 或 INT4),只能表示 16 種值,空間再減半;當然,還可以繼續還可以繼續壓到 3 位、2 位...那么,量化代價是什么?精度下降得越來越快,也就是變笨了

誒...好像在看到量化的時候,大家好像對于精度的說法好像不太一樣,比如 4-bit 量化,有的地方說什么 int4,有的地方說什么 Q4,這特么又是什么東西?其實這是兩套常見標準,同一個精度等級、不同工具鏈里,叫的不同名字:

  • Q 系列(Q2、Q3、Q4、Q5、Q8)是 llama.cpp 和 Ollama 用的 GGUF 格式,手機和 PC 本地部署走這條路

  • INT 系列(INT4、INT8)是 vLLM 和 TensorRT 用的標準整數量化,云端部署走這個

雖然不是等價,但這些東西大致是屬于同一檔的:Q4_K_M 對應的是 INT4Q8_0 則是對應 INT8

此外比如 AWQ 和 GPTQ,也是 4-bit 量化,原理不同但精度等級和 INT4 / Q4 一樣.... Q4、INT4、AWQ、GPTQ 四個名字會以為是四種不同的東西,但他們都是 4-bit 量化,區別在實現方式和適配的推理框架,這里我做了一個精度對照表,給大家看看


而在往下的這張表,則是列了從 2-bit 到 FP16,不同參數的模型,能吃掉多少內存


KV Cache

在我們調用模型的時候,總能看到模型有個「最大上下文」,為什么要有這個限制呢?甚至有些 MaaS 平臺,在上下文過長的時候,還會額外進行收費,這又是為什么呢?

原理其實可以用一句話解釋:長上下文,會有更多的 KV Cache,會占用更多的內存,推理會更高

KV Cache 是啥呢?在模型跑起來之后,所有的上下文信息,都會以 token 的形式在內存里存一份 Key 和一份 Value,用來做注意力計算,然后不斷的推導出下一個 Token 是什么。因此,上下文越長,占的內存就越大

對了,大模型生成 Token 的原理之前有聊過,沒印象的可以來這里復習:

這里我做了一張圖,直觀比較一下不同長度上下文的話,會占據多少內存


當然,上面這些是按典型 dense Transformer 結構做的近似估算,實際 KV Cache 會隨層數、KV heads、head dim、GQA/MQA 結構、batch size 和 KV dtype 變化,這里就不展開了

除了常規的文本 KV Cache 外,多模態模型還有一些額外開銷,就是視覺 token。這個東西和文本一樣占 KV Cache,數量取決于圖片分辨率和壓縮方式

手機只跑得動 1B

那么問題回來了,現在一部主流的手機,能跑得下多大的模型呢?

現在的主打款手機,比如 iPhone 17,運行內存(RAM)通常是 8 GB 左右。在這里,系統和常駐的 App 通常會吃掉一半多的內存,能分給大模型的也就是 2~3GB。對著看上面的內存表,1.3B 的模型還是非常夠吃的,2B 開始可能就會緊張了

對于主流新機來說,2B 以內的模型,是當下唯一的選擇


如果把視角放寬,希望大多數人都能用上端側算力,哪又將如何呢?對于最廣泛存在的中端手機,本身只有大概 6GB RAM,1B 可能就是唯一的選擇

或許有的朋友可能會問:以后大家的運行內存,會不會大一些?啊哈哈哈哈哈哈,最近半年 DDR5 內存價格漲的親媽不認,各廠商比如三星、海力士、鎂光等等的都把產能丟去了做 AI 用的 HBM,短時間似乎也不太可能有更多的消費級內存流出

也就是說:未來兩年內存都不太會寬裕,那么手機上能跑的多模態模型大概就是 1~2B

順便吐槽下...這兩天谷歌 Pixel 11 配置曝光,由于內存不夠用的,標準版 RAM 從 12GB 砍到 8GB,Pro 系列從 16GB 降到 12GB。同一時間,國內多家手機廠商也在今年 3 月調了價

更大但更快

回過頭來讓我們在仔細看看 MiniCPM-V 4.6 這款 1.3B 的模型,在 vLLM 上跑高并發測試(256 張 1344×1344 圖片并發),單卡 token 吞吐量達到 2624 token/s。處理 3136×3136 分辨率的高清大圖,首次響應延遲 75.7ms,并且對于高分辨率的圖片,支持優化還很不錯


首響延遲隨分辨率變化


高并發吞吐量

根據公開的 40 多項 benchmark,MiniCPM-V 4.6 綜合能力在 1B 級別排第一,多數圖文理解任務領先


綜合性能 Instruct 對比


Artificial Analysis Intelligence Index

此外,這個模型還有個 Thinking 版本,開啟后在數學和邏輯任務上有額外提升


與這個這個模型一起發布的,還有個 arXiv peper,是面壁聯合清華一起發的,在這里:https://arxiv.org/abs/2605.08985


這個 Paper 里有幾個發現,我也給摘出來

切片編碼比全局編碼好 在做了大量對照實驗后,研究團隊發現,在全局編碼下,文字、圖表這類精細元素容易被全局信息稀釋。切片編碼讓編碼器專注于每個小區域內的細粒度模式,分辨率越高優勢越大


LLaVA-UHD v4 架構

把壓縮從 ViT 外面搬到 ViT 里面,能夠有效的降低浮點運算 研究團隊把一個 4 倍壓縮模塊插到 ViT 的第 6 層之后。從第 7 層開始,后面所有層只需要處理原來 1/4 的 token。視覺編碼階段的浮點運算量從 3555G 降到 1573G,減了 55.8%。疊加 4 倍的 post-ViT MLP 壓縮后,總共是 16 倍壓縮

不要隨機初始化,而是參數復用:直接隨機的話,會炸;但如果把壓縮模塊的注意力投影、MLP 權重全部從相鄰的預訓練層拷貝過來。這樣壓縮模塊從第一步訓練開始就在預訓練的表征流形上工作,不需要從零學習

還有一點就是:16 倍壓縮,在云端高并發場景,能夠發揮很大價值,快手 2025 年推出的 OneRec 推薦大模型,處理短視頻的封面圖、字幕、OCR、ASR 這些多模態信息時,用的就是上一代 MiniCPM-V-8B。OneRec 上線后承接了快手短視頻推薦主場景 25% 的請求量


快手 OneRec 論文


OneRec tokenizer 架構

4090 就能微調

考慮到這個 1.3B 的模型實在是太小了,所以 4090 就能進行全量微調

所以吧...如果你正在讀書,現在有正當的理由去買 4090 了 hhhhhh

為了方便大家上手,面壁在微調這塊,提供了多種量化格式的預量化模型,以及部署教程也放出來了:

→ vLLM:github.com/OpenSQZ/MiniCPM-V-CookBook/blob/main/deployment/vllm/minicpm-v4_6_vllm_zh.md

→ llama.cpp:github.com/OpenSQZ/MiniCPM-V-CookBook/blob/main/deployment/llama.cpp/minicpm-v4_6_llamacpp.md

→ Ollama:github.com/OpenSQZ/MiniCPM-V-CookBook/blob/main/deployment/ollama/minicpm-v4_6_ollama_zh.md

→ iOS TestFlight:testflight.apple.com/join/yNKyFZwW

最后

MiniCPM-V 這個系列的模型,參數量從 2.8B 做到 8B 再壓到 1.3B,也算是見證了行業的趨勢,現在內存越來越貴,這種小尺寸的模型,還是值得一看的

以及,MiniCPM 這套東西,雖然媒體聲量不大,但實際上非常多的車機在用,包括不僅限于吉利、上汽大眾、廣汽、馬自達、紅旗等等...

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
女生長的太漂亮是什么體驗?網友:母以子貴,父以女榮

女生長的太漂亮是什么體驗?網友:母以子貴,父以女榮

另子維愛讀史
2026-03-10 22:56:08
13歲學生體檢誤診艾滋遭學校勸退!隨后多次復查為陰性,醫院致歉!

13歲學生體檢誤診艾滋遭學校勸退!隨后多次復查為陰性,醫院致歉!

閃電新聞
2026-06-12 20:47:48
CCTV5直播!世界杯13日賽程:2支東道主出戰,美國VS巴拉圭引關注

CCTV5直播!世界杯13日賽程:2支東道主出戰,美國VS巴拉圭引關注

何老師呀
2026-06-12 18:47:57
“你兒子專注力廢了”,小學男生每天聽故事,過來人點出真相

“你兒子專注力廢了”,小學男生每天聽故事,過來人點出真相

澤澤先生
2026-06-06 21:14:40
青島鬼樓奇案:德國富商蓋洋樓死于非命,20年后,解放軍查出真相

青島鬼樓奇案:德國富商蓋洋樓死于非命,20年后,解放軍查出真相

歷來都很現實
2025-02-23 02:50:42
穆帥考察居萊爾 將打造皇馬新陣

穆帥考察居萊爾 將打造皇馬新陣

體壇周報
2026-06-12 23:35:47
全線大漲,近10萬人爆倉!

全線大漲,近10萬人爆倉!

每日經濟新聞
2026-06-12 09:20:05
若金價暴跌81%至800美元:央行巨虧3.92萬億將引發多大全球沖擊?

若金價暴跌81%至800美元:央行巨虧3.92萬億將引發多大全球沖擊?

三農老歷
2026-06-12 01:32:43
中信建投:關注半導體前驅體量價齊升大趨勢

中信建投:關注半導體前驅體量價齊升大趨勢

界面新聞
2026-06-12 07:46:48
富家小姐的身子丫鬟的命?24歲女孩盛裝出嫁,簡陋小院配豪華婚服

富家小姐的身子丫鬟的命?24歲女孩盛裝出嫁,簡陋小院配豪華婚服

搗蛋窩
2026-05-11 21:35:50
被網友“掛抹布”的方式驚呆了!一個比一個機智,我怎么早沒發現

被網友“掛抹布”的方式驚呆了!一個比一個機智,我怎么早沒發現

家居設計師蘇哥
2026-06-12 13:21:19
四個號,一家親:國際足聯把飯喂到嘴邊,國足用四個“零蛋”證明

四個號,一家親:國際足聯把飯喂到嘴邊,國足用四個“零蛋”證明

民間胡扯老哥
2026-06-11 10:34:23
美國懵了,世界杯開始了,觀眾沒了?

美國懵了,世界杯開始了,觀眾沒了?

宋鴻兵
2026-06-12 20:02:47
長鑫科技,IPO注冊申請獲通過,上半年凈利潤預計同比增長2244.03%至2544.19%

長鑫科技,IPO注冊申請獲通過,上半年凈利潤預計同比增長2244.03%至2544.19%

每日經濟新聞
2026-06-12 19:41:05
伊朗議員:美再襲伊朗實為施壓,美須接受伊朗已不同往日

伊朗議員:美再襲伊朗實為施壓,美須接受伊朗已不同往日

澎湃新聞
2026-06-12 23:26:12
25歲女子確診紅斑狼瘡,堅持保胎后多器官衰竭進ICU,丈夫痛哭

25歲女子確診紅斑狼瘡,堅持保胎后多器官衰竭進ICU,丈夫痛哭

極目新聞
2026-06-12 17:30:53
曼聯推銷拉什福德,不向巴薩妥協!無法逐出更衣室否則其免費走人

曼聯推銷拉什福德,不向巴薩妥協!無法逐出更衣室否則其免費走人

羅米的曼聯博客
2026-06-12 10:11:30
羅馬諾實錘!阿森納遭截胡,拜仁 5000 萬目標已非常接近

羅馬諾實錘!阿森納遭截胡,拜仁 5000 萬目標已非常接近

一隅非生
2026-06-12 05:49:38
為什么今年沒人提“消費降級”了?

為什么今年沒人提“消費降級”了?

黯泉
2026-05-20 17:47:21
世界杯誰將奪冠?曼聯名宿給出答案,葡萄牙無望,一隊有望成黑馬

世界杯誰將奪冠?曼聯名宿給出答案,葡萄牙無望,一隊有望成黑馬

兵哥籃球故事
2026-06-12 14:29:27
2026-06-13 02:28:49
賽博禪心
賽博禪心
拜AI古佛,修賽博禪心
466文章數 53關注度
往期回顧 全部

科技要聞

剛剛,人類歷史上首位萬億美元富豪誕生!

頭條要聞

美加墨世界杯第二場比賽就現空座 英媒:尷尬

頭條要聞

美加墨世界杯第二場比賽就現空座 英媒:尷尬

體育要聞

歐洲恐韓?肉德維德?

娛樂要聞

一天4個瓜,肖戰熱巴最意外

財經要聞

萬億美元順差背后,透露這些信號

汽車要聞

標配激光雷達/雙動力可選 昊鉑S600限時售17.99萬起

態度原創

藝術
房產
家居
手機
軍事航空

藝術要聞

砸了640億,再賠160億!沙特“The Line”項目徹底涼了?

房產要聞

海南最賺錢行業曝光!最快4年半,海口全款買三房!

家居要聞

空間微調 移形換境

手機要聞

vivo X Fold6再預熱:天璣9500超能版+OriginOS 6 Fold

軍事要聞

伊朗媒體:已故最高領袖葬禮推遲舉行

無障礙瀏覽 進入關懷版