![]()
作者 | 董道力
郵箱 | dongdaoli@pingwest.com
剛剛過去的 5 月最后一周,面壁智能做了一件在國內大模型行業頗為罕見的事:辦了一場“開源周”,連續密集發布多項開源技術成果。
沒有大屏幕,也沒有 CEO 的激情演講,只有一個接一個被推到臺前的 GitHub 倉庫。
過去三年,中國大模型行業不缺發布會,但真正以“開源周”形式集中釋放技術成果的公司并不多。因為這件事的門檻并不低,你不能只有一個爆款模型,還得有一整條能夠拆開給外界看的技術鏈路。
單看清單,面壁這一周發布的內容很容易被理解成一個“模型貨架”,這里一個數據集,那里一個訓練框架,再加上模型和應用項目。
但如果把它們放到一起看,會發現它們指向的不是幾個孤立成果,而是一套正在成形的端側 AGI 世界底座。
更值得注意的是,這件事發生在一個行業轉向節點上。
2023 年,中國大模型公司還在比誰先做出基座模型;2024 年,行業開始卷 API 價格和應用入口;2025 年,端云協同、AI 終端和端側模型逐漸成為共識;到了 2026 年,真正的問題已經不再是“有沒有大模型”,而是這些模型能力如何進入手機、車機、PC、機器人和 AI 眼鏡這些真實設備。
誰能把模型能力穩定地放進這些設備,誰才有機會定義下一代 AI 的入口。
面壁的特別之處在于,它不是等到端側 AI 成為行業共識后才行動,而是在兩年前就開始把小參數、高能力、低內存和端側部署當成主線來押。
1
被誤讀的端側 AI
端側 AI 長期被兩種誤解包圍。
一種說法認為,端側 AI 就是小模型,把云端模型裁剪一下,參數少一點,能塞進手機、車機就行。另一種說法則認為,端側 AI 只是云端 API 下放,終端不需要真的跑模型,只要聯網調用云端能力。
但真正的端側模型要面對三道硬約束:功耗、內存和場景。而面壁這次開源周的價值,就是把這些約束背后的工程能力全部公開。
第一道約束是功耗。
云端模型可以用數據中心供電和散熱去換性能,終端設備不行。手機要續航,車機要在高溫和長時間運行下保持穩定,AI 眼鏡要輕薄。
所以端側模型沒有云端大模型那種用海量低質數據攤薄噪聲的空間,每一份訓練數據的質量都會更直接地影響模型能力。
面壁開源的 UltraData 解決的就是“模型越小,數據越要精”的問題。
UltraData 提出的 L0 到 L4 分級治理體系,本質上是在提高數據密度:L1 做基礎清洗,L2 提高信息密度,L3 通過合成與增強強化知識表達和推理能力,L4 面向更高階的數據編排。
![]()
這些數據最終指向的,不是訓練一個更大的模型,而是訓練一個單位參數智能密度更“高”的模型。
MiniCPM5-1B 證明的,正是這條路線已經可以落地。
面壁智能在 2024 年 12 月曾判斷,2026 年會出現端側 GPT-4o 級別的能力,而從 MiniCPM 到 MiniCPM3,再到 MiniCPM5-1B,端側模型的演進也確實沿著這條曲線展開:2024 年對標 GPT-3,2025 年追近 ChatGPT,2026 年開始觸碰 GPT-4o 部分版本的能力邊界。
1B 參數不再是“小而將就”,而是智能密度提升后的結果。端側模型真正重要的指標,不是參數量有多大,而是單位參數里壓進了多少智能。
![]()
第二道約束是內存。
端側推理不是 NPU 算力夠就行。模型權重需要內存,KV Cache 需要內存,多模態中間狀態也需要內存,內存帶寬還會直接影響生成速度。
行業內共識是,端側 AI 正在被“算力-內存剪刀差”卡住:芯片算力漲得很快,但內存容量、帶寬和成本沒有同步改善。
面壁智能開源周第一天發布的 BitCPM-CANN,正是面向這道內存約束的技術回應。面壁智能在華為昇騰平臺上完成端到端訓練,并開源了 1.58-bit 三值大模型,覆蓋 0.5B、1B、3B、8B 四個尺寸。
所謂 1.58-bit,不是常規 2bit 量化,而是讓每個權重只保留 -1、0、+1 三種狀態。
與同尺寸 MiniCPM4 全精度模型相比,BitCPM-CANN 推理階段只需要約原來 1/6 的顯存,相當于節省 5/6 內存,同時保留 90% 到 97.2% 的模型能力。
這意味著,低比特模型可以解決大參數模型上端側的問題。
2-bit 級壓縮可帶來約 6 到 8 倍存儲收益,4GB 可用內存有機會容納 16B 級模型,結合 MoE 和激活約束可推到 32B,如果設備內存擴展到主流的 8GB,60B 級的大模型裝載到手機端也不是天方夜譚。
第三道約束是場景。
端側設備要面對斷網、弱網、隱私合規、毫秒級響應、多傳感器輸入。車機不能把每個請求都丟給云,手機里的個人數據不能無限上傳,工業終端也常常處在網絡不穩定、環境復雜的現場。
更現實的情況是,中國終端芯片生態高度分散。高通、聯發科、華為昇騰、寒武紀、地平線等平臺的架構和工具鏈都不一樣,適配一款芯片和適配一個生態是兩回事。
這也是面壁開源 ForgeTrain 的定位。
它不只是一個訓練框架,更像是一套面向端側模型生產的工程工具。端側模型很少是“一次訓練、到處部署”,不同設備、不同芯片、不同內存規格,都會要求模型在尺寸、精度、訓練策略和推理路徑上反復調整。一個團隊能不能快速把實驗結果變成可部署模型,訓練框架本身就是關鍵變量。
ForgeTrain 的特殊之處在于,它是完全由 AI 編寫的預訓練框架。它在英偉達 H100 上的訓練速度比主流 Megatron 快 10%,即使是在華為昇騰平臺上,也比華為自己的 MindSpeed 框架快 10%。MiniCPM5-1B 的 Base Model 版本,也由 ForgeTrain 預訓練完成。
這件事的意義,不只是“AI 制造 AI”完成閉環,而是訓練基礎設施的生產權開始發生變化。
過去,大模型訓練很大程度上被英偉達的軟件棧牽著走:芯片廠商、模型公司想做什么,往往要先看現有框架支不支持。
Forge Engineering 所改變的是,未來不是所有人圍著英偉達的軟件生態轉,而是芯片廠商和大模型公司可以按自己的硬件、模型和訓練策略,去“打造”真正需要的軟件。想要什么框架,就打造什么框架。這才是“AI 制造 AI”背后更大的敘事。
而 PilotDeck 更像是面壁智能在 Agent 操作層上的一次獨立探索。
當端側模型越來越強,AI 不再只是一個聊天窗口,而是要進入真實工作流時,任務、文件、記憶、工具和權限應該如何被組織起來。
這也能解釋面壁智能戰略里的兩面:一方面,它向端側深處扎根,解決模型、內存、芯片和工程生產的問題;另一方面,它也在端側智能之上,探索新的產品形態和 Agent 系統。
大模型行業變化很快,真正能穿越周期的公司,往往要同時抓住“變”與“不變”。不變的是端側智能會長期存在,變的是它上面會不斷長出新的交互方式和操作系統。
所以,端側大模型的難點不在“把模型做小”,而在于如何在功耗、內存、算力、芯片、系統和應用之間做一整套協同設計。
面壁這次開源周真正釋放的信號,不是幾個孤立的開源項目,而是建立一套正在成形的端側 AGI 世界底座。
1
密度戰爭的面壁勝負手
端側 AGI 世界底座,聽起來很大,落到工程上其實很小。但小不是目的,密度才是。
當大模型行業長期圍繞 Scaling Law 競爭時,主流敘事是更大的模型、更大的集群、更長的訓練周期。面壁選擇的則是另一條路線:在有限算力、有限內存和有限功耗里,讓單位參數承載更多智能。
這個想法,被面壁稱為“密度定律”。
![]()
這不是 MiniCPM5-1B 才突然出現的概念。早在 MiniCPM 系列早期,面壁就已經在驗證小參數模型的能力上限。
劉知遠團隊后來把這種思路進一步概括為“密度定律”:模型能力不只會隨著參數規模增長,也會隨著數據、訓練、架構、后訓練和推理系統的進步,在單位參數內持續變密。
過去兩年,MiniCPM 系列幾乎是在按階段驗證這件事:2024 年,MiniCPM 試圖用小模型逼近 GPT-3 級別能力,2025 年,MiniCPM-3 把目標推到 ChatGPT 級別,到 2026 年,MiniCPM5-1B 已經開始逼近甚至超過早期 GPT-4o 了。
端側模型不是永遠只能做云模型的“簡化版”。只要智能密度繼續提升,原本只能放在云端的大模型能力,就會被端側模型一點點吃掉。
![]()
今天吃掉的是摘要、問答、輕量 Agent、本地知識庫和離線助手,下一步可能就是設備控制、車機交互、本地辦公、個人助理和端側代碼工具。
這次開源周,恰好把“密度定律”拆成了幾個可見的工程環節。UltraData 提高的是數據密度。ForgeTrain 提高的是訓練密度。MiniCPM5-1B 提高的是參數密度。BitCPM-CANN 提高的是內存密度。PilotDeck 提高的是應用密度。
這套方法論也不是憑空長出來的。面壁的技術根脈可以追溯到 OpenBMB 社區、CPM 系列和 MiniCPM 系列,也可以追溯到 BMTrain 分布式訓練框架、BMInf 推理工具、InfLLM 稀疏架構、BitCPM 低比特路線、CPM.cu 推理框架等底層基礎設施。
這些項目看起來分散,但指向的是同一件事:讓模型在更小的參數、更低的內存、更弱的設備和更真實的應用場景里,盡可能保留更多智能。
這也是面壁智能的特殊之處,它把端側模型的方法論,變成了自己的公司方法論。模型不靠參數體量取勝,公司也不靠資源體量取勝,它真正押注的,是在有限資源里壓進更多智能。
1
面壁的端側 AI 定義權
現在已經不是 2023 年。大模型的競爭早已越過參數堆疊、榜單卡位和 API 價格戰。過去兩年,全球 AI 格局最深的結構性變化,是模型能力正從云端系統性地下沉到設備端。
蘋果發布 Apple Intelligence 時,把端側模型與 Private Cloud Compute 并列;微軟定義 Copilot+ PC,用 40 TOPS NPU 和本地 AI 能力劃出新一代 PC 的準入門檻;高通、聯發科這些芯片巨頭,也在以季度為單位反復強調 on-device AI 的戰略優先級。端側 AI 早已甩掉“小模型安慰獎”的標簽,成為下一代終端體驗爭奪的核心基礎設施。
放到這個背景下,面壁開源周的分量會更清楚。過去三年國內以開源周形式集中發布技術成果的,此前只有 DeepSeek(2025 年 2 月),面壁是第二家。辦一場開源周的門檻在幕后,既要有連續穩定交付高質量成果的工程化能力,也要有敢把底牌全攤開的戰略自信。面壁這次一口氣公開了從數據、訓練框架、模型、壓縮到 Agent 操作系統的全鏈路,這本身就是一次能力聲明。
面壁在端側上的布局,比多數人以為的更早。端側 AI 成為行業共識不過是最近一兩年的事,面壁早在 2024 年就把它定為主線,而支撐這條主線的開源底子還要往前推。
2022 年中國大模型尚未真正起勢,面壁聯合清華 NLP 實驗室發起的 OpenBMB 社區就已經運轉,做出國內最早一批系統的免費大模型公開課,累計數百萬播放,成了不少從業者的入門教程。
![]()
OpenBMB 與 OpenAI、英偉達一起贊助小模型黑客松比賽
據公開數據,如今 OpenBMB 在 GitHub 的星標超過 13 萬,位列全球開源組織前一百,MiniCPM 全系列全球下載量超過 3000 萬次;2024 年 Hugging Face 統計全球最受歡迎的大模型時,OpenBMB 的下載量排在中國區第一。
把開源根基和端側主線加在一起,面壁在這條路上已經走了四年。
這正是“小鋼炮模型團隊”和“端側系統工程公司”的分界。前者的護城河是某一個出色的模型,后者的護城河是一整條短期復制不了的鏈路。MiniCPM5-1B 的權重是開源的,誰都能下載,但產出它的數據治理、訓練框架、壓縮方法和多年工程迭代,下載不到。把全套家底擺上臺面、還能保持身位,這比任何榜單分數都更能說明底氣在哪。
再往深一層,面壁踩中的是一條對中國格外要緊的線。BitCPM-CANN 是在華為昇騰上完成端到端訓練的 1.58-bit 低比特大模型,ForgeTrain 在英偉達 H100 上比 Megatron 快約一成,在昇騰上比華為自家的 MindSpeed 還快約一成。這兩件事疊在一起,指向一個比工程水平更大的命題,訓練基礎設施的生產權正在松動。過去做大模型,很大程度上要跟著英偉達的軟件棧走,框架支持什么,大家才能做什么;當一家中國公司能在國產算力上把訓練框架做到反超原廠,端側模型、國產芯片和開源就有機會拼成一套不依賴單一軟件生態的技術棧。對國內行業來說,這盤棋比一款端側模型大得多。
汽車、PC、機器人、智能硬件,是這條路線的外顯場景。純端側汽車助手 cpmGO 把 MiniCPM 推進智能座艙,MiniCPM 進入 OpenVINO 等 AI PC 工具鏈。目前面壁已與聯想、吉利、上汽大眾、廣汽、馬自達、紅旗等頭部企業建立合作,在汽車、PC、手機和智能硬件等終端場景里,持續檢驗端側模型扛不扛得住功耗、延遲、交互和穩定性的壓測。
放眼國內,推進端側適配、推出過輕量模型的公司不少,但能把端側 AI 當成戰略主線持續投入,從數據、訓練、壓縮、芯片一路打到產業場景的,并不多。面壁真正想拿下的是一個更大的位置,中國端側 AI 的技術定義權。
端側 AI 真正的難度,在于要在功耗、內存、算力、芯片、系統和應用之間做一整套協同設計。這種能力買不到,也快不起來,只能一年一年長出來。面壁提前進場換到的,正是這種很難被追平的結構性領先。在這場關于端側 AI 定義權的競賽里,時間本身就是護城河。
![]()
點個“愛心”,再走 吧
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.