網易首頁 > 網易號 > 正文申請入駐

端側 AI 的定義權，面壁智能先拿下了

2026-06-01 09:38:26　來源: 硅星人

北京舉報

分享至

作者｜董道力
郵箱｜ dongdaoli@pingwest.com

剛剛過去的 5 月最后一周，面壁智能做了一件在國內大模型行業頗為罕見的事：辦了一場“開源周”，連續密集發布多項開源技術成果。

沒有大屏幕，也沒有 CEO 的激情演講，只有一個接一個被推到臺前的 GitHub 倉庫。

過去三年，中國大模型行業不缺發布會，但真正以“開源周”形式集中釋放技術成果的公司并不多。因為這件事的門檻并不低，你不能只有一個爆款模型，還得有一整條能夠拆開給外界看的技術鏈路。

單看清單，面壁這一周發布的內容很容易被理解成一個“模型貨架”，這里一個數據集，那里一個訓練框架，再加上模型和應用項目。

但如果把它們放到一起看，會發現它們指向的不是幾個孤立成果，而是一套正在成形的端側 AGI 世界底座。

更值得注意的是，這件事發生在一個行業轉向節點上。

2023 年，中國大模型公司還在比誰先做出基座模型；2024 年，行業開始卷 API 價格和應用入口；2025 年，端云協同、AI 終端和端側模型逐漸成為共識；到了 2026 年，真正的問題已經不再是“有沒有大模型”，而是這些模型能力如何進入手機、車機、PC、機器人和 AI 眼鏡這些真實設備。

誰能把模型能力穩定地放進這些設備，誰才有機會定義下一代 AI 的入口。

面壁的特別之處在于，它不是等到端側 AI 成為行業共識后才行動，而是在兩年前就開始把小參數、高能力、低內存和端側部署當成主線來押。

被誤讀的端側 AI

端側 AI 長期被兩種誤解包圍。

一種說法認為，端側 AI 就是小模型，把云端模型裁剪一下，參數少一點，能塞進手機、車機就行。另一種說法則認為，端側 AI 只是云端 API 下放，終端不需要真的跑模型，只要聯網調用云端能力。

但真正的端側模型要面對三道硬約束：功耗、內存和場景。而面壁這次開源周的價值，就是把這些約束背后的工程能力全部公開。

第一道約束是功耗。

云端模型可以用數據中心供電和散熱去換性能，終端設備不行。手機要續航，車機要在高溫和長時間運行下保持穩定，AI 眼鏡要輕薄。

所以端側模型沒有云端大模型那種用海量低質數據攤薄噪聲的空間，每一份訓練數據的質量都會更直接地影響模型能力。

面壁開源的 UltraData 解決的就是“模型越小，數據越要精”的問題。

UltraData 提出的 L0 到 L4 分級治理體系，本質上是在提高數據密度：L1 做基礎清洗，L2 提高信息密度，L3 通過合成與增強強化知識表達和推理能力，L4 面向更高階的數據編排。

這些數據最終指向的，不是訓練一個更大的模型，而是訓練一個單位參數智能密度更“高”的模型。

MiniCPM5-1B 證明的，正是這條路線已經可以落地。

面壁智能在 2024 年 12 月曾判斷，2026 年會出現端側 GPT-4o 級別的能力，而從 MiniCPM 到 MiniCPM3，再到 MiniCPM5-1B，端側模型的演進也確實沿著這條曲線展開：2024 年對標 GPT-3，2025 年追近 ChatGPT，2026 年開始觸碰 GPT-4o 部分版本的能力邊界。

1B 參數不再是“小而將就”，而是智能密度提升后的結果。端側模型真正重要的指標，不是參數量有多大，而是單位參數里壓進了多少智能。

第二道約束是內存。

端側推理不是 NPU 算力夠就行。模型權重需要內存，KV Cache 需要內存，多模態中間狀態也需要內存，內存帶寬還會直接影響生成速度。

行業內共識是，端側 AI 正在被“算力-內存剪刀差”卡住：芯片算力漲得很快，但內存容量、帶寬和成本沒有同步改善。

面壁智能開源周第一天發布的 BitCPM-CANN，正是面向這道內存約束的技術回應。面壁智能在華為昇騰平臺上完成端到端訓練，并開源了 1.58-bit 三值大模型，覆蓋 0.5B、1B、3B、8B 四個尺寸。

所謂 1.58-bit，不是常規 2bit 量化，而是讓每個權重只保留 -1、0、+1 三種狀態。

與同尺寸 MiniCPM4 全精度模型相比，BitCPM-CANN 推理階段只需要約原來 1/6 的顯存，相當于節省 5/6 內存，同時保留 90% 到 97.2% 的模型能力。

這意味著，低比特模型可以解決大參數模型上端側的問題。

2-bit 級壓縮可帶來約 6 到 8 倍存儲收益，4GB 可用內存有機會容納 16B 級模型，結合 MoE 和激活約束可推到 32B，如果設備內存擴展到主流的 8GB，60B 級的大模型裝載到手機端也不是天方夜譚。

第三道約束是場景。

端側設備要面對斷網、弱網、隱私合規、毫秒級響應、多傳感器輸入。車機不能把每個請求都丟給云，手機里的個人數據不能無限上傳，工業終端也常常處在網絡不穩定、環境復雜的現場。

更現實的情況是，中國終端芯片生態高度分散。高通、聯發科、華為昇騰、寒武紀、地平線等平臺的架構和工具鏈都不一樣，適配一款芯片和適配一個生態是兩回事。

這也是面壁開源 ForgeTrain 的定位。

它不只是一個訓練框架，更像是一套面向端側模型生產的工程工具。端側模型很少是“一次訓練、到處部署”，不同設備、不同芯片、不同內存規格，都會要求模型在尺寸、精度、訓練策略和推理路徑上反復調整。一個團隊能不能快速把實驗結果變成可部署模型，訓練框架本身就是關鍵變量。

ForgeTrain 的特殊之處在于，它是完全由 AI 編寫的預訓練框架。它在英偉達 H100 上的訓練速度比主流 Megatron 快 10%，即使是在華為昇騰平臺上，也比華為自己的 MindSpeed 框架快 10%。MiniCPM5-1B 的 Base Model 版本，也由 ForgeTrain 預訓練完成。

這件事的意義，不只是“AI 制造 AI”完成閉環，而是訓練基礎設施的生產權開始發生變化。

過去，大模型訓練很大程度上被英偉達的軟件棧牽著走：芯片廠商、模型公司想做什么，往往要先看現有框架支不支持。

Forge Engineering 所改變的是，未來不是所有人圍著英偉達的軟件生態轉，而是芯片廠商和大模型公司可以按自己的硬件、模型和訓練策略，去“打造”真正需要的軟件。想要什么框架，就打造什么框架。這才是“AI 制造 AI”背后更大的敘事。

而 PilotDeck 更像是面壁智能在 Agent 操作層上的一次獨立探索。

當端側模型越來越強，AI 不再只是一個聊天窗口，而是要進入真實工作流時，任務、文件、記憶、工具和權限應該如何被組織起來。

這也能解釋面壁智能戰略里的兩面：一方面，它向端側深處扎根，解決模型、內存、芯片和工程生產的問題；另一方面，它也在端側智能之上，探索新的產品形態和 Agent 系統。

大模型行業變化很快，真正能穿越周期的公司，往往要同時抓住“變”與“不變”。不變的是端側智能會長期存在，變的是它上面會不斷長出新的交互方式和操作系統。

所以，端側大模型的難點不在“把模型做小”，而在于如何在功耗、內存、算力、芯片、系統和應用之間做一整套協同設計。

面壁這次開源周真正釋放的信號，不是幾個孤立的開源項目，而是建立一套正在成形的端側 AGI 世界底座。

密度戰爭的面壁勝負手

端側 AGI 世界底座，聽起來很大，落到工程上其實很小。但小不是目的，密度才是。

當大模型行業長期圍繞 Scaling Law 競爭時，主流敘事是更大的模型、更大的集群、更長的訓練周期。面壁選擇的則是另一條路線：在有限算力、有限內存和有限功耗里，讓單位參數承載更多智能。

這個想法，被面壁稱為“密度定律”。

這不是 MiniCPM5-1B 才突然出現的概念。早在 MiniCPM 系列早期，面壁就已經在驗證小參數模型的能力上限。

劉知遠團隊后來把這種思路進一步概括為“密度定律”：模型能力不只會隨著參數規模增長，也會隨著數據、訓練、架構、后訓練和推理系統的進步，在單位參數內持續變密。

過去兩年，MiniCPM 系列幾乎是在按階段驗證這件事：2024 年，MiniCPM 試圖用小模型逼近 GPT-3 級別能力，2025 年，MiniCPM-3 把目標推到 ChatGPT 級別，到 2026 年，MiniCPM5-1B 已經開始逼近甚至超過早期 GPT-4o 了。

端側模型不是永遠只能做云模型的“簡化版”。只要智能密度繼續提升，原本只能放在云端的大模型能力，就會被端側模型一點點吃掉。

今天吃掉的是摘要、問答、輕量 Agent、本地知識庫和離線助手，下一步可能就是設備控制、車機交互、本地辦公、個人助理和端側代碼工具。

這次開源周，恰好把“密度定律”拆成了幾個可見的工程環節。UltraData 提高的是數據密度。ForgeTrain 提高的是訓練密度。MiniCPM5-1B 提高的是參數密度。BitCPM-CANN 提高的是內存密度。PilotDeck 提高的是應用密度。

這套方法論也不是憑空長出來的。面壁的技術根脈可以追溯到 OpenBMB 社區、CPM 系列和 MiniCPM 系列，也可以追溯到 BMTrain 分布式訓練框架、BMInf 推理工具、InfLLM 稀疏架構、BitCPM 低比特路線、CPM.cu 推理框架等底層基礎設施。

這些項目看起來分散，但指向的是同一件事：讓模型在更小的參數、更低的內存、更弱的設備和更真實的應用場景里，盡可能保留更多智能。

這也是面壁智能的特殊之處，它把端側模型的方法論，變成了自己的公司方法論。模型不靠參數體量取勝，公司也不靠資源體量取勝，它真正押注的，是在有限資源里壓進更多智能。

面壁的端側 AI 定義權

現在已經不是 2023 年。大模型的競爭早已越過參數堆疊、榜單卡位和 API 價格戰。過去兩年，全球 AI 格局最深的結構性變化，是模型能力正從云端系統性地下沉到設備端。

蘋果發布 Apple Intelligence 時，把端側模型與 Private Cloud Compute 并列；微軟定義 Copilot+ PC，用 40 TOPS NPU 和本地 AI 能力劃出新一代 PC 的準入門檻；高通、聯發科這些芯片巨頭，也在以季度為單位反復強調 on-device AI 的戰略優先級。端側 AI 早已甩掉“小模型安慰獎”的標簽，成為下一代終端體驗爭奪的核心基礎設施。

放到這個背景下，面壁開源周的分量會更清楚。過去三年國內以開源周形式集中發布技術成果的，此前只有 DeepSeek（2025 年 2 月），面壁是第二家。辦一場開源周的門檻在幕后，既要有連續穩定交付高質量成果的工程化能力，也要有敢把底牌全攤開的戰略自信。面壁這次一口氣公開了從數據、訓練框架、模型、壓縮到 Agent 操作系統的全鏈路，這本身就是一次能力聲明。

面壁在端側上的布局，比多數人以為的更早。端側 AI 成為行業共識不過是最近一兩年的事，面壁早在 2024 年就把它定為主線，而支撐這條主線的開源底子還要往前推。

2022 年中國大模型尚未真正起勢，面壁聯合清華 NLP 實驗室發起的 OpenBMB 社區就已經運轉，做出國內最早一批系統的免費大模型公開課，累計數百萬播放，成了不少從業者的入門教程。

OpenBMB 與 OpenAI、英偉達一起贊助小模型黑客松比賽

據公開數據，如今 OpenBMB 在 GitHub 的星標超過 13 萬，位列全球開源組織前一百，MiniCPM 全系列全球下載量超過 3000 萬次；2024 年 Hugging Face 統計全球最受歡迎的大模型時，OpenBMB 的下載量排在中國區第一。

把開源根基和端側主線加在一起，面壁在這條路上已經走了四年。

這正是“小鋼炮模型團隊”和“端側系統工程公司”的分界。前者的護城河是某一個出色的模型，后者的護城河是一整條短期復制不了的鏈路。MiniCPM5-1B 的權重是開源的，誰都能下載，但產出它的數據治理、訓練框架、壓縮方法和多年工程迭代，下載不到。把全套家底擺上臺面、還能保持身位，這比任何榜單分數都更能說明底氣在哪。

再往深一層，面壁踩中的是一條對中國格外要緊的線。BitCPM-CANN 是在華為昇騰上完成端到端訓練的 1.58-bit 低比特大模型，ForgeTrain 在英偉達 H100 上比 Megatron 快約一成，在昇騰上比華為自家的 MindSpeed 還快約一成。這兩件事疊在一起，指向一個比工程水平更大的命題，訓練基礎設施的生產權正在松動。過去做大模型，很大程度上要跟著英偉達的軟件棧走，框架支持什么，大家才能做什么；當一家中國公司能在國產算力上把訓練框架做到反超原廠，端側模型、國產芯片和開源就有機會拼成一套不依賴單一軟件生態的技術棧。對國內行業來說，這盤棋比一款端側模型大得多。

汽車、PC、機器人、智能硬件，是這條路線的外顯場景。純端側汽車助手 cpmGO 把 MiniCPM 推進智能座艙，MiniCPM 進入 OpenVINO 等 AI PC 工具鏈。目前面壁已與聯想、吉利、上汽大眾、廣汽、馬自達、紅旗等頭部企業建立合作，在汽車、PC、手機和智能硬件等終端場景里，持續檢驗端側模型扛不扛得住功耗、延遲、交互和穩定性的壓測。

放眼國內，推進端側適配、推出過輕量模型的公司不少，但能把端側 AI 當成戰略主線持續投入，從數據、訓練、壓縮、芯片一路打到產業場景的，并不多。面壁真正想拿下的是一個更大的位置，中國端側 AI 的技術定義權。

端側 AI 真正的難度，在于要在功耗、內存、算力、芯片、系統和應用之間做一整套協同設計。這種能力買不到，也快不起來，只能一年一年長出來。面壁提前進場換到的，正是這種很難被追平的結構性領先。在這場關于端側 AI 定義權的競賽里，時間本身就是護城河。

點個“愛心”，再走吧

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.