網易首頁 > 網易號 > 正文申請入駐

小米MiMo要蹭著DeepSeek蹦上牌桌

2026-05-28 10:32:09　來源: 硅星人

北京舉報

分享至

作者｜董道力
郵箱｜ dongdaoli@pingwest.com

5 月 27 日，小米把 MiMo-V2.5 系列 API 永久降價。

MiMo-V2.5-Pro 的輸入緩存命中價格降到 0.025 元/百萬 tokens，輸入未命中價格 3 元/百萬 tokens，輸出價格 6 元/百萬 tokens。普通版 MiMo-V2.5 更低：緩存命中 0.02 元，輸入未命中 1 元，輸出 2 元。

這不是一次常規促銷。

因為把價格橫向一比就會發現，小米這次不是隨便降價，而是直接對標 DeepSeek。

MiMo-V2.5-Pro 對 DeepSeek V4-Pro，MiMo-V2.5 對 DeepSeek V4-Flash。

如今，DeepSeek 已經不只是一個模型名字。至少在國產大模型市場里，它正在變成一把價格尺子。

這把尺子反復抽打各大模型公司：你的模型賣多少錢啊？

而這樣一個問題平等的提給所有人，也就創造了一些新的機會，如小米MiMo這樣的后來者，可以比其他模型身段更靈活，進而可以“蹭”著DeepSeek賭出一個上牌桌的機會。

token 的價格劃分越來越細了

先來看看降價如何發生。

在這張價格表里，最重要的細節是它把緩存命中和緩存未命中明確拆成了兩種價格。

這已經是今天大模型價格戰的暗線。

所謂緩存命中，說白了就是：如果這次請求的前綴內容，和之前某次請求的前綴內容一樣，平臺就不用從頭再算一遍，而是復用之前保存下來的中間結果。

大模型處理長上下文時，成本大體分兩段。

第一段叫 prefill，可以理解成“讀題”。系統提示詞、項目代碼、企業文檔、歷史對話，都要先被模型讀進去。

第二段叫 decode，可以理解成“答題”。模型再一個 token 一個 token 往外生成回答。

過去大家談 API 價格，主要看輸入和輸出。但現在大模型越來越多地用在 Agent、Coding、知識庫和長對話里，很多輸入其實是重復的。

代碼助手每次都要看同一個倉庫，企業助手每次都要讀同一批制度文檔，Agent 每一輪都帶著同一套工具說明和系統規則。

可能真正的不同只是最后一句指令。

這時候，緩存就成了成本結構里的關鍵變量。

第一次做題要打草稿，第二次題目前半段一樣，就不用重新打草稿。緩存命中價格之所以能低到離譜，原因就在這里。

以 MiMo-V2.5-Pro 為例，未命中輸入是 3 元/百萬 tokens，緩存命中后是 0.025 元，差了 120 倍。

價格戰的味道很濃，但大模型廠商已經不再把 token 當成一種統一商品來賣。新輸入、緩存輸入、輸出 token，背后是三種完全不同的成本結構。這一輪價格戰不是“所有 token 一起便宜”，而是廠商開始按照真實成本，把 token 拆開重新定價。

降價來自“機房”

“最高降幅 99%”是最大噱頭，但背后的門道來自其他地方。

在降價的公告里小米團隊提到，他們基于 SGLang HiCache 完整支持 SWA，也就是 Sliding Window Attention，把 KV Cache 在 GPU 顯存、CPU 內存、SSD 多級存儲之間的數據搬運量降低到優化前的近 1/7，同時把可緩存 token 數量提升到近 5 倍。

這段話解釋了這次降價的另一層原因。

大模型每生成一個 token，都要參考前面的上下文。如果每一步都把所有上下文重新算一遍，成本會非常高。KV Cache 存的，就是前面 token 在注意力機制里算出來的 Key 和 Value。

它相當于把模型已經讀過的內容，變成可復用的“計算草稿”。

但草稿也要放地方。最好的地方是 GPU 顯存，速度最快，也最貴；其次是 CPU 內存；再往下是 SSD，便宜但慢。緩存越多，越不可能全放在顯存里。

于是，哪些緩存放顯存，哪些放內存，哪些放 SSD？什么時候搬？搬多少？怎么避免搬運本身拖慢推理？

這就是小米公告里“多級存儲之間的數據搬運量降低”的含義。

以前為了復用上下文，要么占著昂貴顯存，要么在不同存儲之間來回搬，省下來的計算成本又被搬運成本吃掉。現在系統調度更聰明了，搬得更少，存得更多，命中率更高，緩存價才有條件繼續往下打。

所以，低價只靠補貼，它就是燒錢，如果低價來自 KV Cache、SWA、多級存儲、專家并行和輸入長度分桶，它就是基礎設施能力。

前者只能換一陣子的流量，后者才可能改變長期價格。據小米透露，相關的更豐富細節的技術論文會在稍后發出。

DeepSeek 出的題，能不能變成小米的稻草

降價無疑會在短期給一個模型帶來用戶增加，而小米的降價除了官方透露的技術上的變化帶來的可能外，其實很明顯也設計了降價的時點和節奏。

它選擇在DeepSeek剛剛最新一輪的降價后馬上貼身跟上。

DeepSeek 給所有模型廠商出了一道題，當強如 DeepSeek 也可以低價調用時，其他模型廠商還憑什么維持原來的價格？

以前國產模型公司只要比 GPT、Claude 便宜，就能解釋自己的性價比。但 DeepSeek 把價格錨點打下來以后，行業進入了一個更難受的階段。

如果你比 DeepSeek 貴很多，就必須證明自己能力強很多。如果你能力差不多，就必須證明自己速度更快、穩定性更好、生態更順。如果能力、價格和體驗都沒有明顯優勢，就只能退到更窄的場景里，比如多模態、端側、企業私有化、行業模型、工具鏈綁定。

如果這些都沒有，那就只能早點退出。

DeepSeek 像一條鯰魚，沒有讓所有模型都立刻變便宜，但讓“貴”這件事需要重新解釋。

Claude 可以用 coding 和復雜任務能力解釋自己的價格，GPT 可以用完整生態、多模態和工具鏈解釋自己的價格。

那小米這樣的還沒有產生任何用戶規模效應的后來者呢？尤其是小米目前的核心盤子，不在一個獨立模型品牌上，而在手機、汽車、IoT、HyperOS 和智能硬件生態里。

所以 MiMo 目前最大的挑戰，無論對內還是對外，都是：一個并非默認首選的基礎模型，如何先進入開發者的候選名單？

這一次，MiMo顯然決定要抓住DeepSeek這個稻草，從價格上像素級對標，這可能是唯一的機會。它必須抓著DeepSeek來蹦上牌桌。

只有把價格打到 DeepSeek 同一檔，才可能有人來用。在 API 市場里，開發者不會無緣無故把調用量交給一個新模型。尤其是 Agent、Coding、長上下文這些場景，一次任務可能就是幾十輪調用。只要價格比 DeepSeek 高一截，開發者還沒試到模型差異，就已經先被賬單勸退了。

而另一側的壓力也來自內部：MiMo要盡快證明，它到底能不能變成小米生態里的 AI 基礎能力。

對小米來說，模型 API 不一定是終點。它最終要去的地方，不只是開發者控制臺，而是自家的生態。

但模型想進入這些場景，不能只靠發布會和參數表。它需要大量真實調用，需要開發者在真實任務里反復試，需要用戶在長對話、代碼、Agent、知識庫、車機和設備控制等場景里持續使用。只有這些使用數據回來，模型才知道哪些能力真的有用，哪些場景值得優化，哪些接口需要重做。

于是，哪怕羅福莉前不久剛剛提出模型不能“盲目降價”，今天MiMo也必須發起一場價格戰。而羅福莉最新的推文里也對此作了解釋：

“在新降價后的 API 價格下運行，我們的生產推理引擎接近滿負荷運轉，仍能基本實現收支平衡。我們此前建議 LLM 公司不要盲目降價，正是因為很少有模型架構和推理優化能讓 API 成本避免虧損。如果更多節省計算和 KV 緩存的架構出現，并輔以更優的推理基礎設施來壓低 API 成本，這將在行業內形成一個極佳的良性循環。”

在剛剛降價一天的節點，這個描述看起來更多還是一個完美假設，實現了，MiMo就徹底上了臺桌，實現不了，就是另一個故事了。

點個“愛心”，再走吧

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.