![]()
作者 | 董道力
郵箱 | dongdaoli@pingwest.com
5 月 27 日,小米把 MiMo-V2.5 系列 API 永久降價。
MiMo-V2.5-Pro 的輸入緩存命中價格降到 0.025 元/百萬 tokens,輸入未命中價格 3 元/百萬 tokens,輸出價格 6 元/百萬 tokens。普通版 MiMo-V2.5 更低:緩存命中 0.02 元,輸入未命中 1 元,輸出 2 元。
這不是一次常規促銷。
因為把價格橫向一比就會發現,小米這次不是隨便降價,而是直接對標 DeepSeek。
MiMo-V2.5-Pro 對 DeepSeek V4-Pro,MiMo-V2.5 對 DeepSeek V4-Flash。
![]()
如今,DeepSeek 已經不只是一個模型名字。至少在國產大模型市場里,它正在變成一把價格尺子。
這把尺子反復抽打各大模型公司:你的模型賣多少錢啊?
而這樣一個問題平等的提給所有人,也就創造了一些新的機會,如小米MiMo這樣的后來者,可以比其他模型身段更靈活,進而可以“蹭”著DeepSeek賭出一個上牌桌的機會。
1
token 的價格劃分越來越細了
先來看看降價如何發生。
在這張價格表里,最重要的細節是它把緩存命中和緩存未命中明確拆成了兩種價格。
這已經是今天大模型價格戰的暗線。
所謂緩存命中,說白了就是:如果這次請求的前綴內容,和之前某次請求的前綴內容一樣,平臺就不用從頭再算一遍,而是復用之前保存下來的中間結果。
大模型處理長上下文時,成本大體分兩段。
第一段叫 prefill,可以理解成“讀題”。系統提示詞、項目代碼、企業文檔、歷史對話,都要先被模型讀進去。
第二段叫 decode,可以理解成“答題”。模型再一個 token 一個 token 往外生成回答。
過去大家談 API 價格,主要看輸入和輸出。但現在大模型越來越多地用在 Agent、Coding、知識庫和長對話里,很多輸入其實是重復的。
代碼助手每次都要看同一個倉庫,企業助手每次都要讀同一批制度文檔,Agent 每一輪都帶著同一套工具說明和系統規則。
可能真正的不同只是最后一句指令。
這時候,緩存就成了成本結構里的關鍵變量。
第一次做題要打草稿,第二次題目前半段一樣,就不用重新打草稿。緩存命中價格之所以能低到離譜,原因就在這里。
以 MiMo-V2.5-Pro 為例,未命中輸入是 3 元/百萬 tokens,緩存命中后是 0.025 元,差了 120 倍。
價格戰的味道很濃,但大模型廠商已經不再把 token 當成一種統一商品來賣。新輸入、緩存輸入、輸出 token,背后是三種完全不同的成本結構。這一輪價格戰不是“所有 token 一起便宜”,而是廠商開始按照真實成本,把 token 拆開重新定價。
1
降價來自“機房”
“最高降幅 99%”是最大噱頭,但背后的門道來自其他地方。
在降價的公告里小米團隊提到,他們基于 SGLang HiCache 完整支持 SWA,也就是 Sliding Window Attention,把 KV Cache 在 GPU 顯存、CPU 內存、SSD 多級存儲之間的數據搬運量降低到優化前的近 1/7,同時把可緩存 token 數量提升到近 5 倍。
這段話解釋了這次降價的另一層原因。
大模型每生成一個 token,都要參考前面的上下文。如果每一步都把所有上下文重新算一遍,成本會非常高。KV Cache 存的,就是前面 token 在注意力機制里算出來的 Key 和 Value。
它相當于把模型已經讀過的內容,變成可復用的“計算草稿”。
但草稿也要放地方。最好的地方是 GPU 顯存,速度最快,也最貴;其次是 CPU 內存;再往下是 SSD,便宜但慢。緩存越多,越不可能全放在顯存里。
于是,哪些緩存放顯存,哪些放內存,哪些放 SSD?什么時候搬?搬多少?怎么避免搬運本身拖慢推理?
這就是小米公告里“多級存儲之間的數據搬運量降低”的含義。
以前為了復用上下文,要么占著昂貴顯存,要么在不同存儲之間來回搬,省下來的計算成本又被搬運成本吃掉。現在系統調度更聰明了,搬得更少,存得更多,命中率更高,緩存價才有條件繼續往下打。
所以,低價只靠補貼,它就是燒錢,如果低價來自 KV Cache、SWA、多級存儲、專家并行和輸入長度分桶,它就是基礎設施能力。
前者只能換一陣子的流量,后者才可能改變長期價格。據小米透露,相關的更豐富細節的技術論文會在稍后發出。
1
DeepSeek 出的題,能不能變成小米的稻草
降價無疑會在短期給一個模型帶來用戶增加,而小米的降價除了官方透露的技術上的變化帶來的可能外,其實很明顯也設計了降價的時點和節奏。
它選擇在DeepSeek剛剛最新一輪的降價后馬上貼身跟上。
DeepSeek 給所有模型廠商出了一道題,當強如 DeepSeek 也可以低價調用時,其他模型廠商還憑什么維持原來的價格?
以前國產模型公司只要比 GPT、Claude 便宜,就能解釋自己的性價比。但 DeepSeek 把價格錨點打下來以后,行業進入了一個更難受的階段。
如果你比 DeepSeek 貴很多,就必須證明自己能力強很多。如果你能力差不多,就必須證明自己速度更快、穩定性更好、生態更順。如果能力、價格和體驗都沒有明顯優勢,就只能退到更窄的場景里,比如多模態、端側、企業私有化、行業模型、工具鏈綁定。
如果這些都沒有,那就只能早點退出。
DeepSeek 像一條鯰魚,沒有讓所有模型都立刻變便宜,但讓“貴”這件事需要重新解釋。
Claude 可以用 coding 和復雜任務能力解釋自己的價格,GPT 可以用完整生態、多模態和工具鏈解釋自己的價格。
那小米這樣的還沒有產生任何用戶規模效應的后來者呢?尤其是小米目前的核心盤子,不在一個獨立模型品牌上,而在手機、汽車、IoT、HyperOS 和智能硬件生態里。
所以 MiMo 目前最大的挑戰,無論對內還是對外,都是:一個并非默認首選的基礎模型,如何先進入開發者的候選名單?
這一次,MiMo顯然決定要抓住DeepSeek這個稻草,從價格上像素級對標,這可能是唯一的機會。它必須抓著DeepSeek來蹦上牌桌。
只有把價格打到 DeepSeek 同一檔,才可能有人來用。在 API 市場里,開發者不會無緣無故把調用量交給一個新模型。尤其是 Agent、Coding、長上下文這些場景,一次任務可能就是幾十輪調用。只要價格比 DeepSeek 高一截,開發者還沒試到模型差異,就已經先被賬單勸退了。
而另一側的壓力也來自內部:MiMo要盡快證明,它到底能不能變成小米生態里的 AI 基礎能力。
對小米來說,模型 API 不一定是終點。它最終要去的地方,不只是開發者控制臺,而是自家的生態。
但模型想進入這些場景,不能只靠發布會和參數表。它需要大量真實調用,需要開發者在真實任務里反復試,需要用戶在長對話、代碼、Agent、知識庫、車機和設備控制等場景里持續使用。只有這些使用數據回來,模型才知道哪些能力真的有用,哪些場景值得優化,哪些接口需要重做。
于是,哪怕羅福莉前不久剛剛提出模型不能“盲目降價”,今天MiMo也必須發起一場價格戰。而羅福莉最新的推文里也對此作了解釋:
“在新降價后的 API 價格下運行,我們的生產推理引擎接近滿負荷運轉,仍能基本實現收支平衡。我們此前建議 LLM 公司不要盲目降價,正是因為很少有模型架構和推理優化能讓 API 成本避免虧損。如果更多節省計算和 KV 緩存的架構出現,并輔以更優的推理基礎設施來壓低 API 成本,這將在行業內形成一個極佳的良性循環。”
在剛剛降價一天的節點,這個描述看起來更多還是一個完美假設,實現了,MiMo就徹底上了臺桌,實現不了,就是另一個故事了。
![]()
點個“愛心”,再走 吧
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.