IT之家 5 月 30 日消息,5 月 27 日,小米 MiMo-V2.5 系列 API 完成永久降價,最高降幅達 99%,不區分輸入長度。今日,小米正式公開 MiMo-V2.5 系列模型的推理系統全鏈路優化方案。
![]()
據介紹,該團隊圍繞 Hybrid SWA + MoE + 多模態的復合架構,系統性重構了從 KVCache 管理、分級緩存、前綴緩存到調度策略與 Prefill / Decode 鏈路的完整推理棧,KVCache 存儲壓縮至同級方案的約 1/7,在長序列場景下推理成本大幅下降 —— 這是本次降價的核心技術基礎。
這也是業內首篇全面覆蓋 Hybrid SWA + MoE + 多模態組合架構的大規模工程落地方案。模型能力沒有任何縮減 —— 精進的是推理系統工程能力本身:同一個模型,相同硬件,更高吞吐,更低延遲,可以服務更多人。
![]()
IT之家附主要內容如下:1、為什么選擇 Hybrid SWA 架構?
大模型推理的核心開銷來自 KVCache。模型生成每一個 token 時,需要將全部歷史上下文以鍵值對形式緩存在 GPU 顯存中。上下文越長,緩存越大,可并發請求越少,單次推理成本越高。這是當前所有大模型服務共同面對的核心經濟約束。 MiMo-V2.5-Pro 的設計選擇是從架構層面打破這一約束。70 層 Transformer 中,僅 10 層使用 Full Attention(完整注意力),其余 60 層使用 Sliding Window Attention(滑動窗口大小 128 token)。絕大部分網絡層只需存儲最近 128 個 token 的信息,整體 KVCache 存儲需求降至全 Full Attention 方案的約 1/7。 同時,由于 SWA 層的注意力計算量也從全序列縮減到窗口大小,Prefill 階段的計算成本同樣降至約 1/7。Decode 階段的延遲與 KVCache 讀取量正相關,長序列場景下這一存儲壓縮幾乎直接等價于推理成本的等比例下降。兩者疊加,Hybrid SWA 在 Prefill 和 Decode 階段同時受益。短文場景性價比接近,序列越長,推理成本優勢越大。 但架構上的“應該省”和線上的“真的省”之間,隔著一整套推理系統的適配工程。 MiMo-V2 系列上線之初,主流開源推理框架對 SWA 的支持并不完整 —— 早期實現實質上是“以存儲 Full KVCache 的代價來兼容 SWA”。Hybrid SWA 顯著增加了緩存命中判定、前綴匹配、雙語義一致性維護的復雜度;在真實系統中,多級存儲的數據搬運、異步預取與分布式緩存狀態的一致性問題,共同使理論收益難以直接落地。我們需要讓推理系統真正“理解” Hybrid SWA 的存儲特性,將每一項理論優勢逐一兌現為工程收益。2、工程化實踐,從“理論上省”到“真的省”
明確了 Hybrid SWA 在架構層面“能省多少”之后,接下來的挑戰是:如何讓推理系統真正適配它的特性,把架構優勢轉化為真實的效率提升? 我們的工作圍繞三個遞進的問題展開:緩存能不能真正省下來?省下來的空間能不能真正用起來?最終的生成速度能不能真正快起來? KVCache 系統重構:讓緩存真正省下來 要兌現 Hybrid SWA 的效率優勢,第一步是讓 KVCache 管理系統真正區分兩種截然不同的緩存需求。 雙池分治。傳統推理系統為所有層統一分配 KVCache 空間,按最大需求配置。我們將 KVCache 拆分為 Full KV Pool 與 SWA KV Pool 兩個獨立池:Full KV Pool 按需增長、長期保存;SWA KV Pool 僅按窗口大小配置容量,采用環形緩沖區設計,支持基于窗口的獨立淘汰,存儲嚴格限制在 O (W) 規模。對上層調度器和前綴樹仍暴露統一序列視圖,由 Full Attention 索引作為權威索引并維護到 SWA 的映射關系。通過這一設計,KVCache 容量效率實現約 7 倍提升。SWA 層的 KVCache 預取可在 layerwise 粒度實現完美 overlap,Cache 讀取成本接近于零。 存儲省下來了,下一個問題是:已經算過的結果能不能復用?這取決于前綴緩存能否在 SWA 模式下正確工作。 前綴緩存樹重構。傳統前綴緩存的匹配規則建立在“token 序列相等 → KV 也相等”這一假設上 —— 在 SWA 模式下這條假設被打破了。前綴樹節點的邏輯生命周期與 SWA KV 的物理生命周期不一致,一個節點對應的 SWA KV 可能只剩尾部一小段甚至已完全被釋放,傳統規則會給出“偽命中”。我們從三處改造前綴樹語義:將匹配規則升級為“窗口安全長度”(尾部至少 W 個 token 仍有有效 slot);將淘汰路徑與請求生命周期綁定,確保 SWA 池占用恒定在窗口量級;每個節點同時承載 Full Attention 段索引與 SWA 段映射,支持獨立淘汰策略。線上前綴緩存命中率平均達到 93%,高頻用戶超過 95%。 解決了“算過的能復用”之后,還有一個現實問題:用戶對話有時間間隔,緩存放在顯存里太貴,丟掉又要重算。 GCache 三級緩存。小米存儲團隊自研 GCache—— 同時支持 GPU 顯存、CPU 內存和 NVMe SSD 的高性能分布式緩存系統。KVCache 按訪問熱度在三級間自動流轉:活躍數據駐留顯存,冷數據降級到內存或 SSD,用戶返回時快速恢復。GCache 優先在 GPU 機器上混部,接管節點的部分內存與自帶 SSD,額外存儲成本為零。通過 RDMA 通信實現單進程 170 GB/s 讀吞吐、280μs 延遲。結合 SWA 的極小存儲占用,相同成本下可承載的緩存量成倍提升,KVCache 被迫淘汰的壓力大幅降低,留存窗口顯著延長 —— 緩存命中率由此水漲船高。 將上述三項優化綜合來看:SWA 把緩存體積壓到 1/7 是容量層面的收益,前綴緩存重構和 GCache 帶來的高命中率是復用層面的收益。兩者相乘,才是 Prefill 階段實際計算成本的真實曲線。 調度與 Prefill 優化:讓省下的空間真正用起來 緩存省下來了、復用率也上去了,但如果調度和計算鏈路不做相應適配,省出來的顯存空間和算力余量就只是“紙面富余”。 KVCache 親和與優先調度。Agentic 場景下,請求長度差異巨大。傳統 FCFS 調度不區分命中率高低、計算量大小,導致緩存命中率高但實際計算量小的請求被長請求阻塞。我們在 Router 側實現 KVCache 親和調度 —— 優先選擇已緩存當前請求前綴的節點,同時兼顧負載均衡,L2 緩存命中率提升約 25%。同時引入計算量感知優先調度,優先處理真實計算 token 數更少的請求,輔以等待時間懲罰機制避免饑餓。TTFT P90 降低 30%。 調度把請求送到了正確的節點,接下來是 Prefill 鏈路本身的計算效率。 EP 縮減與分桶策略。SWA KVCache 優化使 GPU 卡顯存余量大幅增加,我們將 Expert Parallelism 縮減至原先的 1/2—— 跨機通信更少、負載差異更小、每臺機器承載 expert 更多,端到端 Prefill 性能提升約 40%。同時采用三級長度分桶策略(0–64K / 64K–256K / 256K–1M),將負載特征相近的請求聚合調度,避免短請求被長請求拖慢,顯著提升線上 Prefill 平均吞吐。 Decode 加速與多模態優化:讓生成速度真正快起來 Prefill 完成后進入 Decode 階段 —— 逐 token 輸出。這一階段的核心瓶頸與 Prefill 不同:不是計算量大,而是顯存被 KVCache 占滿導致 batch size 無法擴展,GPU 算力打不滿。 顯存擴容與 MTP 投機解碼。Decode 端 KVCache 完整支持 SWA 后,有效容量提升近 5 倍,結合 CUDA Graph 顯存調優與 PD 分離中的預分配優化,單節點并發能力顯著增強。MiMo-V2.5 原生支持 3 層 MTP(Multi-Token Prediction)加速輸出 —— 模型每步并行預測多個候選 token,驗證通過后一次性輸出。通過在 Prefill 階段引入 MTP 并完成 HiCache 多級適配,前 128 token 加速比達到 2.3×,128–256 token 達到 1.5×。Agentic 場景下大部分輸出序列較短,該優化直接降低了真實 Decode 成本。 文本推理之外,多模態推理鏈路同樣是用戶體驗的關鍵環節。 多模態鏈路并行化。MiMo-V2.5 系列支持視覺、音頻、視頻跨模態理解。Encoder 支持跨請求組 Batch,多個請求的 image / audio 融合為一次 Forward 再按請求切分返回;圖片預處理遷移至 GPU 消除大圖場景下 CPU 瓶頸;視頻解碼切分為多 chunk 多線程并行處理,1 小時視頻端到端延時從 156 秒降至 23 秒。通過一致性哈希和機內共享內存實現 Embedding 緩存共享,整體 Encoder 吞吐提升至 2 倍。3、讓 Hybrid SWA 被更多人用起來
MiMo-V2.5 系列的推理效率并非來自某一環節的單點突破,而是多維度協同優化的結果。Hybrid SWA 讓 Prefill 與 Decode 同時受益,但未經充分優化的 KVCache 實現反而會在各環節抬高成本。 圍繞這一核心矛盾,我們系統性重構了 KVCache 管理、分級緩存、前綴緩存樹、調度策略及 Prefill / Decode 鏈路,攻克 SWA KVCache 的核心工程問題并經線上真實場景檢驗,最終將其理論效率優勢真正兌現到生產環境。再結合 MoE 配置與多模態推理的系統性優化,整體線上推理服務性能得到顯著提升。 至此,Hybrid SWA 才真正展現出它應有的樣子:一個在長文推理上兼具強度與效率的模型架構。 作為首篇全面覆蓋 Hybrid SWA + MoE + 多模態組合架構的大規模工程落地方案,我們將由此節省的成本以 API 降價回饋用戶。同時,我們已將部分優化以 PR 形式回饋 SGLang 開源社區,并將持續推進更多開源計劃,希望讓工程優化不再成為門檻,使這類兼具強度與效率的復合架構得到更廣泛的探索與應用。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.