網易首頁 > 網易號 > 正文申請入駐

小米MiMo首次公開模型推理系統全鏈路優化技術細節

2026-05-30 19:36:11　來源: IT之家

山東舉報

分享至

IT之家 5 月 30 日消息，5 月 27 日，小米 MiMo-V2.5 系列 API 完成永久降價，最高降幅達 99%，不區分輸入長度。今日，小米正式公開 MiMo-V2.5 系列模型的推理系統全鏈路優化方案。

據介紹，該團隊圍繞 Hybrid SWA + MoE + 多模態的復合架構，系統性重構了從 KVCache 管理、分級緩存、前綴緩存到調度策略與 Prefill / Decode 鏈路的完整推理棧，KVCache 存儲壓縮至同級方案的約 1/7，在長序列場景下推理成本大幅下降 —— 這是本次降價的核心技術基礎。

這也是業內首篇全面覆蓋 Hybrid SWA + MoE + 多模態組合架構的大規模工程落地方案。模型能力沒有任何縮減 —— 精進的是推理系統工程能力本身：同一個模型，相同硬件，更高吞吐，更低延遲，可以服務更多人。

IT之家附主要內容如下：1、為什么選擇 Hybrid SWA 架構？

大模型推理的核心開銷來自 KVCache。模型生成每一個 token 時，需要將全部歷史上下文以鍵值對形式緩存在 GPU 顯存中。上下文越長，緩存越大，可并發請求越少，單次推理成本越高。這是當前所有大模型服務共同面對的核心經濟約束。 MiMo-V2.5-Pro 的設計選擇是從架構層面打破這一約束。70 層 Transformer 中，僅 10 層使用 Full Attention（完整注意力），其余 60 層使用 Sliding Window Attention（滑動窗口大小 128 token）。絕大部分網絡層只需存儲最近 128 個 token 的信息，整體 KVCache 存儲需求降至全 Full Attention 方案的約 1/7。同時，由于 SWA 層的注意力計算量也從全序列縮減到窗口大小，Prefill 階段的計算成本同樣降至約 1/7。Decode 階段的延遲與 KVCache 讀取量正相關，長序列場景下這一存儲壓縮幾乎直接等價于推理成本的等比例下降。兩者疊加，Hybrid SWA 在 Prefill 和 Decode 階段同時受益。短文場景性價比接近，序列越長，推理成本優勢越大。但架構上的“應該省”和線上的“真的省”之間，隔著一整套推理系統的適配工程。 MiMo-V2 系列上線之初，主流開源推理框架對 SWA 的支持并不完整 —— 早期實現實質上是“以存儲 Full KVCache 的代價來兼容 SWA”。Hybrid SWA 顯著增加了緩存命中判定、前綴匹配、雙語義一致性維護的復雜度；在真實系統中，多級存儲的數據搬運、異步預取與分布式緩存狀態的一致性問題，共同使理論收益難以直接落地。我們需要讓推理系統真正“理解” Hybrid SWA 的存儲特性，將每一項理論優勢逐一兌現為工程收益。

2、工程化實踐，從“理論上省”到“真的省”

明確了 Hybrid SWA 在架構層面“能省多少”之后，接下來的挑戰是：如何讓推理系統真正適配它的特性，把架構優勢轉化為真實的效率提升？我們的工作圍繞三個遞進的問題展開：緩存能不能真正省下來？省下來的空間能不能真正用起來？最終的生成速度能不能真正快起來？ KVCache 系統重構：讓緩存真正省下來要兌現 Hybrid SWA 的效率優勢，第一步是讓 KVCache 管理系統真正區分兩種截然不同的緩存需求。雙池分治。傳統推理系統為所有層統一分配 KVCache 空間，按最大需求配置。我們將 KVCache 拆分為 Full KV Pool 與 SWA KV Pool 兩個獨立池：Full KV Pool 按需增長、長期保存；SWA KV Pool 僅按窗口大小配置容量，采用環形緩沖區設計，支持基于窗口的獨立淘汰，存儲嚴格限制在 O (W) 規模。對上層調度器和前綴樹仍暴露統一序列視圖，由 Full Attention 索引作為權威索引并維護到 SWA 的映射關系。通過這一設計，KVCache 容量效率實現約 7 倍提升。SWA 層的 KVCache 預取可在 layerwise 粒度實現完美 overlap，Cache 讀取成本接近于零。存儲省下來了，下一個問題是：已經算過的結果能不能復用？這取決于前綴緩存能否在 SWA 模式下正確工作。前綴緩存樹重構。傳統前綴緩存的匹配規則建立在“token 序列相等 → KV 也相等”這一假設上 —— 在 SWA 模式下這條假設被打破了。前綴樹節點的邏輯生命周期與 SWA KV 的物理生命周期不一致，一個節點對應的 SWA KV 可能只剩尾部一小段甚至已完全被釋放，傳統規則會給出“偽命中”。我們從三處改造前綴樹語義：將匹配規則升級為“窗口安全長度”（尾部至少 W 個 token 仍有有效 slot）；將淘汰路徑與請求生命周期綁定，確保 SWA 池占用恒定在窗口量級；每個節點同時承載 Full Attention 段索引與 SWA 段映射，支持獨立淘汰策略。線上前綴緩存命中率平均達到 93%，高頻用戶超過 95%。解決了“算過的能復用”之后，還有一個現實問題：用戶對話有時間間隔，緩存放在顯存里太貴，丟掉又要重算。 GCache 三級緩存。小米存儲團隊自研 GCache—— 同時支持 GPU 顯存、CPU 內存和 NVMe SSD 的高性能分布式緩存系統。KVCache 按訪問熱度在三級間自動流轉：活躍數據駐留顯存，冷數據降級到內存或 SSD，用戶返回時快速恢復。GCache 優先在 GPU 機器上混部，接管節點的部分內存與自帶 SSD，額外存儲成本為零。通過 RDMA 通信實現單進程 170 GB/s 讀吞吐、280μs 延遲。結合 SWA 的極小存儲占用，相同成本下可承載的緩存量成倍提升，KVCache 被迫淘汰的壓力大幅降低，留存窗口顯著延長 —— 緩存命中率由此水漲船高。將上述三項優化綜合來看：SWA 把緩存體積壓到 1/7 是容量層面的收益，前綴緩存重構和 GCache 帶來的高命中率是復用層面的收益。兩者相乘，才是 Prefill 階段實際計算成本的真實曲線。調度與 Prefill 優化：讓省下的空間真正用起來緩存省下來了、復用率也上去了，但如果調度和計算鏈路不做相應適配，省出來的顯存空間和算力余量就只是“紙面富余”。 KVCache 親和與優先調度。Agentic 場景下，請求長度差異巨大。傳統 FCFS 調度不區分命中率高低、計算量大小，導致緩存命中率高但實際計算量小的請求被長請求阻塞。我們在 Router 側實現 KVCache 親和調度 —— 優先選擇已緩存當前請求前綴的節點，同時兼顧負載均衡，L2 緩存命中率提升約 25%。同時引入計算量感知優先調度，優先處理真實計算 token 數更少的請求，輔以等待時間懲罰機制避免饑餓。TTFT P90 降低 30%。調度把請求送到了正確的節點，接下來是 Prefill 鏈路本身的計算效率。 EP 縮減與分桶策略。SWA KVCache 優化使 GPU 卡顯存余量大幅增加，我們將 Expert Parallelism 縮減至原先的 1/2—— 跨機通信更少、負載差異更小、每臺機器承載 expert 更多，端到端 Prefill 性能提升約 40%。同時采用三級長度分桶策略（0–64K / 64K–256K / 256K–1M），將負載特征相近的請求聚合調度，避免短請求被長請求拖慢，顯著提升線上 Prefill 平均吞吐。 Decode 加速與多模態優化：讓生成速度真正快起來 Prefill 完成后進入 Decode 階段 —— 逐 token 輸出。這一階段的核心瓶頸與 Prefill 不同：不是計算量大，而是顯存被 KVCache 占滿導致 batch size 無法擴展，GPU 算力打不滿。顯存擴容與 MTP 投機解碼。Decode 端 KVCache 完整支持 SWA 后，有效容量提升近 5 倍，結合 CUDA Graph 顯存調優與 PD 分離中的預分配優化，單節點并發能力顯著增強。MiMo-V2.5 原生支持 3 層 MTP（Multi-Token Prediction）加速輸出 —— 模型每步并行預測多個候選 token，驗證通過后一次性輸出。通過在 Prefill 階段引入 MTP 并完成 HiCache 多級適配，前 128 token 加速比達到 2.3×，128–256 token 達到 1.5×。Agentic 場景下大部分輸出序列較短，該優化直接降低了真實 Decode 成本。文本推理之外，多模態推理鏈路同樣是用戶體驗的關鍵環節。多模態鏈路并行化。MiMo-V2.5 系列支持視覺、音頻、視頻跨模態理解。Encoder 支持跨請求組 Batch，多個請求的 image / audio 融合為一次 Forward 再按請求切分返回；圖片預處理遷移至 GPU 消除大圖場景下 CPU 瓶頸；視頻解碼切分為多 chunk 多線程并行處理，1 小時視頻端到端延時從 156 秒降至 23 秒。通過一致性哈希和機內共享內存實現 Embedding 緩存共享，整體 Encoder 吞吐提升至 2 倍。

3、讓 Hybrid SWA 被更多人用起來

MiMo-V2.5 系列的推理效率并非來自某一環節的單點突破，而是多維度協同優化的結果。Hybrid SWA 讓 Prefill 與 Decode 同時受益，但未經充分優化的 KVCache 實現反而會在各環節抬高成本。圍繞這一核心矛盾，我們系統性重構了 KVCache 管理、分級緩存、前綴緩存樹、調度策略及 Prefill / Decode 鏈路，攻克 SWA KVCache 的核心工程問題并經線上真實場景檢驗，最終將其理論效率優勢真正兌現到生產環境。再結合 MoE 配置與多模態推理的系統性優化，整體線上推理服務性能得到顯著提升。至此，Hybrid SWA 才真正展現出它應有的樣子：一個在長文推理上兼具強度與效率的模型架構。作為首篇全面覆蓋 Hybrid SWA + MoE + 多模態組合架構的大規模工程落地方案，我們將由此節省的成本以 API 降價回饋用戶。同時，我們已將部分優化以 PR 形式回饋 SGLang 開源社區，并將持續推進更多開源計劃，希望讓工程優化不再成為門檻，使這類兼具強度與效率的復合架構得到更廣泛的探索與應用。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.