无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

小米MiMo首次公開模型推理系統全鏈路優化技術細節

0
分享至

IT之家 5 月 30 日消息,5 月 27 日,小米 MiMo-V2.5 系列 API 完成永久降價,最高降幅達 99%,不區分輸入長度。今日,小米正式公開 MiMo-V2.5 系列模型的推理系統全鏈路優化方案。


據介紹,該團隊圍繞 Hybrid SWA + MoE + 多模態的復合架構,系統性重構了從 KVCache 管理、分級緩存、前綴緩存到調度策略與 Prefill / Decode 鏈路的完整推理棧,KVCache 存儲壓縮至同級方案的約 1/7,在長序列場景下推理成本大幅下降 —— 這是本次降價的核心技術基礎。

這也是業內首篇全面覆蓋 Hybrid SWA + MoE + 多模態組合架構的大規模工程落地方案。模型能力沒有任何縮減 —— 精進的是推理系統工程能力本身:同一個模型,相同硬件,更高吞吐,更低延遲,可以服務更多人


IT之家附主要內容如下:1、為什么選擇 Hybrid SWA 架構?

大模型推理的核心開銷來自 KVCache。模型生成每一個 token 時,需要將全部歷史上下文以鍵值對形式緩存在 GPU 顯存中。上下文越長,緩存越大,可并發請求越少,單次推理成本越高。這是當前所有大模型服務共同面對的核心經濟約束。 MiMo-V2.5-Pro 的設計選擇是從架構層面打破這一約束。70 層 Transformer 中,僅 10 層使用 Full Attention(完整注意力),其余 60 層使用 Sliding Window Attention(滑動窗口大小 128 token)。絕大部分網絡層只需存儲最近 128 個 token 的信息,整體 KVCache 存儲需求降至全 Full Attention 方案的約 1/7。 同時,由于 SWA 層的注意力計算量也從全序列縮減到窗口大小,Prefill 階段的計算成本同樣降至約 1/7。Decode 階段的延遲與 KVCache 讀取量正相關,長序列場景下這一存儲壓縮幾乎直接等價于推理成本的等比例下降。兩者疊加,Hybrid SWA 在 Prefill 和 Decode 階段同時受益。短文場景性價比接近,序列越長,推理成本優勢越大。 但架構上的“應該省”和線上的“真的省”之間,隔著一整套推理系統的適配工程。 MiMo-V2 系列上線之初,主流開源推理框架對 SWA 的支持并不完整 —— 早期實現實質上是“以存儲 Full KVCache 的代價來兼容 SWA”。Hybrid SWA 顯著增加了緩存命中判定、前綴匹配、雙語義一致性維護的復雜度;在真實系統中,多級存儲的數據搬運、異步預取與分布式緩存狀態的一致性問題,共同使理論收益難以直接落地。我們需要讓推理系統真正“理解” Hybrid SWA 的存儲特性,將每一項理論優勢逐一兌現為工程收益。
2、工程化實踐,從“理論上省”到“真的省”
明確了 Hybrid SWA 在架構層面“能省多少”之后,接下來的挑戰是:如何讓推理系統真正適配它的特性,把架構優勢轉化為真實的效率提升? 我們的工作圍繞三個遞進的問題展開:緩存能不能真正省下來?省下來的空間能不能真正用起來?最終的生成速度能不能真正快起來? KVCache 系統重構:讓緩存真正省下來 要兌現 Hybrid SWA 的效率優勢,第一步是讓 KVCache 管理系統真正區分兩種截然不同的緩存需求。 雙池分治。傳統推理系統為所有層統一分配 KVCache 空間,按最大需求配置。我們將 KVCache 拆分為 Full KV Pool 與 SWA KV Pool 兩個獨立池:Full KV Pool 按需增長、長期保存;SWA KV Pool 僅按窗口大小配置容量,采用環形緩沖區設計,支持基于窗口的獨立淘汰,存儲嚴格限制在 O (W) 規模。對上層調度器和前綴樹仍暴露統一序列視圖,由 Full Attention 索引作為權威索引并維護到 SWA 的映射關系。通過這一設計,KVCache 容量效率實現約 7 倍提升。SWA 層的 KVCache 預取可在 layerwise 粒度實現完美 overlap,Cache 讀取成本接近于零。 存儲省下來了,下一個問題是:已經算過的結果能不能復用?這取決于前綴緩存能否在 SWA 模式下正確工作。 前綴緩存樹重構。傳統前綴緩存的匹配規則建立在“token 序列相等 → KV 也相等”這一假設上 —— 在 SWA 模式下這條假設被打破了。前綴樹節點的邏輯生命周期與 SWA KV 的物理生命周期不一致,一個節點對應的 SWA KV 可能只剩尾部一小段甚至已完全被釋放,傳統規則會給出“偽命中”。我們從三處改造前綴樹語義:將匹配規則升級為“窗口安全長度”(尾部至少 W 個 token 仍有有效 slot);將淘汰路徑與請求生命周期綁定,確保 SWA 池占用恒定在窗口量級;每個節點同時承載 Full Attention 段索引與 SWA 段映射,支持獨立淘汰策略。線上前綴緩存命中率平均達到 93%,高頻用戶超過 95%。 解決了“算過的能復用”之后,還有一個現實問題:用戶對話有時間間隔,緩存放在顯存里太貴,丟掉又要重算。 GCache 三級緩存。小米存儲團隊自研 GCache—— 同時支持 GPU 顯存、CPU 內存和 NVMe SSD 的高性能分布式緩存系統。KVCache 按訪問熱度在三級間自動流轉:活躍數據駐留顯存,冷數據降級到內存或 SSD,用戶返回時快速恢復。GCache 優先在 GPU 機器上混部,接管節點的部分內存與自帶 SSD,額外存儲成本為零。通過 RDMA 通信實現單進程 170 GB/s 讀吞吐、280μs 延遲。結合 SWA 的極小存儲占用,相同成本下可承載的緩存量成倍提升,KVCache 被迫淘汰的壓力大幅降低,留存窗口顯著延長 —— 緩存命中率由此水漲船高。 將上述三項優化綜合來看:SWA 把緩存體積壓到 1/7 是容量層面的收益,前綴緩存重構和 GCache 帶來的高命中率是復用層面的收益。兩者相乘,才是 Prefill 階段實際計算成本的真實曲線。 調度與 Prefill 優化:讓省下的空間真正用起來 緩存省下來了、復用率也上去了,但如果調度和計算鏈路不做相應適配,省出來的顯存空間和算力余量就只是“紙面富余”。 KVCache 親和與優先調度。Agentic 場景下,請求長度差異巨大。傳統 FCFS 調度不區分命中率高低、計算量大小,導致緩存命中率高但實際計算量小的請求被長請求阻塞。我們在 Router 側實現 KVCache 親和調度 —— 優先選擇已緩存當前請求前綴的節點,同時兼顧負載均衡,L2 緩存命中率提升約 25%。同時引入計算量感知優先調度,優先處理真實計算 token 數更少的請求,輔以等待時間懲罰機制避免饑餓。TTFT P90 降低 30%。 調度把請求送到了正確的節點,接下來是 Prefill 鏈路本身的計算效率。 EP 縮減與分桶策略。SWA KVCache 優化使 GPU 卡顯存余量大幅增加,我們將 Expert Parallelism 縮減至原先的 1/2—— 跨機通信更少、負載差異更小、每臺機器承載 expert 更多,端到端 Prefill 性能提升約 40%。同時采用三級長度分桶策略(0–64K / 64K–256K / 256K–1M),將負載特征相近的請求聚合調度,避免短請求被長請求拖慢,顯著提升線上 Prefill 平均吞吐。 Decode 加速與多模態優化:讓生成速度真正快起來 Prefill 完成后進入 Decode 階段 —— 逐 token 輸出。這一階段的核心瓶頸與 Prefill 不同:不是計算量大,而是顯存被 KVCache 占滿導致 batch size 無法擴展,GPU 算力打不滿。 顯存擴容與 MTP 投機解碼。Decode 端 KVCache 完整支持 SWA 后,有效容量提升近 5 倍,結合 CUDA Graph 顯存調優與 PD 分離中的預分配優化,單節點并發能力顯著增強。MiMo-V2.5 原生支持 3 層 MTP(Multi-Token Prediction)加速輸出 —— 模型每步并行預測多個候選 token,驗證通過后一次性輸出。通過在 Prefill 階段引入 MTP 并完成 HiCache 多級適配,前 128 token 加速比達到 2.3×,128–256 token 達到 1.5×。Agentic 場景下大部分輸出序列較短,該優化直接降低了真實 Decode 成本。 文本推理之外,多模態推理鏈路同樣是用戶體驗的關鍵環節。 多模態鏈路并行化。MiMo-V2.5 系列支持視覺、音頻、視頻跨模態理解。Encoder 支持跨請求組 Batch,多個請求的 image / audio 融合為一次 Forward 再按請求切分返回;圖片預處理遷移至 GPU 消除大圖場景下 CPU 瓶頸;視頻解碼切分為多 chunk 多線程并行處理,1 小時視頻端到端延時從 156 秒降至 23 秒。通過一致性哈希和機內共享內存實現 Embedding 緩存共享,整體 Encoder 吞吐提升至 2 倍。
3、讓 Hybrid SWA 被更多人用起來
MiMo-V2.5 系列的推理效率并非來自某一環節的單點突破,而是多維度協同優化的結果。Hybrid SWA 讓 Prefill 與 Decode 同時受益,但未經充分優化的 KVCache 實現反而會在各環節抬高成本。 圍繞這一核心矛盾,我們系統性重構了 KVCache 管理、分級緩存、前綴緩存樹、調度策略及 Prefill / Decode 鏈路,攻克 SWA KVCache 的核心工程問題并經線上真實場景檢驗,最終將其理論效率優勢真正兌現到生產環境。再結合 MoE 配置與多模態推理的系統性優化,整體線上推理服務性能得到顯著提升。 至此,Hybrid SWA 才真正展現出它應有的樣子:一個在長文推理上兼具強度與效率的模型架構。 作為首篇全面覆蓋 Hybrid SWA + MoE + 多模態組合架構的大規模工程落地方案,我們將由此節省的成本以 API 降價回饋用戶。同時,我們已將部分優化以 PR 形式回饋 SGLang 開源社區,并將持續推進更多開源計劃,希望讓工程優化不再成為門檻,使這類兼具強度與效率的復合架構得到更廣泛的探索與應用。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
男人和女人誰更渴望性?

男人和女人誰更渴望性?

宇宙時空
2026-05-30 13:50:10
中國6000萬簽下世界杯后,第一個心態崩掉的國家出現:只有2000萬

中國6000萬簽下世界杯后,第一個心態崩掉的國家出現:只有2000萬

混沌錄
2026-05-19 23:49:35
恩里克歐冠封神!帶隊2年連克7豪門奪2冠,給姆巴佩開小灶他不聽

恩里克歐冠封神!帶隊2年連克7豪門奪2冠,給姆巴佩開小灶他不聽

體育知多少
2026-05-31 05:12:05
56歲天后放話:20年后再穿經典綠裙,詹妮弗·洛佩茲的承諾讓全場沸騰

56歲天后放話:20年后再穿經典綠裙,詹妮弗·洛佩茲的承諾讓全場沸騰

生活觀察員啊
2026-05-31 01:33:38
早知道|巴黎圣日耳曼成第二支衛冕歐冠球隊

早知道|巴黎圣日耳曼成第二支衛冕歐冠球隊

北青網-北京青年報
2026-05-31 08:10:09
塔帥:加布請纓第5球 賴斯:我們不像拜仁那樣踢

塔帥:加布請纓第5球 賴斯:我們不像拜仁那樣踢

體壇周報
2026-05-31 06:46:27
央視官宣:世界杯版權分銷咪咕+小紅書,總價超30億!抖音沒購買

央視官宣:世界杯版權分銷咪咕+小紅書,總價超30億!抖音沒購買

開成運動會
2026-05-30 23:55:52
工友都勸我別娶非洲本地姑娘,我不信,洞房夜我才徹底明白

工友都勸我別娶非洲本地姑娘,我不信,洞房夜我才徹底明白

千秋文化
2026-05-29 19:46:33
古代犯人發配需要衙役押送,往返幾千里路,衙役是不是也很遭罪?

古代犯人發配需要衙役押送,往返幾千里路,衙役是不是也很遭罪?

小豫講故事
2026-05-29 06:00:15
“一米高度”丈量發展溫度(視線)

“一米高度”丈量發展溫度(視線)

人民網
2026-05-30 09:05:01
《新聞聯播》滬甬通道的這一規劃圖紙,一石激起千層浪

《新聞聯播》滬甬通道的這一規劃圖紙,一石激起千層浪

天袁地訪
2026-05-30 12:45:44
66歲安帥暴怒 感覺被耍得團團轉 警告內馬爾:14天后還有傷就走人

66歲安帥暴怒 感覺被耍得團團轉 警告內馬爾:14天后還有傷就走人

風過鄉
2026-05-30 08:33:24
中超瘋狂夜!積分榜亂了:申花爆大冷,成都穩坐榜首,5隊僅差1分

中超瘋狂夜!積分榜亂了:申花爆大冷,成都穩坐榜首,5隊僅差1分

去山野間追風
2026-05-31 04:42:10
王鶴棣沒想到,心中這口惡氣竟讓官媒給出了,沈月也能松口氣

王鶴棣沒想到,心中這口惡氣竟讓官媒給出了,沈月也能松口氣

LULU生活家
2026-05-30 18:01:01
主持人“鞠萍姐姐”6月1日正式退休

主持人“鞠萍姐姐”6月1日正式退休

極目新聞
2026-05-30 14:28:53
趙睿離開北京,是首鋼本賽季最大的遺憾

趙睿離開北京,是首鋼本賽季最大的遺憾

茶余飯后說體育
2026-05-30 18:34:31
還敢去全季酒店過夜嗎

還敢去全季酒店過夜嗎

不正確
2026-05-28 23:04:54
乒乓德甲官網:樊振東全程掌控節奏,5500名球迷觀賽不少來自中國

乒乓德甲官網:樊振東全程掌控節奏,5500名球迷觀賽不少來自中國

楊華評論
2026-05-31 04:27:37
警惕年輕人找不到工作正在被娛樂化、污名化!

警惕年輕人找不到工作正在被娛樂化、污名化!

燈錦年
2026-05-16 12:56:25
女子網約車排泄后續,身份囂張,司機財路被斷,處理結果窩囊至極

女子網約車排泄后續,身份囂張,司機財路被斷,處理結果窩囊至極

童童聊娛樂啊
2026-05-30 19:30:05
2026-05-31 08:24:49
IT之家
IT之家
愛科技,愛這里 - 前沿科技人氣平臺
347051文章數 607256關注度
往期回顧 全部

科技要聞

車圈大佬發聲:價格戰遠去,但競爭仍殘酷

頭條要聞

兩名9歲女孩被困電梯近2小時 求救幾十次物業無動于衷

頭條要聞

兩名9歲女孩被困電梯近2小時 求救幾十次物業無動于衷

體育要聞

巴黎再度捧起歐冠獎杯 槍手眾將黯然神傷

娛樂要聞

張碧晨《歌手》 “活人微死” 自嘲

財經要聞

雙匯管不住一頭豬

汽車要聞

900V+3.2秒破百 領克10+&領克10上市16.99萬元起

態度原創

健康
家居
房產
教育
公開課

嘗試干細胞療法如何避免踩坑?

家居要聞

云棲 舒展如流云

房產要聞

紅動五月!全國搶入核心資產,廣州盯緊凱旋新世界!

教育要聞

氧化還原反應方程式的配平

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版