網易首頁 > 網易號 > 正文申請入駐

小米AI狂飆！8張GPU跑出千億模型千Token極速，3倍價換10倍速度

2026-06-10 14:05:19　來源: 魏家東

北京舉報

分享至

6月9日小米放出一則重磅AI技術消息，MiMo團隊聯合TileRT推理團隊完成重大突破：萬億參數旗艦模型MiMo-V2.5-Pro推出UltraSpeed極速模式，在普通8卡商用GPU服務器上，輸出速度穩穩突破1000tokens/s。雷軍親自在微博官宣這一進展，不同于行業里靠定制專用芯片堆速度的路線，小米全程使用市面上流通的標準硬件，用模型算法+底層推理系統雙向打磨，拿下萬億參數模型千速推理的行業紀錄。更快的生成速度不只是數字好看，更能改寫代碼開發、實時風控、醫療輔助等一大批AI落地場景的運行邏輯，國產大模型的實時化落地門檻被大幅壓低。

一、1000tokens/s到底有多快？直觀對比看懂差距

很多人對token單位沒有概念，簡單類比：1個token大約對應1-2個漢字、0.75個英文單詞，1000tokens/s等同于每秒輸出上千個漢字，是普通人打字速度的200倍有余。

拿實際任務對比差距更清晰：制作一套帶動態動畫、多圖表、告警模塊的AI運營可視化大屏，標準版MiMo-V2.5-Pro要6分15秒才能完成，UltraSpeed極速版僅13秒，同等畫面效果下最高提速28倍。還有兩個極具沖擊力的演示效果，10秒就能生成完整貪吃蛇小游戲代碼，1分鐘復刻一套macOS系統頁面架構，全程不用人工分步調試。

放到行業橫向對比，差距一目了然。海外主流旗艦模型里，GPT-5.5速度約68tokens/s，ClaudeOpus4.6僅71tokens/s，主打高速的GeminiFlash也只有192tokens/s。此前TileRT和智譜合作優化的GLM-5.1高速版，創下彼時國產API速度天花板400tokens/s，如今小米直接把數值拉高兩倍半。

速度提升帶來最直接的體驗變化：以往打開AI寫代碼、做復雜系統搭建，動輒等待幾分鐘，現在輸入指令幾乎秒出完整成果，長時間等待的卡頓感徹底消失。官方給出通俗總結：3倍定價，換來10倍左右的輸出提速，性價比適配追求高效產出的企業開發者。

二、不靠特制芯片，通用GPU跑出極限算力

行業里想拉高大模型推理速度，主流路線是砸重金定制專用硬件：Cerebras晶圓級芯片、Groq片上存儲芯片，靠硬件底層架構重構換取低延遲、高吞吐，但定制芯片成本高昂、通用性極差，普通中小企業根本負擔不起部署成本。

小米全程走通用硬件優化路線，一臺隨處可采購的標準8卡GPU節點，就是跑出1000tokens/s的全部硬件基礎，核心靠模型側、系統側兩套技術雙向協同打磨。

1.FP4精準量化：模型瘦身，實力不縮水

萬億MoE混合專家架構的模型，最大負擔就是海量參數帶來的顯存占用、數據搬運帶寬壓力。如果全量用8比特、16比特精度運行，8卡GPU很容易被占滿，算力大半耗在數據傳輸上而非計算。

小米沒有一刀切整體壓縮，采用差異化MXFP4量化方案：只對數量龐大、精度容錯高的專家模塊做4比特壓縮，模型主干、注意力等核心模塊保留高精度，搭配量化感知訓練微調補償精度損耗。壓縮后模型體積大幅縮小，GPU來回搬運數據的開銷驟降，整體智能水平和原版旗艦模型幾乎沒有差別，完美平衡體積、速度、能力三者關系。

2.DFlash塊級推測解碼：批量預判，不用逐字磨蹭

傳統加速用小草稿模型逐一生成片段，再交給大模型逐段驗證，一步等一步，串行流程拖慢整體速度。DFlash徹底改掉串行邏輯，草稿模型一次并行生成一整塊token內容，一次性交給萬億大模型校驗。

針對MiMo萬億MoE長文本特性，團隊額外做兩層適配：草稿模型搭載滑動窗口注意力，上下文變長也不會讓算力消耗線性暴漲；訓練信號下沉到單GPU分片，省去多卡通信損耗。實測代碼場景表現亮眼，每輪校驗8個預判token，平均能接納6.3個，最高樣本接納7.14個，相當于每一次驗證就能確認一大段有效內容。目前通用閑聊場景接納率還有提升空間，團隊仍在迭代優化。

3.TileRT定制推理內核：消滅計算間隙，榨干GPU性能

算法再好，沒有適配的底層系統也發揮不出實力，TileRT專門為FP4量化、DFlash解碼重寫整套編譯引擎與計算核。傳統推理框架是算完一個算子、停下調度再跑下一個，微秒級的啟停空隙堆積起來就是巨大延遲。

TileRT換成常駐內核模式，整條計算流水線一直留在GPU內部持續運轉，數據搬運、張量計算、跨卡通信拆分成精細微型任務，不同線程束同步協作，計算和數據傳輸完全重疊。軟硬件深度對齊后，1000tokens/s高負載運轉下，GPU算力沒有一絲無謂浪費，形成完整高效的閉環運行體系。

三、極速推理落地：四大場景迎來模式變革

每秒千token不只是跑分數字，它會實實在在改變AI的商用玩法，很多過去受延遲限制無法落地的模式，現在具備實操條件。

第一，解放編程Agent生產力。程序員調試系統、重構工程、批量寫頁面代碼時，不用蹲守幾分鐘等待模型輸出，實時補全、多方案對比一鍵生成，單人開發效率成倍拉高，也是本次技術優化表現最好的場景。

第二，搭建毫秒級實時決策閉環。高頻量化交易信號篩選、平臺瞬時反欺詐攔截、線上智能競價、真人實時對話交互，這些場景容不得幾秒延遲，萬億大模型以前只能做離線分析，如今能接入即時響應鏈路，決策質量和速度兼顧。

第三，醫療輔助提速增效。手術實時輔助判斷、大批量醫療影像病灶篩查，更快的AI分析結果能給醫生留出更多處置、研判時間，尤其急診場景價值突出。

第四，用速度換思考深度。同等等待時長里，模型可以并行跑多條推理路徑，自動對比糾錯篩選最優答案，靠超高吞吐提升邏輯嚴謹度、減少幻覺問題，復雜邏輯問答、方案規劃質量顯著提升。

四、開放政策與開源進度，門檻逐步放開

目前UltraSpeed模式采用申請限時體驗，開放周期從6月9日至6月23日，審核通過的開發者能領取兩周免費Chat測試額度。線上配套兩套入口，API調用平臺與獨立極速對話頁面均可接入測試。

定價規則清晰對標標準版：MiMo-V2.5-Pro標準版緩存命中輸入0.025元/百萬token、未命中3元、輸出6元；極速版對應價格翻三倍，緩存命中0.075元、未命中9元、輸出18元，僅開放API調用，暫不支持Token包月套餐。

開源層面同步落地，MiMo-V2.5-Pro-FP4-DFlash完整權重、量化參數、DFlash配置文件已經上傳HuggingFace平臺，開發者可以自行下載部署調試，后續還會推出適配更多環境的極致推理適配包。

五、通用硬件路線，降低行業普及成本

小米這次突破最大的行業意義，不在于單純刷新速度紀錄，而是證明高性能萬億大模型不用綁定昂貴定制芯片。對比Cerebras、Groq的專屬硬件路線，通用GPU優化方案硬件采購、運維成本更低，中小型科技公司、垂直行業廠商不用投入巨額硬件預算，就能部署高吞吐旗艦大模型。

客觀來看這項技術還有短板：高接納速度穩定集中在代碼這類結構化任務，開放式閑聊、創意寫作場景優化空間很大；極速節點資源有限，申請制開放也說明大規模全量商用還需要時間打磨擴容。但不可否認，1000tokens/s是國產萬億大模型邁向實時普惠應用的關鍵一步，后續隨著迭代優化，極速推理會慢慢變成企業AI服務的常規配置。

國產大模型競爭早已不只是比參數、比測評分數，推理效率、落地成本、軟硬件協同工程能力，正在成為決定長期競爭力的核心戰場，小米MiMo這一步，給整個行業提供了一條更務實、可復制的提速路徑。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.