![]()
6月9日小米放出一則重磅AI技術消息,MiMo團隊聯合TileRT推理團隊完成重大突破:萬億參數旗艦模型MiMo-V2.5-Pro推出UltraSpeed極速模式,在普通8卡商用GPU服務器上,輸出速度穩穩突破1000tokens/s。雷軍親自在微博官宣這一進展,不同于行業里靠定制專用芯片堆速度的路線,小米全程使用市面上流通的標準硬件,用模型算法+底層推理系統雙向打磨,拿下萬億參數模型千速推理的行業紀錄。更快的生成速度不只是數字好看,更能改寫代碼開發、實時風控、醫療輔助等一大批AI落地場景的運行邏輯,國產大模型的實時化落地門檻被大幅壓低。
![]()
一、1000tokens/s到底有多快?直觀對比看懂差距
很多人對token單位沒有概念,簡單類比:1個token大約對應1-2個漢字、0.75個英文單詞,1000tokens/s等同于每秒輸出上千個漢字,是普通人打字速度的200倍有余。
拿實際任務對比差距更清晰:制作一套帶動態動畫、多圖表、告警模塊的AI運營可視化大屏,標準版MiMo-V2.5-Pro要6分15秒才能完成,UltraSpeed極速版僅13秒,同等畫面效果下最高提速28倍。還有兩個極具沖擊力的演示效果,10秒就能生成完整貪吃蛇小游戲代碼,1分鐘復刻一套macOS系統頁面架構,全程不用人工分步調試。
放到行業橫向對比,差距一目了然。海外主流旗艦模型里,GPT-5.5速度約68tokens/s,ClaudeOpus4.6僅71tokens/s,主打高速的GeminiFlash也只有192tokens/s。此前TileRT和智譜合作優化的GLM-5.1高速版,創下彼時國產API速度天花板400tokens/s,如今小米直接把數值拉高兩倍半。
速度提升帶來最直接的體驗變化:以往打開AI寫代碼、做復雜系統搭建,動輒等待幾分鐘,現在輸入指令幾乎秒出完整成果,長時間等待的卡頓感徹底消失。官方給出通俗總結:3倍定價,換來10倍左右的輸出提速,性價比適配追求高效產出的企業開發者。
二、不靠特制芯片,通用GPU跑出極限算力
行業里想拉高大模型推理速度,主流路線是砸重金定制專用硬件:Cerebras晶圓級芯片、Groq片上存儲芯片,靠硬件底層架構重構換取低延遲、高吞吐,但定制芯片成本高昂、通用性極差,普通中小企業根本負擔不起部署成本。
小米全程走通用硬件優化路線,一臺隨處可采購的標準8卡GPU節點,就是跑出1000tokens/s的全部硬件基礎,核心靠模型側、系統側兩套技術雙向協同打磨。
1.FP4精準量化:模型瘦身,實力不縮水
萬億MoE混合專家架構的模型,最大負擔就是海量參數帶來的顯存占用、數據搬運帶寬壓力。如果全量用8比特、16比特精度運行,8卡GPU很容易被占滿,算力大半耗在數據傳輸上而非計算。
小米沒有一刀切整體壓縮,采用差異化MXFP4量化方案:只對數量龐大、精度容錯高的專家模塊做4比特壓縮,模型主干、注意力等核心模塊保留高精度,搭配量化感知訓練微調補償精度損耗。壓縮后模型體積大幅縮小,GPU來回搬運數據的開銷驟降,整體智能水平和原版旗艦模型幾乎沒有差別,完美平衡體積、速度、能力三者關系。
![]()
2.DFlash塊級推測解碼:批量預判,不用逐字磨蹭
傳統加速用小草稿模型逐一生成片段,再交給大模型逐段驗證,一步等一步,串行流程拖慢整體速度。DFlash徹底改掉串行邏輯,草稿模型一次并行生成一整塊token內容,一次性交給萬億大模型校驗。
![]()
針對MiMo萬億MoE長文本特性,團隊額外做兩層適配:草稿模型搭載滑動窗口注意力,上下文變長也不會讓算力消耗線性暴漲;訓練信號下沉到單GPU分片,省去多卡通信損耗。實測代碼場景表現亮眼,每輪校驗8個預判token,平均能接納6.3個,最高樣本接納7.14個,相當于每一次驗證就能確認一大段有效內容。目前通用閑聊場景接納率還有提升空間,團隊仍在迭代優化。
3.TileRT定制推理內核:消滅計算間隙,榨干GPU性能
算法再好,沒有適配的底層系統也發揮不出實力,TileRT專門為FP4量化、DFlash解碼重寫整套編譯引擎與計算核。傳統推理框架是算完一個算子、停下調度再跑下一個,微秒級的啟停空隙堆積起來就是巨大延遲。
TileRT換成常駐內核模式,整條計算流水線一直留在GPU內部持續運轉,數據搬運、張量計算、跨卡通信拆分成精細微型任務,不同線程束同步協作,計算和數據傳輸完全重疊。軟硬件深度對齊后,1000tokens/s高負載運轉下,GPU算力沒有一絲無謂浪費,形成完整高效的閉環運行體系。
三、極速推理落地:四大場景迎來模式變革
每秒千token不只是跑分數字,它會實實在在改變AI的商用玩法,很多過去受延遲限制無法落地的模式,現在具備實操條件。
第一,解放編程Agent生產力。程序員調試系統、重構工程、批量寫頁面代碼時,不用蹲守幾分鐘等待模型輸出,實時補全、多方案對比一鍵生成,單人開發效率成倍拉高,也是本次技術優化表現最好的場景。
第二,搭建毫秒級實時決策閉環。高頻量化交易信號篩選、平臺瞬時反欺詐攔截、線上智能競價、真人實時對話交互,這些場景容不得幾秒延遲,萬億大模型以前只能做離線分析,如今能接入即時響應鏈路,決策質量和速度兼顧。
第三,醫療輔助提速增效。手術實時輔助判斷、大批量醫療影像病灶篩查,更快的AI分析結果能給醫生留出更多處置、研判時間,尤其急診場景價值突出。
第四,用速度換思考深度。同等等待時長里,模型可以并行跑多條推理路徑,自動對比糾錯篩選最優答案,靠超高吞吐提升邏輯嚴謹度、減少幻覺問題,復雜邏輯問答、方案規劃質量顯著提升。
四、開放政策與開源進度,門檻逐步放開
目前UltraSpeed模式采用申請限時體驗,開放周期從6月9日至6月23日,審核通過的開發者能領取兩周免費Chat測試額度。線上配套兩套入口,API調用平臺與獨立極速對話頁面均可接入測試。
定價規則清晰對標標準版:MiMo-V2.5-Pro標準版緩存命中輸入0.025元/百萬token、未命中3元、輸出6元;極速版對應價格翻三倍,緩存命中0.075元、未命中9元、輸出18元,僅開放API調用,暫不支持Token包月套餐。
開源層面同步落地,MiMo-V2.5-Pro-FP4-DFlash完整權重、量化參數、DFlash配置文件已經上傳HuggingFace平臺,開發者可以自行下載部署調試,后續還會推出適配更多環境的極致推理適配包。
五、通用硬件路線,降低行業普及成本
小米這次突破最大的行業意義,不在于單純刷新速度紀錄,而是證明高性能萬億大模型不用綁定昂貴定制芯片。對比Cerebras、Groq的專屬硬件路線,通用GPU優化方案硬件采購、運維成本更低,中小型科技公司、垂直行業廠商不用投入巨額硬件預算,就能部署高吞吐旗艦大模型。
客觀來看這項技術還有短板:高接納速度穩定集中在代碼這類結構化任務,開放式閑聊、創意寫作場景優化空間很大;極速節點資源有限,申請制開放也說明大規模全量商用還需要時間打磨擴容。但不可否認,1000tokens/s是國產萬億大模型邁向實時普惠應用的關鍵一步,后續隨著迭代優化,極速推理會慢慢變成企業AI服務的常規配置。
國產大模型競爭早已不只是比參數、比測評分數,推理效率、落地成本、軟硬件協同工程能力,正在成為決定長期競爭力的核心戰場,小米MiMo這一步,給整個行業提供了一條更務實、可復制的提速路徑。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.