无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

小米AI狂飆!8張GPU跑出千億模型千Token極速,3倍價換10倍速度

0
分享至



6月9日小米放出一則重磅AI技術消息,MiMo團隊聯合TileRT推理團隊完成重大突破:萬億參數旗艦模型MiMo-V2.5-Pro推出UltraSpeed極速模式,在普通8卡商用GPU服務器上,輸出速度穩穩突破1000tokens/s。雷軍親自在微博官宣這一進展,不同于行業里靠定制專用芯片堆速度的路線,小米全程使用市面上流通的標準硬件,用模型算法+底層推理系統雙向打磨,拿下萬億參數模型千速推理的行業紀錄。更快的生成速度不只是數字好看,更能改寫代碼開發、實時風控、醫療輔助等一大批AI落地場景的運行邏輯,國產大模型的實時化落地門檻被大幅壓低。



一、1000tokens/s到底有多快?直觀對比看懂差距

很多人對token單位沒有概念,簡單類比:1個token大約對應1-2個漢字、0.75個英文單詞,1000tokens/s等同于每秒輸出上千個漢字,是普通人打字速度的200倍有余。

拿實際任務對比差距更清晰:制作一套帶動態動畫、多圖表、告警模塊的AI運營可視化大屏,標準版MiMo-V2.5-Pro要6分15秒才能完成,UltraSpeed極速版僅13秒,同等畫面效果下最高提速28倍。還有兩個極具沖擊力的演示效果,10秒就能生成完整貪吃蛇小游戲代碼,1分鐘復刻一套macOS系統頁面架構,全程不用人工分步調試。

放到行業橫向對比,差距一目了然。海外主流旗艦模型里,GPT-5.5速度約68tokens/s,ClaudeOpus4.6僅71tokens/s,主打高速的GeminiFlash也只有192tokens/s。此前TileRT和智譜合作優化的GLM-5.1高速版,創下彼時國產API速度天花板400tokens/s,如今小米直接把數值拉高兩倍半。

速度提升帶來最直接的體驗變化:以往打開AI寫代碼、做復雜系統搭建,動輒等待幾分鐘,現在輸入指令幾乎秒出完整成果,長時間等待的卡頓感徹底消失。官方給出通俗總結:3倍定價,換來10倍左右的輸出提速,性價比適配追求高效產出的企業開發者。

二、不靠特制芯片,通用GPU跑出極限算力

行業里想拉高大模型推理速度,主流路線是砸重金定制專用硬件:Cerebras晶圓級芯片、Groq片上存儲芯片,靠硬件底層架構重構換取低延遲、高吞吐,但定制芯片成本高昂、通用性極差,普通中小企業根本負擔不起部署成本。

小米全程走通用硬件優化路線,一臺隨處可采購的標準8卡GPU節點,就是跑出1000tokens/s的全部硬件基礎,核心靠模型側、系統側兩套技術雙向協同打磨。

1.FP4精準量化:模型瘦身,實力不縮水

萬億MoE混合專家架構的模型,最大負擔就是海量參數帶來的顯存占用、數據搬運帶寬壓力。如果全量用8比特、16比特精度運行,8卡GPU很容易被占滿,算力大半耗在數據傳輸上而非計算。

小米沒有一刀切整體壓縮,采用差異化MXFP4量化方案:只對數量龐大、精度容錯高的專家模塊做4比特壓縮,模型主干、注意力等核心模塊保留高精度,搭配量化感知訓練微調補償精度損耗。壓縮后模型體積大幅縮小,GPU來回搬運數據的開銷驟降,整體智能水平和原版旗艦模型幾乎沒有差別,完美平衡體積、速度、能力三者關系。



2.DFlash塊級推測解碼:批量預判,不用逐字磨蹭

傳統加速用小草稿模型逐一生成片段,再交給大模型逐段驗證,一步等一步,串行流程拖慢整體速度。DFlash徹底改掉串行邏輯,草稿模型一次并行生成一整塊token內容,一次性交給萬億大模型校驗。



針對MiMo萬億MoE長文本特性,團隊額外做兩層適配:草稿模型搭載滑動窗口注意力,上下文變長也不會讓算力消耗線性暴漲;訓練信號下沉到單GPU分片,省去多卡通信損耗。實測代碼場景表現亮眼,每輪校驗8個預判token,平均能接納6.3個,最高樣本接納7.14個,相當于每一次驗證就能確認一大段有效內容。目前通用閑聊場景接納率還有提升空間,團隊仍在迭代優化。

3.TileRT定制推理內核:消滅計算間隙,榨干GPU性能

算法再好,沒有適配的底層系統也發揮不出實力,TileRT專門為FP4量化、DFlash解碼重寫整套編譯引擎與計算核。傳統推理框架是算完一個算子、停下調度再跑下一個,微秒級的啟停空隙堆積起來就是巨大延遲。

TileRT換成常駐內核模式,整條計算流水線一直留在GPU內部持續運轉,數據搬運、張量計算、跨卡通信拆分成精細微型任務,不同線程束同步協作,計算和數據傳輸完全重疊。軟硬件深度對齊后,1000tokens/s高負載運轉下,GPU算力沒有一絲無謂浪費,形成完整高效的閉環運行體系。

三、極速推理落地:四大場景迎來模式變革

每秒千token不只是跑分數字,它會實實在在改變AI的商用玩法,很多過去受延遲限制無法落地的模式,現在具備實操條件。

第一,解放編程Agent生產力。程序員調試系統、重構工程、批量寫頁面代碼時,不用蹲守幾分鐘等待模型輸出,實時補全、多方案對比一鍵生成,單人開發效率成倍拉高,也是本次技術優化表現最好的場景。

第二,搭建毫秒級實時決策閉環。高頻量化交易信號篩選、平臺瞬時反欺詐攔截、線上智能競價、真人實時對話交互,這些場景容不得幾秒延遲,萬億大模型以前只能做離線分析,如今能接入即時響應鏈路,決策質量和速度兼顧。

第三,醫療輔助提速增效。手術實時輔助判斷、大批量醫療影像病灶篩查,更快的AI分析結果能給醫生留出更多處置、研判時間,尤其急診場景價值突出。

第四,用速度換思考深度。同等等待時長里,模型可以并行跑多條推理路徑,自動對比糾錯篩選最優答案,靠超高吞吐提升邏輯嚴謹度、減少幻覺問題,復雜邏輯問答、方案規劃質量顯著提升。

四、開放政策與開源進度,門檻逐步放開

目前UltraSpeed模式采用申請限時體驗,開放周期從6月9日至6月23日,審核通過的開發者能領取兩周免費Chat測試額度。線上配套兩套入口,API調用平臺與獨立極速對話頁面均可接入測試。

定價規則清晰對標標準版:MiMo-V2.5-Pro標準版緩存命中輸入0.025元/百萬token、未命中3元、輸出6元;極速版對應價格翻三倍,緩存命中0.075元、未命中9元、輸出18元,僅開放API調用,暫不支持Token包月套餐。

開源層面同步落地,MiMo-V2.5-Pro-FP4-DFlash完整權重、量化參數、DFlash配置文件已經上傳HuggingFace平臺,開發者可以自行下載部署調試,后續還會推出適配更多環境的極致推理適配包。

五、通用硬件路線,降低行業普及成本

小米這次突破最大的行業意義,不在于單純刷新速度紀錄,而是證明高性能萬億大模型不用綁定昂貴定制芯片。對比Cerebras、Groq的專屬硬件路線,通用GPU優化方案硬件采購、運維成本更低,中小型科技公司、垂直行業廠商不用投入巨額硬件預算,就能部署高吞吐旗艦大模型。

客觀來看這項技術還有短板:高接納速度穩定集中在代碼這類結構化任務,開放式閑聊、創意寫作場景優化空間很大;極速節點資源有限,申請制開放也說明大規模全量商用還需要時間打磨擴容。但不可否認,1000tokens/s是國產萬億大模型邁向實時普惠應用的關鍵一步,后續隨著迭代優化,極速推理會慢慢變成企業AI服務的常規配置。

國產大模型競爭早已不只是比參數、比測評分數,推理效率、落地成本、軟硬件協同工程能力,正在成為決定長期競爭力的核心戰場,小米MiMo這一步,給整個行業提供了一條更務實、可復制的提速路徑。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
廣西興安發生爆炸事件,官方通報死亡7人,爆炸原因讓人好奇

廣西興安發生爆炸事件,官方通報死亡7人,爆炸原因讓人好奇

映射生活的身影
2026-06-11 14:03:26
馬斯克IPO敲鐘前講話:原以為SpaceX成功概率不到10%

馬斯克IPO敲鐘前講話:原以為SpaceX成功概率不到10%

新浪財經
2026-06-12 23:50:53
李想:明天起全新理想L8進入全國門店

李想:明天起全新理想L8進入全國門店

IT之家
2026-06-12 12:01:07
又開始內斗了!出租車司機假扮乘客惡意下假單,把網約車司機耍的團團轉

又開始內斗了!出租車司機假扮乘客惡意下假單,把網約車司機耍的團團轉

網約車觀察室
2026-06-11 10:15:50
廣東學生也沒吃出來原來是鴨腿

廣東學生也沒吃出來原來是鴨腿

可愛小菜
2026-06-12 19:33:39
大張偉現身世界杯觀眾席,鏡頭只是一掃而過,他實在是太亮眼了

大張偉現身世界杯觀眾席,鏡頭只是一掃而過,他實在是太亮眼了

西樓知趣雜談
2026-06-12 21:42:24
國內50后還剩多少人?真實數據曝光,活到80歲的比例太意外!

國內50后還剩多少人?真實數據曝光,活到80歲的比例太意外!

華庭講美食
2026-06-10 17:04:25
路虎攬勝極光L價格跌至17.98萬 銷售回應:屬實

路虎攬勝極光L價格跌至17.98萬 銷售回應:屬實

快科技
2026-06-12 10:58:13
全網狂贊!張家齊在北京和廣東判若兩人:最真實的樣子最動人

全網狂贊!張家齊在北京和廣東判若兩人:最真實的樣子最動人

鄉野小珥
2026-06-12 16:15:30
賴因德斯:原本想為米蘭贏得重要獎杯;妻子告訴我必須去曼城

賴因德斯:原本想為米蘭贏得重要獎杯;妻子告訴我必須去曼城

懂球帝
2026-06-13 00:04:46
馬斯克:特斯拉推送最新版 FSD!

馬斯克:特斯拉推送最新版 FSD!

新浪財經
2026-06-12 13:29:14
最差勁的美國總統是誰,不是特朗普、不是拜登,而是作惡多端的他

最差勁的美國總統是誰,不是特朗普、不是拜登,而是作惡多端的他

蜉蝣說
2026-04-21 11:27:49
非夫妻開房,牢記4條法律紅線,記得告訴身邊人

非夫妻開房,牢記4條法律紅線,記得告訴身邊人

小談食刻美食
2026-06-04 07:15:14
SpaceX市值空降美股前十,馬斯克成為全球首位萬億美元富豪

SpaceX市值空降美股前十,馬斯克成為全球首位萬億美元富豪

第一財經資訊
2026-06-12 23:43:16
生育大局已定:如不出意外,2026年起中國人口將迎來3大變化

生育大局已定:如不出意外,2026年起中國人口將迎來3大變化

蜉蝣說
2026-03-17 15:58:31
Skytube 發布加藤鷹 1/12 可動人偶 你懂的

Skytube 發布加藤鷹 1/12 可動人偶 你懂的

積木圈子
2026-06-11 19:21:30
年輕人的性蕭條有多恐怖?我國避孕套市場規模萎縮了25%!

年輕人的性蕭條有多恐怖?我國避孕套市場規模萎縮了25%!

燈錦年
2026-06-10 15:31:11
9歲男孩吃了夜市提拉米蘇,全麻開腹手術進了ICU:你的那口隨便的甜,可能要了孩子的命!

9歲男孩吃了夜市提拉米蘇,全麻開腹手術進了ICU:你的那口隨便的甜,可能要了孩子的命!

消化石醫生
2026-06-09 20:08:20
釋永信事件發酵!十年前李敖發布的一張對比照再度刷屏,引發熱議

釋永信事件發酵!十年前李敖發布的一張對比照再度刷屏,引發熱議

火山詩話
2026-06-06 10:58:08
釘釘換帥后《置身釘內》作者再發長文

釘釘換帥后《置身釘內》作者再發長文

界面新聞
2026-06-12 11:46:55
2026-06-13 00:31:00
魏家東 incentive-icons
魏家東
一個人的營銷商學院!
2818文章數 12253關注度
往期回顧 全部

科技要聞

剛剛,人類歷史上首位萬億美元富豪誕生!

頭條要聞

美加墨世界杯第二場比賽就現空座 英媒:尷尬

頭條要聞

美加墨世界杯第二場比賽就現空座 英媒:尷尬

體育要聞

歐洲恐韓?肉德維德?

娛樂要聞

一天4個瓜,肖戰熱巴最意外

財經要聞

萬億美元順差背后,透露這些信號

汽車要聞

標配激光雷達/雙動力可選 昊鉑S600限時售17.99萬起

態度原創

數碼
手機
本地
家居
公開課

數碼要聞

狼蛛推出有線磁軸鍵盤F68 RX:星閃悅動雙子星方案,299.15元起

手機要聞

曝新機屏幕局部峰值亮度10000nit,或為榮耀旗下產品

本地新聞

AK劉彰邂逅河北南大港濕地

家居要聞

空間微調 移形換境

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版