无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

雷軍:3倍價格10倍速度!小米萬億參數模型1000 tokens/s狂飆,只需8張GPU

0
分享至


智東西
作者 李水青
編輯 云鵬

智東西6月9日報道,今日,小米MiMo團隊推理系統團隊TileRT聯合宣布,Xiaomi MiMo-V2.5-Pro的UltraSpeed模式已實現萬億參數(1T)旗艦模型輸出速度首次突破1000 tokens/s


▲雷軍發文宣布MiMo-V2.5-Pro-UltraSpeed新進展(圖源:新浪微博)

1000 tokens/s是什么概念?從下面這個例子我們能有直觀的感受。以復雜可視化大屏生成任務為例,UltraSpeed版僅需13秒完成,標準版耗時6分15秒,同等效果下最高提速28倍


提示詞:生成一個AI服務運營總覽大屏,深色科技風(深色底 + 藍青主色 + 紅色異常);頂部KPI卡片(在線服務數 / 今日總調用量 / 整體成功率 / 平均latency),左中實時調用趨勢折線圖(1min粒度,3s刷新)+ 并發用戶數 sparkline,右中型分布環形圖+接口成功率TOP5進度條,底部異常告警列表(脈沖紅點)+ 資源水位(CPU/GPU/ 內存);點擊趨勢圖展開60min明細浮層;純HTML+CSS+JS單文件,Canvas繪圖,KPI超大數字發光動畫。

背后,團隊僅用一個標準的8卡通用GPU節點,便讓1T模型突破了1000 tokens/s的輸出速度。涉及技術包含FP4量化、DFlash高效推測解碼,搭配TileRT定制編譯內核,通過軟硬件協同充分釋放算力等。

TileRT是一家聚焦AI推理系統的獨立技術團隊,其主營業務是高性能推理引擎。此前5月22日,該團隊與智譜聯合進行系統級優化,使得GLM-5.1高速版API輸出速度達400Tokens/s,創下彼時公開大模型商用API推理速度紀錄。

今日,Xiaomi MiMo-V2.5-Pro-UltraSpeed的API同步上線。該API采用限時體驗價,定價為MiMo-V2.5-Pro的3倍,同時提供約10倍的輸出速度提升。該模式僅支持API體驗,暫不支持Token Plan。

本次體驗采取申請制,6月9日至6月23日限時開放。通過審核的用戶可獲得兩周限時免費的Chat體驗。

團隊已開源MiMo-V2.5-Pro-FP4-DFlash checkpoint至HuggingFace,包含FP4量化權重與DFlash模型參數。MiMo-V2.5極致推理支持在后續將推出。

申請入口:
https://platform.xiaomimimo.com/ultraspeed
Chat體驗入口:
https://ultraspeed.xiaomimimo.com
Hugging Face地址:
https://huggingface.co/XiaomiMiMo/MiMo-V2.5-Pro-FP4-DFlash一、每秒千token推理:10秒做貪吃蛇、1分鐘復刻 macOS

萬億參數尺度上突破1000 tps意味著什么?小米公告中稱,這有望帶來以下AI應用模式的底層改變:

速度轉化為智能:在相同等待時間內,模型可并行運行數十條推理路徑(Best-of-N/Tree Search),后臺自動驗證糾錯,用速度換取思考深度和推理質量

解放Coding Agent生產力:極速推理下,開發者無需長時間等待代碼生成,大幅提升編碼效率。

進入實時決策閉環:毫秒級的“思考-響應”循環使萬億模型可以接入高頻量化交易信號生成、瞬時反欺詐風控攔截、智能競價及實時交互對話等對時間極度敏感的場景。

醫療場景的價值:在手術輔助、醫療影像分析等場景中,速度的提升可幫助AI更快完成病灶分析與風險預判,為醫生爭取更多處置時間。

如下圖所示,僅需10秒,Xiaomi MiMo-V2.5-Pro-UltraSpeed可生成一個貪吃蛇小游戲。

僅需1分鐘,Xiaomi MiMo-V2.5-Pro-UltraSpeed就能復刻一個macOS系統。


二、不走專用芯片路線,模型+系統雙向優化,通用8卡GPU跑出極速推理

與業界Cerebras晶圓級集成或Groq純片上SRAM定制芯片等專用硬件路線不同,小米和雙方TileRT系統團隊選擇在通用GPU上實現這一速度。

在模型側,他們針對通用硬件的帶寬瓶頸,進行了FP4量化,大幅縮減模型體積并減少訪存開銷;同時引入基于塊級Masked并行預測的高效推測解碼DFlash,大幅提升單次驗證的Token接受長度。

在系統側,TileRT適配算法的動態特性,為全新的量化和推測解碼流程量身定制專項優化的編譯引擎與計算核

1、FP4量化:大幅瘦身不丟精度

在萬億參數尺度上,傳統8比特甚至16比特推理會帶來巨大的顯存占用和內存帶寬壓力。團隊采用了業界較為通用的MXFP4量化方案。

針對MiMo-V2.5-Pro的MoE(Mixture of Experts)架構特性,他們只對MoE Expert進行參數FP4量化,其他模塊保留原有精度。通過FP4量化感知訓練(QAT),在大幅縮減模型體積、榨干硬件帶寬的同時,模型整體能力與原模型基本持平。


▲FP4 vs FP8模型對比

2、DFlash投機解碼:單次驗證一口氣確認多段文本

傳統投機解碼依賴小型Draft模型猜測后續tokens,再由大模型驗證,瓶頸在于Draft模型質量與計算開銷難以兼得。團隊采用了DFlash塊級Masked并行預測方法:Draft模型在一次前向中同時填出一整塊Mask位置,解除Draft自回歸的串行約束。

針對MiMo-V2.5-Pro的萬億MoE與長上下文場景,團隊進行了定制優化:

(1)Draft模型采用滑動窗口注意力(SWA),與MiMo-V2系列自身設計對齊,單次預測算力從隨上下文線性增長變為常數級。

(2)訓練時Mask信號采樣下沉到GPU本地分片,單步產出數萬級獨立訓練信號,對齊MiMo-V2系列模型長上下文能力的同時避免跨設備通信開銷。

效果上,其并行預測推測解碼在多個Agent和Coding高價值場景實現了顯著的接受長度提升,意味著大模型每次驗證都能“一口氣”確認更多內容;此外,他們將Mask 塊大小限制為8以降低驗證開銷、提高并發水平,使得高接受長度直接轉換為高推理吞吐。


▲DFlash在不同場景下的接受長度

團隊在Coding場景中平均接受長度達到6.30,部分樣本最高7.14,每輪驗證8個Draft token中可接受6-7個。同時,在語義更發散、不確定性更高的通用對話場景中,當前的接受率仍不高,團隊正在持續優化。

3、TileRT超低延遲推理系統:打通算子壁壘,軟硬件協同破千Token吞吐

在1000 tokens/s的超高頻運行狀態下,傳統推理系統的算子邊界成為瓶頸。為了消滅算子邊界帶來的執行間隙,TileRT引入了新的執行模型:

(1)常駐內核引擎:摒棄逐算子啟動模式,讓計算流水線常駐在GPU內部持續流轉,實現數據搬運與計算的極致重疊。

(2)異構流水線協作:在Tile級別將通信、搬運和張量計算進行更精細的物理拆解,不同Warp(線程束)精密協作。

(3)微秒級軟硬件收斂:TileRT與MiMo團隊深度協同,針對FP4混合量化與DFlash投機解碼量身定制編譯引擎與計算核,讓執行壓力最終在硬件邊界內平穩閉環。

官方表示,1000 tokens/s的誕生,是高水平系統基礎設施與極致算法模型向著彼此深度收斂、共同演化的結果。

結語:10倍提速,萬億模型的“實時夢”更近了

小米MiMo與TileRT在通用GPU上實現1T模型千tps級輸出,驗證了軟硬件協同設計路徑的可行性。相比依賴專用芯片的方案,這一思路有望降低實時AI推理的硬件門檻,使更多場景能以可接受的成本獲得近實時響應能力。

不過,當前高接受率仍主要集中在Coding等結構化任務,通用對話場景尚存優化空間。同時,推理資源的緊張與申請制開放也反映出大規模商用仍需時間。1000 tokens/s的技術突破值得關注,同時距離普惠應用還有一段路要走。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
墨西哥看世界杯遭持槍搶劫中國男子已平安回國,當事人:飛機落地時聽到《故鄉的云》我們眼淚都出來了,祖國就是我們最強大的靠山

墨西哥看世界杯遭持槍搶劫中國男子已平安回國,當事人:飛機落地時聽到《故鄉的云》我們眼淚都出來了,祖國就是我們最強大的靠山

瀟湘晨報
2026-06-13 14:16:19
世界杯小冷門!巴西被摩洛哥1-1逼平,安切洛蒂將中場三人全換下

世界杯小冷門!巴西被摩洛哥1-1逼平,安切洛蒂將中場三人全換下

足球評論qs
2026-06-14 08:06:12
鄢姣,金融監管總局辦公廳副主任,皮膚白皙,顏值不輸當紅女明星

鄢姣,金融監管總局辦公廳副主任,皮膚白皙,顏值不輸當紅女明星

李昕言溫度空間
2026-06-14 08:27:32
雷軍回應“用私家車裝600斤車厘子被指違規”:是卡車送到實驗場后,在封閉道路分裝

雷軍回應“用私家車裝600斤車厘子被指違規”:是卡車送到實驗場后,在封閉道路分裝

現代快報
2026-06-13 11:58:14
這次,孫丞瀟被扒了個底朝天,吳鎮宇的話,終于有人信了

這次,孫丞瀟被扒了個底朝天,吳鎮宇的話,終于有人信了

草莓解說體育
2026-06-13 14:45:45
“鵝腿阿姨”:一個時代有一個時代的笑話

“鵝腿阿姨”:一個時代有一個時代的笑話

天水人李成義
2026-06-13 11:00:23
馬刺懸了?福斯特主裁尼克斯近十戰全勝 系列賽終結戰贏39.4分

馬刺懸了?福斯特主裁尼克斯近十戰全勝 系列賽終結戰贏39.4分

醉臥浮生
2026-06-14 08:36:20
開封3歲男童失聯新進展!救援隊透可疑細節,家屬疑慮,恐要成真

開封3歲男童失聯新進展!救援隊透可疑細節,家屬疑慮,恐要成真

奇思妙想草葉君
2026-06-13 22:42:59
難怪鞏俐很少回國,姐姐和父親還有得不到的愛人,傷心終究難免

難怪鞏俐很少回國,姐姐和父親還有得不到的愛人,傷心終究難免

楓塵余往逝
2026-06-13 06:53:37
曝北京男籃醞釀首筆交易,范子銘成為籌碼,交換場均11+6大前鋒

曝北京男籃醞釀首筆交易,范子銘成為籌碼,交換場均11+6大前鋒

中國籃壇快訊
2026-06-13 16:46:47
丹丹的餐廳在“四不”抵制下門可羅雀,印度丈夫要把全家帶到中國

丹丹的餐廳在“四不”抵制下門可羅雀,印度丈夫要把全家帶到中國

魔都姐姐雜談
2026-06-13 15:58:31
越來越多的工廠撐不下去了,有工廠老板直言再也不開廠子了

越來越多的工廠撐不下去了,有工廠老板直言再也不開廠子了

燈錦年
2026-06-13 12:25:01
沃爾瑪一刀砍掉751美元:9800X3D配5070 Ti的游戲整機只要2249美元

沃爾瑪一刀砍掉751美元:9800X3D配5070 Ti的游戲整機只要2249美元

算力游俠
2026-06-13 02:01:40
某魚驚現“天價筆”:800元一支的中性筆,藏著多少骯臟暗語?

某魚驚現“天價筆”:800元一支的中性筆,藏著多少骯臟暗語?

番外行
2026-02-26 19:53:05
開封3歲男童失聯后續:救援現場曝光,救援隊分析,細節細思極恐

開封3歲男童失聯后續:救援現場曝光,救援隊分析,細節細思極恐

奇思妙想草葉君
2026-06-13 18:51:37
曼城巨資引援可能惠及國米出售 藍黑軍兩筆簽約有望本月定案

曼城巨資引援可能惠及國米出售 藍黑軍兩筆簽約有望本月定案

國際足球冷雪
2026-06-14 08:18:15
張鎮麟:上海和遼寧球迷都拼了命保護我,想建立屬于上海的王朝

張鎮麟:上海和遼寧球迷都拼了命保護我,想建立屬于上海的王朝

懂球帝
2026-06-13 20:04:34
7月起嚴查退休返聘,這幾條紅線你觸碰了嗎?

7月起嚴查退休返聘,這幾條紅線你觸碰了嗎?

笑熬漿糊111
2026-06-13 00:30:09
國家隊集訓又受傷?男籃鋒霸走路一瘸一拐,球迷:又是這個劇本

國家隊集訓又受傷?男籃鋒霸走路一瘸一拐,球迷:又是這個劇本

弄月公子
2026-06-14 06:44:19
“別選計算機!”211女生哭訴,引來前輩勸退:我從1.4w混成了7k

“別選計算機!”211女生哭訴,引來前輩勸退:我從1.4w混成了7k

妍妍教育日記
2026-06-13 09:35:06
2026-06-14 09:19:00
智東西 incentive-icons
智東西
智東西,AI產業新媒體,專注報道人工智能的前沿技術發展,和技術應用帶來的千行百業產業變革。
12040文章數 117103關注度
往期回顧 全部

科技要聞

Anthropic最強模型被禁,傳亞馬遜通風報信

頭條要聞

“五星”巴西首戰戰平 德國“戰車”凌晨登場

頭條要聞

“五星”巴西首戰戰平 德國“戰車”凌晨登場

體育要聞

美國4比1巴拉圭:這統治力真是美國隊?!

娛樂要聞

鄧超曬孫儷親手織的帽子,笑瘋全網!

財經要聞

梁文鋒向左,楊植麟向右

汽車要聞

深藍S07華為乾崑激光版增程車型上市 限時15.49萬元起

態度原創

房產
藝術
健康
教育
軍事航空

房產要聞

海南最賺錢行業曝光!最快4年半,海口全款買三房!

藝術要聞

廣州再建一座“小蠻腰”?190米,頂著個球,2027年見!

老人、小孩、孕婦,吃粽子有啥風險

教育要聞

整體思想求值,一個視頻學會!

軍事要聞

特朗普:美伊協議周日簽 還有終極手段

無障礙瀏覽 進入關懷版