網易首頁 > 網易號 > 正文申請入駐

實測小米最快1T模型：吞吐量每秒1k+Token，Vibe Coding七秒交付

2026-06-11 09:07:12　來源: 量子位

河北舉報

分享至

克雷西發自凹非寺
量子位 | 公眾號 QbitAI

全球大模型的軍備競賽，正在“智商”之外開辟新的戰場——

推理速度

把這個戰場抬到新高度的，是小米。

小米發布了全新的MiMo-V2.5-Pro-UltraSpeed模型，也就是MiMo-V2.5-Pro的高速版本。

它擁有1T總參數，支持1M上下文，單API推理速度直接拉到1000+ TPS，刷新旗艦模型全球最快推理速度。

而且不像Groq那樣依靠定制芯片，用通用GPU就能實現

這也意味著，小米這次的新模型，打破了“快、強、通用GPU無法兼得”的行業不可能三角。小米秀出的是從模型層到引擎層的全鏈路推理優化能力，而背后的推理工程實力，毫無疑問是全球第一梯隊水平。

這次，量子位也拿到了MiMo-V2.5-Pro-UltraSpeed的測試資格，到底有沒有這么快，接下來一起看看。

實測小米“最快旗艦模型”

先看看MiMo-V2.5-Pro-UltraSpeed能不能生成一個完整的Web應用出來。

我把它接入了Claude Code，讓它寫一個網頁版的番茄鐘應用出來。

實話實說，以現在模型的推理能力，這個任務已經比較簡單了，所以這個任務主要想看的是它的速度。

用HTML、CSS、JavaScript實現一個可以直接在瀏覽器運行的番茄鐘工作計時器。
要求包含：
25分鐘專注/5分鐘短休息/15分鐘長休息三種模式可切換；
大字體倒計時顯示；
開始/暫停/重置按鈕；
完成一個番茄后自動切換到休息模式并播放提示音（用Web Audio API生成）；
右側顯示今日已完成番茄數和歷史記錄列表；
支持自定義各階段時長；
配色方案參考Linear設計風格。

結果，它的速度，還真讓我大吃一驚。

提交任務后的前5秒，我看到它還在慢吞吞地思考，以為要掉鏈子。

結果它是在憋大招，還沒等我回過神，需要交付的番茄鐘網頁代碼就chua得一下全吐出來了。

500多行HTML，加上思考過程一共只用了7秒

這張動圖體現的就是原速度，注意千萬別眨眼。

相比之下，如果用Claude，而且還是最輕量的Haiku搭配Low Effort，最短仍然需要40多秒。

把同樣的任務放到網頁端來跑，由于思考過程較長，因此總體耗時比用Claude Code接入MiMo-V2.5-Pro-UltraSpeed多了不少。

但網頁端的MiMo-V2.5-Pro-UltraSpeed自帶速度顯示，可以看到輸出階段的平均速度達到了1000+TPS

如果看峰值，目測推理階段最高吞吐量達到了600+ TPS，推理后的輸出階段更是飆到了3300+。

當然簡單歸簡單，功能該驗收還是得驗收的。

頁面跑起來之后，默認時長完全符合要求且支持自定義，要求的音效也會在計時結束時正常播放。

而且完成專注/休息計時后，還會自動跳到另一個模式，并且休息模式的跳轉還遵循了三短一長的節奏。

模型跑得快當然是好事，但如果速度是靠“降智”換來的，那就本末倒置了。

所以簡單的測速題目結束之后，接下來就要開始上難度，看看MiMo-V2.5-Pro-UltraSpeed的速度背后，到底有沒有“降智”。

同時，這里為了測試MiMo-V2.5-Pro-UltraSpeed能不能很好地適配不同的Harness，我又把環境改成了Hermes。

構建一個局域網實時聊天室，要求后端用Node.js+ Express + WebSocket；
支持多用戶同時在線，用戶進入時輸入昵稱，并和設備綁定，同一設備只有第一次進入時輸入，但要有編輯功能；
聊天界面參考Slack風格，支持多個頻道切換；
消息支持純文本和代碼塊（代碼塊自動高亮）；
顯示在線用戶列表，用戶上下線有系統提示；
支持消息引用回復；
消息記錄用SQLite持久化存儲，進入頻道可加載歷史消息；
輸出所有文件的完整代碼，然后啟動并部署到11451端口。

寫完之后，MiMo-V2.5-Pro-UltraSpeed直接向我匯報了項目文件、功能清單和啟動方式。

我們直接看運行效果。

首先最基礎的實時聊天、上下線提醒、輸入提示，全都正常實現。

代碼、加粗這些特殊格式，也都能正常顯示。

消息引用功能同樣正常運轉。

刷新頁面之后，之前設定的設備昵稱按要求被保留了下來，并且另一端也正常出現了下線提示，在線列表同步變動。

總之這一波，MiMo-V2.5-Pro-UltraSpeed把包含前端、后端、數據庫的完整開發流程，三下五除二地就給完成了。

這個例子足以證明，在提升速度的同時，MiMo-V2.5-Pro-UltraSpeed依然能夠高質量地完成全棧開發任務，也就是智商依然在線。

不過，這樣的速度，在實際生產當中，又能發揮什么作用呢？

我讓MiMo-V2.5-Pro-UltraSpeed扮演一位資深劇本編輯，帶著四位分析師在投委會前對一份電影大綱做緊急聯合審閱。

你是一位資深的劇本編輯，手下有三位得力的審稿人。
現在你們需要在明天早上的項目評審會之前，對下面這份院線電影劇本大綱完成一次緊急聯合審閱。
請按照以下分工完成任務：
你的故事結構分析師先接手，專門審查三幕結構是否完整、主線與支線的節奏配比是否合理、高潮場景的鋪墊是否充分，出具一份結構審查意見。
與此同時，你的人物分析師也在并行工作，專門審查主角的動機是否可信、人物弧光是否完整、配角的功能是否清晰，出具一份人物審查意見。
你的市場分析師同步從商業角度出發，審查這個題材的受眾定位是否清晰、同類型影片的市場表現如何、這個項目的差異化賣點是否足夠，出具一份市場可行性意見。
三份意見都到手之后，你作為劇本編輯親自綜合判斷：這份大綱能否推進立項？列出必須修改的問題清單，并直接輸出一份修改后的完整大綱。

故事的梗概是這樣的：

院線電影劇本大綱：《候鳥不南飛》
類型
現實主義情感劇情片，主打25-40歲都市女性受眾。
一句話簡介
一個在北京打拼十二年的湖南女人，在母親突然病倒后被迫返鄉，在照料與逃離之間重新理解了自己與家的關系。
主要人物
謝晚晴，38歲，北京某公關公司總監，離異，獨居，與母親關系疏遠已久；
謝母，64歲，湖南縣城退休教師，強勢、傳統，習慣用沉默施壓；
陳默，40歲，謝晚晴的前同事，因家庭原因提前返鄉創業，現經營一家民宿。
故事梗概
第一幕：謝晚晴接到父親的電話，母親突發腦梗住院。她請假返鄉，原本打算處理完就走，卻發現母親的康復需要長期陪護，而父親已無力獨自承擔。她陷入職業與家庭的兩難。
第二幕：謝晚晴滯留縣城，在照料母親的過程中與母親爆發多次激烈沖突，母親的強勢與控制欲將她推向崩潰邊緣。與此同時，她與陳默重新建立聯系，陳默的生活選擇讓她開始重新審視自己十二年來的人生路徑。
第三幕：母親康復出院，謝晚晴面臨是否回京的最終抉擇。她最終選擇回京，但與母親之間達成了某種和解，不是原諒，而是接受彼此是不同的人。
核心主題
逃離與歸屬，自我實現與家庭責任，中國式母女關系。預計時長：105分鐘。

我用Hermes搭了一個三Agent工作流，讓MiMo-V2.5-Pro-UltraSpeed同時啟動三個subagent對一份電影大綱做并行審閱。

其中故事結構分析師查三幕節奏，人物分析師查動機和弧光，市場分析師查商業可行性。

三份意見匯總后，主Agent綜合判斷并直接輸出修訂版大綱。

結果總共不到兩分鐘的時間，三個subagent就全都完成了各自的任務，最終的報告也完整交付給了我。

三個subagent各自找到了對方沒有發現的問題。

結構分析師指出原版大綱里第二幕的中點和第二轉折點完全缺失，這是硬傷。
人物分析師發現主角謝晚晴自始至終是被推著走的，缺少一個主動的貫穿全片的欲望，而陳默這個角色刪掉故事仍然成立，說明他沒有找到敘事中的不可替代位置。
市場分析師則拉出競品做對標，給出了3000萬到12億的票房區間，并點明差距的關鍵在于情緒烈度和社會話題的引爆能力。

三份意見到齊之后，主Agent給出的修訂版大綱補上了所有結構性缺口。

原版只有一句話的第二幕被拆成三層遞進沖突，補充了中點和第二轉折點，父親從單純的信息傳遞者變成了全片最重要的“翻譯者”，陳默的“歲月靜好”也被推翻，這個設定直接打碎了主角對“另一種人生”的浪漫化想象。

這類任務的價值在于多角色同時在線、實時協同推進同一個目標。三個subagent并行跑完再匯總，整條鏈路沒有等待感。

換成推理速度不夠快的模型，每個節點都會積累延遲，最終拖成一個斷斷續續的流程。

1000 TPS在這里的價值，是讓多Agent協同從理論上可行變成用起來真的流暢

全鏈路Co-design

在MiMo-V2.5-Pro-UltraSpeed出現之前，業界能公開看到的最快推理速度，大概是讓一個400B參數的模型，跑出400 TPS的吞吐量。

雖然參數量和吞吐量都只有MiMo-V2.5-Pro-UltraSpeed的四成，但這實際上已經是相當激進的選擇。

之所以說激進，是因為這樣的速度基本上是靠削減模型參數量換來的，代價就是智商降低。

但小米在模型提速這個問題上，選了一條更難走的路。

MiMo-V2.5-Pro-UltraSpeed的起點是約1T總參數、1M超長上下文的旗艦模型，目標是在通用GPU上把單API推理速度拉到1000+ TPS，三個條件一個都不能放。

為此，小米從模型層、引擎層、系統層三個層面同時下手，進行了全鏈路的聯合設計

模型層承擔了兩件事，一是解決1M超長上下文下的計算壓力，二是處理參數帶寬的壓力。

針對上下文問題，MiMo-V2.5系列采用了Hybrid SWA（混合滑動窗口注意力）架構。把注意力機制拆成了兩級。

具體來說，模型只針對最近的一段上下文繼續做精細計算，更早的內容則先被壓縮，以更低的成本參與后續步驟。

這種分層處理讓整體計算量降到了Full Attention的約1/7，1M級超長上下文下，推理速度和成本依然能保持穩定。

而對于帶寬問題，小米對Expert模塊引入了FP4量化，把并行的Expert模塊參數壓縮到4bit，從源頭減小顯存占用和讀寫壓力。

與此同時，負責信息路由和關鍵邏輯的注意力模塊和Router模塊繼續保持高精度，再通過量化感知訓練把FP4引入的誤差壓到最小。

模型層打好了基礎，引擎層要解決的是decode階段的成本問題。

小米采用的DFlash方案對傳統的Speculative Decoding草稿線做了結構性改造，將草稿模型沿時間軸逐token串行生成的模式，改成對一整塊位置同時并行加工。

同時，主模型也不再對每個token單件驗收，變成了對整批半成品集中審核，合格的整體接入，不合格的局部返工。

草稿模型同樣使用了SWA架構，并經過專項的密集長鏈路數據訓練，保證每次并行產出的一批候選token有足夠高的合格率。

系統層是推理鏈路的最后一道關卡。

當TPS提升到千級之后，瓶頸在于工序之間的切換開銷，以及為小批量請求頻繁啟停帶來的等待損耗。

在上述優化的基礎上，小米又與TileRT團隊深度協作，在GPU執行路徑上做了兩項關鍵優化

Persistent Kernel（常駐內核）把經常連續執行的關鍵步驟，封裝成長期駐留在GPU上的主計算線，不再為每一批請求反復冷啟動；
Warp Specialization（線程束專化）讓數據搬運、當前批處理、結果輸出三個環節同時并行運轉，整條算力鏈幾乎沒有閑置等待的空檔。

小米綜合應用這些技術的結果，就是真的讓1T參數的模型，在通用GPU上跑出了1000+ TPS的速度，并且可以穩定復現。

突破大模型商業化天花板

對于小米來說，速度提升的意義，遠不止Token吞吐得更快這一件事。

過去，1T參數的旗艦大模型太大、太慢，只能做“事后諸葛亮”，很難接入對延遲極敏感的實時業務。

例如高頻量化交易要求在毫秒級窗口內分析市場信號并驅動下單，金融實時反欺詐風控要求每筆交易在0.1秒內完成風險評估，廣告RTB競價要求在100毫秒的請求窗口里完成用戶畫像、創意匹配和出價決策。

這些場景長期只能依賴規則引擎或小模型，旗艦大模型的深度推理能力一直被擋在門外。

而在單API穩定跑到1000+ TPS之后，這道門被推開了。

日常生產力場景也在發生質變。

過去一個全棧項目的重構，從理解代碼庫到生成修改方案、逐文件改寫、跑測試、修bug，常常拖成8到12分鐘的等待。

現在同樣的任務被壓縮進幾十秒，復雜報告的討論也從把問題丟給模型等它想好，變成了和模型一起邊想邊改。

總之，很多過去被速度和成本擋在門外的應用場景，如今落地的條件正在成熟。

為MiMo-V2.5-Pro-UltraSpeed做的全鏈路推理優化，對小米來說還有另一層價值。

這套優化是可以在后續模型和業務場景上直接復用的底層能力，換一代通用GPU只需做適配升級，速度和成本優勢可以平移到新平臺。

小米自家的模型和業務場景越多，這套能力被復用的次數就越多，單次推理成本越攤越薄，速度優勢可以像滾雪球一樣越放越大。

把近期小米大模型的幾個動作串起來看，信號更加清晰。

小米模型登頂全球開源模型第一、MiMo-2.5系列全面調價，現在又推出1000 tokens/s的旗艦高速模型，三件事依次落地，高速、高智商、全鏈路成本優化同時到位。

這些事件背后，指向的是同一個方向，那就是系統性地拆除大模型商業化路上的每一道障礙。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.