網易首頁 > 網易號 > 正文 申請入駐

超越DeepSeek-V4!羅福莉交出小米最強開源模型,首日適配5家國產芯片

0
分享至


智東西
作者 李水青
編輯 云鵬

智東西4月28日報道,剛剛,小米開源羅福莉帶隊研發的MiMo-V2.5系列模型,采用MIT協議,允許商用推理部署與二次訓練,無需額外授權。


▲MiMo-V2.5-Pro在Hugging Face的開源頁面截圖

此前,該系列模型于4月23日開啟公測,包括MiMo-V2.5-Pro、MiMo-V2.5兩款模型。模型具備更強Agent能力,支持100萬上下文,且Token效率大幅提升。

MiMo-V2.5-Pro的完整基準測試結果今日公布,小米稱其在GDPVal-AA(Elo)、Claw-Eval(pass^3)等多項測評中超過了最新開源的DeepSeek-V4-Pro模型,也超過了發布不久的Kimi K2.6等主流閉源模型,實現總體最佳。


▲MiMo-V2.5-Pro的最新測評成績

開源首日,MiMo-V2.5-Pro宣布已完成與阿里平頭哥、亞馬遜云科技、AMD、百度昆侖芯、燧原科技、沐曦、天數智芯多個芯片廠商的接入適配。MiMo-V2.5系列模型同步完成SGLang和vLLM主流推理框架的Day 0適配。

與此同時,小米還推出百萬億Token創造者激勵計劃,計劃30天內免費發放總計100萬億Token權益;推出Agent生態共建計劃,目前已與OpenCode、Hermes Agent、KiloCode等Agent框架廠商展開合作。

模型權重合集:
https://huggingface.co/collections/XiaomiMiMo/mimo-v25
更多細節參考模型Blog:
https://mimo.xiaomi.com/index#blog
百萬億Token計劃申請網址:
https://100t.xiaomimimo.com/

一、模型技術細節公布,測評超越DeepSeek-V4

由小米最新公開的模型卡可知,小米迄今為止最強模型MiMo-V2.5-Pro是一款擁有1.02萬億(1.02T)個參數的混合專家模型,其中420億(42B)個激活參數,基于混合注意力架構,相比前代模型在通用智能能力、復雜軟件工程和長時域任務處理方面均實現了顯著提升。

MiMo-V2.5-Pro繼承了MiMo-V2-Flash的混合注意力機制和多標記預測(MTP)設計。局部滑動窗口注意力(SWA)和全局注意力(GA)以6:1的比例交錯使用,窗口大小為128個Token,在長上下文情況下,通過可學習的注意力池偏置,將鍵值緩存存儲空間減少了近7倍,同時保持了性能。一個輕量級的MTP模塊,采用密集前饋神經網絡(FFN),原生集成用于訓練和推理,輸出吞吐量大約提升了三倍,并加速了強化學習(RL)的部署。


▲MiMo-V2.5-Pro的模型架構及訓練過程

該模型預訓練使用27萬億(27T)個Token,采用FP8混合精度,原生序列長度為32K,上下文擴展至1M個Token。后訓練遵循MiMo-V2-Flash中引入的三階段范式:1、監督式微調,在精心挑選的數據對上建立基礎的指令跟蹤;2、領域專精訓練,其中不同的教師模型分別通過針對特定領域的強化學習進行優化,涵蓋數學、安全、智能工具使用等領域;3、多教師策略蒸餾(MOPD),其中單個學生模型在每位專精教師的Token級指導下,從自身的展開中學習策略,并將所有教師的能力融合到一個統一的模型中。

再來看看MiMo-V2.5,這是一個3100億(310B)參數的稀疏MoE模型,擁有150億(15B)激活參數,在48萬億(48T)個Token上進行訓練。它的語言主干框架繼承了MiMo-V2-Flash的混合滑動窗口注意力機制,并搭載自研預訓練視覺、音頻編碼器,兩類編碼器通過輕量化投影模塊完成跨模塊融合。


▲MiMo-V2.5架構

訓練過程分為五個階段:1、基于多樣化語料開展文本預訓練,搭建大語言模型主干網絡;2、進行投影層預熱訓練,實現音視頻、視覺投影器與語言模型的對齊融合;3、依托高質量跨模態數據集,開展大規模多模態預訓練;4、執行監督微調與智能體后訓練,在此過程中將上下文窗口從32K逐步擴容至256K,最終達到100萬Token;5、最后是通過強化學習(RL)與多目標偏好蒸餾(MOPD),進一步強化模型的感知、邏輯推理與智能體執行能力。

從小米最新公布的測評結果來看,MiMo-V2.5在Claw-Eval Text、Terminal-Bench 2.0、SWE-Bench Pro等多項測評中大幅超越了DeepSeek最新發布的DeepSeek-V4-Flash。


▲MiMo-V2.5最新測評情況

二、開源首日,完成阿里平頭哥沐曦等7家芯片廠商適配

小米還公布了芯片生態與推理框架最新適配情況,MiMo-V2.5-Pro開源首日完成多個芯片廠商的接入適配:

阿里平頭哥:基于真武810E及全棧自研AI軟件棧實現深度適配。

亞馬遜云科技:基于Trainium2芯片與Neuron SDK + vLLM推理框架完成深度適配,實現開源即全球可用的首日適配。下一代3nm制程Trainium3將進一步釋放模型性能。

AMD:依托ROCm開源軟件棧提供Day-0適配及全面優化支持。

百度昆侖芯:通過底層算子優化與軟硬件協同加速,保障模型穩定高效運行。

燧原科技:基于自研馭算TopsRider軟件棧深度優化,在燧原L600上完成全量適配。

沐曦:基于曦云C系列及全棧自研MXMACA軟件棧,實現Triton語法到沐曦GPU指令集的端到端原生支持。

天數智芯:實現Day 0級深度適配。

此外,MiMo-V2.5系列模型同步完成SGLang和vLLM主流推理框架的Day 0適配。

三、免費發放100萬億Token,已與Hermes Agent等合作

與此同時,小米還同步推出MiMo Orbit計劃,包含兩部分:“百萬億Token創造者激勵計劃”,與面向Agent框架團隊的“Agent生態共建計劃”。

在百萬億Token創造者激勵計劃方面,小米面向全球AI用戶免費發放Token,30天內發放總計100萬億Token權益,贈完即止。

該計劃采取申請制,通過者最高獲得Max檔位Token Plan,包含16億Credits,價值659元。活動時間:北京時間2026年4月28日00:00至5月28日00:00。

Agent生態共建計劃方面,小米面向全球Agent框架團隊提供專項支持,為框架提供MiMo Token限免支持,同時參與和贊助框架平臺的AI Hackathon等共創活動。

其目前已與OpenCode、Hermes Agent、KiloCode等Agent框架廠商展開深度合作。

結語:多款國產開源模型“亮劍”交鋒

近期,大模型行業開源力度持續加碼,模型與國產及國際芯片的“Day 0”適配已從亮點變為剛需,推理效率和部署成本成為下一階段競爭的核心。同時,百億級Token免費激勵與Agent框架生態共建,反映出行業正從“拼參數”轉向“拼應用”。

值得關注的是,小米MiMo-V2.5-Pro在多項基準評測中直接超越DeepSeek最新開源的DeepSeek-V4-Pro模型,可謂與DeepSeek在開源賽道發起“亮劍”交鋒,有望倒逼行業更快降低推理成本、提升Agent真實任務完成率。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
當著日本航母的面,055射了一枚導彈,美國反導體系沉默了

當著日本航母的面,055射了一枚導彈,美國反導體系沉默了

看過人間的月色
2026-04-27 08:33:11
火箭已無非賣品!今夏或探索交易杜蘭特:湖人成眾多潛在下家之一

火箭已無非賣品!今夏或探索交易杜蘭特:湖人成眾多潛在下家之一

羅說NBA
2026-04-28 05:54:08
阿里員工:公積金賬戶余額717092.97元

阿里員工:公積金賬戶余額717092.97元

螞蟻大喇叭
2026-04-27 18:23:09
61歲何智麗現狀:從日本回老家上海,與老友聚餐,面色紅潤沒發福

61歲何智麗現狀:從日本回老家上海,與老友聚餐,面色紅潤沒發福

以茶帶書
2026-04-14 14:09:22
印度每年榨糖,剩下7500萬噸甘蔗渣,中國人用它造出了科技王炸!

印度每年榨糖,剩下7500萬噸甘蔗渣,中國人用它造出了科技王炸!

泠泠說史
2026-04-27 21:51:27
掘金大勝森林狼總分2-3!約基奇27+16+12創紀錄兩隊多次險爆沖突

掘金大勝森林狼總分2-3!約基奇27+16+12創紀錄兩隊多次險爆沖突

顏小白的籃球夢
2026-04-28 13:22:06
北美6.6億,全球破14億,中國票房3300萬,觀眾給好萊塢又上一課

北美6.6億,全球破14億,中國票房3300萬,觀眾給好萊塢又上一課

臨云史策
2026-04-27 13:40:12
牛散栽了!張素芬1263萬股重倉芯片股,從17元跌到3元

牛散栽了!張素芬1263萬股重倉芯片股,從17元跌到3元

慧眼看世界哈哈
2026-04-28 08:23:03
尤伯杯:國羽3連勝!王祉怡力克世錦賽冠軍,陳雨菲橫掃世界第39

尤伯杯:國羽3連勝!王祉怡力克世錦賽冠軍,陳雨菲橫掃世界第39

釘釘陌上花開
2026-04-28 06:54:31
余承東在華為權力排名

余承東在華為權力排名

生活新鮮市
2026-04-27 18:30:53
“崩老頭”現象:00后如何收割中年男性

“崩老頭”現象:00后如何收割中年男性

流蘇晚晴
2026-04-25 16:31:35
唐國強的“糟心事”:兩個兒子都是殘疾,晚年奔波遭全網嘲諷

唐國強的“糟心事”:兩個兒子都是殘疾,晚年奔波遭全網嘲諷

君笙的拂兮
2026-04-27 23:48:49
第108輛,美制坦克全抵臺,大陸奇招斷臺當局后路

第108輛,美制坦克全抵臺,大陸奇招斷臺當局后路

起喜電影
2026-04-28 10:29:49
80后家長發明“防早戀”發型,女兒面如死灰,網友都看不下去了

80后家長發明“防早戀”發型,女兒面如死灰,網友都看不下去了

妍妍教育日記
2026-04-27 09:20:13
裁員裁到大動脈后果嚴重嗎?網友:還真以為老板都是紗布嗎

裁員裁到大動脈后果嚴重嗎?網友:還真以為老板都是紗布嗎

帶你感受人間冷暖
2026-04-22 23:18:22
珍寶島戰敗后蘇聯計劃4路侵中國,一周到北京,為何最終不敢打?

珍寶島戰敗后蘇聯計劃4路侵中國,一周到北京,為何最終不敢打?

鶴羽說個事
2026-04-27 22:57:54
婚介所徹底變天!因沒有男客戶而倒閉,轉變成了??优说臍⒇i盤

婚介所徹底變天!因沒有男客戶而倒閉,轉變成了??优说臍⒇i盤

譚談社會
2026-04-27 19:01:19
中國堅守承諾拒購H200芯片,美國態度急轉并尋求對話

中國堅守承諾拒購H200芯片,美國態度急轉并尋求對話

米老鼠的世界
2026-04-28 00:07:20
四年食品學位,畢業后同宿舍四人竟無一人在食品行業!江南大學的真實現狀

四年食品學位,畢業后同宿舍四人竟無一人在食品行業!江南大學的真實現狀

戶外阿毽
2026-04-27 08:31:47
伊朗稱發現15枚美軍未爆重型導彈,已送技術部門逆向研發仿制

伊朗稱發現15枚美軍未爆重型導彈,已送技術部門逆向研發仿制

紅星新聞
2026-04-27 16:51:19
2026-04-28 13:55:00
智東西 incentive-icons
智東西
智東西,AI產業新媒體,專注報道人工智能的前沿技術發展,和技術應用帶來的千行百業產業變革。
11703文章數 117049關注度
往期回顧 全部

科技要聞

10億周活目標落空!傳OpenAI爆發內部分歧

頭條要聞

男子強奸大嫂出獄后又殺人 被執行死刑

頭條要聞

男子強奸大嫂出獄后又殺人 被執行死刑

體育要聞

人類馬拉松"破二"新紀元,一場跑鞋軍備競賽

娛樂要聞

蔡卓妍官宣結婚,老公比她小10歲

財經要聞

俞敏洪再遭重擊

汽車要聞

上汽大眾“攻山頭” ID.ERA 9X劍指細分前三

態度原創

家居
藝術
本地
數碼
公開課

家居要聞

江景風格 流動的秩序

藝術要聞

靜·觀--第二屆全國靜物油畫作品展 作品選刊

本地新聞

用青花瓷的方式,打開西溪濕地

數碼要聞

比AMD還狠!Intel發新驅動:可分配93%內存給核顯

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版