網易首頁 > 網易號 > 正文 申請入駐

超越DeepSeek-V4!羅福莉交出小米最強開源模型,首日適配5家國產芯片

0
分享至


智東西
作者 李水青
編輯 云鵬

智東西4月28日報道,剛剛,小米開源羅福莉帶隊研發的MiMo-V2.5系列模型,采用MIT協議,允許商用推理部署與二次訓練,無需額外授權。


▲MiMo-V2.5-Pro在Hugging Face的開源頁面截圖

此前,該系列模型于4月23日開啟公測,包括MiMo-V2.5-Pro、MiMo-V2.5兩款模型。模型具備更強Agent能力,支持100萬上下文,且Token效率大幅提升。

MiMo-V2.5-Pro的完整基準測試結果今日公布,小米稱其在GDPVal-AA(Elo)、Claw-Eval(pass^3)等多項測評中超過了最新開源的DeepSeek-V4-Pro模型,也超過了發布不久的Kimi K2.6等主流閉源模型,實現總體最佳。


▲MiMo-V2.5-Pro的最新測評成績

開源首日,MiMo-V2.5-Pro宣布已完成與阿里平頭哥、亞馬遜云科技、AMD、百度昆侖芯、燧原科技、沐曦、天數智芯多個芯片廠商的接入適配。MiMo-V2.5系列模型同步完成SGLang和vLLM主流推理框架的Day 0適配。

與此同時,小米還推出百萬億Token創造者激勵計劃,計劃30天內免費發放總計100萬億Token權益;推出Agent生態共建計劃,目前已與OpenCode、Hermes Agent、KiloCode等Agent框架廠商展開合作。

模型權重合集:
https://huggingface.co/collections/XiaomiMiMo/mimo-v25
更多細節參考模型Blog:
https://mimo.xiaomi.com/index#blog
百萬億Token計劃申請網址:
https://100t.xiaomimimo.com/

一、模型技術細節公布,測評超越DeepSeek-V4

由小米最新公開的模型卡可知,小米迄今為止最強模型MiMo-V2.5-Pro是一款擁有1.02萬億(1.02T)個參數的混合專家模型,其中420億(42B)個激活參數,基于混合注意力架構,相比前代模型在通用智能能力、復雜軟件工程和長時域任務處理方面均實現了顯著提升。

MiMo-V2.5-Pro繼承了MiMo-V2-Flash的混合注意力機制和多標記預測(MTP)設計。局部滑動窗口注意力(SWA)和全局注意力(GA)以6:1的比例交錯使用,窗口大小為128個Token,在長上下文情況下,通過可學習的注意力池偏置,將鍵值緩存存儲空間減少了近7倍,同時保持了性能。一個輕量級的MTP模塊,采用密集前饋神經網絡(FFN),原生集成用于訓練和推理,輸出吞吐量大約提升了三倍,并加速了強化學習(RL)的部署。


▲MiMo-V2.5-Pro的模型架構及訓練過程

該模型預訓練使用27萬億(27T)個Token,采用FP8混合精度,原生序列長度為32K,上下文擴展至1M個Token。后訓練遵循MiMo-V2-Flash中引入的三階段范式:1、監督式微調,在精心挑選的數據對上建立基礎的指令跟蹤;2、領域專精訓練,其中不同的教師模型分別通過針對特定領域的強化學習進行優化,涵蓋數學、安全、智能工具使用等領域;3、多教師策略蒸餾(MOPD),其中單個學生模型在每位專精教師的Token級指導下,從自身的展開中學習策略,并將所有教師的能力融合到一個統一的模型中。

再來看看MiMo-V2.5,這是一個3100億(310B)參數的稀疏MoE模型,擁有150億(15B)激活參數,在48萬億(48T)個Token上進行訓練。它的語言主干框架繼承了MiMo-V2-Flash的混合滑動窗口注意力機制,并搭載自研預訓練視覺、音頻編碼器,兩類編碼器通過輕量化投影模塊完成跨模塊融合。


▲MiMo-V2.5架構

訓練過程分為五個階段:1、基于多樣化語料開展文本預訓練,搭建大語言模型主干網絡;2、進行投影層預熱訓練,實現音視頻、視覺投影器與語言模型的對齊融合;3、依托高質量跨模態數據集,開展大規模多模態預訓練;4、執行監督微調與智能體后訓練,在此過程中將上下文窗口從32K逐步擴容至256K,最終達到100萬Token;5、最后是通過強化學習(RL)與多目標偏好蒸餾(MOPD),進一步強化模型的感知、邏輯推理與智能體執行能力。

從小米最新公布的測評結果來看,MiMo-V2.5在Claw-Eval Text、Terminal-Bench 2.0、SWE-Bench Pro等多項測評中大幅超越了DeepSeek最新發布的DeepSeek-V4-Flash。


▲MiMo-V2.5最新測評情況

二、開源首日,完成阿里平頭哥沐曦等7家芯片廠商適配

小米還公布了芯片生態與推理框架最新適配情況,MiMo-V2.5-Pro開源首日完成多個芯片廠商的接入適配:

阿里平頭哥:基于真武810E及全棧自研AI軟件棧實現深度適配。

亞馬遜云科技:基于Trainium2芯片與Neuron SDK + vLLM推理框架完成深度適配,實現開源即全球可用的首日適配。下一代3nm制程Trainium3將進一步釋放模型性能。

AMD:依托ROCm開源軟件棧提供Day-0適配及全面優化支持。

百度昆侖芯:通過底層算子優化與軟硬件協同加速,保障模型穩定高效運行。

燧原科技:基于自研馭算TopsRider軟件棧深度優化,在燧原L600上完成全量適配。

沐曦:基于曦云C系列及全棧自研MXMACA軟件棧,實現Triton語法到沐曦GPU指令集的端到端原生支持。

天數智芯:實現Day 0級深度適配。

此外,MiMo-V2.5系列模型同步完成SGLang和vLLM主流推理框架的Day 0適配。

三、免費發放100萬億Token,已與Hermes Agent等合作

與此同時,小米還同步推出MiMo Orbit計劃,包含兩部分:“百萬億Token創造者激勵計劃”,與面向Agent框架團隊的“Agent生態共建計劃”。

在百萬億Token創造者激勵計劃方面,小米面向全球AI用戶免費發放Token,30天內發放總計100萬億Token權益,贈完即止。

該計劃采取申請制,通過者最高獲得Max檔位Token Plan,包含16億Credits,價值659元。活動時間:北京時間2026年4月28日00:00至5月28日00:00。

Agent生態共建計劃方面,小米面向全球Agent框架團隊提供專項支持,為框架提供MiMo Token限免支持,同時參與和贊助框架平臺的AI Hackathon等共創活動。

其目前已與OpenCode、Hermes Agent、KiloCode等Agent框架廠商展開深度合作。

結語:多款國產開源模型“亮劍”交鋒

近期,大模型行業開源力度持續加碼,模型與國產及國際芯片的“Day 0”適配已從亮點變為剛需,推理效率和部署成本成為下一階段競爭的核心。同時,百億級Token免費激勵與Agent框架生態共建,反映出行業正從“拼參數”轉向“拼應用”。

值得關注的是,小米MiMo-V2.5-Pro在多項基準評測中直接超越DeepSeek最新開源的DeepSeek-V4-Pro模型,可謂與DeepSeek在開源賽道發起“亮劍”交鋒,有望倒逼行業更快降低推理成本、提升Agent真實任務完成率。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
柳州官方通報“酒店謊稱老板離世,從4晚共494元漲價至569元一晚”:市監局已立案調查,將依法依規嚴肅查處

柳州官方通報“酒店謊稱老板離世,從4晚共494元漲價至569元一晚”:市監局已立案調查,將依法依規嚴肅查處

揚子晚報
2026-04-28 07:45:48
開火一次,不如圍觀N次?中國海軍強勢圍觀美日菲軍演尷尬了誰?

開火一次,不如圍觀N次?中國海軍強勢圍觀美日菲軍演尷尬了誰?

靜夜史君
2026-04-28 00:01:45
槍擊案發生時,特朗普旁邊的華裔女記者原來是她!那個曾讓“懂王”憤然離場的人……

槍擊案發生時,特朗普旁邊的華裔女記者原來是她!那個曾讓“懂王”憤然離場的人……

新民周刊
2026-04-27 16:14:29
全馬破2!人類贏了,耐克輸了

全馬破2!人類贏了,耐克輸了

億歐
2026-04-27 20:03:19
親口認錯!前國王隊高管揭秘棄選東契奇真相,理由太過離譜

親口認錯!前國王隊高管揭秘棄選東契奇真相,理由太過離譜

夜白侃球
2026-04-28 10:36:03
史上“最懶”富二代!27年不動本金,用17億利息滾出人生贏家

史上“最懶”富二代!27年不動本金,用17億利息滾出人生贏家

小蘭聊歷史
2026-04-15 12:25:29
李斌:車輛超重存多重隱患 不會為了省錢上100度磷酸鐵鋰電池

李斌:車輛超重存多重隱患 不會為了省錢上100度磷酸鐵鋰電池

快科技
2026-04-27 14:12:05
七萬匹東洋大馬的覆滅:國民黨三年敗光日本四十五年心血

七萬匹東洋大馬的覆滅:國民黨三年敗光日本四十五年心血

小莜讀史
2026-04-26 22:44:33
80后家長發明“防早戀”發型,女兒面如死灰,網友都看不下去了

80后家長發明“防早戀”發型,女兒面如死灰,網友都看不下去了

妍妍教育日記
2026-04-27 09:20:13
周一圍張頌文林家川三家聚會,張頌文妻兒罕見出鏡,老婆氣質絕了

周一圍張頌文林家川三家聚會,張頌文妻兒罕見出鏡,老婆氣質絕了

手工制作阿殲
2026-04-28 07:21:57
孫繼海贏了?張卓毅正式告別足球,改打羽毛球,中國男足痛失新星

孫繼海贏了?張卓毅正式告別足球,改打羽毛球,中國男足痛失新星

國足風云
2026-04-28 09:15:49
菲政壇大地震,莎拉取消五國行,67億贓款被扒,父女倆徹底栽了?

菲政壇大地震,莎拉取消五國行,67億贓款被扒,父女倆徹底栽了?

影孖看世界
2026-04-27 23:40:49
侮辱先烈!《八千里路云和月》這爛尾無法原諒

侮辱先烈!《八千里路云和月》這爛尾無法原諒

陳意小可愛
2026-04-28 09:03:02
江青未公開信件震驚眾人,模仿技巧大揭秘!

江青未公開信件震驚眾人,模仿技巧大揭秘!

書畫相約
2026-04-28 08:45:23
美軍試探中方紅線,在東南亞攔截伊朗油輪,給中方敲響了警鐘

美軍試探中方紅線,在東南亞攔截伊朗油輪,給中方敲響了警鐘

第一軍情
2026-04-27 11:40:03
上海知青和內蒙姑娘分離25年,當了大官后接到來信:你還有個女兒

上海知青和內蒙姑娘分離25年,當了大官后接到來信:你還有個女兒

白云故事
2025-03-11 21:05:06
重磅傳聞!杜蘭特或告別火箭,導火索曝光,兩大豪門成潛在下家

重磅傳聞!杜蘭特或告別火箭,導火索曝光,兩大豪門成潛在下家

體育見習官
2026-04-28 08:28:45
35歲朱可人與82歲丈夫出來遛娃,兒子5歲女兒2歲,這段感情穩定

35歲朱可人與82歲丈夫出來遛娃,兒子5歲女兒2歲,這段感情穩定

以茶帶書
2026-04-27 14:50:10
“雙一流”名校教授,突發疾病逝世

“雙一流”名校教授,突發疾病逝世

雙一流高校
2026-04-28 00:08:47
金價:大家不用等候了!不出意外,金價可能將歷史重演!

金價:大家不用等候了!不出意外,金價可能將歷史重演!

殘夢重生來
2026-04-28 04:40:09
2026-04-28 10:59:00
智東西 incentive-icons
智東西
智東西,AI產業新媒體,專注報道人工智能的前沿技術發展,和技術應用帶來的千行百業產業變革。
11703文章數 117048關注度
往期回顧 全部

科技要聞

10億周活目標落空!傳OpenAI爆發內部分歧

頭條要聞

"探店"網紅白冰偷稅超900萬被查 官方公布案件細節

頭條要聞

"探店"網紅白冰偷稅超900萬被查 官方公布案件細節

體育要聞

人類馬拉松"破二"新紀元,一場跑鞋軍備競賽

娛樂要聞

楊冪險遭蒸汽眼罩毀容!傷照曝光…

財經要聞

俞敏洪再遭重擊

汽車要聞

領克900大五座正式上市 限時售價25.48萬起

態度原創

數碼
親子
本地
房產
公開課

數碼要聞

火箭車挑戰0.9秒破百,追覓“星空計劃”再耀北美

親子要聞

搭檔選對能少走一半路

本地新聞

云游中國|逛世界風箏都 留學生探秘中國傳統文化

房產要聞

信號!海南商業版圖,迎來大變局!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版