无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

國內首個?Frontier?三件套開源大模型:MiniMax?M3?完整技術拆解

0
分享至


剛剛,MiniMax M3 正式官宣發布。

根據官方介紹,MiniMax M3 是國內首個同時具備「Coding Frontier+ 1M 上下文窗口 + 原生多模態」三個核心能力的開源模型,同時還推出了配套代碼智能體產品 MiniMax Code。不過,開發者體驗下來,M3 的體感全面超過Sonnet 4.6,但官方坦誠表示,其與 Opus 4.7、GPT-5.5 仍存在一定差距。

具體來說,在 SWE-Bench Pro 上超過了 GPT-5.5 和 Gemini 3.1 Pro,接近 Claude Opus 4.7。而在面向自主 Agent的端到端評測 Claw-Eval 上,M3 拿到了最高分。


更為重要的是,在此之前,能同時跑通這三項的只有極少數閉源模型,例如 claude opus 4.8、gemini 3.1、gpt5.5;而 MiniMax M3 是第一個把完整 frontier 能力帶進開放世界的模型。

也就是說,M3 的真正難點不在于單項能力的突破,而在于讓三項能力在同一個模型中協同工作,但長程 Agent 任務需要超長上下文支撐;多模態理解能力影響論文復現、代碼審查等復雜場景的上限;而編程能力則直接決定了 Agent 的自主執行質量,任何一項的短板,都會拖垮整體表現。

那么,在“集齊”敘事之后,M3 在技術路徑上做了哪些關鍵選擇?這些選擇背后的理念是什么?實際效果如何?

為什么 Frontier Agent 必須同時具備三項能力?

如果只看單輪問答,模型能力可以被拆成文本、代碼、視覺等多個獨立維度。但 Agent 場景不是這樣。

一個真實的軟件工程任務里,模型要處理的信息通常包括:

  • 代碼倉庫結構、依賴關系和歷史實現;

  • README、issue、PR、測試腳本和報錯日志;

  • 用戶多輪反饋、方案變更和臨時約束;

  • 論文圖表、產品截圖、設計稿、表格和桌面應用界面;

  • 工具調用軌跡、失敗記錄和中間產物。

這意味著 Coding、長上下文、多模態不是三個并列賣點,而是一個系統能力的三個接口。


圖 1:MiniMax M3 的三塊 Agent 地基


所以 M3 的技術敘事不是“某項能力很強”,而是這三項能力開始在一個國產開源模型中匯合。


MSA:1M 上下文的關鍵不是窗口,而是注意力計算

長上下文的難點從來不是把 context_length 寫成 1M,而是如何在 1M token 下仍然算得動、跑得快、找得準。

標準 Transformer 的全注意力需要讓每個 query 關注所有 key。序列長度增長時,注意力計算量按近似平方級上升。窗口從 128K 擴到 1M,不是多買幾張卡就能解決的問題,必須在注意力機制上動刀。

MiniMax 給出的答案是MSA,MiniMax Sparse Attention。架構如下圖:


官方披露的 MSA 有三個關鍵詞:

  • 稀疏注意力:通過篩選機制避免全量 token 兩兩交互;

  • 更精確的 KV 分塊:相比 DSA、MoBA 等方案,提高有效上下文覆蓋;

  • 硬件友好算子:采用 KV outer gather Q,以 KV 塊為外層聚合命中的 query,使每塊 KV 只讀一次、訪存更連續。

官方數據稱,在 100 萬上下文下,M3 每 token 計算量僅為上代模型的 1/20;prefilling 階段超過 9 倍加速,decoding 階段超過 15 倍加速;在 M3 的 head 配比下,算子比開源 Flash-Sparse-Attention、flash-moba 快 4 倍以上。

這組數字真正重要的地方不是“快了多少”,而是說明 MiniMax 把長上下文問題同時放在了兩個層面解決:

  • 算法層:減少不必要的注意力連接;

  • 系統層:讓剩下的連接更適合 GPU 執行。


圖 2:稀疏注意力路線對比

1. 從固定稀疏到動態稀疏:國際前沿的共同方向

稀疏注意力不是新概念。Longformer、BigBird 這類早期方案通過滑動窗口、全局 token、隨機連接等固定模式降低復雜度。它們證明了“不是所有 token 都必須互相關注”,但問題是固定模式很難適配真實任務。

代碼倉庫、論文、終端日志這類上下文沒有穩定結構。關鍵 token 可能出現在幾千行之前,也可能藏在某個工具輸出里。固定窗口容易漏掉遠距離依賴。

因此,近年的前沿方向明顯轉向動態稀疏:讓模型或檢索模塊根據輸入內容決定應該看哪里。

DeepSeek 的 DSA、Moonshot / Kimi 相關工作中的 MoBA、以及更通用的 NSA、SeerAttention 等研究,都在探索“先篩選,再精算”的路線。M3 的 MSA 也處在這條技術主線上。


如上表,MSA 的差異化不是“稀疏”本身,而是兩個更工程化的問題:

第一,稀疏之后到底能不能找準?如果篩選機制漏掉關鍵上下文,長窗口越長,模型越容易出現“看似讀了很多,其實沒看對”的問題。

第二,找準之后能不能高效算?稀疏注意力會帶來不規則訪存。如果實現方式讓 GPU 頻繁隨機讀取、重復加載 KV 塊,理論計算量下降也未必轉化成真實速度。

MSA 試圖同時回答這兩個問題:用更精確的 KV 分塊解決有效覆蓋,用 KV 外層聚合命中 query 的方式解決訪存效率。

2、MSA 與 DeepSeek、Kimi 路線的共識與非共識

從公開資料來看,M3、DeepSeek、Kimi 等長上下文模型已經形成幾個共識。

共識一:全注意力不適合無腦擴到百萬級上下文。百萬 token 下繼續依賴全注意力,成本、延遲和顯存都會失控。稀疏化是通向可用長上下文的主路線之一。

共識二:稀疏不能只是固定窗口。Agent 任務的關鍵依賴非常不規則。單純滑窗或固定塊很難處理跨文件引用、長日志回溯和多輪用戶約束。

共識三:長上下文必須軟硬結合。算法節省計算只是第一步,GPU 訪存、kernel 調度、prefill/decode 分離優化,都會直接決定最終體驗。

不同點在于,幾條路線對“稀疏粒度”和“硬件執行順序”的取舍不一樣。


如果用一句話概括: DSA 更強調“選哪些 token / KV”,MoBA 更強調“選哪些塊”,MSA 則把“怎么分塊、怎么讀塊、怎么讓 GPU 連續高效地算”放到了前臺。

這正是 MSA 比較值得關注的地方。過去很多長上下文方案容易停留在算法敘事,但目前披露的MSA信息中,把算子層實現當成核心賣點。這更接近產業模型的真實需求:模型要被大量用戶和 Agent 長時間調用,最終必須算得便宜、跑得穩定。

3、1M 上下文真正要測什么?

M3 的 1M 版本還未正式開放,因此不能提前下結論。但等上線后,真正應該測的不是“能不能塞進 1M token”,而是以下幾類任務:


如果 M3 在這些任務上穩定,1M 上下文才不只是窗口參數,而是可被 Agent 真實使用的工作記憶。


原生多模態:不是“看圖插件”,而是統一 token 空間

M3 的第二條技術主線是原生多模態。MiniMax 披露,M3 從 Step 0 開始做多模態混合訓練,支持圖片和視頻輸入,并能操作電腦桌面。

這和“文本大模型 + 外接視覺編碼器”的思路不同。

外接式多模態通常是先訓練一個強文本模型,再用視覺編碼器、投影層或適配器把圖像特征接進去。這條路線工程上高效,但模態之間的語義對齊更多發生在后期。

原生多模態則希望在訓練早期就讓文本、圖像、視頻等信息進入同一建模過程。模型不是先成為文本專家,再學習“看圖”,而是一開始就學習混合模態序列中的規律。


圖 3:原生多模態與后接式方案對比

M3 特別強調了interleaved data,也就是文本、圖片等模態在同一序列中自然交錯的數據。MiniMax 稱,在重構數據管線后,訓練數據 token 規模已可提升至 100 萬億量級。


這個判斷與國際多模態研究的趨勢一致。Flamingo、Chameleon、Emu3 等工作都在不同方向上證明,交錯圖文、早期融合、統一 next-token 建模對通用多模態能力有價值。

原生多模態對 Coding Agent 的意義很直接。

今天的開發任務不是純文本。用戶會給模型設計稿截圖、控制臺截圖、論文曲線圖、網頁錄屏、Excel 表格和桌面應用界面。模型如果只能把這些輸入轉成一段 caption,再交給文本模型推理,信息會在轉換過程中損失。

M3 的論文復現案例就說明了這一點。復現一篇機器學習論文,不只是讀 PDF 正文,還要理解圖表趨勢、公式關系、實驗設置、代碼實現和輸出日志。長上下文讓這些信息能放在同一線程里,原生多模態讓模型有機會在同一語義空間里處理它們。

MiniMax 把一篇 ICLR 2025 Outstanding Paper Award 獲獎論文扔給它,這篇論文研究的是大模型微調過程中的學習動力學。M3 自主運行了接近 12 小時,全程自主產出 18 次 commit 與 23 張實驗圖表,并跑通了核心實驗:不僅成功吻合了 SFT 階段的預測概率變化趨勢,清晰觀測到 DPO 實驗重點討論的squeezing 效應,還順利驗證了原論文提出的 Extend 緩解方法。


換句話說,原生多模態不是“模型能不能看圖”的問題,而是 Agent 能不能理解真實工作現場的問題。


交互式用戶模擬器:Coding SOTA 的訓練范式變化

M3 第三條技術主線是 Coding / Agentic 能力。

官方給出的 M3 成績包括:


但對技術受眾來說,更值得關注的不是這些數字本身,而是 MiniMax 對 Coding 訓練范式的判斷。

當前大部分 Coding Benchmark 仍然偏單輪任務:給模型一個 issue 或需求,讓它一次性修復。這個設定有價值,但和真實開發體驗有距離。

真實開發通常是多輪協作:

  • 用戶先提出一個不完整需求;

  • Agent 需要讀項目、提出方案、執行修改;

  • 運行測試后發現新錯誤;

  • 用戶補充約束或改變優先級;

  • Agent 需要保留前文狀態,重新規劃任務;

  • 多輪之后交付一個可運行結果。

MiniMax 因此構建了交互式用戶模擬器框架,讓模型在訓練和評測階段接觸更接近生產環境的行為模式,包括需求補充、方案討論、反饋修正、連續任務切換和復雜項目迭代。


圖 4:交互式用戶模擬器閉環

這代表了一個重要變化:Coding Agent 的訓練目標正在從“生成正確代碼”轉向“完成長期協作任務”。為此,MiniMax 也用幾道題目測試了它的實際表現。

FP8 矩陣乘(GEMM)是大模型推理中計算量最集中的環節之一,也是優化難度最高的之一。通常需要資深團隊1-2 周的投入。

MiniMax 把這道題丟給 M3,起點只有一份任務描述、一個 benchmark 腳本、一個跑不起來的 Triton 骨架,沒有任何 reference 高性能實現可供參考。但在隨后約 24 小時的連續執行中,M3 共完成 147 次 benchmark 提交、1959 次工具調用,完全自主地走完了從 baseline 實現到生產級優化的全部路徑。

最終M3 經過 6 輪標志性優化,將 Hopper FP8 硬件峰值利用率從首版 7.6% 推進至 71.3%,實現相較于原始版本的 9.4× 加速。


除此之外,MiniMax 還能自己訓練模型。

MiniMax 在 PostTrainBench 上讓它接手四個只完成預訓練的 Base 模型,任務是在 12 小時內自主完成數據合成、訓練、評測、迭代的全部流程,最終讓這些模型在數學推理、工具調用、科學知識推理、代碼生成等任務上具備基本能力。

整個流程全程無人干預,M3 需要自己決定合成什么樣的數據、選擇什么訓練策略、如何根據評測結果調整下一輪方案。M3 最終得分 0.37,略低于 Opus 4.7(0.42)和 GPT-5.5(0.39),但明顯領先其余模型。

以上幾個長程案例都在說明,成功不取決于一次輸出,而取決于長時間閉環:計劃、執行、驗證、修正,再繼續執行。

這也是為什么 MSA 和交互式訓練要放在一起看。沒有長上下文,模型很難記住長程工具軌跡;沒有真實交互式訓練,長上下文也可能只是“更大的輸入框,不會自動變成穩定協作能力。


M3 的下一步是做你的“AI同事?”

M3 這次發布同時更新了 MiniMax Code。MiniMax Code 被定位為專為 M3 設計、并與 M3 一起訓練的 Agent 產品,目標是對標 Claude Code / Codex。

這點不只是產品信息,也解釋了 M3 的技術取舍。

如果目標只是聊天,1M 上下文、原生視頻輸入、長期工具調用訓練都不是最高優先級。但如果目標是 Coding Agent,三者就是剛需。

這也解釋了為什么 M3 的成本結構值得關注。Agent 調用天然消耗大量 token:它要讀倉庫、掃日志、反復運行測試、生成 diff、總結失敗原因。如果模型能力接近前沿,但調用成本仍然很高,就很難成為日常工具。

MiniMax 新 Token Plan 給出的價格是:


以 Max 套餐為例,每月 119 元可獲得 18億+ token,對比來看,Claude Max 套餐每月 100 美元(約合人民幣 720 元)提供約 9 億 token,同價位下 M3 的 Token 容量約為其 2 倍;而 DeepSeek API 按量計費的價格為每百萬 Token 2 元(輸入)/ 8 元(輸出),M3 Max 套餐的均攤成本同樣顯著更低。

這樣親民的定價,讓 1M 上下文更加普惠適用,更貼合開發者的真實需求。

這意味著 M3 的競爭策略不是只拼“最強模型”,而是拼一個更完整的工程組合:足夠前沿的能力、足夠長的上下文、足夠低的 token 成本、以及專門適配模型的 Agent 產品。


MSA之后,長上下文的故事講到了哪?

MiniMax M3 最值得討論的地方,是它把國產開源模型帶進了 Frontier Agent 的主戰場。

MSA 回答了百萬級上下文如何可用化的問題;原生多模態回答了模型如何理解真實工作環境的問題;交互式用戶模擬器回答了 Coding Agent 如何從單輪代碼生成走向長期協作的問題。

這三條線合在一起,M3 的定位就很清楚:它不僅僅局限于聊天工具,而是一個可以幫你啃下百萬字代碼庫、獨立復現頂會論文、在24小時內自主迭代上千次優化內核的AI搭子。

Opus 仍然很強,GPT 和 Gemini 仍然是前沿閉源模型的重要參照。但 M3 的出現意味著,國產開源模型第一次在 Coding Frontier、1M 上下文和原生多模態三個關鍵維度上同時進入牌桌。

但可以肯定的是,M3 把過去屬于少數閉源旗艦的 Frontier 能力,第一次完整地、免費地、可部署地交到了全球開發者手中。

這本身就是一種進步。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
董路否認自掏腰包5800萬:沒花國家一分錢 草臺三杰?誰贏誰專業

董路否認自掏腰包5800萬:沒花國家一分錢 草臺三杰?誰贏誰專業

念洲
2026-06-13 22:36:25
緊急叫停?謝娜巡演被大量舉報,官方最新回應來了

緊急叫停?謝娜巡演被大量舉報,官方最新回應來了

娛說瑜悅
2026-06-12 13:35:06
世界第1,歷史第2!吳宜澤奪冠,單賽季獎金榜領跑,趙心童第3!

世界第1,歷史第2!吳宜澤奪冠,單賽季獎金榜領跑,趙心童第3!

劉姚堯的文字城堡
2026-05-07 08:34:26
開封男童已丟3天!2個致命噩耗曝光,難怪警犬無人機全找不到線索

開封男童已丟3天!2個致命噩耗曝光,難怪警犬無人機全找不到線索

奇思妙想草葉君
2026-06-13 21:40:23
TVB宣布將在深圳設立前海總部,《新聞女王3》即將開拍

TVB宣布將在深圳設立前海總部,《新聞女王3》即將開拍

北青網-北京青年報
2026-06-13 18:16:46
摩根士丹利:更多跡象顯示中國二手房銷售走弱

摩根士丹利:更多跡象顯示中國二手房銷售走弱

新浪財經
2026-06-13 18:15:03
英格蘭內訌前兆!名宿集體怒噴圖赫爾:帶了個湊數的去世界杯

英格蘭內訌前兆!名宿集體怒噴圖赫爾:帶了個湊數的去世界杯

瀾歸序
2026-06-14 05:57:47
法拉利高管深夜開懟:智界,你請的“首席設計師”到底是誰?

法拉利高管深夜開懟:智界,你請的“首席設計師”到底是誰?

小南看車
2026-06-11 20:30:07
卡塔爾1-1平局引尷尬,球迷討論中國申辦世界杯需慎重

卡塔爾1-1平局引尷尬,球迷討論中國申辦世界杯需慎重

墨史軒
2026-06-13 06:31:17
男子找“貨拉拉”送4瓶茅臺,貨沒送到騎手失聯,報警后騎手稱“摔車酒碎扔垃圾桶了”,無力賠償想用母親耗時5年制作的手工刺繡擔保

男子找“貨拉拉”送4瓶茅臺,貨沒送到騎手失聯,報警后騎手稱“摔車酒碎扔垃圾桶了”,無力賠償想用母親耗時5年制作的手工刺繡擔保

都市快報橙柿互動
2026-06-12 23:25:23
羅馬諾:曼聯正與西漢姆聯接觸,但不會為M費的瘋狂轉會費買單;記者:曼聯想簽下一名謝什科的替補,但不是萊萬

羅馬諾:曼聯正與西漢姆聯接觸,但不會為M費的瘋狂轉會費買單;記者:曼聯想簽下一名謝什科的替補,但不是萊萬

MUREDS
2026-06-13 23:48:47
國內50后還剩多少人?真實數據曝光,活到80歲的比例太意外!

國內50后還剩多少人?真實數據曝光,活到80歲的比例太意外!

華庭講美食
2026-06-10 17:04:25
有沒有人敢爆自己的瓜?網友:確定玩這么大嗎?

有沒有人敢爆自己的瓜?網友:確定玩這么大嗎?

夜深愛雜談
2026-02-18 20:55:58
你在無意中發現別人什么秘密?網友爆料,電視劇都不敢這樣演

你在無意中發現別人什么秘密?網友爆料,電視劇都不敢這樣演

夜深愛雜談
2026-03-16 22:21:03
91年,26歲郭富城和25歲黎明的合影,真要分個高低,還是黎明更帥

91年,26歲郭富城和25歲黎明的合影,真要分個高低,還是黎明更帥

喜文多見01
2026-06-13 16:51:07
這4個行業,已經發不出工資了!真的很嚴重了

這4個行業,已經發不出工資了!真的很嚴重了

細說職場
2026-06-13 14:08:51
柬埔寨安徽商會會長劉忍被捕:錄音曝光令人發指,販賣人口起家!

柬埔寨安徽商會會長劉忍被捕:錄音曝光令人發指,販賣人口起家!

眼光很亮
2026-06-08 07:13:32
世界杯歷史十大傳奇:姆巴佩超齊祖,第一是梅西、老馬還是貝利?

世界杯歷史十大傳奇:姆巴佩超齊祖,第一是梅西、老馬還是貝利?

仰臥撐FTUer
2026-06-13 07:41:11
德國外長:臺海有事就是德國有事,我們不接受用暴力改變臺海現狀

德國外長:臺海有事就是德國有事,我們不接受用暴力改變臺海現狀

補懂事的孩紙
2026-06-11 06:04:07
南京23歲大學生小石去世!凌晨三點還在網吧,遇假草坪,父親發聲

南京23歲大學生小石去世!凌晨三點還在網吧,遇假草坪,父親發聲

千言娛樂記
2026-06-13 15:58:52
2026-06-14 06:40:49
CSDN incentive-icons
CSDN
成就一億技術人
26647文章數 242291關注度
往期回顧 全部

科技要聞

SpaceX上市首日破2萬億美元,馬斯克再封神

頭條要聞

寶媽考編排名第一卻被低分者遞補 維權后崗位直接取消

頭條要聞

寶媽考編排名第一卻被低分者遞補 維權后崗位直接取消

體育要聞

美國4比1巴拉圭:這統治力真是美國隊?!

娛樂要聞

鄧超曬孫儷親手織的帽子,笑瘋全網!

財經要聞

梁文鋒向左,楊植麟向右

汽車要聞

深藍S07華為乾崑激光版增程車型上市 限時15.49萬元起

態度原創

房產
親子
本地
健康
公開課

房產要聞

海南最賺錢行業曝光!最快4年半,海口全款買三房!

親子要聞

真正覺醒的家庭

本地新聞

AK劉彰邂逅河北南大港濕地

老人、小孩、孕婦,吃粽子有啥風險

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版