網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

實(shí)測(cè)MiniMax M3，全鏈路Agent要的三塊拼圖終于湊齊了

2026-06-03 19:23:12　來(lái)源: 卡爾的AI沃茨

北京舉報(bào)

分享至

MiniMax M3發(fā)布了，后面還會(huì)開(kāi)源，

看到技術(shù)報(bào)告后我就只想說(shuō)三四五六個(gè)字，

真齊活了，啥都不缺了。

今年模型發(fā)布太多了，我對(duì)又一個(gè)更強(qiáng)模型其實(shí)已經(jīng)有點(diǎn)麻了，贏的指標(biāo)太多了，每個(gè)月都充Token Plan的我更關(guān)心的是，它有沒(méi)有把Agent高頻用到的幾大能力都湊齊，

從紙面能力上看，

M3在SWE-Bench Pro（軟件工程）拿到59.0，超過(guò)了GPT-5.5和Gemini 3.1 Pro，接近Opus 4.7；在GPT5.5擅長(zhǎng)的終端編程上，跟Opus 4.7同分。在多模態(tài)測(cè)試集OmniDocBench上，得分超了Gemini 3.1 Pro；在自主Agent的端到端評(píng)測(cè)框架Claw-Eval上拿到最高分。

感覺(jué)就像是張無(wú)忌，拿著乾坤大挪移在對(duì)手最厲害的招數(shù)上打敗TA。

說(shuō)實(shí)話，GPT5.5 400k的上下文我忍很久了，放到Hermes里不夠用啊，

Claude就別說(shuō)了，看到我Agent里不是Claude Code的系統(tǒng)提示語(yǔ)之后第一時(shí)間就ban我了。

用的時(shí)間越久越覺(jué)得有點(diǎn)像個(gè)不可能三角一樣，

寫(xiě)代碼強(qiáng)但上下文短，進(jìn)到代碼庫(kù)里，改幾輪就開(kāi)始忘前文了。

上下文長(zhǎng)但代碼力不夠，結(jié)果就是讀了很久文件然后給我一個(gè)丑不垃圾的網(wǎng)頁(yè)

拜托，真的不要再讓我看到這種雷霆大丑網(wǎng)頁(yè)了好嗎。

那接下來(lái)就是傳統(tǒng)環(huán)節(jié)了，把MiniMax M3放哪個(gè)框架來(lái)測(cè)試呢？

我這里整合了一張表，我出于想試試看Claude Code新能力Dynamic Workflows，一口氣開(kāi)幾百個(gè)subagent的壯觀之感就單方面選這個(gè)了。

額外補(bǔ)充一下，M3在MiniMax Code里面是可以調(diào)用Minimax全家桶API的，文字、語(yǔ)音、視頻分析都有。

大家如果跟我一樣經(jīng)常換模型測(cè)試的話，可以用cc switch來(lái)切換模型。

直接先來(lái)復(fù)刻一把，這次MiniMax放出來(lái)的主case本來(lái)是把ICLR 2025 Outstanding Paper Award論文丟給M3，讓它獨(dú)立復(fù)現(xiàn)。

技術(shù)報(bào)告里面給到的數(shù)據(jù)是，M3自主運(yùn)行接近12小時(shí)，產(chǎn)出了18次commit和23張實(shí)驗(yàn)圖表，并跑通了核心實(shí)驗(yàn)。

離譜的是，M3的多模態(tài)能力已經(jīng)可以做到把論文里的公式，曲線圖、實(shí)驗(yàn)設(shè)定放到同一個(gè)長(zhǎng)線程里處理。

我第一時(shí)間想到的跟這個(gè)類(lèi)似的就是Karpathy大神三個(gè)月前把他的nanoGPT升級(jí)成了nanochat，這是一套完整的大模型訓(xùn)練實(shí)驗(yàn)框架，覆蓋了所有主要階段，包括分詞，預(yù)訓(xùn)練，微調(diào)，評(píng)估，推理和聊天 UI，只花48刀就把模型訓(xùn)練到了GPT-2水平。

我今天就讓MiniMax m3用動(dòng)態(tài)工作流在我這臺(tái)mabookpro訓(xùn)練一個(gè)GPT出來(lái)，

觸發(fā)動(dòng)態(tài)工作流的方式主要有兩種，

最簡(jiǎn)單的方式就是帶上workflow這個(gè)詞，詞會(huì)變成一個(gè)彩虹的配色，系統(tǒng)識(shí)別到之后就會(huì)生成一個(gè)腳本，在執(zhí)行之前會(huì)給我們預(yù)覽，確定后再啟動(dòng)多Agent的并行。

在運(yùn)行的過(guò)程中，隨時(shí)可以用/workflow指令或者直接用/config 指令關(guān)掉這個(gè)動(dòng)態(tài)工作流。

如果都想要MiniMax M3的額度打滿，也可以輸入/effort 選擇ultracode，然后按shift+tab切換到auto mode自動(dòng)模式，后面基本上都全自動(dòng)多Agent了。

之前用Claude sonnet 4.6的時(shí)候都沒(méi)敢切換成ultracode，現(xiàn)在用MiniMax m3頂上之后這大紫色是真好看啊。確認(rèn)之后，對(duì)話框還會(huì)短暫地變換成全彩虹色，非常有儀式感，所以這就是氪金玩家的愉悅之感嘛。

真正跑起來(lái)的時(shí)候反而是有點(diǎn)唏噓了，

大家都知道我是個(gè)算法程序員，幾年前運(yùn)行個(gè)比GPT小40倍LSTM（循環(huán)神經(jīng)網(wǎng)絡(luò)），從數(shù)據(jù)準(zhǔn)備到模型訓(xùn)練，然后等訓(xùn)練曲線出來(lái)再到模型推理，再快也要個(gè)三五天，最崩潰的就是跑一半發(fā)現(xiàn)包的版本不對(duì)，模型智力倒退五十年，現(xiàn)在一個(gè)Agent就可以在90分鐘把所有活干完了。

接著又訓(xùn)練了1000步之后，

這個(gè)模型就從一個(gè)我咋問(wèn)都只會(huì)回答A的版本變成開(kāi)始有邏輯的回復(fù)，還能算個(gè)乘法，簡(jiǎn)單做問(wèn)答的版本了。

大模型訓(xùn)練，很神奇吧！

現(xiàn)在你也可以做到了。

很多模型最容易掛在前30次的嘗試?yán)铮?/p>

跑幾輪不行，就開(kāi)始繞圈，擺爛，不然就是來(lái)個(gè)萬(wàn)金油話術(shù)建議我手動(dòng)檢查。

但真實(shí)工程里，很多進(jìn)展就是出現(xiàn)在這種平臺(tái)期后面。你試了很多次都沒(méi)提升，然后突然某個(gè)方向打穿了。

如果一個(gè)Agent沒(méi)有足夠長(zhǎng)的上下文，沒(méi)有穩(wěn)定的工具調(diào)用，它根本走不到后期。

第二個(gè)case我來(lái)給正在開(kāi)發(fā)2.0版本的Humanize PPT加加速，

Humanize PPT的出發(fā)點(diǎn)是給HTML PPT加一個(gè)人話大綱和演講模式，也就是在生成之前先把所有的資料整理一遍，缺失的細(xì)節(jié)會(huì)進(jìn)一步補(bǔ)全，確定要用多少頁(yè)，每頁(yè)都是什么內(nèi)容才能把我們想講的內(nèi)容講明白。

至于演講模式一看就清楚了，

有下一頁(yè)的預(yù)覽，演講主題，大小進(jìn)度條，口播稿，想要脫稿的也可以看關(guān)鍵點(diǎn)。

樣式的部分本著不重復(fù)造輪子的想法，我兼容了中文的guizang-ppt-skill和英文的frontend-slides，用它們來(lái)生成HTML PPT的頁(yè)面，Humanize PPT完成其他部分。

為了保證設(shè)計(jì)出來(lái)的中英文HTML PPT都好看，

我之前要Claude Code輔助設(shè)計(jì)，Codex來(lái)做資料整合和大綱生成的，這個(gè)對(duì)于模型的多模態(tài)能力還是要求很高的。每一頁(yè)P(yáng)PT我都需要模型先用瀏覽器自動(dòng)化打開(kāi)HTML PPT的當(dāng)前頁(yè)，然后來(lái)個(gè)截圖讓模型去判斷動(dòng)態(tài)背景有沒(méi)有生效，字體有沒(méi)有大小不一致啥的，跟上一頁(yè)的視覺(jué)元素有沒(méi)有不同。

但是GPT5.5偷懶得很?chē)?yán)重，

就算我給它開(kāi)啟了超高的推理模式，在前幾次運(yùn)行的時(shí)候，它還是只給我做了一個(gè)臨時(shí)的兼容處理，

就算我明確跟它說(shuō)了，我們的定位是原生兼容這個(gè) HTML PPT，完全可以以自然語(yǔ)言的方式去批量生成。

能看得出來(lái)我都有點(diǎn)破防了，甚至想自己上手去改代碼了。

剛好現(xiàn)在就把這這條做到一半鏈路全交給MiniMax M3出個(gè)計(jì)劃試試看。

又花了一小時(shí)，重新梳理了一遍解決了GPT偷懶留下來(lái)的歷史代碼，Humanize PPT現(xiàn)在可以在對(duì)話中調(diào)用子Agent，一次性生成guizang-ppt-skill里所有主題了。

執(zhí)行的過(guò)程是有體感上的提速的，2分50s就讀完了項(xiàng)目的所有代碼還給出了具體到哪一行的修改方案。

看了一下，是因?yàn)镸3還有一個(gè)新架構(gòu)MSA，能把每個(gè)token的計(jì)算量壓到上一代的1/20，也就說(shuō)一百萬(wàn) token 的上下文窗口，預(yù)填充（模型在正式回答之前，先把你發(fā)給它的內(nèi)容理解一遍）快9倍，解碼（模型個(gè)字一個(gè)字把答案寫(xiě)出來(lái)的過(guò)程）快15倍。

最后的最后，

到了經(jīng)典價(jià)格環(huán)節(jié)，

M3上線之后，Token Plan從固定時(shí)間刷新額度變成了固定token。Plus 6 億 token 49 元/月，Max 18 億 token 119 元/月，Ultra 55 億 token 469 元/月。

不得不說(shuō)，

百萬(wàn)上下文+動(dòng)態(tài)工作流帶來(lái)的體感太不一樣了，

富足到連開(kāi)發(fā)完后做個(gè)最小測(cè)試，

M3都給我模擬了七種場(chǎng)景，

我打算就把M3當(dāng)做動(dòng)態(tài)工作流的專屬模型了，

直接先來(lái)個(gè)一個(gè)月的Ultra試試看耐不耐用。

@ 作者 / 卡爾

最后，感謝你看到這里如果喜歡這篇文章，不妨順手給我們點(diǎn)贊｜在看｜轉(zhuǎn)發(fā)｜評(píng)論

如果想要第一時(shí)間收到推送，不妨給我個(gè)星標(biāo)

如果你有更有趣的玩法，歡迎在評(píng)論區(qū)聊聊

更多的內(nèi)容正在不斷填坑中……

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.