MiniMax M3發(fā)布了,后面還會(huì)開(kāi)源,
看到技術(shù)報(bào)告后我就只想說(shuō)三四五六個(gè)字,
真齊活了,啥都不缺了。
今年模型發(fā)布太多了,我對(duì)又一個(gè)更強(qiáng)模型其實(shí)已經(jīng)有點(diǎn)麻了,贏的指標(biāo)太多了,每個(gè)月都充Token Plan的我更關(guān)心的是,它有沒(méi)有把Agent高頻用到的幾大能力都湊齊,
從紙面能力上看,
M3在SWE-Bench Pro(軟件工程)拿到59.0,超過(guò)了GPT-5.5和Gemini 3.1 Pro,接近Opus 4.7;在GPT5.5擅長(zhǎng)的終端編程上,跟Opus 4.7同分。在多模態(tài)測(cè)試集OmniDocBench上,得分超了Gemini 3.1 Pro;在自主Agent的端到端評(píng)測(cè)框架Claw-Eval上拿到最高分。
感覺(jué)就像是張無(wú)忌,拿著乾坤大挪移在對(duì)手最厲害的招數(shù)上打敗TA。
![]()
說(shuō)實(shí)話,GPT5.5 400k的上下文我忍很久了,放到Hermes里不夠用啊,
Claude就別說(shuō)了,看到我Agent里不是Claude Code的系統(tǒng)提示語(yǔ)之后第一時(shí)間就ban我了。
用的時(shí)間越久越覺(jué)得有點(diǎn)像個(gè)不可能三角一樣,
寫(xiě)代碼強(qiáng)但上下文短,進(jìn)到代碼庫(kù)里,改幾輪就開(kāi)始忘前文了。
上下文長(zhǎng)但代碼力不夠,結(jié)果就是讀了很久文件然后給我一個(gè)丑不垃圾的網(wǎng)頁(yè)
![]()
拜托,真的不要再讓我看到這種雷霆大丑網(wǎng)頁(yè)了好嗎。
那接下來(lái)就是傳統(tǒng)環(huán)節(jié)了,把MiniMax M3放哪個(gè)框架來(lái)測(cè)試呢?
我這里整合了一張表,我出于想試試看Claude Code新能力Dynamic Workflows,一口氣開(kāi)幾百個(gè)subagent的壯觀之感就單方面選這個(gè)了。
![]()
額外補(bǔ)充一下,M3在MiniMax Code里面是可以調(diào)用Minimax全家桶API的,文字、語(yǔ)音、視頻分析都有。
大家如果跟我一樣經(jīng)常換模型測(cè)試的話,可以用cc switch來(lái)切換模型。
直接先來(lái)復(fù)刻一把,這次MiniMax放出來(lái)的主case本來(lái)是把ICLR 2025 Outstanding Paper Award論文丟給M3,讓它獨(dú)立復(fù)現(xiàn)。
技術(shù)報(bào)告里面給到的數(shù)據(jù)是,M3自主運(yùn)行接近12小時(shí),產(chǎn)出了18次commit和23張實(shí)驗(yàn)圖表,并跑通了核心實(shí)驗(yàn)。
離譜的是,M3的多模態(tài)能力已經(jīng)可以做到把論文里的公式,曲線圖、實(shí)驗(yàn)設(shè)定放到同一個(gè)長(zhǎng)線程里處理。
我第一時(shí)間想到的跟這個(gè)類(lèi)似的就是Karpathy大神三個(gè)月前把他的nanoGPT升級(jí)成了nanochat,這是一套完整的大模型訓(xùn)練實(shí)驗(yàn)框架,覆蓋了所有主要階段,包括分詞,預(yù)訓(xùn)練,微調(diào),評(píng)估,推理和聊天 UI,只花48刀就把模型訓(xùn)練到了GPT-2水平。
![]()
我今天就讓MiniMax m3用動(dòng)態(tài)工作流在我這臺(tái)mabookpro訓(xùn)練一個(gè)GPT出來(lái),
觸發(fā)動(dòng)態(tài)工作流的方式主要有兩種,
最簡(jiǎn)單的方式就是帶上workflow這個(gè)詞,詞會(huì)變成一個(gè)彩虹的配色,系統(tǒng)識(shí)別到之后就會(huì)生成一個(gè)腳本,在執(zhí)行之前會(huì)給我們預(yù)覽,確定后再啟動(dòng)多Agent的并行。
在運(yùn)行的過(guò)程中,隨時(shí)可以用/workflow指令或者直接用/config 指令關(guān)掉這個(gè)動(dòng)態(tài)工作流。
![]()
如果都想要MiniMax M3的額度打滿,也可以輸入/effort 選擇ultracode,然后按shift+tab切換到auto mode自動(dòng)模式,后面基本上都全自動(dòng)多Agent了。
之前用Claude sonnet 4.6的時(shí)候都沒(méi)敢切換成ultracode,現(xiàn)在用MiniMax m3頂上之后這大紫色是真好看啊。確認(rèn)之后,對(duì)話框還會(huì)短暫地變換成全彩虹色,非常有儀式感,所以這就是氪金玩家的愉悅之感嘛。
![]()
真正跑起來(lái)的時(shí)候反而是有點(diǎn)唏噓了,
大家都知道我是個(gè)算法程序員,幾年前運(yùn)行個(gè)比GPT小40倍LSTM(循環(huán)神經(jīng)網(wǎng)絡(luò)),從數(shù)據(jù)準(zhǔn)備到模型訓(xùn)練,然后等訓(xùn)練曲線出來(lái)再到模型推理,再快也要個(gè)三五天,最崩潰的就是跑一半發(fā)現(xiàn)包的版本不對(duì),模型智力倒退五十年,現(xiàn)在一個(gè)Agent就可以在90分鐘把所有活干完了。
![]()
接著又訓(xùn)練了1000步之后,
這個(gè)模型就從一個(gè)我咋問(wèn)都只會(huì)回答A的版本變成開(kāi)始有邏輯的回復(fù),還能算個(gè)乘法,簡(jiǎn)單做問(wèn)答的版本了。
![]()
大模型訓(xùn)練,很神奇吧!
現(xiàn)在你也可以做到了。
![]()
很多模型最容易掛在前30次的嘗試?yán)铮?/p>
跑幾輪不行,就開(kāi)始繞圈,擺爛,不然就是來(lái)個(gè)萬(wàn)金油話術(shù)建議我手動(dòng)檢查。
但真實(shí)工程里,很多進(jìn)展就是出現(xiàn)在這種平臺(tái)期后面。你試了很多次都沒(méi)提升,然后突然某個(gè)方向打穿了。
如果一個(gè)Agent沒(méi)有足夠長(zhǎng)的上下文,沒(méi)有穩(wěn)定的工具調(diào)用,它根本走不到后期。
第二個(gè)case我來(lái)給正在開(kāi)發(fā)2.0版本的Humanize PPT加加速,
Humanize PPT的出發(fā)點(diǎn)是給HTML PPT加一個(gè)人話大綱和演講模式,也就是在生成之前先把所有的資料整理一遍,缺失的細(xì)節(jié)會(huì)進(jìn)一步補(bǔ)全,確定要用多少頁(yè),每頁(yè)都是什么內(nèi)容才能把我們想講的內(nèi)容講明白。
至于演講模式一看就清楚了,
有下一頁(yè)的預(yù)覽,演講主題,大小進(jìn)度條,口播稿,想要脫稿的也可以看關(guān)鍵點(diǎn)。
樣式的部分本著不重復(fù)造輪子的想法,我兼容了中文的guizang-ppt-skill和英文的frontend-slides,用它們來(lái)生成HTML PPT的頁(yè)面,Humanize PPT完成其他部分。
為了保證設(shè)計(jì)出來(lái)的中英文HTML PPT都好看,
我之前要Claude Code輔助設(shè)計(jì),Codex來(lái)做資料整合和大綱生成的,這個(gè)對(duì)于模型的多模態(tài)能力還是要求很高的。每一頁(yè)P(yáng)PT我都需要模型先用瀏覽器自動(dòng)化打開(kāi)HTML PPT的當(dāng)前頁(yè),然后來(lái)個(gè)截圖讓模型去判斷動(dòng)態(tài)背景有沒(méi)有生效,字體有沒(méi)有大小不一致啥的,跟上一頁(yè)的視覺(jué)元素有沒(méi)有不同。
![]()
但是GPT5.5偷懶得很?chē)?yán)重,
就算我給它開(kāi)啟了超高的推理模式,在前幾次運(yùn)行的時(shí)候,它還是只給我做了一個(gè)臨時(shí)的兼容處理,
就算我明確跟它說(shuō)了,我們的定位是原生兼容這個(gè) HTML PPT,完全可以以自然語(yǔ)言的方式去批量生成。
![]()
能看得出來(lái)我都有點(diǎn)破防了,甚至想自己上手去改代碼了。
剛好現(xiàn)在就把這這條做到一半鏈路全交給MiniMax M3出個(gè)計(jì)劃試試看。
![]()
又花了一小時(shí),重新梳理了一遍解決了GPT偷懶留下來(lái)的歷史代碼,Humanize PPT現(xiàn)在可以在對(duì)話中調(diào)用子Agent,一次性生成guizang-ppt-skill里所有主題了。
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
執(zhí)行的過(guò)程是有體感上的提速的,2分50s就讀完了項(xiàng)目的所有代碼還給出了具體到哪一行的修改方案。
![]()
看了一下,是因?yàn)镸3還有一個(gè)新架構(gòu)MSA,能把每個(gè)token的計(jì)算量壓到上一代的1/20,也就說(shuō)一百萬(wàn) token 的上下文窗口,預(yù)填充(模型在正式回答之前,先把你發(fā)給它的內(nèi)容理解一遍)快9倍,解碼(模型個(gè)字一個(gè)字把答案寫(xiě)出來(lái)的過(guò)程)快15倍。
最后的最后,
到了經(jīng)典價(jià)格環(huán)節(jié),
M3上線之后,Token Plan從固定時(shí)間刷新額度變成了固定token。Plus 6 億 token 49 元/月 ,Max 18 億 token 119 元/月 ,Ultra 55 億 token 469 元/月。
不得不說(shuō),
百萬(wàn)上下文+動(dòng)態(tài)工作流帶來(lái)的體感太不一樣了,
富足到連開(kāi)發(fā)完后做個(gè)最小測(cè)試,
M3都給我模擬了七種場(chǎng)景,
我打算就把M3當(dāng)做動(dòng)態(tài)工作流的專屬模型了,
直接先來(lái)個(gè)一個(gè)月的Ultra試試看耐不耐用。
@ 作者 / 卡爾
最后,感謝你看到這里如果喜歡這篇文章,不妨順手給我們點(diǎn)贊|在看|轉(zhuǎn)發(fā)|評(píng)論
如果想要第一時(shí)間收到推送,不妨給我個(gè)星標(biāo)
如果你有更有趣的玩法,歡迎在評(píng)論區(qū)聊聊
更多的內(nèi)容正在不斷填坑中……
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.