无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

實(shí)測(cè)MiniMax M3,全鏈路Agent要的三塊拼圖終于湊齊了

0
分享至

MiniMax M3發(fā)布了,后面還會(huì)開(kāi)源,

看到技術(shù)報(bào)告后我就只想說(shuō)三四五六個(gè)字,

真齊活了,啥都不缺了。

今年模型發(fā)布太多了,我對(duì)又一個(gè)更強(qiáng)模型其實(shí)已經(jīng)有點(diǎn)麻了,贏的指標(biāo)太多了,每個(gè)月都充Token Plan的我更關(guān)心的是,它有沒(méi)有把Agent高頻用到的幾大能力都湊齊,

從紙面能力上看,

M3在SWE-Bench Pro(軟件工程)拿到59.0,超過(guò)了GPT-5.5和Gemini 3.1 Pro,接近Opus 4.7;在GPT5.5擅長(zhǎng)的終端編程上,跟Opus 4.7同分。在多模態(tài)測(cè)試集OmniDocBench上,得分超了Gemini 3.1 Pro;在自主Agent的端到端評(píng)測(cè)框架Claw-Eval上拿到最高分。

感覺(jué)就像是張無(wú)忌,拿著乾坤大挪移在對(duì)手最厲害的招數(shù)上打敗TA。


說(shuō)實(shí)話,GPT5.5 400k的上下文我忍很久了,放到Hermes里不夠用啊,

Claude就別說(shuō)了,看到我Agent里不是Claude Code的系統(tǒng)提示語(yǔ)之后第一時(shí)間就ban我了。

用的時(shí)間越久越覺(jué)得有點(diǎn)像個(gè)不可能三角一樣,

寫(xiě)代碼強(qiáng)但上下文短,進(jìn)到代碼庫(kù)里,改幾輪就開(kāi)始忘前文了。

上下文長(zhǎng)但代碼力不夠,結(jié)果就是讀了很久文件然后給我一個(gè)丑不垃圾的網(wǎng)頁(yè)


拜托,真的不要再讓我看到這種雷霆大丑網(wǎng)頁(yè)了好嗎。

那接下來(lái)就是傳統(tǒng)環(huán)節(jié)了,把MiniMax M3放哪個(gè)框架來(lái)測(cè)試呢?

我這里整合了一張表,我出于想試試看Claude Code新能力Dynamic Workflows,一口氣開(kāi)幾百個(gè)subagent的壯觀之感就單方面選這個(gè)了。


額外補(bǔ)充一下,M3在MiniMax Code里面是可以調(diào)用Minimax全家桶API的,文字、語(yǔ)音、視頻分析都有。

大家如果跟我一樣經(jīng)常換模型測(cè)試的話,可以用cc switch來(lái)切換模型。

直接先來(lái)復(fù)刻一把,這次MiniMax放出來(lái)的主case本來(lái)是把ICLR 2025 Outstanding Paper Award論文丟給M3,讓它獨(dú)立復(fù)現(xiàn)。

技術(shù)報(bào)告里面給到的數(shù)據(jù)是,M3自主運(yùn)行接近12小時(shí),產(chǎn)出了18次commit和23張實(shí)驗(yàn)圖表,并跑通了核心實(shí)驗(yàn)。

離譜的是,M3的多模態(tài)能力已經(jīng)可以做到把論文里的公式,曲線圖、實(shí)驗(yàn)設(shè)定放到同一個(gè)長(zhǎng)線程里處理。

我第一時(shí)間想到的跟這個(gè)類(lèi)似的就是Karpathy大神三個(gè)月前把他的nanoGPT升級(jí)成了nanochat,這是一套完整的大模型訓(xùn)練實(shí)驗(yàn)框架,覆蓋了所有主要階段,包括分詞,預(yù)訓(xùn)練,微調(diào),評(píng)估,推理和聊天 UI,只花48刀就把模型訓(xùn)練到了GPT-2水平。


我今天就讓MiniMax m3用動(dòng)態(tài)工作流在我這臺(tái)mabookpro訓(xùn)練一個(gè)GPT出來(lái),

觸發(fā)動(dòng)態(tài)工作流的方式主要有兩種,

最簡(jiǎn)單的方式就是帶上workflow這個(gè)詞,詞會(huì)變成一個(gè)彩虹的配色,系統(tǒng)識(shí)別到之后就會(huì)生成一個(gè)腳本,在執(zhí)行之前會(huì)給我們預(yù)覽,確定后再啟動(dòng)多Agent的并行。

在運(yùn)行的過(guò)程中,隨時(shí)可以用/workflow指令或者直接用/config 指令關(guān)掉這個(gè)動(dòng)態(tài)工作流。


如果都想要MiniMax M3的額度打滿,也可以輸入/effort 選擇ultracode,然后按shift+tab切換到auto mode自動(dòng)模式,后面基本上都全自動(dòng)多Agent了。

之前用Claude sonnet 4.6的時(shí)候都沒(méi)敢切換成ultracode,現(xiàn)在用MiniMax m3頂上之后這大紫色是真好看啊。確認(rèn)之后,對(duì)話框還會(huì)短暫地變換成全彩虹色,非常有儀式感,所以這就是氪金玩家的愉悅之感嘛。


真正跑起來(lái)的時(shí)候反而是有點(diǎn)唏噓了,

大家都知道我是個(gè)算法程序員,幾年前運(yùn)行個(gè)比GPT小40倍LSTM(循環(huán)神經(jīng)網(wǎng)絡(luò)),從數(shù)據(jù)準(zhǔn)備到模型訓(xùn)練,然后等訓(xùn)練曲線出來(lái)再到模型推理,再快也要個(gè)三五天,最崩潰的就是跑一半發(fā)現(xiàn)包的版本不對(duì),模型智力倒退五十年,現(xiàn)在一個(gè)Agent就可以在90分鐘把所有活干完了。


接著又訓(xùn)練了1000步之后,

這個(gè)模型就從一個(gè)我咋問(wèn)都只會(huì)回答A的版本變成開(kāi)始有邏輯的回復(fù),還能算個(gè)乘法,簡(jiǎn)單做問(wèn)答的版本了。


大模型訓(xùn)練,很神奇吧!

現(xiàn)在你也可以做到了。


很多模型最容易掛在前30次的嘗試?yán)铮?/p>

跑幾輪不行,就開(kāi)始繞圈,擺爛,不然就是來(lái)個(gè)萬(wàn)金油話術(shù)建議我手動(dòng)檢查。

但真實(shí)工程里,很多進(jìn)展就是出現(xiàn)在這種平臺(tái)期后面。你試了很多次都沒(méi)提升,然后突然某個(gè)方向打穿了。

如果一個(gè)Agent沒(méi)有足夠長(zhǎng)的上下文,沒(méi)有穩(wěn)定的工具調(diào)用,它根本走不到后期。

第二個(gè)case我來(lái)給正在開(kāi)發(fā)2.0版本的Humanize PPT加加速,

Humanize PPT的出發(fā)點(diǎn)是給HTML PPT加一個(gè)人話大綱和演講模式,也就是在生成之前先把所有的資料整理一遍,缺失的細(xì)節(jié)會(huì)進(jìn)一步補(bǔ)全,確定要用多少頁(yè),每頁(yè)都是什么內(nèi)容才能把我們想講的內(nèi)容講明白。

至于演講模式一看就清楚了,

有下一頁(yè)的預(yù)覽,演講主題,大小進(jìn)度條,口播稿,想要脫稿的也可以看關(guān)鍵點(diǎn)。

樣式的部分本著不重復(fù)造輪子的想法,我兼容了中文的guizang-ppt-skill和英文的frontend-slides,用它們來(lái)生成HTML PPT的頁(yè)面,Humanize PPT完成其他部分。

為了保證設(shè)計(jì)出來(lái)的中英文HTML PPT都好看,

我之前要Claude Code輔助設(shè)計(jì),Codex來(lái)做資料整合和大綱生成的,這個(gè)對(duì)于模型的多模態(tài)能力還是要求很高的。每一頁(yè)P(yáng)PT我都需要模型先用瀏覽器自動(dòng)化打開(kāi)HTML PPT的當(dāng)前頁(yè),然后來(lái)個(gè)截圖讓模型去判斷動(dòng)態(tài)背景有沒(méi)有生效,字體有沒(méi)有大小不一致啥的,跟上一頁(yè)的視覺(jué)元素有沒(méi)有不同。


但是GPT5.5偷懶得很?chē)?yán)重,

就算我給它開(kāi)啟了超高的推理模式,在前幾次運(yùn)行的時(shí)候,它還是只給我做了一個(gè)臨時(shí)的兼容處理,

就算我明確跟它說(shuō)了,我們的定位是原生兼容這個(gè) HTML PPT,完全可以以自然語(yǔ)言的方式去批量生成。


能看得出來(lái)我都有點(diǎn)破防了,甚至想自己上手去改代碼了。

剛好現(xiàn)在就把這這條做到一半鏈路全交給MiniMax M3出個(gè)計(jì)劃試試看。


又花了一小時(shí),重新梳理了一遍解決了GPT偷懶留下來(lái)的歷史代碼,Humanize PPT現(xiàn)在可以在對(duì)話中調(diào)用子Agent,一次性生成guizang-ppt-skill里所有主題了。









執(zhí)行的過(guò)程是有體感上的提速的,2分50s就讀完了項(xiàng)目的所有代碼還給出了具體到哪一行的修改方案。


看了一下,是因?yàn)镸3還有一個(gè)新架構(gòu)MSA,能把每個(gè)token的計(jì)算量壓到上一代的1/20,也就說(shuō)一百萬(wàn) token 的上下文窗口,預(yù)填充(模型在正式回答之前,先把你發(fā)給它的內(nèi)容理解一遍)快9倍,解碼(模型個(gè)字一個(gè)字把答案寫(xiě)出來(lái)的過(guò)程)快15倍。

最后的最后,

到了經(jīng)典價(jià)格環(huán)節(jié),

M3上線之后,Token Plan從固定時(shí)間刷新額度變成了固定token。Plus 6 億 token 49 元/月 ,Max 18 億 token 119 元/月 ,Ultra 55 億 token 469 元/月。

不得不說(shuō),

百萬(wàn)上下文+動(dòng)態(tài)工作流帶來(lái)的體感太不一樣了,

富足到連開(kāi)發(fā)完后做個(gè)最小測(cè)試,

M3都給我模擬了七種場(chǎng)景,

我打算就把M3當(dāng)做動(dòng)態(tài)工作流的專屬模型了,

直接先來(lái)個(gè)一個(gè)月的Ultra試試看耐不耐用。

@ 作者 / 卡爾

最后,感謝你看到這里如果喜歡這篇文章,不妨順手給我們點(diǎn)贊|在看|轉(zhuǎn)發(fā)|評(píng)論

如果想要第一時(shí)間收到推送,不妨給我個(gè)星標(biāo)

如果你有更有趣的玩法,歡迎在評(píng)論區(qū)聊聊

更多的內(nèi)容正在不斷填坑中……


特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
花旗銀行預(yù)計(jì)金價(jià)到9月可能會(huì)跌至每盎司3500美元

花旗銀行預(yù)計(jì)金價(jià)到9月可能會(huì)跌至每盎司3500美元

財(cái)聯(lián)社
2026-06-10 19:58:05
淪為全球最短命艦載機(jī)!殲-15幾乎全部退役,它的短板究竟在哪?

淪為全球最短命艦載機(jī)!殲-15幾乎全部退役,它的短板究竟在哪?

青煙小先生
2026-06-07 09:55:56
NBA總決賽G4尼克斯29分逆轉(zhuǎn)馬刺,如何評(píng)價(jià)比賽?問(wèn)題出在哪里?

NBA總決賽G4尼克斯29分逆轉(zhuǎn)馬刺,如何評(píng)價(jià)比賽?問(wèn)題出在哪里?

之乎者也小魚(yú)兒
2026-06-11 14:13:25
鄭麗文走出機(jī)場(chǎng)那刻,怕是這輩子都沒(méi)見(jiàn)過(guò)這種陣仗。

鄭麗文走出機(jī)場(chǎng)那刻,怕是這輩子都沒(méi)見(jiàn)過(guò)這種陣仗。

果媽聊娛樂(lè)
2026-06-07 09:51:32
賴清德發(fā)狠,不許芯片出口大陸,不到24小時(shí),大陸公布統(tǒng)一后藍(lán)圖

賴清德發(fā)狠,不許芯片出口大陸,不到24小時(shí),大陸公布統(tǒng)一后藍(lán)圖

介知
2026-06-11 06:15:21
莎拉彈劾生變!參院多數(shù)派密謀架空卡耶塔諾,由奇茲主持彈劾審判

莎拉彈劾生變!參院多數(shù)派密謀架空卡耶塔諾,由奇茲主持彈劾審判

錯(cuò)過(guò)美好
2026-06-11 13:54:21
兩顆原子彈落地,日本賭美國(guó)拿不出第三顆,不料美國(guó)一招讓日老實(shí)

兩顆原子彈落地,日本賭美國(guó)拿不出第三顆,不料美國(guó)一招讓日老實(shí)

磊子講史
2026-06-11 11:57:10
夫妻性生活別急著進(jìn)入!學(xué)會(huì)這招“延遲滿足”,爽感增倍

夫妻性生活別急著進(jìn)入!學(xué)會(huì)這招“延遲滿足”,爽感增倍

精彩分享快樂(lè)
2026-05-13 12:05:07
12人離隊(duì)!極度陣痛!利物浦一夜洗牌,下賽季還能爭(zhēng)四?

12人離隊(duì)!極度陣痛!利物浦一夜洗牌,下賽季還能爭(zhēng)四?

一口桃
2026-06-11 13:24:27
《迷墻》直到余鳴被逼自殺,文一彤才發(fā)現(xiàn),全家遇害的殘忍真相

《迷墻》直到余鳴被逼自殺,文一彤才發(fā)現(xiàn),全家遇害的殘忍真相

手工制作阿殲
2026-06-11 13:35:32
馬斯克和范冰冰什么關(guān)系?偷稅8億的范冰冰,如今在國(guó)外重回巔峰

馬斯克和范冰冰什么關(guān)系?偷稅8億的范冰冰,如今在國(guó)外重回巔峰

追風(fēng)小狗
2024-11-12 21:52:56
俄羅斯最大的弊病就是舍不得放下遠(yuǎn)東!一旦放下,甚至能滿血復(fù)活

俄羅斯最大的弊病就是舍不得放下遠(yuǎn)東!一旦放下,甚至能滿血復(fù)活

抽象派大師
2026-05-25 16:41:16
不追頂流追“古流”,這屆年輕人開(kāi)始「上墳式追星」

不追頂流追“古流”,這屆年輕人開(kāi)始「上墳式追星」

驚蟄研究所
2026-06-10 11:46:44
趙露思泰國(guó)演唱會(huì)各種大尺度,公然表演“胸震”,為曝光度無(wú)底線

趙露思泰國(guó)演唱會(huì)各種大尺度,公然表演“胸震”,為曝光度無(wú)底線

花哥扒娛樂(lè)
2026-05-22 20:17:55
匈牙利解凍66億歐元資金,德國(guó)希望全部用于烏克蘭,但波蘭反對(duì)

匈牙利解凍66億歐元資金,德國(guó)希望全部用于烏克蘭,但波蘭反對(duì)

山河路口
2026-06-11 13:45:54
千萬(wàn)不要低估親戚朋友的嫉妒心!網(wǎng)友:有些人連嬰兒都不放過(guò)

千萬(wàn)不要低估親戚朋友的嫉妒心!網(wǎng)友:有些人連嬰兒都不放過(guò)

阿康四歲啦
2026-06-11 11:45:11
兩性關(guān)系:55-65歲這十年,惜命最好的方式,不是鍛煉,做好這6點(diǎn)

兩性關(guān)系:55-65歲這十年,惜命最好的方式,不是鍛煉,做好這6點(diǎn)

三農(nóng)老歷
2026-04-13 17:10:06
原來(lái)會(huì)照顧人的保姆這么吃香!網(wǎng)友:我的阿姨只能是屬于我的

原來(lái)會(huì)照顧人的保姆這么吃香!網(wǎng)友:我的阿姨只能是屬于我的

另子維愛(ài)讀史
2026-06-10 22:56:04
老公要娶懷孕小三,婆家全同意,我?guī)ж?cái)移民,婆婆看著余額天塌了

老公要娶懷孕小三,婆家全同意,我?guī)ж?cái)移民,婆婆看著余額天塌了

麥子情感故事
2026-06-11 03:01:10
“鵝腿阿姨”塌房記:16元吃的竟然是鴨腿,清北學(xué)子10年無(wú)人戳破

“鵝腿阿姨”塌房記:16元吃的竟然是鴨腿,清北學(xué)子10年無(wú)人戳破

首席商業(yè)評(píng)論
2026-06-11 12:15:11
2026-06-11 14:44:49
卡爾的AI沃茨 incentive-icons
卡爾的AI沃茨
前大廠算法工程師,3家科技公司技術(shù)總監(jiān)|致力打造最系統(tǒng)的Al學(xué)習(xí)體系,讓1萬(wàn)人通過(guò)Al提高生產(chǎn)力
277文章數(shù) 139關(guān)注度
往期回顧 全部

科技要聞

淘寶、京東、拼多多、抖音、小紅書(shū)被約談

頭條要聞

大批印度學(xué)生高考考卷被"調(diào)包" 40萬(wàn)人申請(qǐng)看掃描件

頭條要聞

大批印度學(xué)生高考考卷被"調(diào)包" 40萬(wàn)人申請(qǐng)看掃描件

體育要聞

文班:付出那么多努力,卻把勝利拱手讓人

娛樂(lè)要聞

《花少8》陣容大揭秘!秒殺前一季

財(cái)經(jīng)要聞

干細(xì)胞生意:17萬(wàn)一針的希望

汽車(chē)要聞

埃安i60 530寧德時(shí)代版上市限時(shí)煥新價(jià)10.36萬(wàn)起

態(tài)度原創(chuàng)

教育
時(shí)尚
藝術(shù)
游戲
房產(chǎn)

教育要聞

“Every dog has its day”非狗叫,是莎士比亞400年前的翻身密碼

畢業(yè)季,為林徽因正名的年輕女孩們

藝術(shù)要聞

四川美術(shù)學(xué)院,2026屆研究生畢業(yè)作品集(一)

從“種田工坊”到任天堂展臺(tái):拆解《時(shí)光》系列的出海進(jìn)階與品類(lèi)困境

房產(chǎn)要聞

猛砸400億!我敢說(shuō),這才是海口最懂生活的神盤(pán)!

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版