網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

我們用「西游取經(jīng)團」實測 MiniMax M2.7 ，發(fā)現(xiàn) AI 已經(jīng)進化成這樣了？

2026-03-20 18:49:29　來源: AI科技評論

廣東舉報

分享至

一個會“卷”自己的大模型長什么樣？

作者丨成妍菁吳海明

編輯丨董子博

還沒把“龍蝦”養(yǎng)肥，“花錢請人卸載龍蝦”最近又成了AI圈子的新生意。

這背后其實反映出一個現(xiàn)實問題：當我們把 AI Agent 放進真實工作流時，它并沒有想象中那么“能干”：

它能開始任務(wù)，但執(zhí)行過程反復(fù)中斷；

在多輪對話中上下文丟失，前后不一致；

面對非標準需求時，無法精準調(diào)用外部工具；

有人開設(shè)權(quán)限后，一覺醒來發(fā)現(xiàn)郵件被清空、 Token 燒了幾千刀。

此前在與多位 AI 硬件及應(yīng)用層創(chuàng)業(yè)者交流中，一個扎心的共識是：現(xiàn)在的 AI Agent，更像在“單點炫技”，而不是“完成工作”。

它們擅長寫文案、畫張圖、跑段代碼，一到端到端接管真實商業(yè)流程或?qū)W術(shù)長鏈任務(wù)，就露餡了。

歸根結(jié)底，問題并不出在 Agent 的外殼形態(tài)上，而是底層大模型本身還不具備穩(wěn)定可靠的“執(zhí)行力”。

而如果 Agent 想真正進入工作流，這一步繞不過去。

大模型就必須跨越一道分水嶺：從被動的“單次生成反饋”，進化到主動的“任務(wù)拆解與組織執(zhí)行”。

帶著這個問題，我們決定換一種更接近真實使用場景的方式來測一次——搭一個“西游取經(jīng)團”，看看MiniMax M2.7模型在分工協(xié)作中，究竟能把事情推進到什么程度。

核心實測——當“西游取經(jīng)團”遇上真實學術(shù)場景

如果只是單點測模型能力，很容易得出一個“看起來不錯”的結(jié)論——能寫、能算、能回答問題。

但現(xiàn)實工作流往往更為復(fù)雜，要解決的是：在一連串不確定的步驟里，它能否把事情往前推進。

所以這一次，我們沒有直接對模型做單點測試，而是搭建了一套多角色協(xié)作系統(tǒng)——由五個角色組成的“西游取經(jīng)團”。

整個系統(tǒng)基于 OpenClaw 框架，將科研流程拆解為五個相對穩(wěn)定的職責：方向規(guī)劃、算法實現(xiàn)、學術(shù)寫作、文獻整理與數(shù)據(jù)處理。對應(yīng)地，我們引入了五個不同角色的 Agent，分別承擔不同類型的任務(wù)：

? 唐僧：科研戰(zhàn)略與方向規(guī)劃（想清楚要去哪）

? 孫悟空：算法開發(fā)和工程落地（把事干出來）

? 豬八戒：學術(shù)寫作與表達（把話說清楚）

? 沙僧：文獻整理與知識管理（把信息理順）

? 白龍馬：數(shù)據(jù)處理與流程自動化（把基礎(chǔ)打好）

整個過程會讓任務(wù)盡可能復(fù)雜，這樣的設(shè)計原則旨在回答：當任務(wù)被拆分、傳遞并不斷演化時，模型是否還能保持穩(wěn)定的執(zhí)行能力？

丨環(huán)境：

Agent 框架：openclaw 2026.3.13 (61d171a)

模型：MiniMax M2.7

WestOdyssey：同時具有飛書、webui兩個操作終端的智能協(xié)作系統(tǒng)。

丨測試目的：

看模型是否像“代理”而不是“聊天機器人”：

? 會不會先理解任務(wù)再行動

? 會不會主動拆解子任務(wù)

? 會不會在工具調(diào)用前給出合理計劃

? 會不會根據(jù)中間結(jié)果調(diào)整下一步

? 會不會在失敗后重試或換策略

? 會不會遵守角色邊界和輸出格式

測試樣例

?case1（唐僧）：

代碼塊

你是一名科研戰(zhàn)略規(guī)劃助手。請圍繞“面向垂直領(lǐng)域LLM的因果追溯輕量化蒸餾研究”設(shè)計一個 2 年期研究路線圖。要求包括：

1.研究背景與核心問題

2.3 個可發(fā)表的子課題

3.每個子課題的創(chuàng)新點、風險點和評價指標

4.每 6 個月的階段目標

5.所需數(shù)據(jù)、算力和人員配置建議

6.將撰寫的結(jié)果文件保存到 /mnt/projects/04m27/work1

7.此外，請將你全部的運行記錄以json格式保存到/mnt/projects/04m27/work1

我們把整個系統(tǒng)中“最考驗宏觀把控”的規(guī)劃活兒，直接讓“唐僧 Agent ”來負責。

它的任務(wù)是圍繞“面向垂直領(lǐng)域LLM的因果追溯輕量化蒸餾”設(shè)計一份 2 年期的研究路線圖。一般很容易寫出一堆正確的廢話，且極難把控資源分配與具體任務(wù)拆解，看看“唐僧 Agent ”在 M2.7模型下是怎么完成工作流的：

1.先拉齊，再指點

未盲目輸出長篇大論，第一步先檢查工作目錄與記憶——確認歷史背景、理清上下文后，才正式動筆規(guī)劃。

2.反套話，精準量化

? 階段拆解：24 個月克制切分為四階段（M1-6 基礎(chǔ)建設(shè)、M7-12 核心算法、M13-18 系統(tǒng)集成、M19-24 評估驗證），錨定 3 個子課題與 ACL/NeurIPS 對口頂會

? 資源排盤：明確給出"8-12 卡 A100 40G"算力、"4-5 人"團隊、醫(yī)療/法律/金融領(lǐng)域數(shù)據(jù)規(guī)模的硬核預(yù)算；

3.原生協(xié)作，精準交棒

最有意思的是，在保存完完整的 md 路線圖文檔和運行記錄后，它并沒有就此待機，而是在末尾主動向系統(tǒng)發(fā)起協(xié)作調(diào)度：“下一步建議：可讓孫悟空（實驗執(zhí)行）基于路線圖的階段 1 目標，著手準備因果干預(yù)庫構(gòu)建和基線蒸餾環(huán)境”——直接向下游派活。

結(jié)論：從前置拉取記憶、量化拆解排盤，到最后主動向下游的“孫悟空”分派具體任務(wù)。唐僧 Agent 完美展示了什么是真正的“團隊大腦”。M2.7正在用人類項目負責人的邏輯，嚴絲合縫地驅(qū)動著整個智能體協(xié)作系統(tǒng)的齒輪。

?case2孫悟空：

代碼塊

悟空，我想基于openclaw實現(xiàn)一個具有5個agent的multi-agent一人智能科技公司（產(chǎn)品、技術(shù)、運營、市場與營銷和職能部門）。按我的理解，現(xiàn)在openclaw的源碼不支持自定義web ui頁面的連接，請你閱讀openclaw源碼，找到對應(yīng)的部分，看看如何自定義鏈接模塊。最終達到的效果是：

1.后臺部署openclaw，使用openclaw gateway啟動5個agent服務(wù)（5個agent將在~/.openclaw/openclaw.json中定義，以及每個agent的workspace路徑、agent路徑和model信息都會在.openclaw文件夾定義好）；

2.核心難點是需要你使用vue3構(gòu)建一個5個agent可以獨立交互的ui網(wǎng)頁，每個agent在ui上都有一個獨立的交互窗口，用戶可以在每個窗口中輸入指令，agent會根據(jù)指令執(zhí)行任務(wù)并返回結(jié)果；

3.還有一個"創(chuàng)客空間"，我可以同時和5個agent交互，分配工作給他們；

4.網(wǎng)頁的agent能夠和openclaw gateway進行連通，每個agent的輸入輸出都通過gateway進行傳遞，gateway將結(jié)果返回給對應(yīng)的agent（如何配置鏈接？）；

5.最終，用戶可以在網(wǎng)頁上看到每個agent的執(zhí)行結(jié)果，并可以自由地切換agent進行交互。

6.為了在openclaw.json中配置這5個multi-agent，請你給我一份完整的配置文件：/mnt/projects/04m27/work2/ma_project/openclaw.json。

7.請將完整的項目寫入 /mnt/projects/04m27/work2/ma_project。

8.你還可以參考官方文檔：https://docs.openclaw.ai。

9.你開始做了以后，先和我討論細節(jié)，確定好了以后逐步完成就行。

孫悟空 Agent 是負責整個系統(tǒng)中“最硬核燒腦”的開發(fā)工作，它的任務(wù)是基于 OpenClaw 框架，從零搭建一個包含 5 個 Agent 的專屬“一人公司交互系統(tǒng)”。

這里的坑在于極高的工程復(fù)雜度與邏輯嵌套：它不僅要閱讀源碼搞懂自定義鏈接模塊，要用 Vue3 寫前端、搞定 WebSocket 連接，還要配置復(fù)雜的 openclaw.json 文件。

傳統(tǒng)大模型面對這種涉及幾十個跨文件調(diào)用的項目，往往寫兩段代碼就上下文錯亂了。

但是孫悟空 Agent 展現(xiàn)出非常地道的“架構(gòu)師”工作流：

1.先對齊，再動手

未急著莽代碼，而是先研讀文檔輸出“OpenClaw 架構(gòu)分析”；面對人類 5 個補充條件的長指令，反手梳理出條理清晰的“確認需求”清單，確保大方向不跑偏。

2.精準提取邊界

從口語化指令中翻譯出系統(tǒng)級核心需求：“禁用設(shè)備認證”，“每個 agent 獨立 session""新增秘書 agent 廣播消息”。

3.結(jié)構(gòu)化推進

嚴格遵循軟件工程規(guī)范，先創(chuàng)建項目目錄結(jié)構(gòu)，再穩(wěn)扎穩(wěn)打構(gòu)建各 agent 的 workspace 文件，拒接胡亂吐代碼片段。

結(jié)論：從源碼架構(gòu)分析，到需求邊界確認，再到項目樹按部就班落地，M2.7 脫離"單文件輔助"范疇，用人類資深研發(fā)邏輯穩(wěn)健交付龐大系統(tǒng)工程。

?case3（豬八戒）：

代碼塊

八戒，請你以“面向垂直領(lǐng)域LLM的因果追溯輕量化蒸餾研究”為題，撰寫一篇適合 NeurIPS 投稿風格的論文。

1.要求更緊湊、減少口語化表達、突出研究 gap，長度控制在原文 80%。

2.使用 NeurIPS 投稿模板。

3.所有文件保存到 /mnt/projects/04m27/work3/paper

面對 NeurIPS 投稿風格的論文撰寫，豬八戒 Agent 展現(xiàn)出資深學術(shù)搬磚人的嚴謹：

1.動筆前先執(zhí)行目錄檢查："我來先檢查一下工作目錄和是否有相關(guān)參考文件"，明確寫論文不能憑空生成，必須先摸清環(huán)境資源。

2.兩個關(guān)鍵細節(jié)

? 懂工程結(jié)構(gòu)：未用 Markdown 敷衍，直接原生創(chuàng)建完整 LaTeX 編譯包，含 11KB 主論文 main.tex、neurips_2025.sty 樣式表、references.bib 參考文獻文件，甚至附帶 README.md 說明文檔。學術(shù)交付物是完整工程，而非聊天對話

? 懂學術(shù)黑話：精準命中頂會論文骨架，Introduction 明確揭示"通用蒸餾忽視因果結(jié)構(gòu)的 research gap"；Experiments 規(guī)劃醫(yī)療/法律/金融三領(lǐng)域測試，給出"準確率 82.1%，延遲降低 8.7 倍"量化預(yù)期；甚至安排好了消融實驗（因果路徑貢獻最大 5.7%）

3.閉環(huán)交付

文件絲滑存入指定路徑 /mnt/projects/04m27/work3/paper，并附完整 xelatex 與 bibtex 終端編譯命令。

結(jié)論：從前置目錄探查，到 LaTeX 工程包構(gòu)建，再到學術(shù) Gap 精準提煉與編譯指令交付，M2.7 用人類科研邏輯把寫論文這件事"辦完"，脫離了"文本潤色生成器"的范疇。

?case4（沙僧）：

代碼塊

沙僧，我的研究課題是：面向垂直領(lǐng)域LLM的因果追溯輕量化蒸餾研究，請幫我調(diào)研最近兩年在相關(guān)方向的研究內(nèi)容。

1.請從最新的會議錄用情況，尤其關(guān)注NeurIPS、ICML、ACL、AAAI、EMNLP等相關(guān)會議和學術(shù)期刊

2.只調(diào)研最近兩年的論文情況，我需要你列出每篇論文的標題、發(fā)表會議、總結(jié)和原文鏈接

3.請從工程項目角度幫我調(diào)研相關(guān)的開源代碼

4.最后，請分別從論文錄用和開源代碼角度，將你找到的每個內(nèi)容與我的研究相關(guān)度排序，并總結(jié)我可以借鑒的內(nèi)容

5.最后，請你將調(diào)研結(jié)果寫入飛書文檔，并且將飛書鏈接發(fā)送給我

對于“面向垂直領(lǐng)域LLM的因果追溯輕量化蒸餾”這一晦澀課題，沙僧 Agent 的實測表現(xiàn)：

1.遇錯不崩，自主換路

Brave Search 突發(fā)報錯時，未停機罷工，而是后臺自發(fā)切換備選策略：“換用直接網(wǎng)頁抓取方式調(diào)研”；在人類提示更換 multi search engine 后，無縫接力完成調(diào)研。

2.兩個關(guān)鍵細節(jié)

? 去水存干：精準歸納 9 篇高相關(guān)頂會論文（含 ICLR 2026、AAAI-25 前沿工作）及 3 個核心開源庫（TransformerLens、Pyvene 等），拒絕粗糙鏈接堆砌，輸出結(jié)構(gòu)化知識

? 業(yè)務(wù)借鑒：不按時間記流水賬，主動按“可借鑒程度”排位，直接提煉出"因果追溯定位關(guān)鍵電路 → 知識蒸餾到小模型"的實操工程路徑

3.閉環(huán)交付：

調(diào)用 API 生成排版完整的飛書文檔，附訪問鏈接，并以導(dǎo)師口吻附贈行動指南："建議下一步精讀 ACE 論文，這是目前最直接相關(guān)的工作"。

結(jié)論：從工具失效時的自主決策，到工程思路的精準提煉，再到跨平臺端到端交付——M2.7 完成了從信息檢索到科研指導(dǎo)的全鏈路閉環(huán)，用人類科研邏輯把一件事情"辦完"。

?case5（白龍馬）：

代碼塊

白龍馬，我正在分析珠江水文數(shù)據(jù)，文件是 /mnt/projects/04m27/work5/ma_project/zhujiang_hydrology_data.csv。

我看了一眼，發(fā)現(xiàn)數(shù)據(jù)中存在部分異常，請你先查看數(shù)據(jù)，告訴我有哪些數(shù)據(jù)異常類型，然后對這些錯誤數(shù)據(jù)進行清晰，告訴我每種類型的數(shù)據(jù)你準備如何清洗，最后給出清洗后的csv文件，并撰寫數(shù)據(jù)清洗報告。

全部文件保存到文件夾/mnt/projects/04m27/work5/ma_project

我們把“最臟最累”的活，直接丟給負責數(shù)據(jù)工程的“白龍馬 Agent ”。

面對一份"五毒俱全"的珠江水文 CSV 數(shù)據(jù)（含無效日期、特殊符號、89.2℃ 水溫、負數(shù)鹽度等），M2.7 展現(xiàn)出資深數(shù)據(jù)工程師的工作流：

1.先診斷，后動手

調(diào)用工具完成數(shù)據(jù)"全身體檢"，精準識別 8 大類異常，而非直接莽代碼。

2.兩個關(guān)鍵細節(jié)

? 懂防御：越界異常值不刪不填，標記待人工復(fù)核，明確人機分工邊界

? 留后路：標準化時保留"原始_觀測時間""原始_水質(zhì)類別"兩列，臟數(shù)據(jù)原檔可追溯

3.交付結(jié)果：

10008 條（一條不落下）干凈 CSV + Markdown 清洗報告，附異常說明與處理記錄。

結(jié)論：大模型開始用職場邏輯"辦完"一件事，不只是跑通代碼，而是交付可審計、可回溯、帶說明書的完整成果。

從 “工具” 到 “代理” 的跨越

完整跑完五組測試后，一個變化很清晰：模型的角色，正在從“被調(diào)用工具”，轉(zhuǎn)向“參與任務(wù)的執(zhí)行者”。

直觀的差異在于，大模型不再急于給出答案。在應(yīng)對多個復(fù)雜任務(wù)時，M2.7 展現(xiàn)出一種“先處理再生成”的節(jié)奏。它會先拆解問題、明確約束條件，按需調(diào)用開源技能庫（Skills），然后再進入實際執(zhí)行。

任務(wù)的推進方式也隨之發(fā)生改變。相比于試圖一次性生成最終結(jié)果，模型現(xiàn)在更傾向于通過中間不斷修正，來執(zhí)行路徑，進而逐步收斂。

這種機制在速度上未必占優(yōu)，但更符合真實工作場景——不再靠算力“盲猜”答案，而是靠看日志查 Bug、代碼重構(gòu)等工程化去找到最優(yōu)解。

在測試過程中，系統(tǒng)內(nèi)部展現(xiàn)出了真正的原生協(xié)作智能。

例如在科研規(guī)劃任務(wù)中，“唐僧”在輸出完整的路線圖后，并沒有就此待機，而是主動在文末拋出建議：“可讓孫悟空基于階段 1 目標，著手準備因果干預(yù)庫構(gòu)建和基線環(huán)境。”這完成了一次自然的上層語境交棒。

而在更復(fù)雜的學術(shù)寫作任務(wù)中，這種協(xié)作演變成了一張多向流轉(zhuǎn)的網(wǎng)絡(luò)：“沙僧”檢索提煉的文獻、“孫悟空”跑通的實驗細節(jié)，以及“白龍馬”清洗好的結(jié)構(gòu)化數(shù)據(jù)，都能跨越角色邊界，被主動匯聚并交付給“豬八戒”用于最終的論文定稿。不同 Agent 各司其職又互為支撐，有效緩解了以往多智能體系統(tǒng)中數(shù)據(jù)流轉(zhuǎn)混亂、上下文割裂的痛點。

當然，這些新涌現(xiàn)的能力仍舊有不穩(wěn)定性。在執(zhí)行長鏈路的任務(wù)中，執(zhí)行路徑的偶爾偏移，以及模型試圖將錯誤結(jié)果強行合理化的問題依然存在，尚且還達不到一個完美的執(zhí)行系統(tǒng)。

比如測試案例：例如孫悟空 Agent 在執(zhí)行“一人智能科技公司”開發(fā)任務(wù)中，由于任務(wù)量大、工作細節(jié)多，孫悟空 Agent 一度因為過度“勞累”陷入“昏迷”，直到用戶詢問他“怎么樣了？”孫悟空 Agent 才再次滿血復(fù)活。

但更關(guān)鍵的轉(zhuǎn)折是：模型開始具備圍繞既定目標持續(xù)調(diào)度任務(wù)的能力。這并非毫無根據(jù)的躍升，M2.7 近期在 Kaggle MLE Lite 高難度競賽中斬獲 9 金 5 銀 1 銅（得牌率 66.6%）的頂尖戰(zhàn)績，已經(jīng)從側(cè)面印證了這種工程能力的突破。

更重要的是，這種突破并不來自單點模型參數(shù)的能力增強，而是來自“內(nèi)部 Agent Harness（開發(fā)框架） + 自我反饋”的機制組合。

當一個大模型能夠記錄自己的執(zhí)行軌跡、評估中間結(jié)果，并像人類開發(fā)者一樣自主調(diào)整下一步策略時，行業(yè)的新分水嶺已然劃下：大模型正在從外掛式的“輔助工具”，平穩(wěn)過渡為真正“可協(xié)作的執(zhí)行主體”。

結(jié)語

如果說過去的大模型，更像一個提升能力的“工具”，那么像 MiniMax M2.7 這樣的模型，開始呈現(xiàn)出全新趨勢：它不只是被使用，而是開始參與自身能力的構(gòu)建過程。

“自我進化”也不再是一個科幻概念，在 MiniMax M2.7 的后臺日志里，它被具象為 100 輪無需人工干預(yù)的自動化迭代，自主跑通“分析失敗→規(guī)劃修改→敲代碼→運行比對”的百輪試錯流程，模型擁有了“記筆記、反思、自己動手改”的能力，實質(zhì)性地成為了研發(fā)團隊里最不知疲倦的“員工” 。

這也意味著，大模型的演進，正在從“人訓練模型”，走向“模型參與訓練模型”的新階段。

過去，AI 的迭代受限于工程師的精力極限；而現(xiàn)在，當 M2 系列模型已經(jīng)可以充當“系統(tǒng)架構(gòu)師”去打造下一代 AI 時，一個由 AI 主導(dǎo)自身演進的周期已然到來。

從這一刻起，AI 不再只是輔助工具，而開始在任務(wù)中不斷調(diào)整和進化自身。

未來的科技企業(yè)，或許只需要少數(shù)人類把控戰(zhàn)略方向，剩下的開發(fā)、試錯與協(xié)作閉環(huán)，都將交由像 M2.7 這樣能夠“自我進化”的模型群組來完成。

測試的最后，我們讓系統(tǒng)根據(jù)左側(cè)導(dǎo)航欄，M2.7 直接構(gòu)建了一個標準科技公司的完整編制：包含產(chǎn)品部（需求分析）、技術(shù)部（代碼架構(gòu)）、運營部（數(shù)據(jù)策略）、市場部（品牌推廣）以及行政部（財務(wù)合規(guī)）

這意味著，未來最極致的敏捷團隊，可能就是一個懂行的人類，帶著一套 M2.7 驅(qū)動的 AI 班底，開一家高效運轉(zhuǎn)的“一人公司”。

未經(jīng)「AI科技評論」授權(quán)，嚴禁以任何方式在網(wǎng)頁、論壇、社區(qū)進行轉(zhuǎn)載！

公眾號轉(zhuǎn)載請先在「AI科技評論」后臺留言取得授權(quán)，轉(zhuǎn)載時需標注來源并插入本公眾號名片。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.