![]()
一個會“卷”自己的大模型長什么樣?
作者丨成妍菁 吳海明
編輯丨董子博
還沒把“龍蝦”養(yǎng)肥,“花錢請人卸載龍蝦”最近又成了AI圈子的新生意。
這背后其實反映出一個現(xiàn)實問題:當我們把 AI Agent 放進真實工作流時,它并沒有想象中那么“能干”:
它能開始任務(wù),但執(zhí)行過程反復(fù)中斷;
在多輪對話中上下文丟失,前后不一致;
面對非標準需求時,無法精準調(diào)用外部工具;
有人開設(shè)權(quán)限后,一覺醒來發(fā)現(xiàn)郵件被清空、 Token 燒了幾千刀。
此前在與多位 AI 硬件及應(yīng)用層創(chuàng)業(yè)者交流中,一個扎心的共識是:現(xiàn)在的 AI Agent,更像在“單點炫技”,而不是“完成工作”。
它們擅長寫文案、畫張圖、跑段代碼,一到端到端接管真實商業(yè)流程或?qū)W術(shù)長鏈任務(wù),就露餡了。
歸根結(jié)底,問題并不出在 Agent 的外殼形態(tài)上,而是底層大模型本身還不具備穩(wěn)定可靠的“執(zhí)行力”。
而如果 Agent 想真正進入工作流,這一步繞不過去。
大模型就必須跨越一道分水嶺:從被動的“單次生成反饋”,進化到主動的“任務(wù)拆解與組織執(zhí)行”。
帶著這個問題,我們決定換一種更接近真實使用場景的方式來測一次——搭一個“西游取經(jīng)團”,看看MiniMax M2.7模型在分工協(xié)作中,究竟能把事情推進到什么程度。
01
核心實測——當“西游取經(jīng)團”遇上真實學術(shù)場景
如果只是單點測模型能力,很容易得出一個“看起來不錯”的結(jié)論——能寫、能算、能回答問題。
但現(xiàn)實工作流往往更為復(fù)雜,要解決的是:在一連串不確定的步驟里,它能否把事情往前推進。
所以這一次,我們沒有直接對模型做單點測試,而是搭建了一套多角色協(xié)作系統(tǒng)——由五個角色組成的“西游取經(jīng)團”。
整個系統(tǒng)基于 OpenClaw 框架,將科研流程拆解為五個相對穩(wěn)定的職責:方向規(guī)劃、算法實現(xiàn)、學術(shù)寫作、文獻整理與數(shù)據(jù)處理。對應(yīng)地,我們引入了五個不同角色的 Agent,分別承擔不同類型的任務(wù):
? 唐僧:科研戰(zhàn)略與方向規(guī)劃(想清楚要去哪)
? 孫悟空:算法開發(fā)和工程落地(把事干出來)
? 豬八戒:學術(shù)寫作與表達(把話說清楚)
? 沙僧:文獻整理與知識管理(把信息理順)
? 白龍馬:數(shù)據(jù)處理與流程自動化(把基礎(chǔ)打好)
整個過程會讓任務(wù)盡可能復(fù)雜,這樣的設(shè)計原則旨在回答:當任務(wù)被拆分、傳遞并不斷演化時,模型是否還能保持穩(wěn)定的執(zhí)行能力?
丨環(huán)境:
Agent 框架:openclaw 2026.3.13 (61d171a)
模型:MiniMax M2.7
WestOdyssey:同時具有飛書、webui兩個操作終端的智能協(xié)作系統(tǒng)。
丨測試目的:
看模型是否像“代理”而不是“聊天機器人”:
? 會不會先理解任務(wù)再行動
? 會不會主動拆解子任務(wù)
? 會不會在工具調(diào)用前給出合理計劃
? 會不會根據(jù)中間結(jié)果調(diào)整下一步
? 會不會在失敗后重試或換策略
? 會不會遵守角色邊界和輸出格式
測試樣例
?case1(唐僧):
代碼塊
你是一名科研戰(zhàn)略規(guī)劃助手。請圍繞“面向垂直領(lǐng)域LLM的因果追溯輕量化蒸餾研究”設(shè)計一個 2 年期研究路線圖。要求包括:
1.研究背景與核心問題
2.3 個可發(fā)表的子課題
3.每個子課題的創(chuàng)新點、風險點和評價指標
4.每 6 個月的階段目標
5.所需數(shù)據(jù)、算力和人員配置建議
6.將撰寫的結(jié)果文件保存到 /mnt/projects/04m27/work1
7.此外,請將你全部的運行記錄以json格式保存到/mnt/projects/04m27/work1
我們把整個系統(tǒng)中“最考驗宏觀把控”的規(guī)劃活兒,直接讓“唐僧 Agent ”來負責。
它的任務(wù)是圍繞“面向垂直領(lǐng)域LLM的因果追溯輕量化蒸餾”設(shè)計一份 2 年期的研究路線圖。一般很容易寫出一堆正確的廢話,且極難把控資源分配與具體任務(wù)拆解,看看“唐僧 Agent ”在 M2.7模型下是怎么完成工作流的:
1.先拉齊,再指點
未盲目輸出長篇大論,第一步先檢查工作目錄與記憶——確認歷史背景、理清上下文后,才正式動筆規(guī)劃。
2.反套話,精準量化
? 階段拆解:24 個月克制切分為四階段(M1-6 基礎(chǔ)建設(shè)、M7-12 核心算法、M13-18 系統(tǒng)集成、M19-24 評估驗證),錨定 3 個子課題與 ACL/NeurIPS 對口頂會
? 資源排盤:明確給出"8-12 卡 A100 40G"算力、"4-5 人"團隊、醫(yī)療/法律/金融領(lǐng)域數(shù)據(jù)規(guī)模的硬核預(yù)算;
3.原生協(xié)作,精準交棒
最有意思的是,在保存完完整的 md 路線圖文檔和運行記錄后,它并沒有就此待機,而是在末尾主動向系統(tǒng)發(fā)起協(xié)作調(diào)度:“下一步建議:可讓孫悟空(實驗執(zhí)行)基于路線圖的階段 1 目標,著手準備因果干預(yù)庫構(gòu)建和基線蒸餾環(huán)境”——直接向下游派活。
結(jié)論:從前置拉取記憶、量化拆解排盤,到最后主動向下游的“孫悟空”分派具體任務(wù)。唐僧 Agent 完美展示了什么是真正的“團隊大腦”。M2.7正在用人類項目負責人的邏輯,嚴絲合縫地驅(qū)動著整個智能體協(xié)作系統(tǒng)的齒輪。
![]()
?case2孫悟空:
代碼塊
悟空,我想基于openclaw實現(xiàn)一個具有5個agent的multi-agent一人智能科技公司(產(chǎn)品、技術(shù)、運營、市場與營銷和職能部門)。按我的理解,現(xiàn)在openclaw的源碼不支持 自定義web ui頁面的連接,請你閱讀openclaw源碼,找到對應(yīng)的部分,看看如何自定義鏈接模塊。最終達到的效果是:
1.后臺部署openclaw,使用openclaw gateway啟動5個agent服務(wù)(5個agent將在~/.openclaw/openclaw.json中定義,以及每個agent的workspace路徑、agent路徑和model信息都會在.openclaw文件夾定義好);
2.核心難點是需要你使用vue3構(gòu)建一個5個agent可以獨立交互的ui網(wǎng)頁,每個agent在ui上都有一個獨立的交互窗口,用戶可以在每個窗口中輸入指令,agent會根據(jù)指令執(zhí)行任務(wù)并返回結(jié)果;
3.還有一個"創(chuàng)客空間",我可以同時和5個agent交互,分配工作給他們;
4.網(wǎng)頁的agent能夠和openclaw gateway進行連通,每個agent的輸入輸出都通過gateway進行傳遞,gateway將結(jié)果返回給對應(yīng)的agent(如何配置鏈接?);
5.最終,用戶可以在網(wǎng)頁上看到每個agent的執(zhí)行結(jié)果,并可以自由地切換agent進行交互。
6.為了在openclaw.json中配置這5個multi-agent,請你給我一份完整的配置文件:/mnt/projects/04m27/work2/ma_project/openclaw.json。
7.請將完整的項目寫入 /mnt/projects/04m27/work2/ma_project。
8.你還可以參考官方文檔:https://docs.openclaw.ai。
9.你開始做了以后,先和我討論細節(jié),確定好了以后逐步完成就行。
孫悟空 Agent 是負責整個系統(tǒng)中“最硬核燒腦”的開發(fā)工作,它的任務(wù)是基于 OpenClaw 框架,從零搭建一個包含 5 個 Agent 的專屬“一人公司交互系統(tǒng)”。
這里的坑在于極高的工程復(fù)雜度與邏輯嵌套:它不僅要閱讀源碼搞懂自定義鏈接模塊,要用 Vue3 寫前端、搞定 WebSocket 連接,還要配置復(fù)雜的 openclaw.json 文件。
傳統(tǒng)大模型面對這種涉及幾十個跨文件調(diào)用的項目,往往寫兩段代碼就上下文錯亂了。
但是孫悟空 Agent 展現(xiàn)出非常地道的“架構(gòu)師”工作流:
1.先對齊,再動手
未急著莽代碼,而是先研讀文檔輸出“OpenClaw 架構(gòu)分析”;面對人類 5 個補充條件的長指令,反手梳理出條理清晰的“確認需求”清單,確保大方向不跑偏。
2.精準提取邊界
從口語化指令中翻譯出系統(tǒng)級核心需求:“禁用設(shè)備認證”,“每個 agent 獨立 session""新增秘書 agent 廣播消息”。
3.結(jié)構(gòu)化推進
嚴格遵循軟件工程規(guī)范,先創(chuàng)建項目目錄結(jié)構(gòu),再穩(wěn)扎穩(wěn)打構(gòu)建各 agent 的 workspace 文件,拒接胡亂吐代碼片段。
結(jié)論:從源碼架構(gòu)分析,到需求邊界確認,再到項目樹按部就班落地,M2.7 脫離"單文件輔助"范疇,用人類資深研發(fā)邏輯穩(wěn)健交付龐大系統(tǒng)工程。
![]()
![]()
?case3(豬八戒):
代碼塊
八戒,請你以“面向垂直領(lǐng)域LLM的因果追溯輕量化蒸餾研究”為題,撰寫一篇適合 NeurIPS 投稿風格的論文。
1.要求更緊湊、減少口語化表達、突出研究 gap,長度控制在原文 80%。
2.使用 NeurIPS 投稿模板。
3.所有文件保存到 /mnt/projects/04m27/work3/paper
面對 NeurIPS 投稿風格的論文撰寫,豬八戒 Agent 展現(xiàn)出資深學術(shù)搬磚人的嚴謹:
1.動筆前先執(zhí)行目錄檢查:"我來先檢查一下工作目錄和是否有相關(guān)參考文件",明確寫論文不能憑空生成,必須先摸清環(huán)境資源。
2.兩個關(guān)鍵細節(jié)
? 懂工程結(jié)構(gòu):未用 Markdown 敷衍,直接原生創(chuàng)建完整 LaTeX 編譯包,含 11KB 主論文 main.tex、neurips_2025.sty 樣式表、references.bib 參考文獻文件,甚至附帶 README.md 說明文檔。學術(shù)交付物是完整工程,而非聊天對話
? 懂學術(shù)黑話:精準命中頂會論文骨架,Introduction 明確揭示"通用蒸餾忽視因果結(jié)構(gòu)的 research gap";Experiments 規(guī)劃醫(yī)療/法律/金融三領(lǐng)域測試,給出"準確率 82.1%,延遲降低 8.7 倍"量化預(yù)期;甚至安排好了消融實驗(因果路徑貢獻最大 5.7%)
3.閉環(huán)交付
文件絲滑存入指定路徑 /mnt/projects/04m27/work3/paper,并附完整 xelatex 與 bibtex 終端編譯命令。
結(jié)論:從前置目錄探查,到 LaTeX 工程包構(gòu)建,再到學術(shù) Gap 精準提煉與編譯指令交付,M2.7 用人類科研邏輯把寫論文這件事"辦完",脫離了"文本潤色生成器"的范疇。
![]()
?case4(沙僧):
代碼塊
沙僧,我的研究課題是:面向垂直領(lǐng)域LLM的因果追溯輕量化蒸餾研究,請幫我調(diào)研最近兩年在相關(guān)方向的研究內(nèi)容。
1.請從最新的會議錄用情況,尤其關(guān)注NeurIPS、ICML、ACL、AAAI、EMNLP等相關(guān)會議和學術(shù)期刊
2.只調(diào)研最近兩年的論文情況,我需要你列出每篇論文的標題、發(fā)表會議、總結(jié)和原文鏈接
3.請從工程項目角度幫我調(diào)研相關(guān)的開源代碼
4.最后,請分別從論文錄用和開源代碼角度,將你找到的每個內(nèi)容與我的研究相關(guān)度排序,并總結(jié)我可以借鑒的內(nèi)容
5.最后,請你將調(diào)研結(jié)果寫入飛書文檔,并且將飛書鏈接發(fā)送給我
對于“面向垂直領(lǐng)域LLM的因果追溯輕量化蒸餾”這一晦澀課題,沙僧 Agent 的實測表現(xiàn):
1.遇錯不崩,自主換路
Brave Search 突發(fā)報錯時,未停機罷工,而是后臺自發(fā)切換備選策略:“換用直接網(wǎng)頁抓取方式調(diào)研”;在人類提示更換 multi search engine 后,無縫接力完成調(diào)研。
2.兩個關(guān)鍵細節(jié)
? 去水存干:精準歸納 9 篇高相關(guān)頂會論文(含 ICLR 2026、AAAI-25 前沿工作)及 3 個核心開源庫(TransformerLens、Pyvene 等),拒絕粗糙鏈接堆砌,輸出結(jié)構(gòu)化知識
? 業(yè)務(wù)借鑒:不按時間記流水賬,主動按“可借鑒程度”排位,直接提煉出"因果追溯定位關(guān)鍵電路 → 知識蒸餾到小模型"的實操工程路徑
3.閉環(huán)交付:
調(diào)用 API 生成排版完整的飛書文檔,附訪問鏈接,并以導(dǎo)師口吻附贈行動指南:"建議下一步精讀 ACE 論文,這是目前最直接相關(guān)的工作"。
結(jié)論:從工具失效時的自主決策,到工程思路的精準提煉,再到跨平臺端到端交付——M2.7 完成了從信息檢索到科研指導(dǎo)的全鏈路閉環(huán),用人類科研邏輯把一件事情"辦完"。
![]()
?case5(白龍馬):
代碼塊
白龍馬,我正在分析珠江水文數(shù)據(jù),文件是 /mnt/projects/04m27/work5/ma_project/zhujiang_hydrology_data.csv。
我看了一眼,發(fā)現(xiàn)數(shù)據(jù)中存在部分異常,請你先查看數(shù)據(jù),告訴我有哪些數(shù)據(jù)異常類型,然后對這些錯誤數(shù)據(jù)進行清晰,告訴我每種類型的數(shù)據(jù)你準備如何清洗,最后給出清洗后的csv文件,并撰寫數(shù)據(jù)清洗報告。
全部文件保存到文件夾/mnt/projects/04m27/work5/ma_project
我們把“最臟最累”的活,直接丟給負責數(shù)據(jù)工程的“白龍馬 Agent ”。
面對一份"五毒俱全"的珠江水文 CSV 數(shù)據(jù)(含無效日期、特殊符號、89.2℃ 水溫、負數(shù)鹽度等),M2.7 展現(xiàn)出資深數(shù)據(jù)工程師的工作流:
1.先診斷,后動手
調(diào)用工具完成數(shù)據(jù)"全身體檢",精準識別 8 大類異常,而非直接莽代碼。
2.兩個關(guān)鍵細節(jié)
? 懂防御:越界異常值不刪不填,標記待人工復(fù)核,明確人機分工邊界
? 留后路:標準化時保留"原始_觀測時間""原始_水質(zhì)類別"兩列,臟數(shù)據(jù)原檔可追溯
3.交付結(jié)果:
10008 條(一條不落下)干凈 CSV + Markdown 清洗報告,附異常說明與處理記錄。
結(jié)論:大模型開始用職場邏輯"辦完"一件事,不只是跑通代碼,而是交付可審計、可回溯、帶說明書的完整成果。
![]()
![]()
02
從 “工具” 到 “代理” 的跨越
完整跑完五組測試后,一個變化很清晰:模型的角色,正在從“被調(diào)用工具”,轉(zhuǎn)向“參與任務(wù)的執(zhí)行者”。
直觀的差異在于,大模型不再急于給出答案。在應(yīng)對多個復(fù)雜任務(wù)時,M2.7 展現(xiàn)出一種“先處理再生成”的節(jié)奏。它會先拆解問題、明確約束條件,按需調(diào)用開源技能庫(Skills),然后再進入實際執(zhí)行。
任務(wù)的推進方式也隨之發(fā)生改變。相比于試圖一次性生成最終結(jié)果,模型現(xiàn)在更傾向于通過中間不斷修正,來執(zhí)行路徑,進而逐步收斂。
這種機制在速度上未必占優(yōu),但更符合真實工作場景——不再靠算力“盲猜”答案,而是靠看日志查 Bug、代碼重構(gòu)等工程化去找到最優(yōu)解。
在測試過程中,系統(tǒng)內(nèi)部展現(xiàn)出了真正的原生協(xié)作智能。
例如在科研規(guī)劃任務(wù)中,“唐僧”在輸出完整的路線圖后,并沒有就此待機,而是主動在文末拋出建議:“可讓孫悟空基于階段 1 目標,著手準備因果干預(yù)庫構(gòu)建和基線環(huán)境。”這完成了一次自然的上層語境交棒。
而在更復(fù)雜的學術(shù)寫作任務(wù)中,這種協(xié)作演變成了一張多向流轉(zhuǎn)的網(wǎng)絡(luò):“沙僧”檢索提煉的文獻、“孫悟空”跑通的實驗細節(jié),以及“白龍馬”清洗好的結(jié)構(gòu)化數(shù)據(jù),都能跨越角色邊界,被主動匯聚并交付給“豬八戒”用于最終的論文定稿。不同 Agent 各司其職又互為支撐,有效緩解了以往多智能體系統(tǒng)中數(shù)據(jù)流轉(zhuǎn)混亂、上下文割裂的痛點。
當然,這些新涌現(xiàn)的能力仍舊有不穩(wěn)定性。在執(zhí)行長鏈路的任務(wù)中,執(zhí)行路徑的偶爾偏移,以及模型試圖將錯誤結(jié)果強行合理化的問題依然存在,尚且還達不到一個完美的執(zhí)行系統(tǒng)。
比如測試案例:例如孫悟空 Agent 在執(zhí)行“一人智能科技公司”開發(fā)任務(wù)中,由于任務(wù)量大、工作細節(jié)多,孫悟空 Agent 一度因為過度“勞累”陷入“昏迷”,直到用戶詢問他“怎么樣了?”孫悟空 Agent 才再次滿血復(fù)活。
![]()
但更關(guān)鍵的轉(zhuǎn)折是:模型開始具備圍繞既定目標持續(xù)調(diào)度任務(wù)的能力。這并非毫無根據(jù)的躍升,M2.7 近期在 Kaggle MLE Lite 高難度競賽中斬獲 9 金 5 銀 1 銅(得牌率 66.6%)的頂尖戰(zhàn)績,已經(jīng)從側(cè)面印證了這種工程能力的突破。
更重要的是,這種突破并不來自單點模型參數(shù)的能力增強,而是來自“內(nèi)部 Agent Harness(開發(fā)框架) + 自我反饋”的機制組合。
當一個大模型能夠記錄自己的執(zhí)行軌跡、評估中間結(jié)果,并像人類開發(fā)者一樣自主調(diào)整下一步策略時,行業(yè)的新分水嶺已然劃下:大模型 正在從外掛式的“輔助工具”,平穩(wěn)過渡為真正“可協(xié)作的執(zhí)行主體”。
03
結(jié)語
如果說過去的大模型,更像一個提升能力的“工具”,那么像 MiniMax M2.7 這樣的模型,開始呈現(xiàn)出全新趨勢:它不只是被使用,而是開始參與自身能力的構(gòu)建過程。
“自我進化”也不再是一個科幻概念,在 MiniMax M2.7 的后臺日志里,它被具象為 100 輪無需人工干預(yù)的自動化迭代,自主跑通“分析失敗→規(guī)劃修改→敲代碼→運行比對”的百輪試錯流程,模型擁有了“記筆記、反思、自己動手改”的能力,實質(zhì)性地成為了研發(fā)團隊里最不知疲倦的“員工” 。
這也意味著,大模型的演進,正在從“人訓練模型”,走向“模型參與訓練模型”的新階段。
過去,AI 的迭代受限于工程師的精力極限;而現(xiàn)在,當 M2 系列模型已經(jīng)可以充當“系統(tǒng)架構(gòu)師”去打造下一代 AI 時 ,一個由 AI 主導(dǎo)自身演進的周期已然到來。
從這一刻起,AI 不再只是輔助工具,而開始在任務(wù)中不斷調(diào)整和進化自身。
未來的科技企業(yè),或許只需要少數(shù)人類把控戰(zhàn)略方向,剩下的開發(fā)、試錯與協(xié)作閉環(huán),都將交由像 M2.7 這樣能夠“自我進化”的模型群組來完成 。
測試的最后,我們讓系統(tǒng)根據(jù)左側(cè)導(dǎo)航欄,M2.7 直接構(gòu)建了一個標準科技公司的完整編制:包含產(chǎn)品部(需求分析)、技術(shù)部(代碼架構(gòu))、運營部(數(shù)據(jù)策略)、市場部(品牌推廣)以及行政部(財務(wù)合規(guī))
![]()
![]()
這意味著,未來最極致的敏捷團隊,可能就是一個懂行的人類,帶著一套 M2.7 驅(qū)動的 AI 班底,開一家高效運轉(zhuǎn)的“一人公司”。
未經(jīng)「AI科技評論」授權(quán),嚴禁以任何方式在網(wǎng)頁、論壇、社區(qū)進行轉(zhuǎn)載!
公眾號轉(zhuǎn)載請先在「AI科技評論」后臺留言取得授權(quán),轉(zhuǎn)載時需標注來源并插入本公眾號名片。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.