Meta花了20億美元買Manus,Elon Musk給Cursor開了600億美元的收購選項(xiàng)。這兩個(gè)數(shù)字公布之后,中文互聯(lián)網(wǎng)上最常見的反應(yīng)可以歸結(jié)為兩句話:第一,這倆不都是套殼嗎?底層用的是別人的模型,有什么了不起。第二,Zuckerberg和Musk這是沖動(dòng)消費(fèi),一個(gè)是"Meta已經(jīng)錯(cuò)過了AI所以高價(jià)買進(jìn)",一個(gè)是"Musk就是什么熱買什么"。
這種判斷的潛臺(tái)詞是:Manus和Cursor本身沒什么特別的,和市面上一大堆AI agent工具、AI編程工具沒有本質(zhì)區(qū)別,只是營(yíng)銷做得好、時(shí)機(jī)趕得巧。
這篇文章想說的是,這個(gè)判斷錯(cuò)了。不是小錯(cuò),是方向性的錯(cuò)。Manus和Cursor在各自領(lǐng)域里的認(rèn)知水平,領(lǐng)先了行業(yè)至少一個(gè)身位,而且這個(gè)認(rèn)知領(lǐng)先有具體的技術(shù)路線和競(jìng)品對(duì)比可以驗(yàn)證。Meta和SpaceX/xAI的出價(jià)不是沖動(dòng),是對(duì)這種認(rèn)知領(lǐng)先的定價(jià)。
Manus:從第一性原理出發(fā)
Manus從2025年3月發(fā)布起就伴隨爭(zhēng)議。最常見的批評(píng)是套殼:它不訓(xùn)練自己的模型,用的是Claude和Qwen,只是在外面包了一層agent調(diào)度框架。MIT博士秦增益的評(píng)論代表了一類觀點(diǎn):這是一個(gè)很好的產(chǎn)品,但并不是一項(xiàng)技術(shù)突破。
要理解Manus做對(duì)了什么,最有效的方式是把它和同期的競(jìng)品放在一起看。
認(rèn)知差異一:不搞角色扮演
2023年到2025年初,多數(shù)multi-agent系統(tǒng)的設(shè)計(jì)思路是照搬人類組織架構(gòu)。MetaGPT是這類思路的典型代表:它把LLM agent分成產(chǎn)品經(jīng)理、架構(gòu)師、項(xiàng)目經(jīng)理、工程師、QA五個(gè)角色,每個(gè)角色有固定的職責(zé)和工作流,按照人類軟件公司的流程串行執(zhí)行。這就是所謂的hat wearing。
這種設(shè)計(jì)的問題出在起點(diǎn)。人類社會(huì)之所以需要專業(yè)分工,是因?yàn)橐粋€(gè)人的能力帶寬有限,需要花十幾年訓(xùn)練才能成為一個(gè)資深的產(chǎn)品經(jīng)理或資深的工程師。分工是對(duì)人類認(rèn)知局限性的補(bǔ)償。但LLM不是這樣。任何一個(gè)LLM off the shelf就是一個(gè)generalist,它懂所有領(lǐng)域的知識(shí)。在prompt里告訴它"你是一個(gè)資深的software engineer",這句話除了限制它的能力以外沒有任何意義。
從第一性原理出發(fā)想這件事,結(jié)論完全不同:不應(yīng)該讓多個(gè)agent各自扮演一個(gè)人類角色然后串行協(xié)作,而應(yīng)該讓每個(gè)agent都保持generalist的完整能力,只在任務(wù)層面做分割。Manus的wide research機(jī)制就是這個(gè)思路的產(chǎn)品化。它的主planner agent把用戶請(qǐng)求拆成若干獨(dú)立子任務(wù),然后為每個(gè)子任務(wù)啟動(dòng)一個(gè)獨(dú)立的、完整能力的Manus實(shí)例,每個(gè)實(shí)例有自己獨(dú)立的context window,在云端虛擬機(jī)沙盒里自主執(zhí)行。沒有"產(chǎn)品經(jīng)理agent"或"工程師agent"這樣的角色標(biāo)簽,每個(gè)sub-agent都能規(guī)劃、執(zhí)行和驗(yàn)證。
這不是UI層面的差別,也不是產(chǎn)品策略層面的差別,是對(duì)LLM本質(zhì)的理解不同。MetaGPT從人類組織架構(gòu)出發(fā)設(shè)計(jì)系統(tǒng),Manus從LLM的能力特征出發(fā)設(shè)計(jì)系統(tǒng)。后者對(duì)了,前者錯(cuò)了。這個(gè)判斷在2025年3月是少數(shù)派,到2026年已經(jīng)成為行業(yè)共識(shí):OpenAI的Codex用Plan/Spec Mode(planner分析請(qǐng)求,executor在沙盒里執(zhí)行),Anthropic的Claude Code用orchestrator-worker(lead agent制定計(jì)劃,sub-agent并行執(zhí)行),Cursor用Planner-Worker-Judge。所有頭部玩家都收斂到了按功能分工(規(guī)劃、執(zhí)行、評(píng)估)的架構(gòu),沒有一家在給agent戴人類職業(yè)的帽子。
Manus在產(chǎn)品層面的判斷也體現(xiàn)了同樣的認(rèn)知水平。2025年3月,在多數(shù)agent產(chǎn)品還在垂直領(lǐng)域里各做各的時(shí)候(調(diào)研的只能調(diào)研,生成的只能生成),Manus是第一個(gè)把端到端鏈路打通的產(chǎn)品,從自主搜索到代碼生成到數(shù)據(jù)可視化一條線走完。這件事今天已經(jīng)是agent產(chǎn)品的標(biāo)配,但在當(dāng)時(shí)是少數(shù)派判斷。我在那一周寫過一篇分析,討論了Agentic AI在工具、數(shù)據(jù)和智能三個(gè)維度上的復(fù)利效應(yīng),Manus是當(dāng)時(shí)唯一一個(gè)把這三層復(fù)利都做出來的產(chǎn)品。
認(rèn)知差異二:User Generated Software的創(chuàng)建和分發(fā)
軟件行業(yè)有一個(gè)長(zhǎng)期存在的供需錯(cuò)配:專業(yè)軟件公司生產(chǎn)的產(chǎn)品滿足的是頭部需求,大量長(zhǎng)尾需求沒有人管。這和媒體行業(yè)在YouTube出現(xiàn)之前的狀態(tài)類似:電視臺(tái)滿足頭部?jī)?nèi)容需求,長(zhǎng)尾的內(nèi)容創(chuàng)作需求被忽略,直到User Generated Content平臺(tái)出現(xiàn)。
Manus敏銳地判斷了這一點(diǎn),并且在產(chǎn)品層面做了一個(gè)當(dāng)時(shí)看起來不太常規(guī)的決定:讓用戶能把Manus生成的應(yīng)用直接部署和分發(fā)。用戶描述一個(gè)需求,Manus自動(dòng)生成前端、后端、數(shù)據(jù)庫,然后一鍵部署到云端,返回一個(gè)可分享的鏈接。這件事做到這一步已經(jīng)超過了同期的多數(shù)agent產(chǎn)品。但Manus還做了一層:它提供了API,讓部署出去的應(yīng)用能夠調(diào)用Manus自身的AI能力。換句話說,用戶不光能用AI生成軟件,生成出來的軟件本身還能繼續(xù)使用AI。
這個(gè)判斷在當(dāng)時(shí)不是顯而易見的。2025年3月,多數(shù)AI agent產(chǎn)品把自己定位為"幫你完成一個(gè)任務(wù)的工具",產(chǎn)出物是報(bào)告、代碼或幻燈片,用完就結(jié)束。Manus的定位是"幫你創(chuàng)建一個(gè)可以持續(xù)運(yùn)行和分發(fā)的軟件產(chǎn)品",而且這個(gè)產(chǎn)品自帶智能。這是兩種完全不同的產(chǎn)品邏輯。前者把AI當(dāng)作一次性的生產(chǎn)力工具,后者把AI當(dāng)作User Generated Software的基礎(chǔ)設(shè)施。
市場(chǎng)反應(yīng)驗(yàn)證了這個(gè)判斷。Manus的waitlist在公開演示后突破了200萬,那次演示中最讓用戶興奮的不只是AI能做調(diào)研和寫代碼,而是它能一鍵把成品部署出去,變成一個(gè)真正可用的在線產(chǎn)品。到2025年底,vibe coding和AI app builder已經(jīng)成為一個(gè)47億美元的市場(chǎng),Manus是最早把"創(chuàng)建加部署加智能注入"這條完整鏈路做出來的產(chǎn)品之一。
這個(gè)設(shè)計(jì)選擇背后的認(rèn)知水平,體現(xiàn)在它對(duì)整條價(jià)值鏈的完整性判斷上。多數(shù)競(jìng)品停留在生成這一步,Manus一直想到了分發(fā)和持續(xù)運(yùn)行。這和第一個(gè)認(rèn)知差異(不做hat wearing)指向同一個(gè)根源:這個(gè)團(tuán)隊(duì)從第一性原理出發(fā)思考問題,而不是沿著現(xiàn)有產(chǎn)品形態(tài)做增量?jī)?yōu)化。
結(jié)果和回應(yīng)
商業(yè)回報(bào)直接反映了這些認(rèn)知:8個(gè)月做到$100M ARR,處理量147萬億token,創(chuàng)建超過8000萬臺(tái)虛擬計(jì)算機(jī)。GAIA Level 3基準(zhǔn)測(cè)試57.7%的成績(jī),領(lǐng)先OpenAI Deep Research的47.6%。
兩個(gè)常見的追問需要回應(yīng)。
第一,"agent產(chǎn)品已經(jīng)滿大街了,Manus是上一代的產(chǎn)品形態(tài),對(duì)Meta沒有直接用途。"這個(gè)說法有一半是對(duì)的。Manus代表的是云端沙盒agent形態(tài),而2026年的主流方向已經(jīng)轉(zhuǎn)向了Claude Code、OpenClaw這類本地終端agent和Amazon Q這類企業(yè)級(jí)集成agent。從產(chǎn)品代際來看,Manus的形態(tài)確實(shí)不是最新的。但收購的邏輯從來不是買最新一代的產(chǎn)品。Meta買的是這支團(tuán)隊(duì)的認(rèn)知水平、工程能力、用戶基礎(chǔ)和基礎(chǔ)設(shè)施積累。產(chǎn)品形態(tài)可以迭代,團(tuán)隊(duì)對(duì)agent AI的理解和實(shí)踐經(jīng)驗(yàn)不會(huì)因?yàn)樾乱淮a(chǎn)品出現(xiàn)就過期。Meta在2026年2月已經(jīng)把Manus的agent能力整合進(jìn)了Ads Manager的工作流,這說明Manus的技術(shù)資產(chǎn)在Meta的產(chǎn)品體系里找到了實(shí)際的著陸點(diǎn)。
Manus團(tuán)隊(duì)在2025年7月發(fā)表的context engineering博文是一個(gè)更直接的證據(jù)。這篇文章的信息密度極高,從中可以直接看到Manus團(tuán)隊(duì)對(duì)agentic AI的理解領(lǐng)先行業(yè)一個(gè)身位。它提出的三條核心原則(keep prefix stable、make context append-only、mask tools don't remove them)后來被整個(gè)harness engineering領(lǐng)域廣泛引用和采納。更重要的是,這篇文章在開頭就回答了一個(gè)關(guān)鍵的技術(shù)路線問題:是應(yīng)該基于開源模型訓(xùn)練一個(gè)端到端的agentic model,還是應(yīng)該在frontier model的in-context learning能力之上構(gòu)建agent?Manus選了后者,并且用產(chǎn)品結(jié)果證明了這條路線的可行性。這個(gè)判斷在2025年中不是共識(shí),到2026年已經(jīng)成為行業(yè)的主流做法。一篇技術(shù)博文能做到這種程度的前瞻性和影響力,本身就是團(tuán)隊(duì)認(rèn)知水平的證明。
第二,"Manus從頭到尾就是套殼,沒有技術(shù)含量。"2026年4月發(fā)改委動(dòng)用了《外商投資安全審查辦法》五年來的第一次"禁止加撤銷"來叫停這筆收購。如果Manus真的只是一個(gè)沒有核心技術(shù)的套殼產(chǎn)品,監(jiān)管沒有理由用最強(qiáng)檔位的法律工具來保護(hù)它。監(jiān)管認(rèn)定這家公司的核心團(tuán)隊(duì)、研發(fā)能力、訓(xùn)練數(shù)據(jù)和IP構(gòu)成需要保護(hù)的國(guó)家安全資產(chǎn)。這份認(rèn)定的分量,比任何技術(shù)評(píng)測(cè)或媒體爭(zhēng)論都重。
Cursor:唯一自己訓(xùn)練模型的第三方選手
Cursor面對(duì)的套殼質(zhì)疑和Manus類似:底層用的是別人的模型,自己只做了一個(gè)編輯器。但Cursor做了一個(gè)同賽道的競(jìng)品都沒有做的判斷,并且圍繞這個(gè)判斷建立了完整的技術(shù)壁壘。
認(rèn)知差異一:判斷自訓(xùn)模型是產(chǎn)品的必要條件,然后把它做出來了
編程agent的核心循環(huán)是高頻的工具調(diào)用:讀文件、寫代碼、跑命令,每一輪都有延遲,累積起來直接決定產(chǎn)品體驗(yàn)。Cursor團(tuán)隊(duì)很早就判斷,在這個(gè)場(chǎng)景下,依賴外部frontier model的API在速度和成本上都無法做到讓開發(fā)者滿意的交互體驗(yàn),自訓(xùn)模型是產(chǎn)品層面繞不過去的一步。Cursor官方博客的原話是,他們的目標(biāo)是訓(xùn)練出一個(gè)能支撐交互式使用的最聰明的模型,讓開發(fā)者保持在編程的flow里。
這里可能會(huì)有一個(gè)疑問:前面說Manus用外部模型API是正確判斷,怎么到Cursor這里自訓(xùn)模型反而成了必要條件?區(qū)別在于兩個(gè)領(lǐng)域的核心約束不同。Manus所在的通用agent領(lǐng)域,核心差異化在agent架構(gòu)和context engineering這一層,底層模型的能力差異被agent框架吸收了。編程領(lǐng)域不一樣,延遲和成本直接決定產(chǎn)品可用性。兩者的共同點(diǎn)恰恰是:都從自己領(lǐng)域的實(shí)際約束出發(fā)做了正確的build vs. buy判斷。
認(rèn)準(zhǔn)了這個(gè)方向之后,Cursor把它做出來了,而且產(chǎn)品體驗(yàn)驗(yàn)證了這個(gè)判斷。Composer 1發(fā)布之后,我在大量項(xiàng)目中用它替代了Sonnet 4.5。體感上,大概90%的日常編程任務(wù)(改bug、寫CRUD、重構(gòu)、加功能),Composer 1和Sonnet 4.5的完成質(zhì)量沒有明顯差別。日常編程中真正需要rocket science級(jí)別推理的場(chǎng)景占比很小,多數(shù)時(shí)候是體力活,模型之間的能力差距體現(xiàn)不出來。但速度優(yōu)勢(shì)是碾壓式的:同一個(gè)任務(wù),Sonnet 4.5要等一兩分鐘,Composer 1幾秒到十幾秒就回來了。質(zhì)量差不多,速度快數(shù)倍,這在高頻使用場(chǎng)景下帶來的體驗(yàn)差異是巨大的。這正是Cursor一開始做出的那個(gè)判斷:編程領(lǐng)域的產(chǎn)品體驗(yàn)瓶頸在模型的速度和成本,不在能力上限。
做法上,Cursor沒有從零預(yù)訓(xùn)練一個(gè)模型,而是拿開源的MoE底座,在模擬Cursor生產(chǎn)環(huán)境的agent harness里做大規(guī)模RL post-training,訓(xùn)練模型的工具調(diào)用決策和響應(yīng)效率。
這里有一個(gè)常見的質(zhì)疑:這不就是fine-tuning嗎?
從Composer 1到2的五個(gè)月演進(jìn)回答了這個(gè)問題。Cursor的訓(xùn)練鏈路經(jīng)歷了三次迭代,每一次都不是簡(jiǎn)單的調(diào)參,而是訓(xùn)練方法論本身的升級(jí)。1和1.5階段的路線是純RL:拿開源底座做大規(guī)模后訓(xùn)練。到Composer 1.5,RL的計(jì)算量擴(kuò)大了20倍,后訓(xùn)練消耗的算力甚至超過了底座預(yù)訓(xùn)練本身,同時(shí)引入了thinking tokens(自適應(yīng)推理深度)和self-summarization(長(zhǎng)上下文自動(dòng)壓縮)兩個(gè)新訓(xùn)練行為。但他們發(fā)現(xiàn)RL-only路線的邊際收益在遞減:CursorBench從1到1.5只提升了6.2分,算力卻投入了20倍。
到Composer 2,Cursor做了一個(gè)關(guān)鍵的方法論轉(zhuǎn)向:在RL之前加入continued pretraining,改變RL探索的起點(diǎn)質(zhì)量。底座換成了Kimi K2.5(Moonshot官方已確認(rèn)),先做繼續(xù)預(yù)訓(xùn)練再做RL,結(jié)果CursorBench一口氣提升了17.1分。Composer 2的技術(shù)報(bào)告說得很明確:它在推理成本顯著低于同級(jí)別模型的前提下達(dá)到了Pareto最優(yōu)。換句話說,Cursor的post-training鏈路做到的不是在底座上加一層fine-tune然后性能打折,而是在壓縮成本和延遲的同時(shí)保持了可比的編程能力。
這個(gè)方法論的自我修正有學(xué)術(shù)上的支撐。ICML 2025的研究(SFT Memorizes, RL Generalizes)和Moonshot自己的Kimi K2技術(shù)報(bào)告都指向同一個(gè)方向:預(yù)訓(xùn)練建立先驗(yàn),RL在先驗(yàn)上做高效探索,continued pretraining改變的是起點(diǎn)質(zhì)量。Cursor團(tuán)隊(duì)在Composer 2之前就獨(dú)立發(fā)現(xiàn)了這一點(diǎn)并落地到產(chǎn)品里。
回過頭來看競(jìng)品的選擇。AI編程工具領(lǐng)域里創(chuàng)業(yè)公司很多:Cline是開源的VS Code插件,接各種第三方模型API;Windsurf(原Codeium)也自訓(xùn)模型,但路線不同,它走的是通用編程能力路線,沒有針對(duì)高頻工具調(diào)用場(chǎng)景做專門優(yōu)化;GitHub Copilot背靠OpenAI,但直到2025年底還在用現(xiàn)成的GPT-4和Claude模型,沒有自己的post-training鏈路。Cursor是唯一一個(gè)在第三方AI編程工具里把自訓(xùn)模型做出來并且驗(yàn)證成功的。
認(rèn)知差異二:Harness Engineering落地到產(chǎn)品
Cursor在harness engineering上的投入是另一個(gè)被低估的壁壘。Composer 2的技術(shù)報(bào)告詳細(xì)描述了他們的訓(xùn)練方法:用真實(shí)的Cursor生產(chǎn)環(huán)境作為訓(xùn)練場(chǎng)景,讓模型在真實(shí)的工具調(diào)用循環(huán)中學(xué)習(xí)決策。
這和傳統(tǒng)的SFT(supervised fine-tuning)有本質(zhì)區(qū)別。SFT是讓模型模仿人類的示范,而RL是讓模型在環(huán)境中試錯(cuò)并優(yōu)化獎(jiǎng)勵(lì)函數(shù)。Cursor的訓(xùn)練數(shù)據(jù)不是人工標(biāo)注的"正確操作序列",而是模型在模擬環(huán)境中自主探索產(chǎn)生的軌跡,通過結(jié)果反饋(任務(wù)是否完成、代碼是否正確)來優(yōu)化策略。
這種方法論的優(yōu)勢(shì)在于:模型學(xué)到的不是"人類通常會(huì)怎么做",而是"在這個(gè)具體場(chǎng)景下什么做法最有效"。對(duì)于編程這種結(jié)果導(dǎo)向的任務(wù),后者明顯更優(yōu)。
Cursor還做了另一件競(jìng)品沒做的事:把harness engineering的成果反哺到產(chǎn)品體驗(yàn)。Composer 2的"智能上下文感知"功能,能夠自動(dòng)識(shí)別代碼庫中的相關(guān)文件和依賴關(guān)系,不需要用戶手動(dòng)指定。這個(gè)功能背后就是harness訓(xùn)練中學(xué)到的代碼結(jié)構(gòu)理解能力。
回應(yīng)套殼論
說Cursor"只是套殼"的人,通常指的是它用的不是自己的底座模型。但如果仔細(xì)看它的技術(shù)棧,會(huì)發(fā)現(xiàn)它做了幾乎所有能做的東西:自訓(xùn)模型(雖然不是從零預(yù)訓(xùn)練)、自研harness、自研RL訓(xùn)練鏈路、自研上下文管理系統(tǒng)。唯一"外包"的是底座模型的預(yù)訓(xùn)練,而這恰恰是build vs. buy判斷后的理性選擇——預(yù)訓(xùn)練一個(gè)MoE底座的成本是數(shù)十億美元級(jí)別,不是創(chuàng)業(yè)公司能承受的。
更重要的是,Cursor證明了這個(gè)路線的可行性:通過post-training和harness engineering,可以在開源底座之上構(gòu)建出體驗(yàn)優(yōu)于frontier model API的產(chǎn)品。這個(gè)判斷本身就有極高的認(rèn)知價(jià)值,而且已經(jīng)被產(chǎn)品結(jié)果驗(yàn)證。
共同的模式
Manus和Cursor雖然處于不同領(lǐng)域,但展現(xiàn)了相同的認(rèn)知模式:
第一,都從第一性原理出發(fā)思考問題,而不是沿著現(xiàn)有產(chǎn)品形態(tài)做增量?jī)?yōu)化。Manus重新思考了multi-agent系統(tǒng)的設(shè)計(jì)范式,Cursor重新思考了編程工具的模型需求。
第二,都做出了和當(dāng)時(shí)主流判斷不同的選擇,并且用產(chǎn)品結(jié)果證明了自己是對(duì)的。Manus在2025年3月選擇不做hat wearing,Cursor在2024年選擇自訓(xùn)模型,當(dāng)時(shí)都不是共識(shí)。
第三,都建立了可驗(yàn)證的技術(shù)壁壘。Manus的壁壘在agent架構(gòu)和context engineering,Cursor的壁壘在post-training和harness engineering。這些壁壘不是營(yíng)銷話術(shù),有具體的技術(shù)實(shí)現(xiàn)和benchmark結(jié)果支撐。
第四,都獲得了超額的商業(yè)回報(bào)。Manus 8個(gè)月做到$100M ARR,Cursor在AI編程工具領(lǐng)域占據(jù)了領(lǐng)先位置。這些回報(bào)是對(duì)認(rèn)知領(lǐng)先的定價(jià)。
Meta和SpaceX/xAI的收購出價(jià),本質(zhì)上是對(duì)這種認(rèn)知水平的認(rèn)可。產(chǎn)品形態(tài)可以迭代,團(tuán)隊(duì)的理解和實(shí)踐經(jīng)驗(yàn)是更難復(fù)制的資產(chǎn)。從這個(gè)角度看,20億美元和600億美元不是沖動(dòng)消費(fèi),而是對(duì)稀缺資源的合理定價(jià)。
對(duì)于那些還在說"套殼"的人,也許需要重新理解什么是真正的技術(shù)壁壘。在AI這個(gè)快速演進(jìn)的領(lǐng)域,能夠做出正確判斷并且把它做出來,本身就是最高的技術(shù)能力。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.