網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

馬斯克花 100 億想清楚一件事，不做 coding agent 就是等死

2026-05-18 22:19:15　來源: 愛范兒

廣東舉報

分享至

OpenAI 的兩大宿敵 Anthropic 和馬斯克，放下心中成見之后終于在月初結盟了。

在此之前，Anthropic 和馬斯克的關系并不融洽：今年 2 月，馬斯克還在自己的 X 賬號指責 A 社「woke」「邪惡」「反人類」（misanthropic），說這家公司「仇視文明」。

事后來看，這次攻擊并非馬斯克清新脫俗的性格使然，而是 Anthropic 所做的某些事情觸碰到他的神經(jīng)，事出有因。

在此之前，xAI 內(nèi)部使用 Cursor 工作，但是今年年初員工發(fā)現(xiàn)，Claude 模型突然在 xAI 的 Cursor 公司賬號里不能使用了。

當時還在 xAI 上班的聯(lián)合創(chuàng)始人吳宇懷，在全員信里是這么說的：「Anthropic 更新了政策，要求 Cursor 不得向其主要競爭對手提供 Claude 模型調(diào)用能力。」

當時，吳宇懷在信中寫了一句話，頗為有趣：

「這是壞消息也是好消息。我們的生產(chǎn)力會被影響，但這也敦促我們開發(fā)自己的編碼產(chǎn)品和模型。」

為什么當時 xAI 的高層認為，開發(fā)自己的編碼產(chǎn)品是關鍵？

后來發(fā)生的事情，大家都知道了。xAI 的聯(lián)創(chuàng)團隊悉數(shù)跑路，馬斯克一氣之下對 Cursor 使用了鈔能力必殺：

上個月底，SpaceX 和 Cursor 共同宣布，將在編程和知識類工作 AI 模型的訓練上，展開前所未有的戰(zhàn)略合作；并且，SpaceX 還獲得了以 600 億美元收購 Cursor 的權利，或向后者支付 100 億美元合作費用。

注意編程這個關鍵定語，后面還會 call back.

最近，我看了一條 Cursor 早期投資人、Anthropic 大噴子、T3 創(chuàng)始人 Theo Browne 的視頻。

本來點進去是看他噴 A 社和 SpaceX 怎么蠅營狗茍，結果沒想到，卻看到了關于 SpaceX + Cursor 合作的，一個既另類卻又極度合理的分析：

不說 600 億的收購，就只說 100 億的合作費——Theo 在視頻里表示，自己認為「哪怕只是交換到 Cursor 的用戶數(shù)據(jù)，這 100 億也值回票價了。」

所以是什么數(shù)據(jù)？如果你也去看 Theo 這條視頻，他會講得非常清楚。但為了節(jié)約時間，我們在這里簡單概括一下：

我們和 AI 的對話是一來一回的，你提出問題/需求，他給你解答；coding agent 同理，只不過返回的是代碼。

一次高質量的對話，整個過程，包括用戶提示、模型思考、agent 規(guī)劃、輸出代碼、驗證——所有這些東西合起來，可以稱為一個完整的 Agentic Loop——就成為了高價值的訓練數(shù)據(jù)，再喂給模型去進行強化學習，就能進一步提高模型在實戰(zhàn)場景下的表現(xiàn)水準。

Cursor 有的，SpaceX 想要的，就是這些數(shù)據(jù)。

可這些數(shù)據(jù)從哪里來呢？

答案很簡單：作為模型廠商，這種高質量數(shù)據(jù)的最直接來源，只能是你自己開發(fā)的 coding agent 產(chǎn)品——也即 Anthropic 的 Claude Code、OpenAI 的 Codex、Kimi 的 Kimi Code。

現(xiàn)在你應該明白了，為什么被 Anthropic「封號」之后，吳宇懷會在全員信里提出開發(fā) xAI 自己的 coding 產(chǎn)品和模型這件事了。這件事 xAI 在當時已經(jīng)看清楚了：

沒有自己的編碼產(chǎn)品，就沒有高質量的強化學習數(shù)據(jù)；沒有高質量的數(shù)據(jù)，就訓練不出真正實戰(zhàn)能力強的 coding 模型。

雖然有點暴論，但現(xiàn)在我們可以點題了：模型廠商想做出來真正能打的編程模型，做自己的 coding agent 產(chǎn)品是唯一的路徑。

大語言模型像個水晶球，用全網(wǎng)的語料訓練出來，似乎能夠解答萬物，但并不代表它在所有問題上都能給出高質量的答案。

用 GitHub 上數(shù)以億計的代碼條目訓練，當然也能訓練出 coding 模型。這是「學習結果」的邏輯，也是沒問題的。畢竟編碼任務的結果是可以驗證的：代碼能不能運行，測試能否通過，結果擺在那里。

但是，通往結果的過程，是一個涉及多步驟決策、錯誤糾正、意圖對齊的復雜鏈條。每一次用戶的接受、拒絕、補全、撤銷、追問、甚至當模型好幾次都搞不定或者完全搞錯時的辱罵——都是這一鏈條上的過程信號。

強化學習有兩種監(jiān)督方式，一種叫做結果監(jiān)督，只看最后是否跑通。但是結果監(jiān)督會催生「獎勵黑客」的現(xiàn)象：模型為了能跑通可能寫出冗余、脆弱、帶邏輯漏洞的代碼，但因為測試過了，模型以為自己學對了。

而另一種叫做過程監(jiān)督，對推理路徑上的每一步進行打分。上述這些過程信號，只有在 coding agent 運行環(huán)境里才能誕生。GitHub 倉庫里只有結果，哪怕是去看單獨的提交歷史，看 PR，都找不到有效的過程信號。

在缺乏有效、自主可獲得的過程信號的時候，一些模型廠商會采用「蒸餾」的方式，這個事情大家應該已經(jīng)知道了。

蒸餾的邏輯很簡單，給同樣的輸入，老師模型輸出什么，學生模型就學著輸出什么。但是通過蒸餾，即便可以獲取到思維鏈，得到的仍然更接近于結果，而非被蒸餾的老師模型內(nèi)部的概率分布。

一旦學生在推理中偏離了老師的軌跡，哪怕一個 token 不符合，都有可能發(fā)生偏離。

這背后是強化學習的基礎限制：策略梯度定理要求，優(yōu)化樣本最好由當前正在優(yōu)化的模型自己去產(chǎn)生。這種數(shù)據(jù)叫做 on-policy 數(shù)據(jù)。而通過蒸餾別家模型，在別人的產(chǎn)品里產(chǎn)生的數(shù)據(jù)，來訓練自己模型，都屬于 off-policy 數(shù)據(jù)。模型當然可以從中學到東西，但學不到老師模型內(nèi)部的概率分布信息。

而像 Cursor 這樣自己就是 coding agent 產(chǎn)品的公司，掌握著最真實、有效、高質量的訓練數(shù)據(jù)。Cursor 產(chǎn)品本身，就是 coding 模型在實戰(zhàn)環(huán)境中的最佳訓練場。

我們可以通過 Cursor 年初的「翻車」，來證明這個邏輯。

4. APPSO 讀者應該記得，年初 Cursor 發(fā)布了 Composer 2，號稱「下一代專用編程模型」，技術報道寫的相對保守，也沒有提供具體的模型底座信息。

結果很快，網(wǎng)友就在公開代碼片段里發(fā)現(xiàn)了 Kimi 的模型 ID，截圖傳遍了開發(fā)者社群，逼得 Cursor 副總裁 Lee Robinson 出面澄清：「Composer 2 確實是從開源底座出發(fā)的。最終模型大約只有 1/4 的算力來自底座，剩下 3/4 是我們自己訓出來的。」

幾小時后，Cursor 聯(lián)創(chuàng) Aman Sanger 也跟著發(fā)了一條道歉：「一開始沒提 Kimi 底座是個失誤。」

五天后，Cursor 放出了完整的 Composer 2 技術報告，顯示底座的確是 Kimi K2.5，授權方則是 Firworks AI，大致流程是在 K2.5 上做訓練，再繼續(xù)做大規(guī)模強化學習（RL）。

但關鍵之處在于，Composer 2 的 RL 是運行在真實的 Cursor 會話當中，使用與生產(chǎn)部署完全相同的工具和 harness。

Cursor 將這套流程叫做「實時強化學習」(real-time RL)，也即將模型的 checkpoint 直接部署到 Cursor 生產(chǎn)環(huán)境中，觀察用戶的響應，收集數(shù)據(jù)，聚合成獎勵信號——最快可以每 5 個小時迭代一次模型版本，然后繼續(xù)部署到 Cursor 里，循環(huán)往復。

最極致的案例是 Cursor 的自動化代碼補全功能 Tab，每天處理超過 4 億次請求，每當用戶輸入字符、移動光標時，模型都會預測下一步動作，如果預測置信度高，則顯示建議，用戶按下 tab 即接受自動補全。

該功能采用的是在線強化學習，在行業(yè)內(nèi)極具特色。Cursor 可以以極高的頻率（最快可達每一個半小時到兩小時）更新 Tab 的模型能力給用戶，直接在產(chǎn)品內(nèi)收集 on-policy 數(shù)據(jù)進行訓練。

這種高頻、接近實時的反饋回路，讓 Tab 可以學習到極其微妙的用戶意圖。Cursor 方面透露，這種方法讓 Tab 建議的拒絕率降低 21%，接受率提高了 28%。

回到 Composer 模型本身。在事情搞清楚了之后，一些 Kimi 員工也刪掉了之前吐槽的的推文，Kimi 官方賬號發(fā)表了祝賀。

一家估值 600 億美元（基于馬斯克給的數(shù)字），不做自己的模型基座的 coding agent 應用層公司，仍然可以通過產(chǎn)品自身的數(shù)據(jù)飛輪，RL 出超越基座模型的專有編程模型。

所以與其說 Cursor 翻了車，不如說這反而是 coding agent 產(chǎn)品重要性的絕佳例證。

Cursor 在另一篇關于實時 RL 的文章里寫到：「（訓練編程模型）最大的困難在于建模用戶。Composer 的生產(chǎn)環(huán)境里不只有執(zhí)行命令的計算機，還有監(jiān)督和指導它的人。模擬計算機容易，模擬使用它的人卻很難。」

這句話，現(xiàn)正在逐漸成為了在編程模型方面走在前沿的模型廠商之間的共識。如果你去看 benchmark 榜單和用戶普遍評價，會發(fā)現(xiàn)哪些頭部的廠商都在發(fā)力做自己的 coding agent/編程產(chǎn)品。區(qū)別只在于誰離用戶更近。

我們以 SWE-bench、LLM-Stats 等相對權威的榜單為例，Claude、GPT、Gemini、Kimi 等模型基本霸榜前十，清一色都是有自己開發(fā) coding agent 產(chǎn)品（包括 CLI、IDE、集成 coding agent 的桌面客戶端）的模型廠商。

在部分榜單上會出現(xiàn)少數(shù)反例，如 Meta (Muse Spark)、DeepSeek 等，沒有開發(fā)自己的 coding agent。

不過你會發(fā)現(xiàn)，這些反例模型，在更加接近真實場景、避免污染的更權威 benchmark 上就很難上榜了。以 DeepSeek 為例，它在 SWE-bench bash only 上分數(shù)是 70%，排名第九，在 SWE-bench Pro 上分數(shù)卻掉到了 15% 左右。

OpenRouter 的真實流量數(shù)據(jù)可以解釋這種反差：該平臺 2025 年報告顯示，Claude token 消費 80% 以上用于編程和技術任務，而 DeepSeek token 消費主要集中于閑聊和角色扮演。

沒有自家 coding 產(chǎn)品的廠商，在一些 coding 任務 benchmark 上能擠進頭部，但在更難的真實工程 benchmark 上，在用戶用 token 消費投票的真實流量中，都會原形畢露。

不僅是 Cursor，Anthropic 在 2025 年 11 月發(fā)的一篇論文里，也明確透露自己在做一模一樣的事情：「我們在 Anthropic 自家的真實生產(chǎn)編程環(huán)境上做訓練。」也即 Anthropic 把自己員工使用 Claude Code 的交互數(shù)據(jù)，反哺給 Claude 模型用來訓練。

在 AI 的演進歷程中，生產(chǎn)要素的定義發(fā)生了深刻的位移。傳統(tǒng)三大核心要素——算力、研究、訓練數(shù)據(jù)，雖然在總量上持續(xù)增長，但在結構上已經(jīng)出現(xiàn)了嚴重的失衡。

今天的各大 AI 巨頭顯著提高了在算力上的資本支出 (CapEx)，讓算力基建成為了當前輿論的主旋律。但實際上，特別是在編程范疇內(nèi)，隨著 GitHub 倉庫、StackOverflow 等互聯(lián)網(wǎng)公開代碼數(shù)據(jù)被基模廠商「竭澤而漁」式地利用，模型在代碼生成與邏輯推理上的邊界開始逐漸顯現(xiàn)。

這也是為什么，行業(yè)共識正在逐漸轉向一個冉冉升起的新戰(zhàn)略高地：

對于任何希望掌握頂級代碼能力的模型廠商而言，建立自有的 coding agent 產(chǎn)品早已不再是可選的商業(yè)路線，而是確保底層模型可以持續(xù)進化的核心生命線。

正如前面 APPSO 論證的那樣，單純學習公開數(shù)據(jù)等于只學習成功者的結局，卻無法了解成功的路徑，這絕對不是正確的成功學應該有的樣子。在真實的編程環(huán)境中，知道發(fā)生了什么錯誤、怎樣發(fā)生的、如何正確地理解和高效地實踐需求等等——了解正確過程的價值，遠超于得到正確結果本身。

只有擁有自己的編碼產(chǎn)品，模型廠商才能獲取高質量的「過程監(jiān)督」信號，從而在編碼/推理能力的下一階段競爭中，確保自己仍有技術護城河——

否則就不得不像 SpaceXAI 那樣，花錢去跟 coding agent 產(chǎn)品公司去合作。

然而并不是所有模型廠商都跟馬斯克一樣有錢，以及 2026 年開始的巨頭勢力劃分、結盟與領地的爭斗會變得更加激烈，當一家缺乏自主 coding 產(chǎn)品的模型廠商終于回過味來的時候，恐怕已經(jīng)沒有足夠的合作伙伴可以挑選，合作的價格也將水漲船高。

美國模型巨頭的情況大家普遍比較熟悉了，在此不贅述。APPSO 也注意到，國內(nèi)的主流模型廠商和 AI 巨頭當中，絕大部分都已經(jīng)在 coding agent 產(chǎn)品上有所布局。

國內(nèi)巨頭公司主要以原生 AI IDE 或 IDE 插件的思路在做：字節(jié)跳動去年很早就布局了 TRAE、阿里巴巴的 Qoder、騰訊的 CodeBuddy、百度的文心快碼 Comate 等。

AI 小龍公司中，月之暗面是最早開發(fā)獨立 coding agent 產(chǎn)品的公司，主要以 CLI 界面的 Kimi Code 為主——不過 Kimi 此前有透露過，在原生編程產(chǎn)品這件事上，CLI 不會是終局。

另一種實現(xiàn)思路是模型廠商自行提供 API 服務、Coding Plan。這樣，不論用戶使用何種 AI 開發(fā)環(huán)境，模型廠商都可以通過服務器端的 API 記錄來獲取最大程度接近于原生 coding 產(chǎn)品的過程數(shù)據(jù)。

但這也只是接近，并非完全相同。核心在于，服務器端 API 的請求-響應日志，與深度繼承的產(chǎn)品交互軌跡相比仍有很大差距。

自建產(chǎn)品的廠商（例如 Cursor、Claude 桌面端、Codex）擁有最直接的顯式反饋信號，而 API 側是相對模糊的隱式推斷。簡單來說，API 側能看到用戶請求和響應，但用戶最后是否采納了這段代碼、代碼能否跑通、引發(fā)了什么樣的 bug，API 側對此是一無所知的。他們無法了解到用戶最終行為這一關鍵的標簽，從而無法實現(xiàn)最高質量的強化學習。

形而上來講，語言即世界，代碼即方案。代碼可以表達這個世界上絕大多數(shù)的任務，代碼也會成為頭部的放大器，讓最頂尖的人才放大數(shù)倍的生產(chǎn)力。

只有最頂尖的 coding 模型才配得上最頂尖的人才。如果領先的模型廠商不重視 coding，勢必將會掉出第一梯隊。

當然，事實上每家模型廠商都不會不重視 coding——而是說，在新的范式下，哪些沒有自主可控的原生 coding agent 產(chǎn)品，極有可能逐漸落后于有產(chǎn)品的廠商。

就在前幾天，MiniMax 也發(fā)布了桌面客戶端產(chǎn)品的重大更新：帶有全新多 agent 編排架構的 Mavis 功能，并且也讓客戶端顯著改善了對 coding 任務的支持。

此前 MiniMax 只是推出了桌面端，但沒有加入原生 coding 和 agent 功能。

緊接著，在 5 月 15 日，阿里巴巴正式發(fā)布了 Qoder 1.0——這個產(chǎn)品從 IDE 的形態(tài)正式升級為一個完整的 Agent 產(chǎn)品（阿里的官方叫法是智能體自主開發(fā)工作臺）。

與此同時，xAI 的 Grok Build CLI，也終于正式推出了。

沒錯，就是 xAI 年初被 Anthropic 和 Cursor 封號之后，他們自己搗鼓出來的那個 coding agent.

這不，又多了好幾個現(xiàn)成的案例。

看來，大家都認為 Cursor、Codex 和 Claude 桌面端走在正確的道路上。

把話題從 coding 擴展到 agent 本身，情況也是一樣的。

編碼任務的軌跡數(shù)據(jù)，在公開語料中確實還是能找到一些的（比如 GitHub 的提交記錄/PR，盡管質量并不高）。但是 agent 任務的軌跡數(shù)據(jù)，包括并不限于移動和點擊鼠標、操控觸屏、填寫輸入框等，卻無法在公開語料中找到。

所以我們會看到，即使在 agent 操作的最小實現(xiàn)路徑——瀏覽器插件上，這么個看起來一點都不高端的東西，幾乎每家模型廠商都會做自己的。

OpenAI 早在 2025 年 1 月就做了 Operator——與其說它是一個「AI 自動操作瀏覽器」的產(chǎn)品，不如說本質上就是一個大規(guī)模的數(shù)據(jù)收集裝置。每一位試用 Operator 的用戶，都在免費為 OpenAI 提供 on-policy 數(shù)據(jù)。

后續(xù) OpenAI 還衍生出 ChatGPT Agent 以及新版 Codex 桌面端；Anthropic 也是同理；最近 Kimi 不聲不響地也做了一個叫做 WebBridge 的項目，其實就是一個瀏覽器插件。

即便是在過去兩年里動作最克制的中國模型巨頭深度求索，也在最近開始展露出對 Agent 的興趣。

CEO 梁文鋒此前接受采訪時曾經(jīng)提到這樣的觀點：數(shù)學和代碼是 AGI 天然的試驗場，有點像圍棋，是一個封閉的、可驗證的系統(tǒng)，有可能通過自我學習就能實現(xiàn)很高的智能。

這句話的潛臺詞，是 DeepSeek 一直把 coding、Agent 當研究試驗場，而非商業(yè)化方向。

但是在今年 3 月，DeepSeek 一次性放出了十幾個 Agent 相關崗位，包括首次出現(xiàn)的模型策略產(chǎn)品經(jīng)理（Agent 方向）等。當時的 JD 職責涵蓋「主導 Agent 評測體系以及訓練數(shù)據(jù)方案的設計」，要求中包括「深度使用 Claude Code、Manus」等產(chǎn)品。

APPSO 注意到，近期深度求索發(fā)布了 Agent 產(chǎn)品經(jīng)理、Harness 產(chǎn)品經(jīng)理等職位招聘信息——很顯然，DeepSeek 要做獨立、原生的 Coding/Agent 產(chǎn)品了。

此前資料顯示，DeepSeek V3.2 的訓練過程中引入了近兩千個合成的 Agent 訓練環(huán)境和八萬多條復雜指令。但是看起來，靠合成的訓練數(shù)據(jù)只能帶 DeepSeek 走到這里了，剩下的是合成不出來的部分：真實用戶在真實環(huán)境里的真實成功和失敗，必須靠自家的 agent 產(chǎn)品才能拿到。

DeepSeek 以一種極度克制的方式做了三年模型以及模型產(chǎn)品（直到上個月才終于在官網(wǎng)加入了多模態(tài)能力）。但是在今天來看，在編碼類任務上，DeepSeek 拿 SOTA 越來越難了，即便此前拿到也會在不久后被超越。

當主力依靠研究的路徑支撐不住飛輪的時候，DeepSeek 終于行動了。

最后，我們回到開篇的故事。

根據(jù) The Information 援引知情人士報道，在接受馬斯克 600 億收購/100 億美元合作的同時，Cursor 表示不會與 xAI 合作開發(fā)新的模型，而是仍將聚焦于優(yōu)化自己的 Composer 模型。

這可能意味著，即便被馬斯克買通甚至收購，Cursor 仍然要保留自己數(shù)據(jù)飛輪的主體性。

數(shù)據(jù)歸屬的本身，是最關鍵的隱藏博弈點。

當所有頂級模型廠商都做了自己的產(chǎn)品，所有頂級產(chǎn)品也都開始訓練自己的模型，「模型公司」和「產(chǎn)品公司」之間本就不太清楚的界限，似乎越來越不存在了……

這場博弈也才剛剛開始。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.