![]()
1.
OpenAI 的兩大宿敵 Anthropic 和馬斯克,放下心中成見之后終于在月初結盟了。
在此之前,Anthropic 和馬斯克的關系并不融洽:今年 2 月,馬斯克還在自己的 X 賬號指責 A 社「woke」「邪惡」「反人類」(misanthropic),說這家公司「仇視文明」。
![]()
事后來看,這次攻擊并非馬斯克清新脫俗的性格使然,而是 Anthropic 所做的某些事情觸碰到他的神經(jīng),事出有因。
在此之前,xAI 內(nèi)部使用 Cursor 工作,但是今年年初員工發(fā)現(xiàn),Claude 模型突然在 xAI 的 Cursor 公司賬號里不能使用了。
當時還在 xAI 上班的聯(lián)合創(chuàng)始人吳宇懷,在全員信里是這么說的:「Anthropic 更新了政策,要求 Cursor 不得向其主要競爭對手提供 Claude 模型調(diào)用能力。」
當時,吳宇懷在信中寫了一句話,頗為有趣:
「這是壞消息也是好消息。我們的生產(chǎn)力會被影響,但這也敦促我們開發(fā)自己的編碼產(chǎn)品和模型。」
為什么當時 xAI 的高層認為,開發(fā)自己的編碼產(chǎn)品是關鍵?
![]()
后來發(fā)生的事情,大家都知道了。xAI 的聯(lián)創(chuàng)團隊悉數(shù)跑路,馬斯克一氣之下對 Cursor 使用了鈔能力必殺:
上個月底,SpaceX 和 Cursor 共同宣布,將在編程和知識類工作 AI 模型的訓練上,展開前所未有的戰(zhàn)略合作;并且,SpaceX 還獲得了以 600 億美元收購 Cursor 的權利,或向后者支付 100 億美元合作費用。
注意編程這個關鍵定語,后面還會 call back.
2.
最近,我看了一條 Cursor 早期投資人、Anthropic 大噴子、T3 創(chuàng)始人 Theo Browne 的視頻。
本來點進去是看他噴 A 社和 SpaceX 怎么蠅營狗茍,結果沒想到,卻看到了關于 SpaceX + Cursor 合作的,一個既另類卻又極度合理的分析:
不說 600 億的收購,就只說 100 億的合作費——Theo 在視頻里表示,自己認為「哪怕只是交換到 Cursor 的用戶數(shù)據(jù),這 100 億也值回票價了。」
![]()
所以是什么數(shù)據(jù)?如果你也去看 Theo 這條視頻,他會講得非常清楚。但為了節(jié)約時間,我們在這里簡單概括一下:
我們和 AI 的對話是一來一回的,你提出問題/需求,他給你解答;coding agent 同理,只不過返回的是代碼。
![]()
一次高質量的對話,整個過程,包括用戶提示、模型思考、agent 規(guī)劃、輸出代碼、驗證——所有這些東西合起來,可以稱為一個完整的 Agentic Loop——就成為了高價值的訓練數(shù)據(jù),再喂給模型去進行強化學習,就能進一步提高模型在實戰(zhàn)場景下的表現(xiàn)水準。
![]()
Cursor 有的,SpaceX 想要的,就是這些數(shù)據(jù)。
可這些數(shù)據(jù)從哪里來呢?
答案很簡單:作為模型廠商,這種高質量數(shù)據(jù)的最直接來源,只能是你自己開發(fā)的 coding agent 產(chǎn)品——也即 Anthropic 的 Claude Code、OpenAI 的 Codex、Kimi 的 Kimi Code。
現(xiàn)在你應該明白了,為什么被 Anthropic「封號」之后,吳宇懷會在全員信里提出開發(fā) xAI 自己的 coding 產(chǎn)品和模型這件事了。這件事 xAI 在當時已經(jīng)看清楚了:
沒有自己的編碼產(chǎn)品,就沒有高質量的強化學習數(shù)據(jù);沒有高質量的數(shù)據(jù),就訓練不出真正實戰(zhàn)能力強的 coding 模型。
雖然有點暴論,但現(xiàn)在我們可以點題了:模型廠商想做出來真正能打的編程模型,做自己的 coding agent 產(chǎn)品是唯一的路徑。
3.
大語言模型像個水晶球,用全網(wǎng)的語料訓練出來,似乎能夠解答萬物,但并不代表它在所有問題上都能給出高質量的答案。
用 GitHub 上數(shù)以億計的代碼條目訓練,當然也能訓練出 coding 模型。這是「學習結果」的邏輯,也是沒問題的。畢竟編碼任務的結果是可以驗證的:代碼能不能運行,測試能否通過,結果擺在那里。
但是,通往結果的過程,是一個涉及多步驟決策、錯誤糾正、意圖對齊的復雜鏈條。每一次用戶的接受、拒絕、補全、撤銷、追問、甚至當模型好幾次都搞不定或者完全搞錯時的辱罵——都是這一鏈條上的過程信號。
![]()
強化學習有兩種監(jiān)督方式,一種叫做結果監(jiān)督,只看最后是否跑通。但是結果監(jiān)督會催生「獎勵黑客」的現(xiàn)象:模型為了能跑通可能寫出冗余、脆弱、帶邏輯漏洞的代碼,但因為測試過了,模型以為自己學對了。
而另一種叫做過程監(jiān)督,對推理路徑上的每一步進行打分。上述這些過程信號,只有在 coding agent 運行環(huán)境里才能誕生。GitHub 倉庫里只有結果,哪怕是去看單獨的提交歷史,看 PR,都找不到有效的過程信號。
在缺乏有效、自主可獲得的過程信號的時候,一些模型廠商會采用「蒸餾」的方式,這個事情大家應該已經(jīng)知道了。
蒸餾的邏輯很簡單,給同樣的輸入,老師模型輸出什么,學生模型就學著輸出什么。但是通過蒸餾,即便可以獲取到思維鏈,得到的仍然更接近于結果,而非被蒸餾的老師模型內(nèi)部的概率分布。
一旦學生在推理中偏離了老師的軌跡,哪怕一個 token 不符合,都有可能發(fā)生偏離。
![]()
這背后是強化學習的基礎限制:策略梯度定理要求,優(yōu)化樣本最好由當前正在優(yōu)化的模型自己去產(chǎn)生。這種數(shù)據(jù)叫做 on-policy 數(shù)據(jù)。而通過蒸餾別家模型,在別人的產(chǎn)品里產(chǎn)生的數(shù)據(jù),來訓練自己模型,都屬于 off-policy 數(shù)據(jù)。模型當然可以從中學到東西,但學不到老師模型內(nèi)部的概率分布信息。
而像 Cursor 這樣自己就是 coding agent 產(chǎn)品的公司,掌握著最真實、有效、高質量的訓練數(shù)據(jù)。Cursor 產(chǎn)品本身,就是 coding 模型在實戰(zhàn)環(huán)境中的最佳訓練場。
我們可以通過 Cursor 年初的「翻車」,來證明這個邏輯。
4. APPSO 讀者應該記得,年初 Cursor 發(fā)布了 Composer 2,號稱「下一代專用編程模型」,技術報道寫的相對保守,也沒有提供具體的模型底座信息。 ![]()
結果很快,網(wǎng)友就在公開代碼片段里發(fā)現(xiàn)了 Kimi 的模型 ID,截圖傳遍了開發(fā)者社群,逼得 Cursor 副總裁 Lee Robinson 出面澄清:「Composer 2 確實是從開源底座出發(fā)的。最終模型大約只有 1/4 的算力來自底座,剩下 3/4 是我們自己訓出來的。」
幾小時后,Cursor 聯(lián)創(chuàng) Aman Sanger 也跟著發(fā)了一條道歉:「一開始沒提 Kimi 底座是個失誤。」
![]()
五天后,Cursor 放出了完整的 Composer 2 技術報告,顯示底座的確是 Kimi K2.5,授權方則是 Firworks AI,大致流程是在 K2.5 上做訓練,再繼續(xù)做大規(guī)模強化學習(RL)。
但關鍵之處在于,Composer 2 的 RL 是運行在真實的 Cursor 會話當中,使用與生產(chǎn)部署完全相同的工具和 harness。
Cursor 將這套流程叫做「實時強化學習」(real-time RL),也即將模型的 checkpoint 直接部署到 Cursor 生產(chǎn)環(huán)境中,觀察用戶的響應,收集數(shù)據(jù),聚合成獎勵信號——最快可以每 5 個小時迭代一次模型版本,然后繼續(xù)部署到 Cursor 里,循環(huán)往復。
最極致的案例是 Cursor 的自動化代碼補全功能 Tab,每天處理超過 4 億次請求,每當用戶輸入字符、移動光標時,模型都會預測下一步動作,如果預測置信度高,則顯示建議,用戶按下 tab 即接受自動補全。
該功能采用的是在線強化學習,在行業(yè)內(nèi)極具特色。Cursor 可以以極高的頻率(最快可達每一個半小時到兩小時)更新 Tab 的模型能力給用戶,直接在產(chǎn)品內(nèi)收集 on-policy 數(shù)據(jù)進行訓練。
這種高頻、接近實時的反饋回路,讓 Tab 可以學習到極其微妙的用戶意圖。Cursor 方面透露,這種方法讓 Tab 建議的拒絕率降低 21%,接受率提高了 28%。
回到 Composer 模型本身。在事情搞清楚了之后,一些 Kimi 員工也刪掉了之前吐槽的的推文,Kimi 官方賬號發(fā)表了祝賀。
一家估值 600 億美元(基于馬斯克給的數(shù)字),不做自己的模型基座的 coding agent 應用層公司,仍然可以通過產(chǎn)品自身的數(shù)據(jù)飛輪,RL 出超越基座模型的專有編程模型。
所以與其說 Cursor 翻了車,不如說這反而是 coding agent 產(chǎn)品重要性的絕佳例證。
![]()
Cursor 在另一篇關于實時 RL 的文章里寫到:「(訓練編程模型)最大的困難在于建模用戶。Composer 的生產(chǎn)環(huán)境里不只有執(zhí)行命令的計算機,還有監(jiān)督和指導它的人。模擬計算機容易,模擬使用它的人卻很難。」
這句話,現(xiàn)正在逐漸成為了在編程模型方面走在前沿的模型廠商之間的共識。如果你去看 benchmark 榜單和用戶普遍評價,會發(fā)現(xiàn)哪些頭部的廠商都在發(fā)力做自己的 coding agent/編程產(chǎn)品。區(qū)別只在于誰離用戶更近。
我們以 SWE-bench、LLM-Stats 等相對權威的榜單為例,Claude、GPT、Gemini、Kimi 等模型基本霸榜前十,清一色都是有自己開發(fā) coding agent 產(chǎn)品(包括 CLI、IDE、集成 coding agent 的桌面客戶端)的模型廠商。
在部分榜單上會出現(xiàn)少數(shù)反例,如 Meta (Muse Spark)、DeepSeek 等,沒有開發(fā)自己的 coding agent。
不過你會發(fā)現(xiàn),這些反例模型,在更加接近真實場景、避免污染的更權威 benchmark 上就很難上榜了。以 DeepSeek 為例,它在 SWE-bench bash only 上分數(shù)是 70%,排名第九,在 SWE-bench Pro 上分數(shù)卻掉到了 15% 左右。
OpenRouter 的真實流量數(shù)據(jù)可以解釋這種反差:該平臺 2025 年報告顯示,Claude token 消費 80% 以上用于編程和技術任務,而 DeepSeek token 消費主要集中于閑聊和角色扮演。
沒有自家 coding 產(chǎn)品的廠商,在一些 coding 任務 benchmark 上能擠進頭部,但在更難的真實工程 benchmark 上,在用戶用 token 消費投票的真實流量中,都會原形畢露。
不僅是 Cursor,Anthropic 在 2025 年 11 月發(fā)的一篇論文里,也明確透露自己在做一模一樣的事情:「我們在 Anthropic 自家的真實生產(chǎn)編程環(huán)境上做訓練。」也即 Anthropic 把自己員工使用 Claude Code 的交互數(shù)據(jù),反哺給 Claude 模型用來訓練。
![]()
5.
在 AI 的演進歷程中,生產(chǎn)要素的定義發(fā)生了深刻的位移。傳統(tǒng)三大核心要素——算力、研究、訓練數(shù)據(jù),雖然在總量上持續(xù)增長,但在結構上已經(jīng)出現(xiàn)了嚴重的失衡。
今天的各大 AI 巨頭顯著提高了在算力上的資本支出 (CapEx),讓算力基建成為了當前輿論的主旋律。但實際上,特別是在編程范疇內(nèi),隨著 GitHub 倉庫、StackOverflow 等互聯(lián)網(wǎng)公開代碼數(shù)據(jù)被基模廠商「竭澤而漁」式地利用,模型在代碼生成與邏輯推理上的邊界開始逐漸顯現(xiàn)。
這也是為什么,行業(yè)共識正在逐漸轉向一個冉冉升起的新戰(zhàn)略高地:
對于任何希望掌握頂級代碼能力的模型廠商而言,建立自有的 coding agent 產(chǎn)品早已不再是可選的商業(yè)路線,而是確保底層模型可以持續(xù)進化的核心生命線。
正如前面 APPSO 論證的那樣,單純學習公開數(shù)據(jù)等于只學習成功者的結局,卻無法了解成功的路徑,這絕對不是正確的成功學應該有的樣子。在真實的編程環(huán)境中,知道發(fā)生了什么錯誤、怎樣發(fā)生的、如何正確地理解和高效地實踐需求等等——了解正確過程的價值,遠超于得到正確結果本身。
![]()
只有擁有自己的編碼產(chǎn)品,模型廠商才能獲取高質量的「過程監(jiān)督」信號,從而在編碼/推理能力的下一階段競爭中,確保自己仍有技術護城河——
否則就不得不像 SpaceXAI 那樣,花錢去跟 coding agent 產(chǎn)品公司去合作。
然而并不是所有模型廠商都跟馬斯克一樣有錢,以及 2026 年開始的巨頭勢力劃分、結盟與領地的爭斗會變得更加激烈,當一家缺乏自主 coding 產(chǎn)品的模型廠商終于回過味來的時候,恐怕已經(jīng)沒有足夠的合作伙伴可以挑選,合作的價格也將水漲船高。
美國模型巨頭的情況大家普遍比較熟悉了,在此不贅述。APPSO 也注意到,國內(nèi)的主流模型廠商和 AI 巨頭當中,絕大部分都已經(jīng)在 coding agent 產(chǎn)品上有所布局。
國內(nèi)巨頭公司主要以原生 AI IDE 或 IDE 插件的思路在做:字節(jié)跳動去年很早就布局了 TRAE、阿里巴巴的 Qoder、騰訊的 CodeBuddy、百度的文心快碼 Comate 等。
AI 小龍公司中,月之暗面是最早開發(fā)獨立 coding agent 產(chǎn)品的公司,主要以 CLI 界面的 Kimi Code 為主——不過 Kimi 此前有透露過,在原生編程產(chǎn)品這件事上,CLI 不會是終局。
![]()
另一種實現(xiàn)思路是模型廠商自行提供 API 服務、Coding Plan。這樣,不論用戶使用何種 AI 開發(fā)環(huán)境,模型廠商都可以通過服務器端的 API 記錄來獲取最大程度接近于原生 coding 產(chǎn)品的過程數(shù)據(jù)。
但這也只是接近,并非完全相同。核心在于,服務器端 API 的請求-響應日志,與深度繼承的產(chǎn)品交互軌跡相比仍有很大差距。
自建產(chǎn)品的廠商(例如 Cursor、Claude 桌面端、Codex)擁有最直接的顯式反饋信號,而 API 側是相對模糊的隱式推斷。簡單來說,API 側能看到用戶請求和響應,但用戶最后是否采納了這段代碼、代碼能否跑通、引發(fā)了什么樣的 bug,API 側對此是一無所知的。他們無法了解到用戶最終行為這一關鍵的標簽,從而無法實現(xiàn)最高質量的強化學習。
形而上來講,語言即世界,代碼即方案。代碼可以表達這個世界上絕大多數(shù)的任務,代碼也會成為頭部的放大器,讓最頂尖的人才放大數(shù)倍的生產(chǎn)力。
只有最頂尖的 coding 模型才配得上最頂尖的人才。如果領先的模型廠商不重視 coding,勢必將會掉出第一梯隊。
當然,事實上每家模型廠商都不會不重視 coding——而是說,在新的范式下,哪些沒有自主可控的原生 coding agent 產(chǎn)品,極有可能逐漸落后于有產(chǎn)品的廠商。
就在前幾天,MiniMax 也發(fā)布了桌面客戶端產(chǎn)品的重大更新:帶有全新多 agent 編排架構的 Mavis 功能,并且也讓客戶端顯著改善了對 coding 任務的支持。
此前 MiniMax 只是推出了桌面端,但沒有加入原生 coding 和 agent 功能。
![]()
![]()
緊接著,在 5 月 15 日,阿里巴巴正式發(fā)布了 Qoder 1.0——這個產(chǎn)品從 IDE 的形態(tài)正式升級為一個完整的 Agent 產(chǎn)品(阿里的官方叫法是智能體自主開發(fā)工作臺)。
![]()
與此同時,xAI 的 Grok Build CLI,也終于正式推出了。
沒錯,就是 xAI 年初被 Anthropic 和 Cursor 封號之后,他們自己搗鼓出來的那個 coding agent.
![]()
這不,又多了好幾個現(xiàn)成的案例。
看來,大家都認為 Cursor、Codex 和 Claude 桌面端走在正確的道路上。
6.
把話題從 coding 擴展到 agent 本身,情況也是一樣的。
編碼任務的軌跡數(shù)據(jù),在公開語料中確實還是能找到一些的(比如 GitHub 的提交記錄/PR,盡管質量并不高)。但是 agent 任務的軌跡數(shù)據(jù),包括并不限于移動和點擊鼠標、操控觸屏、填寫輸入框等,卻無法在公開語料中找到。
所以我們會看到,即使在 agent 操作的最小實現(xiàn)路徑——瀏覽器插件上,這么個看起來一點都不高端的東西,幾乎每家模型廠商都會做自己的。
OpenAI 早在 2025 年 1 月就做了 Operator——與其說它是一個「AI 自動操作瀏覽器」的產(chǎn)品,不如說本質上就是一個大規(guī)模的數(shù)據(jù)收集裝置。每一位試用 Operator 的用戶,都在免費為 OpenAI 提供 on-policy 數(shù)據(jù)。
后續(xù) OpenAI 還衍生出 ChatGPT Agent 以及新版 Codex 桌面端;Anthropic 也是同理;最近 Kimi 不聲不響地也做了一個叫做 WebBridge 的項目,其實就是一個瀏覽器插件。
![]()
即便是在過去兩年里動作最克制的中國模型巨頭深度求索,也在最近開始展露出對 Agent 的興趣。
CEO 梁文鋒此前接受采訪時曾經(jīng)提到這樣的觀點:數(shù)學和代碼是 AGI 天然的試驗場,有點像圍棋,是一個封閉的、可驗證的系統(tǒng),有可能通過自我學習就能實現(xiàn)很高的智能。
這句話的潛臺詞,是 DeepSeek 一直把 coding、Agent 當研究試驗場,而非商業(yè)化方向。
但是在今年 3 月,DeepSeek 一次性放出了十幾個 Agent 相關崗位,包括首次出現(xiàn)的模型策略產(chǎn)品經(jīng)理(Agent 方向)等。當時的 JD 職責涵蓋「主導 Agent 評測體系以及訓練數(shù)據(jù)方案的設計」,要求中包括「深度使用 Claude Code、Manus」等產(chǎn)品。
APPSO 注意到,近期深度求索發(fā)布了 Agent 產(chǎn)品經(jīng)理、Harness 產(chǎn)品經(jīng)理等職位招聘信息——很顯然,DeepSeek 要做獨立、原生的 Coding/Agent 產(chǎn)品了。
![]()
此前資料顯示,DeepSeek V3.2 的訓練過程中引入了近兩千個合成的 Agent 訓練環(huán)境和八萬多條復雜指令。但是看起來,靠合成的訓練數(shù)據(jù)只能帶 DeepSeek 走到這里了,剩下的是合成不出來的部分:真實用戶在真實環(huán)境里的真實成功和失敗,必須靠自家的 agent 產(chǎn)品才能拿到。
DeepSeek 以一種極度克制的方式做了三年模型以及模型產(chǎn)品(直到上個月才終于在官網(wǎng)加入了多模態(tài)能力)。但是在今天來看,在編碼類任務上,DeepSeek 拿 SOTA 越來越難了,即便此前拿到也會在不久后被超越。
當主力依靠研究的路徑支撐不住飛輪的時候,DeepSeek 終于行動了。
7.
最后,我們回到開篇的故事。
根據(jù) The Information 援引知情人士報道,在接受馬斯克 600 億收購/100 億美元合作的同時,Cursor 表示不會與 xAI 合作開發(fā)新的模型,而是仍將聚焦于優(yōu)化自己的 Composer 模型。
這可能意味著,即便被馬斯克買通甚至收購,Cursor 仍然要保留自己數(shù)據(jù)飛輪的主體性。
數(shù)據(jù)歸屬的本身,是最關鍵的隱藏博弈點。
當所有頂級模型廠商都做了自己的產(chǎn)品,所有頂級產(chǎn)品也都開始訓練自己的模型,「模型公司」和「產(chǎn)品公司」之間本就不太清楚的界限,似乎越來越不存在了……
這場博弈也才剛剛開始。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.