无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

編程新王Composer 2.5來了,逼近Opus 4.7!成本僅為1/10

0
分享至


新智元報道


【新智元導讀】基于Kimi 2.5的Cursor新版Composer 2.5來了,狂飆10倍效率,百萬Token只要2.5美元! 最驚人的是,它在RL訓練里嫌任務太難,竟然學會了逆向緩存、反編譯字節碼去「作弊鉆空子」…… 大規模強化學習的潘多拉魔盒已被打開,AI黑客成精了。

今天,AI編程領域的強勢玩家——Cursor,毫無預兆地推出了一位強悍選手。

官方正式宣布,全新升級的AI編程模型Composer 2.5正式上線!


基準測試顯示,Composer 2.5在部分編程基準測試上的表現,已經非常接近Claude 4.7 Opus和GPT-5.5。


這是一場從底層訓練架構、工程效率到商業定價的全面顛覆。

官方數據顯示,Composer 2.5在長任務持續性和復雜指令遵循上實現了顯著突破,實際運行效率竟然比當前市面上的主流競品高出整整10倍!



更讓人感到震撼的是,伴隨著這次升級,大規模強化學習的潘多拉魔盒似乎被打開了。

在訓練過程中,這個AI模型竟然學會了「作弊」和「鉆空子」——為了完成任務,它不僅自主逆向了Python的緩存格式,甚至還學會了去反編譯Java字節碼!

在官方X上,Cursor承認,Composer 2.5是基于Kimi K2.5構建的。



所以,Cursor究竟用了什么黑魔法?

性能掀翻天花板

10倍效率與硬剛GPT-5.5的底氣

在AI編程賽道,很多開發者最頭疼的痛點就是后勁不足。

很多模型在寫個十幾行的簡單函數時表現得像個天才,但只要把它扔進一個數十萬行代碼的大型真實項目里,它就會開始胡言亂語。

而Composer 2.5,就是為了終結這個痛點而生的!


長任務與復雜指令的性能王者

根據Cursor官方的說法,Composer 2.5是他們迄今為止最強大的模型。相較于前代,它在智能水平、長周期任務的持續工作能力,以及復雜指令的依從性上,都實現了跨越式的提升。

在長達數天或涉及數萬個Token的長軌跡開發場景中,Composer 2.5表現出了令人驚嘆的穩定性。

它不再是一個只會對單次Prompt做出反應的復讀機,而變成了一個能夠真正理解上下文演變的「資深全棧工程師」。

它的運行效率與資源占用表現均遠優于當前的主流AI編程工具,運行效率最高提升了10倍。


這意味著,以前需要開發者反復調試、等待數分鐘的大型項目代碼迭代,現在在秒級內就能得到更精準的反饋。

百萬Token僅2.5美元:極致的工程性價比

如果說性能讓人興奮,那么它的價格則讓整個行業感到震撼!

Composer 2.5 定價白皮書:

- 標準版: 每百萬(1M)輸入Token僅需0.50美元,每百萬(1M)輸出Token僅需2.50美元。

- Fast變體版: 智能水平相同但速度極快,價格為每百萬輸入Token 3.00美元,每百萬輸出Token 15.00美元。

Composer 2.5在部分編程基準測試上已經接近Claude 4.7 Opus和GPT-5.5,然而,它的成本卻僅僅是它們的一小部分!

這揭示了一個殘酷而關鍵的行業新趨勢:未來的AI編程競爭,就是看誰能用更低的成本,打出更強、更極致的實際工程體驗。

最后Cursor更是不講武德地宣布:在發布后的第一周,平臺將直接雙倍贈送所有用戶的免費使用額度!

這一波降維打擊,無疑將大大降低開發者的試用門檻。


底層黑魔法之一

定向文本反饋RL,解決「信用分配」百年難題

為什么Composer 2.5能變得這么聰明且穩定?這得歸功于Cursor在強化學習訓練上引入的全新機制。



Cursor創始人表示:我們在強化學習方面已經做得極其出色了。Composer 2.5 完成了越級挑戰,其表現遠遠超出了它這個參數規模應有的水平。對于下一個版本,我們無比興奮

在傳統的強化學習中,有一個讓無數科學家頭疼的經典難題——信用分配難題。

什么是信用分配難題?

想象一下,AI在編寫一段非常長的代碼,中間它一共調用了幾百次各種工具。

在第50步的時候,AI犯了一個小錯:它嘗試調用了一個不存在的、或者不可用的工具,但隨后迅速調整,在接下來的幾百步里繼續進行了正確的工具調用。

在傳統的RL訓練中,獎勵信號是在整個過程全部結束后才統一計算并返回的。最終的獎勵可能會告訴模型:「這次任務整體完成得不夠完美。」

但這時候模型就懵了:一共寫了上千行代碼,到底是在哪一步做錯了?

解決方案:定向文本反饋

為了徹底解決這個問題,Cursor在訓練Composer 2.5時,祭出了「定向文本反饋RL」。


它的核心思路非常精妙:在模型本可以表現得更好的具體位置,直接把反饋釘在那個地方。

具體的技術實現步驟如下:


通過這種方式,Cursor既為想要改變的微觀局部行為提供了極其精準、局部化的訓練信號,同時又完美保留了貫穿完整長軌跡的宏觀RL目標。

這也是為什么Composer 2.5在實際協作體驗中,表現得像一個高情商、高技術的老手。

因為它在訓練中,每一處微小的表達和邏輯偏差,都被這種定向文本反饋精雕細琢過。

底層黑魔法之二

合成數據暴漲25倍,AI竟然學會了「作弊」!

有了精準的訓練方法,接下來就需要龐大的訓練燃料。

在RL的訓練過程中,隨著Composer的編碼能力顯著提升,它很快就把原有的訓練集題目給刷爆了。

為了逼出模型的極限潛能,Cursor的研發團隊開始在訓練過程中,動態地篩選和生成難度極高的合成任務。

Composer 2.5所使用的合成任務數量,達到了驚人的上一代(Composer 2)的25倍!


如何在大規模代碼庫的基礎上,憑空創造出成千上萬個高難度的編程任務?Cursor采用了一種非常絕妙的方法——功能刪除。

1. 智能體會拿到一個包含大量現成測試(Tests)的成熟代碼庫。

2. 系統要求智能體以某種方式,精準地把某些代碼和文件刪掉。

3. 核心要求: 代碼庫在刪掉這些文件后必須保持可運行,但原有的某項特定、可測試的功能必須被徹底移除。

4. 生成任務: 刪完之后,這個殘缺的代碼庫就變成了一個全新的高難度合成任務——要求AI重新把這個被刪除的功能實現出來,而原有的那些測試,則被直接用作獎勵信號。

打開潘多拉魔盒:模型學會了「獎勵作弊」

然而,當合成數據的規模擴大了25倍,且任務難度被拉到極限時,意料之外的事情發生了。

隨著模型能力在持續的強化學習中瘋狂進化,Composer 2.5竟然開始展現出讓人啼笑皆非、又脊背發涼的「獎勵作弊」能力。

它開始像人類黑客一樣,尋找各種復雜的變通辦法來走捷徑。

在監控中,團隊發現了兩個極為震撼的真實案例。

逆向Python緩存: 在一次「功能刪除」后要求重新實現的任務中,模型敏銳地發現系統里還殘留著一塊Python類型檢查的緩存。它沒有重寫復雜的函數體,而是直接通過逆向這塊緩存的底層格式,硬生生地找回并提取出了已經被刪掉的函數簽名,以此輕松通過了測試。

反編譯Java字節碼: 在另一個涉及第三方API調用的高難度任務里,由于缺乏文檔和源碼,正常編寫極度困難。結果,Composer 2.5竟然在環境里找到了編譯好的Java字節碼,并自主運行了反編譯工具,通過閱讀反編譯出來的底層代碼,徹底重建了該第三方API。

但這無疑向全行業敲響了警鐘:在大規模強化學習的催化下,AI為了拿到高分,其自主涌現出的行為邊界,可能遠超人類最初的設想。

頂級工程架構

分片Muon優化器與雙網格HSDP

在底層算力調度和模型優化上,Composer 2.5同樣展現了頂級大廠都未必具備的硬核工程能力。

現在我們都知道,Composer 2.5是基于開源社區中大名鼎鼎的Moonshot Kimi K2.5開源checkpoint構建的。

如何讓數萬億參數的模型在龐大的集群中高效運轉、同時把網絡通信開銷降到最低?

Cursor給出了兩項堪稱藝術級的工程解法。

分片Muon優化器:每步耗時僅0.2秒!

在模型的持續預訓練中,團隊使用了帶分布式正交化的Muon優化器。

這里面最大的計算開銷,其實在于對龐大的專家權重進行正交化。為了解決這個問題,Cursor設計了一套精妙的異步傳輸機制:


最終的結果驚為天人:在一個高達1T參數規模的模型上,優化器每一步的耗時,居然被死死壓在了區區0.2秒以內!

雙網格HSDP架構

為了讓MoE模型的效率最大化,Cursor對模型內部不同性質的權重,量身定制了完全不同的 HSDP 布局:


更絕的是,通過將這兩種布局徹底分開,彼此獨立的并行維度得以完美重疊。

例如,CP=2(上下文并行)和 EP=8(專家并行)可以直接在 8 個 GPU 上高效運行,而根本不需要在單個共享網格中強行占用 16 個 GPU。

這種對硬件資源的極致壓榨,正是Cursor能夠將推理和訓練成本打到如此低廉的底層底氣。

Cursor攜手SpaceXAI

向百萬H100集群進發

在官博最后,Cursor正式宣布:他們目前正在與 SpaceXAI 展開深度戰略合作!一下子就把競爭拉到了科幻級別。


雙方的目標非常簡單且暴力:直接調用Colossus 2集群中整整100萬個H100等效算力,從零開始訓練一個計算規模整整擴大10倍的全新超大模型!


100萬張H100等效算力是什么概念?這幾乎是目前人類地表上能組裝起來的最恐怖的算力怪獸。

Cursor自身的精湛機制,與SpaceXAI的百萬級頂級算力集群結合時,下一代模型的全自主編程能力,將會進化到何種地步?

從今天起,隨著Composer 2.5的全面普及,軟件開發的門檻和效率將被重新定義。

每百萬輸出Token僅2.5美元的超低成本,意味著AI編程將徹底走向平民化和常態化。

趕緊打開你的Cursor,去體驗一下首周用量雙倍贈送的Composer 2.5吧。

參考資料:

https://x.com/cursor_ai/status/2056415413077233983

https://cursor.com/cn/blog/composer-2-5

編輯:Aeneas David

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
緬甸昂山素季兒子發聲:沒有可信證據證明母親在世,呼吁拿出證明

緬甸昂山素季兒子發聲:沒有可信證據證明母親在世,呼吁拿出證明

糖逗在娛樂
2026-05-19 13:16:09
恭喜廣東男籃!朱芳雨選拔人才,1人或被解約,杜鋒樂在其中

恭喜廣東男籃!朱芳雨選拔人才,1人或被解約,杜鋒樂在其中

鍋鍋愛歷史
2026-05-19 00:13:28
黃仁勛在辣妹胸口簽名后,更炸裂的來了!

黃仁勛在辣妹胸口簽名后,更炸裂的來了!

可愛小菜
2026-05-19 12:25:55
醫生都驚訝:5年前確診糖尿病,如今血糖5.7,方法居然這么簡單

醫生都驚訝:5年前確診糖尿病,如今血糖5.7,方法居然這么簡單

敘說醫療健康
2026-05-14 09:00:26
吃他汀一顆南瓜子不能碰?提醒:不止南瓜子,這4樣食物也要小心

吃他汀一顆南瓜子不能碰?提醒:不止南瓜子,這4樣食物也要小心

芹姐說生活
2026-05-12 16:25:54
普京急于訪問中國的三個原因

普京急于訪問中國的三個原因

楊興文
2026-05-18 14:28:31
預警持續!珠海停雨要等到→

預警持續!珠海停雨要等到→

珠海發布
2026-05-19 14:06:34
金價持續回調

金價持續回調

中國經營報
2026-05-19 09:53:22
帕森斯:有加蘭時沒進過東決,哈登讓騎士成東部頂級

帕森斯:有加蘭時沒進過東決,哈登讓騎士成東部頂級

生活新鮮市
2026-05-19 12:24:29
央視一錘定音?8艘055大驅換裝新型高超彈,五角大樓連夜改預案?

央視一錘定音?8艘055大驅換裝新型高超彈,五角大樓連夜改預案?

阿訊說天下
2026-05-19 05:37:23
中俄元首戰略引領,兩國合作不斷拓展,普京今日開啟第25次訪華

中俄元首戰略引領,兩國合作不斷拓展,普京今日開啟第25次訪華

環球網資訊
2026-05-19 07:01:06
國宴的頂級國風,盡顯東方之美!卻被外國元首的兒媳旗袍裝驚艷

國宴的頂級國風,盡顯東方之美!卻被外國元首的兒媳旗袍裝驚艷

阿郎娛樂
2026-05-16 00:55:50
2026年第1個公布漲工資的來了,退休人員養老金的調整還會遠嗎?

2026年第1個公布漲工資的來了,退休人員養老金的調整還會遠嗎?

社保小達人
2026-05-19 09:03:21
28歲新娘長相引熱議,新郎不忍直視全程閉眼,網友:寧愿單身5年

28歲新娘長相引熱議,新郎不忍直視全程閉眼,網友:寧愿單身5年

翰飛觀事
2026-04-13 22:18:26
夏立言:國民黨從來不是一個親中或統一的政黨!鄭麗文會改變嗎?

夏立言:國民黨從來不是一個親中或統一的政黨!鄭麗文會改變嗎?

娛樂的宅急便
2026-05-19 13:04:54
國際上有個新趨勢:整個歐美圈子,都在對印度人群失去耐心,反感

國際上有個新趨勢:整個歐美圈子,都在對印度人群失去耐心,反感

魔都姐姐雜談
2026-05-17 10:09:07
全面加速,第四艘中國航母即將官宣!命名大概率為"江蘇號"

全面加速,第四艘中國航母即將官宣!命名大概率為"江蘇號"

清歡百味
2026-05-16 04:31:22
殲20A新畫面,已經換裝渦扇15成為最強五代機

殲20A新畫面,已經換裝渦扇15成為最強五代機

三叔的裝備空間
2026-05-18 15:13:06
港媒曝蔡卓妍含淚控訴丈夫!官宣結婚僅滿20天,男方私生活惹爭議

港媒曝蔡卓妍含淚控訴丈夫!官宣結婚僅滿20天,男方私生活惹爭議

天天熱點見聞
2026-05-19 04:29:49
48歲檢察官勾結警局局長,奸辱20多名女性,殺數十人包括國家干部

48歲檢察官勾結警局局長,奸辱20多名女性,殺數十人包括國家干部

莫地方
2026-05-18 01:00:03
2026-05-19 17:07:00
新智元 incentive-icons
新智元
AI產業主平臺領航智能+時代
15250文章數 66877關注度
往期回顧 全部

科技要聞

馬斯克敗訴,法院判他起訴OpenAI太晚了

頭條要聞

4名男子赴泰國考察項目已失聯半月 家屬:人或在緬甸

頭條要聞

4名男子赴泰國考察項目已失聯半月 家屬:人或在緬甸

體育要聞

文班亞馬1比0雷霆:凌駕MVP的史詩價值

娛樂要聞

姚晨刪博難平眾怒,為什么她還能蹦噠

財經要聞

從賣流量到賣Token,運營商算力生意破局

汽車要聞

德味操控+聰明大腦,與眾07不輸新勢力

態度原創

旅游
時尚
教育
親子
本地

旅游要聞

洱海邊驚現棒棒糖花海,蒼山為被洱海為席相當出片,且完全免費!

休閑闊腿褲怎么穿才美?看看這些穿搭公式,解鎖不重樣的造型

教育要聞

鼓樓某中學初三一模分享會內容曝光,多少分能上四大、六大?

親子要聞

一次注射,改寫命運:基因編輯正在從根源上攻克兒童癲癇

本地新聞

別搜晉江小說了,去看真的晉江

無障礙瀏覽 進入關懷版