无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

6小時,200美元,0人類代碼:Anthropic把AI編程推過了臨界點

0
分享至


新智元報道

編輯:KingHZ

【新智元導讀】代碼沒有消失,但它不再是少數人特權。在「創造平權」的AI時代,真正稀缺的不再是編程能力,而是你是否有一個值得讓機器為你燃燒幾百美元算力的好想法。

真正讓人不安的,不是AI提高生產力,而是AI開始主導「生產關系」。

Anthropic最危險的進步,不是AI會寫代碼,而AI開始獨自把項目做完。

一句話需求、6個小時、200美元。


沒有產品經理、沒有程序員、沒有設計師,甚至全程人類補一行代碼。

Anthropic把Claude丟進一個任務里:做一套完整的復古游戲編輯器。

結果,Claude沒有只交出一個像樣的頁面。

它自己拆需求,自己寫代碼,自己測試,自己返工,最后交出一個真的能跑起來的成品。






在Anthropic這次實驗里,AI已經不只是生成代碼,而是在逼近交付。

過去我們聊AI編程,聊的是它寫得快不快。現在問題變成了:它能不能連續工作幾個小時,在第5輪、第10輪修改里不跑偏,最后把東西交出來。

Anthropic這次給出的答案是:能。

但前提不是把AI當一個人使,而是把它組織成一個團隊。


原文鏈接:https://www.anthropic.com/engineering/harness-design-long-running-apps

AI不是不聰明,而是不穩定

過去的AI很像一個天賦很高的實習生。

第一版,沖得很猛。

第一個頁面,出得很快。

第一輪代碼,看上去也像那么回事。

但任務一拉長,它就開始亂:

邏輯散了,上下文丟了。

該修的沒修,該測的沒測。

最麻煩的是,它常常會提前進入一種「看起來做完了」的狀態。

Anthropic點得很準:問題不一定出在智力上,而是出在長程執行上。

Anthropic做了一個對照實驗,結果很殘酷。

單智能體模式下,AI用20分鐘、9美元,也做出了一個「像游戲編輯器」的東西。


問題是,一上手就露餡——

交互沒打通;實體沒正常響應;核心玩法直接失靈。



這說明一件事:

以前大家總以為AI不行,是因為還不夠聰明。

現在看,很多時候真正拖AI后腿的,不是智商,而是穩定性

很多人一說AI記不住,第一反應都是:那就給它更大的上下文窗口。

聽起來很合, 但Anthropic這次潑了一盆冷水。

窗口更大,不一定更強。很多時候,只是把混亂一起放大了。

東西越堆越多,但真正重要的主線,反而越容易被淹掉。這就是所謂的「上下文腐爛」。

更麻煩的是,模型還容易高估自己。

Anthropic發現,程序明明一跑就崩,模型卻覺得自己做得不錯。

于是單智能體會掉進兩個坑:一邊越寫越亂;一邊越亂越覺得自己沒問題。

這就是為什么,單純靠更大模型、更長窗口、更高token上限,AI并不能獨立完成項目交付。

為了取得突破,Anthropic Labs成員Prithvi Rajasekaran探索了一些新穎的AI工程方法。


這些方法在兩個截然不同的領域中均適用:一個由主觀品味定義,另一個則以可驗證的正確性和可用性為準。

受對抗生成網絡(GANs)的啟發,他設計了一種包含生成器和評估器的多智能體結構。

沒造「超人」,但Anthropic造了神團隊

這次最關鍵的變化,不是參數。不是窗口。也不是什么神秘提示詞。

真正的變化是,Anthropic不再逼一個AI單槍匹馬干完整個項目。

它開始讓AI分工。

這套結構很像一個小型產品團隊。

  • Planner,負責想清楚。它先把一句模糊需求,擴成規格,定義產品到底要做什么。

  • Generator,負責動手。它下場寫代碼,搭前后端,接交互,做集成,一輪輪推進。

  • Evaluator,負責挑錯。它不負責體面。它只負責驗收。點頁面、試按鈕、查數據庫、測接口,把問題一個個揪出來,再打回去重做。


最后一步特別關鍵,因為一邊寫,一邊給自己打分,最后AI很容易說服自己:差不多就行。

但把兩者拆開,很多本來會被糊弄過去的問題,就過不去了。

拿那套復古游戲編輯器來說,Planner最初拿到的只有一句話需求。

但最后擴出來的,是一份包含16個功能、10個沖刺的規格書。

精靈動畫、音效系統、行為模板、AI精靈生成、關卡設計助手、導出分享,全部被拆進流程里。

這已經不是「AI寫代碼」了,AI開始學會像團隊一樣做產品。

真正拉高質量的,是高壓驗收

今天很多AI產品都有一種共同氣質——看著完整,配色安全,布局規整。

挑不出大錯,但也沒什么靈魂。這種東西叫AISlop「AI泔水」。說白了,就是「像成品的樣子貨」。

顯然,Anthropic不滿足于這種結果。

所以它不只讓Evaluator查bug,還讓它盯四件事:

設計質量、原創性、工藝感、功能性。

而且,它還故意把「原創性」和「設計質量」的權重拉高。

譯成人話就是:別總交最安全的答案,做點真的像作品的東西出來。

這背后是一個很重要的信號:

很多人以為AI的創造力來自靈光一現,但很多時候,AI的創造力,恰恰是被高標準一點點逼出來的。

所以,下一階段真正稀缺的能力,可能不是「誰更會生成」,而是「誰更會評價」。

你有多會挑錯,決定AI最終能走多遠。

最可怕的是,AI真能改到第10輪

這次實驗最讓人不安的,是Claude開始形成很強的閉環感。

還是看RetroForge,也就是那套復古游戲編輯器。

同樣一句話需求。

單智能體版,20分鐘,9美元。很快,也很便宜,但更像一個空殼。


三智能體版本,6小時,200美元。貴得多,慢得多,但最后結果完全不是一個量級。

它真的把27條驗收標準,一條一條啃過去了。

這里面暴露出來的,是實打實的軟件工程問題。比如:

函數寫了,但事件沒觸發。

接口有了,但路由順序錯了,參數被錯誤解析。

這說明它做的,已經不只是拼頁面,開始進入真正的工程地帶。

另一個例子更夸張。

Claude用了不到4小時、約124.7美元,做出一個能在瀏覽器里跑的DAW,也就是數字音頻工作站。

它有排列視圖、有混音器、有傳輸控制、有實時波形預覽。

還內置了一個AI智能體,可以直接理解自然語言的音樂指令。

你告訴它節奏、調性、旋律、鼓軌、混響,它能繼續往下做。

更關鍵的是,Evaluator沒有放過它:


恰恰是這些被揪出來的問題,證明了這套系統真的形成了閉環:

不止要做完,還要被打回去改。改到能過驗收,才算結束。

這才是軟件開發里最難、也最有價值的部分。

第一版從來不難,難的是第8版、第9版、第10版。

真正的分水嶺,

AI第一次反復改到交付

Anthropic這次最值得行業警惕的,不是讓Claude變成了一個更強的程序員。

而是讓它第一次表現得像一個真正的產品組織,分工明確,各司其職。

這就是為什么,這次突破看起來不像「生產力升級」,更像一次「生產關系升級」。

過去,AI最強的能力是「生成一個答案」。

現在,它開始逼近另一種更難的能力:

圍著一個目標,持續工作,持續修正,直到交付。

這才是真正的臨界點。

代碼沒有消失,它只是在失去作為少數人特權的地位。

在這個「創造平權」的時代,你是否真的有一個值得讓機器為你燃燒算力的好主意?

這才是最值得深思的問題。

參考資料:

https://www.anthropic.com/engineering/harness-design-long-running-apps

https://x.com/AnthropicAI/status/2036481033621623056

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
印度一家六口遠赴云南避暑,本想逃離酷熱,卻被人流改寫認知

印度一家六口遠赴云南避暑,本想逃離酷熱,卻被人流改寫認知

怪味歷史連連看
2026-06-11 15:23:44
菲律賓震后三天遇難人數不斷攀升,等不來援助,馬科斯要調查中國

菲律賓震后三天遇難人數不斷攀升,等不來援助,馬科斯要調查中國

兵鑒史
2026-06-11 11:44:55
世界杯開幕式:2天3國3場!致敬貝利馬拉多納 夏奇拉水果姐獻唱

世界杯開幕式:2天3國3場!致敬貝利馬拉多納 夏奇拉水果姐獻唱

念洲
2026-06-11 12:40:19
苦等1271天!世界杯回來了 6朝元老亮相揭幕戰 孫興慜登場

苦等1271天!世界杯回來了 6朝元老亮相揭幕戰 孫興慜登場

葉青足球世界
2026-06-11 07:47:38
于東來稱薪資上太溺愛員工,其實不值這么多錢

于東來稱薪資上太溺愛員工,其實不值這么多錢

界面新聞
2026-06-11 17:55:06
福克斯關鍵上籃被蓋:連場低迷+決戰犯錯 巴克利怒批愚蠢至極

福克斯關鍵上籃被蓋:連場低迷+決戰犯錯 巴克利怒批愚蠢至極

醉臥浮生
2026-06-11 12:00:46
每月花兩三千雇傭一對夫妻看管祖宅,卻被“鳩占鵲巢”,有產證也收不回!居住人回應:危樓也要住……

每月花兩三千雇傭一對夫妻看管祖宅,卻被“鳩占鵲巢”,有產證也收不回!居住人回應:危樓也要住……

環球網資訊
2026-06-10 22:08:27
胡帆任廣東省委常委、組織部部長

胡帆任廣東省委常委、組織部部長

澎湃新聞
2026-06-11 16:34:27
中紀委怒批:公務員也是人,正常生活不應問責處理

中紀委怒批:公務員也是人,正常生活不應問責處理

細說職場
2026-06-10 18:51:23
逝者 | 突發訃告!“高官作家” 去世!著有多部暢銷書……

逝者 | 突發訃告!“高官作家” 去世!著有多部暢銷書……

天津廣播
2026-06-11 16:58:02
中俄在安理會反對無效,15國投票結果一出,中方當場表示很失望

中俄在安理會反對無效,15國投票結果一出,中方當場表示很失望

流史歲月
2026-06-11 16:34:46
在荷蘭上班的華人感慨:不要信媒體,荷蘭已經相當于我國二線城市

在荷蘭上班的華人感慨:不要信媒體,荷蘭已經相當于我國二線城市

離離言幾許
2026-06-11 00:12:29
國家郵政局依法對極兔速遞有限公司立案調查

國家郵政局依法對極兔速遞有限公司立案調查

界面新聞
2026-06-11 11:41:52
鵝腿阿姨用鴨腿翻車成就人大食堂主任:冤屈終于洗白,只賣真鵝腿

鵝腿阿姨用鴨腿翻車成就人大食堂主任:冤屈終于洗白,只賣真鵝腿

蜜桔娛樂
2026-06-11 11:06:32
俄羅斯領導人普京簽署法律,允許沒收離開俄羅斯的俄羅斯公民財產

俄羅斯領導人普京簽署法律,允許沒收離開俄羅斯的俄羅斯公民財產

山河路口
2026-06-11 13:35:44
胡帆任廣東省委常委、組織部部長

胡帆任廣東省委常委、組織部部長

新京報
2026-06-11 16:09:05
公安部緊急預警:不接電話照樣騙光你——這4招已有人中招

公安部緊急預警:不接電話照樣騙光你——這4招已有人中招

荷蘭豆愛健康
2026-06-11 13:26:29
金與正去哪兒了?

金與正去哪兒了?

天氣觀察站
2026-06-11 13:52:57
天王嫂們,開始露餡了

天王嫂們,開始露餡了

最人物
2026-06-11 15:41:15
4年2.22億!馬刺最快速度交易!總決賽史上最強大逆轉

4年2.22億!馬刺最快速度交易!總決賽史上最強大逆轉

籃球實戰寶典
2026-06-11 14:34:04
2026-06-11 18:55:00
新智元 incentive-icons
新智元
AI產業主平臺領航智能+時代
15441文章數 66920關注度
往期回顧 全部

科技要聞

淘寶、京東、拼多多、抖音、小紅書被約談

頭條要聞

媒體:伊朗宣布再度封鎖霍爾木茲海峽 特朗普又失算了

頭條要聞

媒體:伊朗宣布再度封鎖霍爾木茲海峽 特朗普又失算了

體育要聞

比起總冠軍,更大的懸念成了FMVP?

娛樂要聞

《花少8》陣容大揭秘!秒殺前一季

財經要聞

干細胞生意:17萬一針的希望

汽車要聞

奔馳C350L純電長軸距版申報信息曝光 雙電機 軸距超3米

態度原創

藝術
家居
教育
健康
軍事航空

藝術要聞

乾隆皇陵出土的絕美草書,每一筆都是教科書

家居要聞

空間微調 移形換境

教育要聞

2026年高考,考生最關心的25個問題

為什么不建議晚上吃粽子?

軍事要聞

特朗普召開戰情室會議討論對伊朗軍事行動

無障礙瀏覽 進入關懷版