網易首頁 > 網易號 > 正文申請入駐

Anthropic最新報告:會寫代碼的程序員不如懂業務的管理者

2026-06-18 06:58:53　來源: AI先鋒官

北京舉報

分享至

昨天， Anthropic 發布研究報告《智能體編碼與專業知識的回報》。

報告基于約40萬次Claude Code會話數據，揭示了一個反直覺的結論：編碼智能體不是在消滅專家，而是在獎勵那些真正懂業務的人。

核心數據顯示，在智能體編碼中，人類負責約70%的規劃決策（做什么），Claude負責約80%的執行決策（如何做），"人們決定構建什么，智能體決定如何構建"。

更驚人的是，非軟件職業用戶的編碼成功率與軟件工程師幾乎持平（驗證成功26% vs 30%，部分成功88% vs 89%），十個最大職業群體的成功率差距都在7個百分點以內。

真正拉開差距的是領域專業知識而非編程能力。專家用戶每次指令觸發的Claude行動量是新手用戶的2.4倍（12 vs 5），輸出文字量是5倍（3200 vs 600字）。

遇到麻煩時，新手放棄率高達19%，而中高級用戶僅5-7%。但關鍵發現是：從新手到中級的躍升收益最大，中級到專家的邊際提升很小，"對領域的工作掌握捕捉了大部分收益，而深度專業化只增加了更多一點"。

七個月內，調試類會話占比從33%暴跌至19%，操作軟件、數據分析、文檔寫作翻倍。任務經濟價值平均上漲25%，構建類任務漲幅達43%。

報告暗示了一個勞動力市場的重新洗牌：當"表現得像管理者"能帶來更高成功率時，懂業務的人+AI工具正在取代會寫代碼的人。

以下為報告全文——

《智能體編碼與專業知識的持久回報》

關鍵發現

在先前工作的基礎上，我們引入了一個研究交互式智能體編碼的框架，基于對2025年10月至2026年4月期間約40萬次Claude Code會話的隱私保護分析。我們評估了任務構成、人機協作以及成功率。

在典型的會話中，人類做出大部分規劃決策（做什么），而Claude做出大部分執行決策（如何做）。一個人帶入會話的領域專業知識越多，Claude在每個指令下完成的工作就越多。

在編碼任務上，每個主要職業的成功率——完成用戶設定目標，并有可驗證的證據如通過測試或提交工作——平均而言與軟件工程師幾乎相同。

一個人擁有的領域專業知識越多，會話以成功結束的可能性就越高——盡管中級用戶與專家用戶之間的差距不大。

在我們觀察的七個月里，用于調試的會話占比下降了近一半，使用轉向了更多端到端的智能體使用：部署和運行代碼、分析數據以及編寫非代碼文檔。

在這七個月里，典型任務的估計價值——通過與自由職業工作發布的比較來估算——在幾乎所有類型的工作中都上升了——平均約25%。

引言

智能體編碼已經起飛。自2025年底以來，GitHub項目中帶有編碼智能體活動的占比翻了一番以上，Claude Code用戶現在平均每周使用該工具20小時。

沒有正式編碼經驗的人能否成功指導智能體完成復雜的技術工作？這些工具的迅速采用和改進對知識工作整體意味著什么？雖然我們還沒有這些問題的完整答案，但我們從Claude Code的使用數據中尋找早期信號。

本報告提供了關于Claude Code在實踐中如何使用的證據，基于對2025年10月至2026年4月期間約23.5萬人約40萬次交互式會話的隱私保護分析。

它建立在先前專注于Claude Code會話中自主性衡量以及Claude Code如何改變Anthropic工作的工作基礎上。

在這里，我們引入了一個描述交互式AI編碼助手使用的框架：正在做什么樣的工作、誰在做什么、以及是否成功。我們關注通過命令行界面（CLI）、Claude.ai或Claude Code桌面應用使用Claude Code的情況。

通過跟蹤智能體編碼使用如何隨著模型能力提升而變化，我們可以更好地理解這些工具如何影響編碼專業人員和知識工作者的勞動力市場。

Claude Code上發生的事情可能是知識工作走向何方的一個預覽，因為智能體正嵌入到非編碼工作中。我們發現Claude正在處理更復雜、更有價值的任務。與此同時，智能體編碼中仍然存在明確的分工：人們決定構建什么，智能體決定如何構建。

我們還看到證據表明，領域專業知識而非編碼熟練度放大了工具的有效使用。特別是，領域專家更頻繁地成功，并且更容易從錯誤和誤解中恢復。

然而，專家與中級用戶之間的差距不大——表明在某個領域的熟練度足以幾乎與深度掌握者一樣有效地使用該工具。

這些發現為我們提供了對勞動力市場可能轉變的早期解讀。

在我們的數據中，成功取決于一個人對試圖解決的問題理解得有多好，而不是他們是否受過編碼培訓。

如果這些模式在整個經濟中持續存在，這表明雖然智能體編碼工具可能正在吸收一些以實施為主的工作，但它們也在獎勵那些對工作中解決的問題有扎實理解的人。

編碼智能體并沒有替代領域專業知識——工人帶入智能體的理解越多，智能體就能完成越高質量的工作。

分工
人們使用Claude Code做什么

為了了解人們使用Claude Code做什么，我們將每個會話分類為九種工作模式之一——最能描述會話試圖完成的單一活動。

四種模式涉及直接編寫或維護代碼：構建新東西、修復損壞的東西、測試代碼以及編排其他智能體或自動化管道。

另一個類別是操作軟件——部署、配置、運行管道、監控系統。

兩個類別更多是關于確定要做什么：理解現有系統如何工作，以及在做出改變之前進行規劃。還有兩個采取與代碼無關的行動，或代碼對最終產品來說是附帶的：分析數據，以及通過演示文稿和其他基于散文的文檔進行交流。

約56%的會話包括編寫（25%）、修復（26%）或測試和編排代碼（5%）。操作軟件占17%，14%的會話是規劃或探索，13%產生分析或散文（圖1）。

圖1：九種工作模式每個交互式會話被分類為最能描述其試圖完成的單一模式。

我們通過讓模型閱讀其記錄來分類每個會話，然后使用我們的隱私保護分析工具，對照為每個會話自動記錄的遙測數據進行檢查，包括是否添加或刪除了任何代碼行。

兩個來源具有高度一致性——例如，我們分類器標記為創建或修改代碼的會話中，超過90%在遙測數據中顯示了代碼更改。

誰決定什么

Claude Code的自主性有多高？能力評估表明上限很高且正在上升：在METR的時間跨度評估等基準測試中，前沿模型現在可以自主完成需要人類數小時的軟件任務，沿途克服障礙。

但實際使用情況如何？在這里，我們看看在實際會話中由人和Claude進行多少引導。

我們從兩個角度研究這個問題。首先，我們關注人們在多大程度上將決策委托給Claude，其次我們看看他們給Claude多少行動。

為了理解會話中的決策分工，我們基于會話內容構建了一個隱私保護的決策歸因分類器。我們要求分類器列出會話中所有有意義的決策。

我們將這些決策分為規劃（做什么、采取哪種方法、什么算完成）和執行（更改哪些文件、編寫什么代碼、使用什么語言、運行哪些命令）。然后分類器將每個決策歸因于Claude或用戶，給每個會話兩個數字：用戶規劃決策的份額和用戶執行決策的份額。

平均而言，人們做出約70%的規劃決策，但只做出20%的執行決策（圖2）。在實踐中，智能體編碼中存在明確的分工——人們決定構建什么，智能體決定如何構建。

為了理解會話中行動的委托，我們查看會話的結構而非內容。Claude Code會話涉及Claude和用戶來回交換提示（來自用戶）和行動（由Claude采取）——用戶寫一個提示，Claude去做一些工作，然后用戶寫另一個提示，如此循環。在典型會話中，約有四次這樣的回合。

在我們2025年10月至2026年4月的歷史數據中，用戶發送的每個提示平均觸發約10個Claude行動——有時超過100個。在每個回合中，Claude讀取文件、編輯代碼、運行命令，并平均寫出2,400字的輸出。

Claude在檢查點之間完成的工作量很大程度上取決于誰在做出決策。當用戶保持對執行的控制（即做出超過80%的執行決策）時，Claude每個回合采取的行動更少（約8個行動）。

當Claude控制規劃（即做出超過80%的規劃決策）時，它采取最高數量的行動（約16個）。

圖2：Claude在規劃和執行決策中的份額

Claude而非用戶歸因的規劃決策份額（做什么）和執行決策份額（如何做）在會話中的分布。在典型會話中，用戶做出約70%的規劃決策，而Claude做出約80%的執行決策。

專業水平

從每個記錄中，Claude按五級量表從新手到專家評估用戶的明顯專業知識。

專業知識分類器尋找三個信號：用戶如何精確地表達他們的指示、他們要求Claude驗證什么，以及用戶傾向于糾正Claude還是Claude傾向于糾正用戶。請注意，專業知識捕捉的東西與職位頭銜或一般能力截然不同，而且關鍵的是，它是特定于任務的。

一位資深工程師問他們的第一個Rust問題，在Rust方面是新手。一位從未使用過Python的會計師，但確切地告訴Claude Python腳本必須執行哪些對賬規則，并在月末結算時發現它處理不當的邊緣情況，在該任務上是專家。

下表顯示了我們如何在分類器中定義每個專業水平，以及來自智能體編碼會話公共數據集SWE-chat的示例請求。被歸類為新手的對話給出沒有隱含領域特定知識的通用指示。專家對話傳達了對代碼庫和技術環境的深入了解。

表1：專業知識分類器
示例意譯、匿名化并濃縮了我們分類器標記的真實會話。表中使用的許多會話來自智能體編碼會話的公共數據集SWE-chat。

我們量化專業知識與Claude每個提示的輸出和活動之間的關系。在典型的新手會話中，每個提示觸發約5個Claude行動和約600字的輸出，而專家會話觸發的行動鏈長度是其兩倍多（12個行動），攜帶的輸出是其五倍（3,200字）（圖3）。

這種新手與專家會話之間的差距出現在每種工作和每個任務價值帶中。

這些指標補充了我們先前關于Claude Code的報告中對自主性的衡量，該報告跟蹤了智能體運行多長時間以及人們多久自動批準其行動。

相比之下，我們的決策歸因衡量捕捉了整個會話中誰做出實質性決策，而我們每個提示的輸出和行動衡量衡量每個人類提示觸發了多少Claude的自主活動。

圖3：Claude為更專業的用戶每個提示做得更多
Claude為更專業的用戶每個提示產生更多行動（左欄）和文本輸出（右欄）。方框跨越四分位距（在中位數處分割）。須線代表第5到第95百分位。白點是幾何平均值。兩個上升趨勢在統計上都是顯著的（p < 0.001），每個相鄰級別的步驟也是如此，并且在控制工作模式、任務價值、月份、職業和模型家族的回歸中仍然顯著（每個專業水平行動增加9%，輸出增加13%），標準誤差按用戶聚類。

誰使用Claude Code，以及用于什么

用戶
為了了解誰在從事這項工作，我們從會話記錄中推斷每個用戶的職業，將其映射到勞工統計局標準職業分類（SOC）分類法中的23個主要群體之一。

分類器被指示僅依賴信號，如智能體在會話開始時加載的項目上下文、其文件的名稱和結構、他們引用的任何工件（例如，法律文件、臨床數據、財務報告、課程等）以及他們使用的詞匯。它被明確指示不要將編碼行為視為編碼職業的證據。

只有當有明確信號表明軟件或數據工作是用戶的工作時，會話才被分類為編碼SOC代碼（計算機和數學職業）。律師構建腳本以自動標記文件夾合同中缺失條款的會話被映射到法律職業，即使會話的工作主要是軟件。當沒有關于用戶職業的信號時，會話保持未分類。

我們能夠在約70%的會話中推斷職業。在這一組中，計算機和數學職業——涵蓋大多數軟件相關工作的類別—— unsurprisingly 是最大的群體。其次是商業和金融運營；藝術、設計和媒體；管理；以及生命、物理和社會科學。我們樣本中增長最快的非軟件職業群體是管理、銷售和法律職業。

工作

2025年10月至2026年4月期間，使用Claude Code完成的工作構成發生了顯著變化。

最明顯的變化是用于修復損壞代碼的會話占比從33%下降到19%（圖4）。取而代之的是，我們看到更多圍繞代碼的工作占比增加。操作軟件從14%增長到21%。編寫和數據分析大致翻了一番，從約10%增長到20%。

任務本身也變得更有價值。我們通過詢問工作在自由職業市場上的成本來近似每個會話的經濟價值，對照真實發布的公共數據集進行校準。按此衡量，平均會話的估計價值在10月至4月期間上升了27%。

這種增長適用于多種工作。構建、操作和修復類任務的價值分別增長了約43%、34%和32%。

這些價格估算是粗略的，因此我們主要用它們來比較不同時間的任務，而不是作為字面美元價值來解讀。

圖4：2025年10月至2026年6月Claude Code工作的構成和價值

七個月窗口期內每種工作模式的會話占比。修復損壞代碼的會話占比從33%下降到19%，而操作軟件、分析數據和編寫文檔的占比增長。

成功取決于用戶帶來什么

任務的估計價值是了解Claude Code如何幫助人們完成工作的一種方式。另一個角度是查看有多少會話是成功的，以及會話的哪些特征與成功相關。

在我們所有的成功衡量中，我們看到了一個清晰的模式：一個人在會話中表現出的專業知識越多，會話成功的可能性就越高。

大部分收益集中在專業水平量表的低端——新手會話與中級會話之間的差距大于中級與專家之間的差距。

在轉向成功會話的特征之前，我們應該精確說明我們如何衡量成功。我們無法觀察用戶的真實世界結果，也無法直接詢問他們是否從Claude那里得到了他們想要的東西。

相反，我們依賴兩種互補的基于記錄的衡量。第一種，判定成功，來自閱讀完整記錄并決定人是否成功完成了他們設定要做的事情的分類器（選項：成功、部分成功、失敗、無明確目標）。然后兩個配套分類器評估該判斷證據的強度以確定驗證成功。成功信號分類器尋找成功的可驗證證據。

特別是，它尋找與工作匹配的git活動如提交和拉取請求，以及測試套件通過，以及用戶的明確確認。它將會話從"無信號"評分到"弱信號"（1）到"多個硬信號"（5）。

一個并行的失敗信號評分事情出錯的證據——錯誤、失敗的測試、重試、用戶反對輸出。驗證成功要求會話被判定為成功且至少有一個硬可驗證的成功信號。

對于以下側重于會話中成功或失敗程度的分析，我們排除了被成功結果分類器判定為"無明確目標"的會話，這約占我們完整樣本的7.7%。

專業知識的回報
那么什么樣的會話最成功？事實證明，上述會話的專業知識評級對會話的成功至關重要。

有人可能擔心專業知識不是真正的驅動因素——也許專家只是選擇了不同的任務，或在其他方面有所不同。

在本節中，我們通過比較做相同類型工作、相同估計價值、同一個月、同一主題、來自同一廣泛職業群體的人的會話，并詢問人的評級專業知識如何影響結果，來部分解決這一擔憂。

表2：源自分類器的成功和失敗定義
示例意譯并總結了來自智能體編碼交互公共數據集SWE-chat的真實會話，由我們的分類器標記。

在我們所有的成功衡量中，一個人在會話中表現出的專業知識越多，會話成功的可能性就越高。被評為新手的會話達到我們最嚴格的衡量——驗證成功——的時間為15%，至少部分成功的時間為77%。被評為中級或以上的會話達到驗證成功的時間為28-33%，至少部分成功的時間為91-92%（圖5）。

在每種衡量中，大部分收益來自從新手到中級；在中級和專家之間，斜率下降。在附錄中，我們給出了圖5背后回歸的詳細信息。

圖5：專業知識與會話如何結束
按用戶在該任務上的評級專業知識（從新手到專家的五級量表）劃分的會話結果。左面板包括所有會話。中間和右面板限制在遇到麻煩（失敗信號>3）的會話，并顯示仍以各種成功和失敗定義結束的比例。每個點是調整后的比率——我們通過僅比較共享相同工作模式、相同任務價值帶、同一個月、相同任務主題和相同用戶類型（軟件相關職業與否）的會話來估計專業水平之間的差異。這些點背后回歸的詳細信息在附錄中。須線是樣本均值的置信區間（大多數在此圖中太小而不可見）。這些圖排除了被成功結果分類器判定為無明確目標的會話。

在沿途遇到挑戰的會話中出現了類似的梯度。當失敗信號記錄到失敗的驗證證據時，我們說一個會話遇到麻煩。這可能是錯誤、失敗的測試、多次嘗試做同一件事，或用戶表達沮喪或不滿意。在遇到麻煩的會話中，驗證成功的比例從新手評級會話的4%上升到專家評級會話的15%，考慮了上述所有控制（圖5）。查看更寬松的衡量，我們發現至少部分成功的比例對于新手為60%，對于中級到專家會話為80-81%。

我們還跟蹤反向關系——專業知識與各種失敗衡量。請注意，在此分析中，被判定為失敗的會話是那些甚至沒有部分成功的會話。我們說一個遇到麻煩的會話被放棄，如果它被判定為失敗且沒有編寫代碼行：用戶看起來是新手的會話中有19%最終被放棄，而其他人為5-7%。

換句話說，經驗最少的用戶在努力實現他們追求的結果時更有可能放棄。專業知識的部分價值似乎是指引智能體走向正確方向的能力。

職業可能不如專業知識重要

軟件相關職業的人在其會話中約30%達到驗證成功，而其他職業的用戶約26%達到驗證成功。在產生代碼的會話（即添加或修改至少一行代碼的會話）中，這些數字分別為34%和29%（圖6）。

軟件相關職業與其他職業之間的差距在我們的更寬松的成功定義下縮小——兩組在產生代碼的會話中達到至少部分成功的比例分別為89%和88%。

這五點的差距很小，而且在七個月內既沒有擴大也沒有縮小，盡管兩組的成功率都有所提高。在產生代碼的會話中，我們數據集中十個最大的職業中每一個在驗證成功方面都在軟件工程師的七個百分點之內。

管理職業在驗證成功方面最高，略高于軟件工程職業。他們更高的驗證成功率可能反映了轉移到指導智能體的管理技能。但它們也可能部分反映了我們的衡量：驗證部分依賴于記錄中的明確確認，而管理者在得到他們要求的東西時可能更有可能進行溝通。

圖6：按推斷職業劃分的編碼會話中的驗證和判定成功率

在添加或更改至少一行代碼的會話中，按用戶推斷的職業群體劃分的滿足嚴格成功定義——判定成功和驗證成功——的會話占比，針對十個最大的群體。每個群體都在軟件/數學用戶（SOC代碼計算機和數學職業）的七個百分點之內。誤差條是按不同賬戶計算的95%置信區間。

展望未來

本報告中的結果提供了一個關于智能體編碼如何放大某些形式的知識和技能，同時替代其他形式的初步圖景。在產生代碼的會話中，每個主要職業的成功率都在軟件相關職業的幾個百分點之內。編碼智能體似乎正在使編碼背景對成功編程的相關性降低。

與此同時，成功的會話更可能表現出領域專業知識。被評為專家的會話達到驗證成功的頻率是新手會話的兩倍以上，當會話遇到麻煩時，新手放棄會話的比率是其他人的數倍。協作的形態為這一圖景增添了更多色彩——領域專家能夠指導Claude用他們給出的每個指令完成更多工作。

因此，引導Claude走向成功的能力更多來自對領域的掌握，而不是編寫代碼的能力。任何領域具有這種掌握的人現在可能能夠做他們以前無法做的技術工作。沒有任何這種專業知識的人從同一工具中獲得的收益將少得多。而收益主要來自能力，而非精通——對領域的工作掌握捕捉了大部分收益，而深度專業化只增加了更多一點。

這些發現是初步的。與我們的大多數研究一樣，我們無法衡量真實世界的結果，如會話中編寫的代碼是否實際使用或隨后被丟棄，或它是否產生經濟上寶貴的工件。

此外，本報告排除的非交互式使用是活動的相當大一部分。為其開發衡量框架是未來工作的優先事項。我們所有的會話分類都依賴于模型對記錄的閱讀。

在附錄中，我們展示了我們的分類器以預期方向跟蹤獨立遙測數據，并在大多數會話上與強參考模型一致。但分類器在大規模驗證方面仍然具有挑戰性，而Claude Code會話增加了進一步的困難，因為它們可能太長太復雜，無法讓人類標簽作為真實標準。

本報告中的圖景將隨著模型、用戶以及他們之間分工的變化而更新。我們希望這些衡量將使我們能夠跟蹤重大轉變的發生。例如，如果專業知識的回報開始隨時間減少，那將表明模型開始提供用戶目前帶來的基本判斷，以及這些工具的收益正在超越領域專家擴大。

如果軟件職業之外用戶成功完成的編碼會話占比繼續增長，這可能表明軟件生產正在成為每個領域普通工作的一部分，而不是單一職業的產物。

這些轉變將改變誰從智能體編碼中受益，以及受益多少，并對勞動力市場中最受重視的東西產生影響。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.