![]()
新智元報道
![]()
【新智元導讀】Anthropic用40萬次會話Claude Code實錘:能從 AI 身上榨出幾倍產能的,不是代碼力,是更懂行。
一個從沒寫過一行代碼的會計,能不能干翻科班程序員?
聽起來像天方夜譚。
就在昨天,Anthropic 甩出一份重磅報告,把這個反直覺的答案,用 40 萬次真實會話砸到了臺面上——能,而且差距小到幾乎可以忽略不計。
![]()
在隱私保護的前提下,Anthropic「臥底」分析了 2025 年 10 月到 2026 年 4 月、約 23.5 萬名用戶產生的近 40 萬次 Claude Code 交互數據。
他們把每一次會話拆開揉碎,分析用戶干了什么活、誰在拍板、結果怎么樣——最終得出一個足夠顛覆整個行業認知的結論:
決定一次AI編程成敗的,不是你的代碼功底,而是你對自己那行的理解有多深。
換句話說,AI 編程不僅沒把外行拒之門外,反而成了各行各業「懂哥」們的封神外掛。
如今 Claude Code 的用戶平均每周要泡在這個工具上 20 個小時——一周五天,一天四小時,比很多人陪伴家人的時間還長。
一個直擊靈魂的問題隨之而來:這種工具的野蠻生長,到底會把知識型打工人的未來推向何方?
Anthropic 這份報告,就是用真實數據給出的第一個早期信號。
人決定造什么,AI 決定怎么造
先看一組實錘數據。
Anthropic 建了一個「決策歸因分類器」,把每次會話里的每一個關鍵決定掰開來看:哪些是「規劃決策」——做什么、走哪條路、什么算完成;哪些是「執行決策」——改哪個文件、寫什么代碼、用什么語言、跑什么命令。
然后,逐一標注是人做的,還是 Claude 做的。
結果極其清晰:人類做了大約 70% 的規劃決策,Claude 包攬了大約 80% 的執行決策。
一句話總結:人決定造什么,智能體決定怎么造。
![]()
你只管說清楚要什么,剩下的臟活累活,它全干了。
而且,誰掌握主動權,Claude 的行為模式就跟著變。
當用戶緊握執行決策權(做了超過 80% 的執行決定),Claude 每輪只做大約 8 個動作,乖乖聽指揮;而當 Claude 拿到了規劃主導權(做了超過 80% 的規劃決定),它每輪直接飆到 16 個動作——工具放開韁繩,馬力就拉滿。
這種默契的人機分工,像極了一個人帶著一支全能執行團隊:你不需要親自搬磚,但你必須知道這房子該怎么蓋。
懂行的人,一句話頂別人五句
最顛覆的,是「專業度」這個詞在報告里的定義——它跟你的職位頭銜毫無關系,而是任務特定的。
一個資深工程師第一次問 Rust,在 Rust 這件事上就是個新手;而一個從沒碰過 Python 的會計,只要他能精確告訴 Claude 月末對賬必須卡住哪幾條規則、還能一眼揪出 AI 漏掉的邊界情況,那他在這個任務上,就是不折不扣的專家。
這才是這份報告最鋒利的洞察:專業度不是「你會什么工具」,而是「你對問題本身的理解深不深」。
數據有多懸殊?
新手會話里,每條指令只觸發約 5 個 Claude 動作、約 600 詞輸出;而專家會話,動作鏈翻倍到 12 個,輸出飆到 5 倍——3200 詞。
這個差距在每一種工作類型、每一個任務價值區間里都穩定存在。
![]()
同樣一個 AI,懂行的人能榨出幾倍的產能。差距不在工具,在腦子。
新手最容易撂挑子
到底誰用得更成功?
報告給出的答案,依然指向「懂行」二字。
Anthropic 設計了一套極其嚴格的成功評估體系。他們先讓分類器通讀完整會話記錄,判斷用戶是否完成了目標,再疊加「硬證據」驗證——必須有 git 提交、測試通過、或用戶明確確認這類可查證的信號。
按這個最嚴格的口徑:新手會話只有 15% 達標,中級用戶跳到 28%,高級和專家更是到了 33%。
但最關鍵的信息藏在這條曲線的形狀里——最大的那一躍,發生在「從新手到中級」。
也就是說,你不需要成為某個領域的絕世高手,只要有「夠用的把握」,就能拿走大部分紅利。
從中級到專家,收益曲線明顯變平了。
![]()
碰壁時的差距更扎心。
當會話出錯、反復重試、用戶開始罵街——Anthropic 管這叫「遇到麻煩」的會話——新手最終翻盤(在「遇麻煩」前提下仍驗證成功)的概率只有 4%,專家是 15%。
專家不是不會碰壁,而是碰了壁知道怎么把 AI 拉回正道。
更扎心的:那些「判定失敗、且一行代碼都沒寫就放棄」的會話里,19% 的新手直接撂了挑子,其他經驗水平的人只有 5%–7%。
最沒經驗的人,一遇到坎就最先認輸——他們不是輸在能力上,是輸在不知道下一步該跟 AI 說什么。
職業?反而沒那么重要了
至于你是程序員還是律師還是產品經理?
說實話,沒那么重要了。
Anthropic 用美國勞工統計局(BLS)的標準職業分類體系,把用戶映射到 23 個大類。
分類器被明確要求:不能因為在寫代碼,就認為他是程序員。
一個律師用 Claude 寫了一個自動審合同條款的腳本,他依然被歸為法律從業者——因為他的核心工作是法律,代碼只是達成目的的手段。
在這個分類基礎上,軟件相關職業的驗證成功率約 30%,其他職業約 26%;在真正產出代碼的會話里是 34% 對 29%。
如果看更寬泛的「至少部分成功」標準,差距更是縮到只剩 1 個百分點——89% 對 88%。
數據集里最大的十個職業,成功率全都落在軟件工程師 7 個百分點以內。而且這個差距在七個月里既沒有擴大,也沒有縮小——兩邊的成功率在同步提升。
最意外的是:管理崗的驗證成功率,甚至略高于程序員。
![]()
Anthropic 自己也分析了原因——這可能是因為管理者更善于在對話中明確表達「我要的就是這個」,也可能是指揮 AI 這件事和帶團隊本就是同一種能力:把需求拆清楚、把方向定明白、在關鍵節點做判斷。
這個發現幾乎可以重寫「AI 時代誰最值錢」這個命題——答案不是最會寫代碼的人,而是最會定義問題的人。
這只是一份初步答卷
當然,Anthropic 自己把話說得很克制。
他們承認看不到真實的業務結果——所謂「成功率」來自對會話記錄的分類判斷,不等于這段代碼最終被采用、真的產生了商業價值。
結論是初步的,別神化。
但方向已經足夠清晰,清晰到讓人后背發涼:在AI編程里,寫代碼的門檻正在被抹平,而「懂業務」的價值正在被瘋狂放大。
Claude Code 上正在發生的這一切,很可能只是整個知識型工作未來走向的一次預覽——
代碼誰都能讓AI寫,但能不能把問題想清楚、把需求提到點子上,才是這個時代真正值錢的本事。
參考資料:
https://www.anthropic.com/research/claude-code-expertise
編輯:所羅門
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.