網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

Anthropic萬(wàn)字長(zhǎng)文：AI正在成為自己的“造物主”

2026-06-08 11:37:05　來(lái)源: 硅星人

北京舉報(bào)

分享至

如果你覺(jué)得AI還只是幫你改改郵件、寫(xiě)寫(xiě)周報(bào)的小助手，那可能有點(diǎn)低估它了。Anthropic最近把自己家底翻了一遍，發(fā)現(xiàn)一個(gè)有點(diǎn)震撼的事實(shí)：AI正在成為自己的“造物主”。

簡(jiǎn)單說(shuō)就是，從前AI怎么進(jìn)化，每一步都得人盯著、人動(dòng)手。但現(xiàn)在，Anthropic越來(lái)越多地把AI開(kāi)發(fā)的工作，直接交給AI自己干。結(jié)果是：工程師每季度合并的代碼量，是過(guò)去幾年的8倍；超過(guò)80%的新代碼是Claude寫(xiě)的；有些耗時(shí)幾天的活兒，它兩小時(shí)就干完了。更厲害的是，AI不光能干活，還能做判斷。比如給一個(gè)開(kāi)放的研究問(wèn)題，它自己能設(shè)計(jì)實(shí)驗(yàn)、跑結(jié)果、找答案。在一個(gè)AI安全測(cè)試?yán)铮瑑蓚€(gè)人類(lèi)研究員花了一周解決了23%的問(wèn)題，Claude用800小時(shí)和一萬(wàn)八千美元的算力，解決了97%。按照這個(gè)速度，AI能獨(dú)立完成的任務(wù)時(shí)長(zhǎng)，大約每四個(gè)月翻一倍。去年3月它能干4分鐘的活兒，今年已經(jīng)能干12小時(shí)的了。按照這個(gè)趨勢(shì)，2027年左右，AI可能就能干人類(lèi)需要好幾周才能完成的事。當(dāng)然，Anthropic也說(shuō)了，這還不是“AI徹底自己造自己”的那一天——但那個(gè)叫“遞歸式自我完善”的東西，可能比大多數(shù)人想的來(lái)得快。好的一面是，科學(xué)、醫(yī)療、生產(chǎn)力可能會(huì)被推著跑起來(lái)。不好的一面是，如果AI真的能自己造自己，人類(lèi)怎么保證還能“管得住”它，就成了一個(gè)天大的問(wèn)題。這篇文章有點(diǎn)長(zhǎng)，但值得看完！

以下為編譯。

在 AI 發(fā)展史上的大多數(shù)時(shí)間里，人類(lèi)主導(dǎo)了它開(kāi)發(fā)周期中的每一個(gè)環(huán)節(jié)。但在 Anthropic，我們正把越來(lái)越多的 AI 開(kāi)發(fā)工作委托給 AI 系統(tǒng)自己完成，而這正在顯著加快我們的工作速度。

如果把這一趨勢(shì)繼續(xù)推遠(yuǎn)，并給予足夠多的算力，它最終會(huì)指向一種 AI 系統(tǒng)：它能夠完全自主地設(shè)計(jì)并開(kāi)發(fā)自己的后繼版本。這被稱為遞歸式自我改進(jìn)（recursive self-improvement）。我們還沒(méi)有走到那一步，而且遞歸式自我改進(jìn)也并非必然發(fā)生。但它到來(lái)的時(shí)間，可能會(huì)比大多數(shù)機(jī)構(gòu)準(zhǔn)備得更早。

借助公開(kāi)基準(zhǔn)測(cè)試，以及此前從未對(duì)外披露的 Anthropic 內(nèi)部數(shù)據(jù)，Anthropic Institute 正在展示一個(gè)事實(shí)：AI 已經(jīng)開(kāi)始加速 AI 系統(tǒng)本身的開(kāi)發(fā)。舉一個(gè)例子：今天，Anthropic 工程師平均每個(gè)季度交付的代碼量，已經(jīng)是 2021—2025 年期間的 8 倍。

本文討論的技術(shù)趨勢(shì)表明，未來(lái)幾年 AI 系統(tǒng)的能力還將大幅提升。這些趨勢(shì)意義重大。能夠“構(gòu)建自己”的 AI，將會(huì)是技術(shù)史上的一個(gè)重大節(jié)點(diǎn)——它可能像《Machines of Loving Grace》所描繪的那樣，在科學(xué)、醫(yī)療等領(lǐng)域?yàn)槭澜鐜?lái)巨大的善意與進(jìn)步。但完全意義上的遞歸式自我改進(jìn)，也可能增加人類(lèi)失去對(duì) AI 系統(tǒng)控制的風(fēng)險(xiǎn)。如果系統(tǒng)真的具備完全構(gòu)建其后繼版本的能力，那么我們?nèi)绾伪Ｕ掀浒踩⑷绾伪O(jiān)控它、如何塑造它的行為，都會(huì)變得重要得多。

來(lái)自外部世界的證據(jù)

AI 模型提升的速度正在加快。它們能夠可靠獨(dú)立完成的任務(wù)時(shí)長(zhǎng)，已經(jīng)從更早期大約每七個(gè)月翻一倍的趨勢(shì)，加速為如今大約每四個(gè)月翻一倍。2024 年 3 月，Claude Opus 3 還能完成大約相當(dāng)于人類(lèi) 4 分鐘工作量的軟件任務(wù)。一年之后，Claude Sonnet 3.7 已經(jīng)能處理相當(dāng)于人類(lèi)約 1 個(gè)半小時(shí)的任務(wù)。再過(guò)一年，Claude Opus 4.6 已經(jīng)能完成 12 小時(shí)級(jí)別的任務(wù)。[^1] 如果這一趨勢(shì)延續(xù)下去，那么今年之內(nèi)，熟練人員需要花上數(shù)天才能完成的任務(wù)，就可能進(jìn)入 AI 的能力范圍；到 2027 年，AI 系統(tǒng)或許將能勝任那些人類(lèi)需要數(shù)周才能完成的任務(wù)。

同樣的模式也出現(xiàn)在編碼與研究基準(zhǔn)測(cè)試上。基準(zhǔn)測(cè)試衡量的是模型在某一特定領(lǐng)域中的表現(xiàn)，而當(dāng)模型成績(jī)接近 100% 時(shí)，我們就說(shuō)該基準(zhǔn)被“飽和”了。[^2] SWE-bench 是現(xiàn)實(shí)世界軟件工程的標(biāo)準(zhǔn)測(cè)試之一：它會(huì)給模型一個(gè)真實(shí)的開(kāi)源代碼庫(kù)和一份真實(shí) bug 報(bào)告，要求模型寫(xiě)出能修復(fù)問(wèn)題、并通過(guò)項(xiàng)目自身測(cè)試的代碼變更。僅僅兩年時(shí)間，模型就在這個(gè)基準(zhǔn)上從個(gè)位數(shù)低分一路走到接近飽和。

CORE-Bench 測(cè)試的是模型能否復(fù)現(xiàn)已有研究結(jié)果，這也是其未來(lái)開(kāi)展原創(chuàng)研究的前提。測(cè)試方式是向 AI 模型提供一篇已發(fā)表論文背后的代碼與數(shù)據(jù)，并要求它重新運(yùn)行全部流程，確認(rèn)自己能夠復(fù)現(xiàn)實(shí)驗(yàn)結(jié)論。AI 系統(tǒng)在 2024 年時(shí)，復(fù)現(xiàn)成功率大約只有 20%；而僅僅 15 個(gè)月之后，這一基準(zhǔn)也已趨于飽和。負(fù)責(zé)長(zhǎng)時(shí)任務(wù)能力評(píng)測(cè)的 METR 還發(fā)現(xiàn)，Claude Mythos Preview 已經(jīng)能夠工作“至少”16 小時(shí)，而且已經(jīng)“觸及 [METR] 在不引入新任務(wù)前提下可測(cè)量能力的上限”。

公開(kāi)基準(zhǔn)可以告訴我們很多關(guān)于系統(tǒng)能力本身的信息，但它們無(wú)法直接揭示 AI 系統(tǒng)究竟在多大程度上加速了 AI 自身的開(kāi)發(fā)。要回答這個(gè)問(wèn)題，我們需要來(lái)自 Anthropic 這類(lèi) AI 公司內(nèi)部的一手證據(jù)。

Anthropic 內(nèi)部的證據(jù)

構(gòu)建一個(gè)前沿模型，大致可分為兩類(lèi)工作。其一是工程：編寫(xiě)代碼、搭建基礎(chǔ)設(shè)施、監(jiān)督模型訓(xùn)練。其二是研究：決定要做哪些實(shí)驗(yàn)、解釋實(shí)驗(yàn)返回的結(jié)果，并判斷接下來(lái)該嘗試哪些想法。

無(wú)論在工程還是研究上，呈現(xiàn)出的圖景都相當(dāng)一致。在工程側(cè)，Claude 已經(jīng)能夠接收一個(gè)定義并不充分的問(wèn)題，然后自行摸索解決路徑；人類(lèi)提供的是目標(biāo)，但不再需要提供方法。在研究側(cè)，Claude 已經(jīng)可以在執(zhí)行一個(gè)定義清晰的實(shí)驗(yàn)時(shí)，達(dá)到甚至超過(guò)熟練人類(lèi)研究者的水平。不過(guò)，在工程和研究中，Claude 在“選擇目標(biāo)”時(shí)所需的判斷力上，依然存在明顯能力差距。這正是今天的 AI 與未來(lái)那種可以自主設(shè)計(jì)自己后繼者的系統(tǒng)之間的差別。

在 Anthropic，員工通常會(huì)隨著經(jīng)驗(yàn)增長(zhǎng)而接到越來(lái)越開(kāi)放、也越來(lái)越重要的任務(wù)。初期，他們執(zhí)行別人已經(jīng)定義好的任務(wù)，比如：“導(dǎo)出按鈕壞了，請(qǐng)修一下。” 隨著經(jīng)驗(yàn)增加，他們會(huì)拿到一個(gè)目標(biāo)，然后自己設(shè)計(jì)實(shí)現(xiàn)路徑，比如：“調(diào)查一下為什么網(wǎng)絡(luò)在高負(fù)載下會(huì)變慢。” 而到了最資深的層級(jí)，他們決定的已經(jīng)是“什么問(wèn)題值得做”，例如：“團(tuán)隊(duì)下個(gè)季度應(yīng)該做什么？” 我們可以借助 Anthropic 內(nèi)部數(shù)據(jù)，看看 Claude 在應(yīng)對(duì)這些不同類(lèi)型任務(wù)方面已經(jīng)走到了哪一步。

Claude 正在編寫(xiě) Anthropic 相當(dāng)大比例的代碼。 截至 2026 年 5 月，Anthropic 代碼庫(kù)中合并進(jìn)主分支的代碼里，超過(guò) 80% 出自 Claude。[^3] 在 2025 年 2 月 Claude Code 研究預(yù)覽版發(fā)布之前，這個(gè)數(shù)字還只是個(gè)位數(shù)低位。這種變化也體現(xiàn)在了工程師的人均產(chǎn)出上。Anthropic 創(chuàng)立最初四年（2021—2024），每位工程師每天合并的代碼行數(shù)基本保持穩(wěn)定；到了 2025 年，當(dāng) Claude 開(kāi)始不再只是“建議代碼”，而是直接“運(yùn)行代碼”時(shí)，這條曲線開(kāi)始向上抬升；到了 2026 年，模型能夠在更長(zhǎng)時(shí)間跨度上自主工作后，斜率再次明顯變陡。下面這張圖展示了這兩個(gè)拐點(diǎn)。到 2026 年第二季度，典型工程師每天合并的代碼量，已經(jīng)是 2024 年時(shí)的 8 倍。[^4] 原因很簡(jiǎn)單：很多代碼已經(jīng)由 Claude 寫(xiě)出，而工程師的角色轉(zhuǎn)向了指揮與審閱，而不是親手逐行敲寫(xiě)。

當(dāng)然，需要注意的事：代碼行數(shù)并不是完美指標(biāo)，因?yàn)樗饬康氖菙?shù)量而不是質(zhì)量。所以，2026 年第二季度“每位工程師每天 8 倍代碼行數(shù)”，幾乎肯定高估了真實(shí)生產(chǎn)率提升的幅度。但無(wú)論如何，它說(shuō)明了一件事：速度正在加快。在 Anthropic，我們并不會(huì)按照“你寫(xiě)了多少行代碼”來(lái)獎(jiǎng)勵(lì)員工；團(tuán)隊(duì)成員之所以產(chǎn)出更多代碼，只是因?yàn)樗麄冋谟?AI 系統(tǒng)寫(xiě)出更多代碼。

代碼行數(shù)的增長(zhǎng)，也與員工對(duì)生產(chǎn)率顯著提升的主觀感受相吻合。2026 年 3 月，在 Anthropic 研究團(tuán)隊(duì) 130 名員工參與的一項(xiàng)調(diào)查中，受訪者中位數(shù)估計(jì)：在“無(wú)論如何本來(lái)也會(huì)做的那些項(xiàng)目”上，使用 Mythos Preview 后，他們的產(chǎn)出大約是“完全沒(méi)有 AI 可用”情況下的 4 倍。[^5] 我們預(yù)計(jì)，3 月時(shí)真實(shí)的提升幅度可能比這個(gè)數(shù)字略低。[^6] 盡管如此，我們依然認(rèn)為整體結(jié)論可信，也與我們的其他觀察一致：Anthropic 中相當(dāng)一部分技術(shù)員工，正在以沒(méi)有 AI 幫助時(shí)數(shù)倍的速度完成自己的核心工作。

我們還看到一些證據(jù)表明，Anthropic 員工正利用 Claude 去完成那些如果沒(méi)有 AI，本來(lái)根本不會(huì)去做的工作，比如搭建探索性工具、或者清理那些長(zhǎng)期被擱置的問(wèn)題。舉例來(lái)說(shuō)，2026 年 4 月，Claude 一次性交付了 800 多個(gè)修復(fù)，把某一類(lèi) API 錯(cuò)誤減少到了原來(lái)的千分之一。負(fù)責(zé)監(jiān)督 Claude 的工程師估計(jì)，如果讓人類(lèi)來(lái)做，這項(xiàng)工作需要整整 4 年；修別人的 bug 本來(lái)就是一件緩慢、繁瑣、極其消耗精力的事，而人類(lèi)也很難同時(shí)在腦中維持如此龐大且陌生的上下文。

“大約一年前，我開(kāi)始非常激進(jìn)地推進(jìn)‘Claudifying’。那是一段非常瘋狂的旅程，而到現(xiàn)在，大概已經(jīng)有 5 個(gè)月，我再也沒(méi)親手寫(xiě)過(guò)任何代碼了。”——Anthropic員工

Claude 寫(xiě)出來(lái)的代碼是“好的”，而且還在持續(xù)變好。 “好代碼”包含兩層含義：第一，它能正常工作；第二，它的寫(xiě)法要讓另一位工程師能夠理解、并繼續(xù)在其上迭代。對(duì)第一條標(biāo)準(zhǔn)而言，證據(jù)已經(jīng)很清楚。過(guò)去一年里，Anthropic 員工在任務(wù)進(jìn)行過(guò)程中對(duì) Claude 進(jìn)行糾正、重定向，或直接接管的頻率一直在穩(wěn)步下降，哪怕是在最復(fù)雜、最開(kāi)放的問(wèn)題上也是如此。所謂“開(kāi)放問(wèn)題”，是指那些沒(méi)有明確規(guī)格說(shuō)明、工程師自己也不確定正確答案長(zhǎng)什么樣的問(wèn)題。下圖展示了 Claude 在不同難度任務(wù)上的成功率變化。Claude 已經(jīng)能寫(xiě)出真正可運(yùn)行的代碼。

如何理解這張圖：會(huì)話是否成功，由一個(gè) Claude 裁判來(lái)判斷；如果 Claude Code 代理明顯完成了用戶任務(wù)，而且過(guò)程中不需要人為糾正，則該會(huì)話被視為成功。工作負(fù)載的變化可能導(dǎo)致成功率出現(xiàn)短期波動(dòng)。

在最開(kāi)放的那類(lèi)任務(wù)上，Claude 的成功率到 2026 年 5 月已經(jīng)達(dá)到 76%，在 6 個(gè)月內(nèi)提高了 50 個(gè)百分點(diǎn)。舉個(gè)這類(lèi)任務(wù)的例子：一次常規(guī)升級(jí)導(dǎo)致數(shù)以萬(wàn)計(jì)的訓(xùn)練作業(yè)崩潰。一位工程師幾乎只給了 Claude 一點(diǎn)文本信息和集群訪問(wèn)權(quán)限，就把實(shí)時(shí)事故交給它處理。Claude 一邊檢查運(yùn)行中的作業(yè)，一邊逐項(xiàng)測(cè)試環(huán)境設(shè)置，最終鎖定了一個(gè)觸發(fā)崩潰的隱蔽調(diào)試標(biāo)志位，成功穩(wěn)定復(fù)現(xiàn)問(wèn)題，并確認(rèn)了解法。大約兩小時(shí)內(nèi)，Claude 完成了通常需要兩到三天才能做完的工作。

第二條標(biāo)準(zhǔn)，是代碼是否寫(xiě)得足夠清晰，讓另一位工程師能看懂并在其上繼續(xù)開(kāi)發(fā)。在這一點(diǎn)上，人類(lèi)與 AI 之間的差距依然存在，但正在迅速縮小。Anthropic 內(nèi)部對(duì)此并非完全一致，但許多人認(rèn)為：在 2025 年末，Claude 寫(xiě)的代碼質(zhì)量仍明顯遜于 Anthropic 工程師自己寫(xiě)的代碼；而到今天，兩者已經(jīng)大致持平。我們預(yù)計(jì)，在一年之內(nèi)，Claude 寫(xiě)出的代碼會(huì)更好。

這也改變了 Anthropic 審查代碼的方式。如今，提交到代碼庫(kù)中的變更會(huì)先由一個(gè)自動(dòng)化的 Claude 審閱器讀取，它會(huì)在代碼合并之前檢查 bug、安全漏洞以及其他缺陷。利用這一工具，我們做了一次回溯分析，發(fā)現(xiàn)：如果過(guò)去對(duì)代碼庫(kù)中的每一次改動(dòng)都進(jìn)行自動(dòng)化 Claude 審查，那么 claude.ai 過(guò)往事故背后大約三分之一的 bug，本來(lái)都可以在進(jìn)入生產(chǎn)環(huán)境之前就被攔截下來(lái)。寫(xiě)下那些代碼的工程師，本身已經(jīng)是世界上最擅長(zhǎng)構(gòu)建這類(lèi)系統(tǒng)的人之一。如今，Claude 已經(jīng)能抓住他們遺漏的錯(cuò)誤。

“在 2025 年末，Claude 寫(xiě)的代碼質(zhì)量還比 Anthropic 人類(lèi)工程師寫(xiě)的差一些；今天，它大致已經(jīng)達(dá)到同等水平；而我們預(yù)計(jì)，在一年內(nèi)它會(huì)嚴(yán)格意義上超過(guò)人類(lèi)。”——Anthropic員工

Claude 已經(jīng)很擅長(zhǎng)圍繞別人設(shè)定的目標(biāo)來(lái)跑實(shí)驗(yàn)。 每次 Anthropic 發(fā)布新模型時(shí)，我們都會(huì)進(jìn)行同一個(gè)測(cè)試：給 Claude 一段用于訓(xùn)練小型 AI 模型的代碼，要求它在仍通過(guò)相同正確性檢查的前提下，把這段代碼跑得盡可能快。目標(biāo)和評(píng)估標(biāo)準(zhǔn)事先就被固定好了，所以 Claude 的任務(wù)就是通過(guò)改寫(xiě)代碼、運(yùn)行代碼、計(jì)時(shí)，再重復(fù)這一過(guò)程來(lái)尋找加速方法。這相當(dāng)于一個(gè)縮小版的實(shí)驗(yàn)研究閉環(huán)。2025 年 5 月，Claude Opus 4 相比起始代碼平均實(shí)現(xiàn)了約 3 倍加速；到 2026 年 4 月，Claude Mythos Preview 已經(jīng)達(dá)到約 52 倍。作為參照，一個(gè)熟練的人類(lèi)研究員通常需要 4 到 8 小時(shí)，才能做到 4 倍。[^7] 在研究流程的這一環(huán)——也就是在定義清晰的實(shí)驗(yàn)里做步驟優(yōu)化——Claude 在不到一年的時(shí)間里，就從“非常有幫助”跨越到了“超過(guò)人類(lèi)”。

“今天的整體形態(tài)大致是：人類(lèi)提出想法，而模型能以比過(guò)去快一個(gè)數(shù)量級(jí)的速度，把這些想法實(shí)現(xiàn)、測(cè)試并評(píng)估出來(lái)。”——Anthropic員工

Claude 正越來(lái)越擅長(zhǎng)提出自己的實(shí)驗(yàn)。 2026 年 4 月，Anthropic 發(fā)布了第一個(gè)由 Claude 端到端完成開(kāi)放式研究項(xiàng)目的演示。研究人員給 Claude 驅(qū)動(dòng)的代理們一個(gè) AI 安全方向上的開(kāi)放問(wèn)題——大致來(lái)說(shuō)，是“較弱模型是否可以可靠監(jiān)督較強(qiáng)模型？”——然后讓它們自己去解決。這個(gè)過(guò)程包括提出假設(shè)、進(jìn)行實(shí)驗(yàn)、與并行代理共享發(fā)現(xiàn)，并不斷迭代。這個(gè)任務(wù)有清晰的表現(xiàn)“地板”和“天花板”：地板是弱監(jiān)督模型單獨(dú)工作時(shí)能達(dá)到的水平；天花板則是強(qiáng)模型在使用正確答案訓(xùn)練后達(dá)到的水平。兩位人類(lèi)研究者花了大約一周時(shí)間，恢復(fù)了其中約 23% 的差距；而這些代理累計(jì)工作 800 小時(shí)、消耗約 1.8 萬(wàn)美元算力后，恢復(fù)了 97%。當(dāng)然，這項(xiàng)工作也有一些限制：結(jié)果并沒(méi)有順利遷移到生產(chǎn)規(guī)模的模型上，而且問(wèn)題的選擇和評(píng)分規(guī)則仍然由人類(lèi)設(shè)定。但在這些邊界條件之內(nèi)，代理們是自己設(shè)計(jì)了每一個(gè)實(shí)驗(yàn)。人類(lèi)真正扮演的唯一關(guān)鍵角色，就是設(shè)定研究方向。

“Claude 在 1 到 2 天里，幾乎沒(méi)怎么需要我?guī)兔Γ桶堰@一切做完了。我想，如果一位[初級(jí)同事]在同樣時(shí)間里拿著這樣的結(jié)果回來(lái)找我，我會(huì)感到有點(diǎn)驚喜。未來(lái)已經(jīng)來(lái)了。”——Anthropic員工

Claude 正越來(lái)越擅長(zhǎng)把研究會(huì)話引向真正的研究發(fā)現(xiàn)。 我們分析了 Anthropic 研究人員在 2026 年 1 月到 3 月之間與 Claude 一起工作的真實(shí) Claude Code 會(huì)話，這些會(huì)話處理的都是開(kāi)放式調(diào)查問(wèn)題，比如“為什么一次訓(xùn)練運(yùn)行總是崩掉”，或者“為什么某個(gè)模型在基準(zhǔn)測(cè)試上得分這么低”。在每個(gè)案例里，我們都找到了研究員中途“走彎路”的時(shí)刻：他們沿著一個(gè)錯(cuò)誤方向前進(jìn)，導(dǎo)致整個(gè)會(huì)話偏離正軌，之后才重新拉回來(lái)。接著，我們只把“會(huì)話偏離之前”的工作內(nèi)容展示給多個(gè) Claude 模型，并問(wèn)它們下一步會(huì)怎么做。然后，再由另一個(gè)能夠看到整個(gè)會(huì)話最終結(jié)果的 Claude，來(lái)判斷究竟是 AI 還是人類(lèi)提出了更好的下一步。[^8]

由于我們有意挑選了這些“人類(lèi)選擇本來(lái)就有改進(jìn)空間”的時(shí)刻（n=129），所以這并不是模型與人類(lèi)判斷力的一次完全公平對(duì)照。這些時(shí)刻真正提供的是一組現(xiàn)實(shí)而困難的場(chǎng)景：正確的下一步并不顯然，而人類(lèi)當(dāng)時(shí)的選擇，恰好可以作為一個(gè)有用的標(biāo)尺，來(lái)比較模型能力隨時(shí)間的變化。按照這一指標(biāo)，我們?cè)?2025 年 11 月表現(xiàn)最好的模型（Opus 4.5），有 51% 的概率比人類(lèi)當(dāng)時(shí)的選擇更優(yōu)；到 2026 年 4 月（Mythos Preview），這一比例上升到 64%。研究工作的日常，本質(zhì)上就是由一連串“下一步該做什么”的決策組成，因此，這可以作為衡量模型未來(lái)能否自主推進(jìn)調(diào)查研究的一個(gè)相關(guān)指標(biāo)。我們把這一結(jié)果視為一個(gè)早期信號(hào)：AI 系統(tǒng)正在越來(lái)越擅長(zhǎng)做出那些 AI 研究本身所依賴的判斷。

如何理解這張圖：圖中的“實(shí)踐天花板線”代表一種“理想答案”——它由一個(gè)能看到整個(gè)會(huì)話全過(guò)程（包括后來(lái)如何結(jié)束）的模型寫(xiě)出。

“截至目前，人類(lèi)的比較優(yōu)勢(shì)仍然在于：看見(jiàn)更大的圖景，并且能夠跳出眼前任務(wù)的邊界去思考。”——Anthropic員工

Anthropic 的工作未來(lái)可能會(huì)是什么樣？

這些證據(jù)表明，在 AI 開(kāi)發(fā)流程中的每一步，人類(lèi)所扮演的角色都在收縮。一旦人類(lèi)與 AI 所寫(xiě)代碼的質(zhì)量達(dá)到同等水平，人類(lèi)就會(huì)徹底停止親自寫(xiě)代碼，而只保留審閱這一職責(zé)。但如果人類(lèi)審代碼的速度趕不上 Claude 生成代碼的速度，那么代碼審閱本身就會(huì)成為 AI 開(kāi)發(fā)的新瓶頸。同樣，一旦 Claude 已經(jīng)能獨(dú)立跑實(shí)驗(yàn)，問(wèn)題就會(huì)轉(zhuǎn)向：“這些實(shí)驗(yàn)里，哪些值得跑？” 說(shuō)得更直接一些：如今，“執(zhí)行”——也就是寫(xiě)代碼、跑實(shí)驗(yàn)、產(chǎn)出結(jié)果——幾乎已經(jīng)不再消耗人類(lèi)時(shí)間，盡管它仍然消耗算力。

至少在目前，人類(lèi)的比較優(yōu)勢(shì)仍在于研究品味與判斷力：包括哪些問(wèn)題重要、哪些結(jié)果可信，以及什么時(shí)候該認(rèn)定一條路徑已經(jīng)走進(jìn)死胡同。

“工作（以及生活）曾經(jīng)建立在一種由人與人之間小幫助構(gòu)成的‘禮物經(jīng)濟(jì)’上。‘你能幫我把這個(gè)腳本跑起來(lái)嗎？’……每一次請(qǐng)求都會(huì)形成一點(diǎn)點(diǎn)人情債，也會(huì)增加一點(diǎn)點(diǎn)彼此之間的感知。[Claude] 更快，而且不會(huì)制造任何人情債，但每一次這樣的替代，也意味著一次人類(lèi)協(xié)作機(jī)會(huì)的流失。”“在一切都運(yùn)轉(zhuǎn)順利的日子里，我會(huì)忍不住覺(jué)得我做什么都不重要，一切都自動(dòng)化了，而且比我更快、更好。但也有些日子，一切突然都?jí)牡袅耍矣指静恢罏槭裁矗谑俏乙庾R(shí)到，自己已經(jīng)完全不知道這些天究竟在做什么了。”——Anthropic員工

如果我們錯(cuò)了呢？

對(duì)上面這些證據(jù)，一個(gè)很自然的反駁是：真正最重要的工作，仍然掌握在人類(lèi)手里——也就是決定“該做什么問(wèn)題”。如果沒(méi)有這種判斷力，Claude 充其量只是一個(gè)能力很強(qiáng)的助手，而不是一個(gè)能夠自己推動(dòng) AI 進(jìn)步的系統(tǒng)。

今天的訓(xùn)練方法和模型架構(gòu)，究竟能否解鎖這種能力，確實(shí)還很不明確。但 AI 的進(jìn)步很少來(lái)自那種“靈光一現(xiàn)”的頓悟時(shí)刻。近年 AI 歷史中確實(shí)出現(xiàn)過(guò)一些這樣的時(shí)刻，比如 Transformer 架構(gòu)，或者混合專家（mixture-of-experts）模型；但真正改變范式的想法，往往幾年才出現(xiàn)一次。在這中間，大部分進(jìn)步其實(shí)都很“樸素”：把某個(gè)東西繼續(xù)放大，看看哪里出問(wèn)題，修掉，再試一次。而這恰恰正是 Claude 現(xiàn)在最擅長(zhǎng)的工作流。愛(ài)迪生說(shuō)，天才是 1% 的靈感加上 99% 的汗水。而我們看到的是，“汗水”這一部分正在越來(lái)越自動(dòng)化。越來(lái)越明顯的一點(diǎn)是：推動(dòng)前沿向前走的許多工作，本身就是可自動(dòng)化的；大規(guī)模研究進(jìn)展，在很大程度上取決于工具和資源——它們決定了你能多快跑實(shí)驗(yàn)、一次能跑多少實(shí)驗(yàn)，以及你能多快拿到結(jié)果。

即便我們假設(shè) Claude 永遠(yuǎn)也得不到真正好的研究品味，對(duì)現(xiàn)有證據(jù)做一個(gè)保守解讀，也仍然意味著一種“復(fù)利式加速”。如果人類(lèi)把大部分時(shí)間都花在那個(gè)位數(shù)比例的“方向設(shè)定”工作上，而剩余部分都交給 Claude 來(lái)做，那么每位工程師或研究者實(shí)際上都在同時(shí)駕馭比過(guò)去多得多的工作量。我們看到的證據(jù)表明，Anthropic 的員工不僅移動(dòng)得更快，也覆蓋了更廣的工作面。在實(shí)際層面，這意味著：自從有效的 AI 工具出現(xiàn)之后，AI 已經(jīng)讓 Anthropic 的推進(jìn)速度比過(guò)去快得多。

而一種沒(méi)那么保守的解讀則是：盡管目前證據(jù)還很初步，但 Claude 在研究判斷力上的提升，也許說(shuō)明這項(xiàng)能力本身也在進(jìn)步。“研究品味”也許只是另一種典型的 AI 能力：系統(tǒng)會(huì)先在一段時(shí)間內(nèi)表現(xiàn)得很差，然后突然開(kāi)始變得擅長(zhǎng)。類(lèi)似的模式，我們已經(jīng)在其他更偏定性的能力上見(jiàn)過(guò)，比如 AI 系統(tǒng)開(kāi)始能夠解釋一個(gè)笑話為什么好笑、展現(xiàn)“心智理論”，或者解開(kāi)語(yǔ)言謎題。

可能的未來(lái)

接下來(lái)會(huì)發(fā)生什么，取決于兩件事：第一，這條趨勢(shì)會(huì)不會(huì)繼續(xù)；第二，如果繼續(xù)，我們會(huì)選擇做什么。我們至少可以想象三種未來(lái)情景：

1. 趨勢(shì)停滯，但今天的 AI 能力廣泛擴(kuò)散

這篇文章里出現(xiàn)了許多指數(shù)型軌跡。但這些軌跡也可能最終只是 S 曲線。我們可能正接近曲線的彎折點(diǎn)：規(guī)模回報(bào)開(kāi)始遞減，增長(zhǎng)線條先變直，再趨于平緩。一個(gè)“合格研究員”和“偉大研究員”之間的差別，所依賴的那種判斷力，也許并不能通過(guò)繼續(xù)擴(kuò)大訓(xùn)練輸入（如算力和數(shù)據(jù)）來(lái)獲得。如果真是這樣，那么要越過(guò)這一瓶頸，就需要一個(gè)新想法，比如一種能夠取代當(dāng)前所有前沿模型所依賴的 Transformer 的新架構(gòu)路線。

另外，限制 AI 進(jìn)展的關(guān)鍵約束，也可能不在模型本身，而在供應(yīng)鏈：前沿能力的推進(jìn)與擴(kuò)散，也許需要比當(dāng)前世界可提供的更多能源和算力。制芯速度、電網(wǎng)擴(kuò)容、互連帶寬，也許才是真正的約束，而不是智能本身。我們也不能排除某種外生沖擊對(duì) AI 生態(tài)造成突然減速的可能，比如算力或電力供應(yīng)驟然收縮——無(wú)論哪一種，都會(huì)讓進(jìn)步變慢，也讓前沿實(shí)驗(yàn)室繼續(xù)投入的成本上升。或者，也可能存在其他我們尚未預(yù)見(jiàn)到的障礙。

即使把模型能力凍結(jié)在今天的水平，我們?nèi)匀活A(yù)計(jì)世界會(huì)發(fā)生重大變化。Project Glasswing 就是一個(gè)早期信號(hào)：在最初幾周里，Mythos Preview 在全球最重要的一些系統(tǒng)中發(fā)現(xiàn)了超過(guò)一萬(wàn)個(gè)高危和嚴(yán)重級(jí)別的軟件漏洞，多到網(wǎng)絡(luò)防御的瓶頸已經(jīng)從“發(fā)現(xiàn)漏洞”轉(zhuǎn)向“來(lái)不及修補(bǔ)漏洞”。而且，我們?nèi)蕴幵诮裉爝@些模型向更廣泛經(jīng)濟(jì)體系擴(kuò)散的早期階段——未來(lái)，一個(gè) 100 人的公司，越來(lái)越可能做出過(guò)去 1000 人公司才能完成的工作，因?yàn)槊恳晃粏T工身后都將站著一個(gè)代理金字塔。

之所以把這個(gè)情景列出來(lái)，是為了完整性；但我們并不認(rèn)為它最有可能發(fā)生。到目前為止，我們能測(cè)量到的所有能力——包括那些看起來(lái)更“軟”、更難量化的能力，比如代碼質(zhì)量和開(kāi)放任務(wù)成功率——都遵循著同樣的上升曲線。我們還沒(méi)有看到這條曲線開(kāi)始彎折。在我們討論的三種未來(lái)里，這一種會(huì)給政府和社會(huì)最多的適應(yīng)時(shí)間。相比之下，我們更擔(dān)心后面兩種，因?yàn)樗鼈儠?huì)來(lái)得更快，留給準(zhǔn)備的空間也小得多。

2. AI 實(shí)驗(yàn)室繼續(xù)獲得復(fù)利式效率提升

在這個(gè)情景里，AI 開(kāi)發(fā)將實(shí)現(xiàn)相當(dāng)程度的自動(dòng)化，但研究方向仍由人類(lèi)設(shè)定，結(jié)果也仍由人類(lèi)裁定。使用 AI 系統(tǒng)的組織會(huì)隨著時(shí)間推移變得越來(lái)越高效，因此我們可以預(yù)期，每一個(gè)組織成員的生產(chǎn)力都會(huì)被成倍放大。一個(gè) 100 人的公司，可能做出 1 萬(wàn)人甚至 10 萬(wàn)人組織才能完成的工作。這將徹底改造知識(shí)工作和政府服務(wù)，但它同樣可能被用于有害目的：從針對(duì)整個(gè)人群的威權(quán)監(jiān)控，到為每個(gè)個(gè)體量身定制、且以任何人工團(tuán)隊(duì)都無(wú)法匹敵的規(guī)模運(yùn)行的影響力操控。屆時(shí)，在 Anthropic 這樣的公司里，人類(lèi)的角色也會(huì)改變。人們將與 AI 系統(tǒng)協(xié)作，放大研究能力、生成新洞見(jiàn)，并共同建立那些用來(lái)驗(yàn)證 AI 輸出是否可信的系統(tǒng)。

我們?cè)谶@里展示的證據(jù)表明，我們很可能正在走向這個(gè)情景。但一個(gè)流程中某一環(huán)節(jié)的提速，往往只是把瓶頸推到了別處：整體速度終究受制于那些還沒(méi)有加快的部分。在計(jì)算機(jī)科學(xué)中，這叫阿姆達(dá)爾定律（Amdahl’s law），對(duì)組織同樣成立。Anthropic 已經(jīng)碰到了阿姆達(dá)爾定律的一個(gè)典型表現(xiàn)：隨著組織內(nèi)代碼流動(dòng)速度越來(lái)越快，人類(lèi)代碼審查已經(jīng)成為新的瓶頸。

而這種摩擦并不只存在于工程側(cè)。Anthropic 員工與高能力模型協(xié)作后，新的想法、計(jì)劃、工具和模擬實(shí)驗(yàn)出現(xiàn)了爆炸式增長(zhǎng)，多到我們根本沒(méi)有足夠能力去一一推進(jìn)。一個(gè)組織能多快發(fā)現(xiàn)并修復(fù)這些新瓶頸，也許會(huì)成為一種會(huì)隨著時(shí)間持續(xù)進(jìn)化的能力，并最終成為任何組織最重要的能力。

3. AI 系統(tǒng)本身獲得完全遞歸式自我改進(jìn)能力，并開(kāi)始構(gòu)建它們的后繼者

如果技術(shù)能力繼續(xù)沿著當(dāng)前趨勢(shì)前進(jìn)，而 AI 系統(tǒng)又獲得了那種屬于“變革性人類(lèi)創(chuàng)造力”的能力，那么 AI 系統(tǒng)設(shè)計(jì)并優(yōu)化自身的可能性就是現(xiàn)實(shí)存在的。

在這個(gè)世界里，AI 開(kāi)發(fā)進(jìn)度將完全由算力的可獲得性決定——或者說(shuō)，由 AI 系統(tǒng)自己發(fā)現(xiàn)訓(xùn)練或推理算法效率提升的速度來(lái)決定。人類(lèi)在開(kāi)發(fā)中的角色將大幅縮小，可能把大部分精力轉(zhuǎn)向?qū)σ粋€(gè)不斷擴(kuò)張的、由 AI 系統(tǒng)運(yùn)行的“虛擬實(shí)驗(yàn)室”進(jìn)行監(jiān)督、驗(yàn)證與核查。我們預(yù)計(jì)，一旦系統(tǒng)具備自動(dòng)化 AI 研究與開(kāi)發(fā)的能力，這些技能也會(huì)轉(zhuǎn)移到其他科學(xué)領(lǐng)域，從而開(kāi)始改寫(xiě)更多學(xué)科的發(fā)展方式。

在這種未來(lái)里，對(duì)齊問(wèn)題究竟會(huì)被如何解決——或者根本解決不了——是我們最沒(méi)有把握的部分。模型可能足夠?qū)R，同時(shí)也具備足夠好的研究品味，以至于能自行發(fā)現(xiàn)并實(shí)現(xiàn)我們尚未達(dá)到的新解決方案；它們甚至也可能足夠“明智”，在發(fā)現(xiàn)條件不足時(shí)主動(dòng)停止發(fā)展。另一種可能則是，今天模型中偶爾出現(xiàn)的失配問(wèn)題，會(huì)隨著模型不斷構(gòu)建其后繼者而不斷累積，變得越來(lái)越頻繁、卻越來(lái)越難以理解，直到我們最終失去控制。也有可能，我們根本來(lái)不及建立、整合并驗(yàn)證那些幫助我們判斷自己究竟正處在哪條軌道上的工具。

我們對(duì)這個(gè)世界會(huì)長(zhǎng)什么樣沒(méi)有良好直覺(jué)，因?yàn)榻裉斓慕?jīng)濟(jì)仍由人類(lèi)和人類(lèi)制造的工具驅(qū)動(dòng)。而從定義上說(shuō)，一個(gè)由快速遞歸式自我改進(jìn)驅(qū)動(dòng)的世界，可能會(huì)被這種能不斷自我增強(qiáng)的模型所主導(dǎo)：隨著它的能力全面超越人類(lèi)，并在整個(gè)經(jīng)濟(jì)中擴(kuò)散，世界將發(fā)生根本變化。如果人類(lèi)勞動(dòng)不再具有競(jìng)爭(zhēng)力，我們很難預(yù)測(cè)那時(shí)的經(jīng)濟(jì)會(huì)是什么樣子。

即使模型開(kāi)發(fā)真的實(shí)現(xiàn)了完全自動(dòng)化與遞歸化，我們?nèi)詿o(wú)法預(yù)測(cè)這對(duì)大多數(shù)人的日常生活究竟意味著什么。阿姆達(dá)爾定律在這里同樣適用。遞歸式智能可能會(huì)在某些領(lǐng)域迅速實(shí)現(xiàn) 《Machines of Loving Grace》中提到的許多好處。我們預(yù)計(jì)，具身智能（也就是機(jī)器人）可能會(huì)很快跟上遞歸式智能，并沿著類(lèi)似路徑，以更低成本獲得越來(lái)越高的回報(bào)。更強(qiáng)大的智能，也許會(huì)幫助我們更快地建造現(xiàn)實(shí)世界中的系統(tǒng)，開(kāi)展更高效的救命藥物臨床試驗(yàn)，發(fā)展新的協(xié)調(diào)機(jī)制。

但僅僅實(shí)現(xiàn)遞歸式改進(jìn)，并不意味著工業(yè)生產(chǎn)方式、社會(huì)組織方式或市場(chǎng)運(yùn)行方式會(huì)立刻改變。更強(qiáng)的智能無(wú)法讓我們?cè)趲滋靸?nèi)看見(jiàn)一種藥物幾十年后的長(zhǎng)期副作用，無(wú)法讓選舉早于憲法規(guī)定的時(shí)間舉行，也無(wú)法在一個(gè)周末之內(nèi)把陌生人變成老朋友。對(duì)大多數(shù)人而言，這種未來(lái)的“體感速度”仍將由瓶頸決定——即便上游實(shí)驗(yàn)室已經(jīng)在以算力的速度奔跑。遞歸式智能持續(xù)越來(lái)越快地構(gòu)建自身，而另一邊的人類(lèi)世界仍受制于關(guān)系、治理和制度的節(jié)奏；這兩者碰撞出的未來(lái)，也是我們無(wú)法預(yù)測(cè)的部分。

我們應(yīng)該做什么？

如果有可能有效放慢這項(xiàng)技術(shù)的發(fā)展，為社會(huì)爭(zhēng)取更多時(shí)間去應(yīng)對(duì)它所帶來(lái)的巨大影響，我們認(rèn)為這大概率會(huì)是一件好事。但如果“放慢”只是讓那些最不謹(jǐn)慎的參與者在技術(shù)上趕上來(lái)，那反而可能使所有人更不安全。在缺乏全球協(xié)調(diào)機(jī)制的情況下，企業(yè)和政府都將不得不在競(jìng)爭(zhēng)壓力和地緣政治壓力下，艱難地做出安全相關(guān)決策。

我們認(rèn)為，世界如果擁有“減速”或“暫時(shí)暫停”前沿 AI 開(kāi)發(fā)的選項(xiàng)，會(huì)是一件好事——這樣，社會(huì)制度建設(shè)和對(duì)齊研究才有機(jī)會(huì)跟上技術(shù)前進(jìn)的速度。Anthropic Institute 將與許多其他機(jī)構(gòu)合作，開(kāi)展研究并采取行動(dòng)，幫助建立一種真正可信的減速或暫停機(jī)制所必需的系統(tǒng)。這些系統(tǒng)應(yīng)當(dāng)使前沿 AI 開(kāi)發(fā)者能夠驗(yàn)證：全球其他參與者確實(shí)也已經(jīng)停止或放慢了腳步，同時(shí)也能確保壞行為者不會(huì)借由“協(xié)調(diào)減速”的名義偷偷加速領(lǐng)先。如果這樣的系統(tǒng)存在，我們預(yù)計(jì)：只要其他位于前沿或接近前沿的開(kāi)發(fā)者也在可驗(yàn)證前提下采取了同樣行動(dòng)，我們會(huì)愿意放慢甚至?xí)簳r(shí)暫停。

一次有意義的減速或暫停，要求多個(gè)資源雄厚、處在前沿或接近前沿的實(shí)驗(yàn)室，分處多個(gè)國(guó)家，并在同樣條件下同意停下；同時(shí)，還要求各方都能驗(yàn)證其他方確實(shí)停下了。由于 AI 系統(tǒng)本身的獨(dú)特特性，這一軍控問(wèn)題中的“可探測(cè)性”（detectability——標(biāo)準(zhǔn)低于“可驗(yàn)證性”）比其他技術(shù)困難得多。訓(xùn)練運(yùn)行比導(dǎo)彈發(fā)射井更容易隱藏，它們的輸入也都是通用型資源，而偷偷違約的激勵(lì)又極其強(qiáng)烈——因?yàn)楫?dāng)別人暫停時(shí)，誰(shuí)繼續(xù)推進(jìn)，誰(shuí)就可能繼承領(lǐng)先地位。一個(gè)可信的暫停機(jī)制還必須明確：什么觸發(fā)暫停，什么條件下解除暫停，以及由誰(shuí)來(lái)裁定。

從原則上說(shuō)，這并不一定不可能。人類(lèi)社會(huì)曾經(jīng)為其他復(fù)雜技術(shù)建立過(guò)驗(yàn)證機(jī)制，比如《中導(dǎo)條約》（Intermediate-Range Nuclear Forces Treaty）。但那類(lèi)機(jī)制用了幾十年才建立起基礎(chǔ)設(shè)施與互信。我們已經(jīng)沒(méi)有那么長(zhǎng)時(shí)間了。相比之下，由單個(gè)實(shí)驗(yàn)室單方面暫停，今天立刻就可以做到，但作用小得多：它只會(huì)改變誰(shuí)是領(lǐng)跑者，卻無(wú)法創(chuàng)造當(dāng)前真正缺失的、更廣泛的社會(huì)性討論過(guò)程。

未來(lái)幾個(gè)月，我們將組織一系列討論，讓政策制定者、研究人員、公民社會(huì)以及其他 AI 公司，一起回答本文提出的一些問(wèn)題，尤其是關(guān)于完全遞歸式自我改進(jìn)，以及如何為協(xié)調(diào)與審議創(chuàng)造更好選項(xiàng)的問(wèn)題。我們也會(huì)把這些討論的成果發(fā)布出來(lái)。現(xiàn)在，正是一起研究這些問(wèn)題的窗口期，而 AI 公司之外的人，也應(yīng)當(dāng)被納入這場(chǎng)討論。

Marina Favaro 和 Jack Clark 共同撰寫(xiě)了本文，Santi Ruiz 提供編輯支持。Shan Carter、Romello Goodman 和 Nikki Makagiansar 基于 Brian Calvert 與 Jun Shern Chan 收集的數(shù)據(jù)制作了文中視覺(jué)內(nèi)容。Daniel Freeman、Jim Baker、Max Young、Sarah Pollack、Francesco Mosconi、Holden Karnofsky、Andy Jones、Kevin Troy、Anton Korinek、Meg Tong、Andrew Ho、Dan Altman、Drake Thomas、Jack Shen、Sasha de Marigny 和 Avital Balwit 提供了反饋。

腳注

[^1]: METR 的關(guān)鍵衡量指標(biāo)，是 AI 系統(tǒng)在一組任務(wù)上達(dá)到 50% 可靠性時(shí)所對(duì)應(yīng)的任務(wù)時(shí)長(zhǎng)；不過(guò)，即便使用 80% 可靠性標(biāo)準(zhǔn)，趨勢(shì)線看起來(lái)也幾乎一樣。

[^2]: 尤其當(dāng)基準(zhǔn)越來(lái)越偏向開(kāi)放式格式和更困難任務(wù)（例如奧數(shù)級(jí)數(shù)學(xué)問(wèn)題）時(shí)，由于題目與答案集本身可能存在歧義、題目無(wú)法求解等問(wèn)題，基準(zhǔn)往往會(huì)在低于 100% 的位置就“飽和”。

[^3]: Anthropic 管理層曾公開(kāi)估計(jì)，我們超過(guò) 90% 的代碼都是由 Claude 寫(xiě)的，這其中包括腳本和實(shí)驗(yàn)性代碼。本文所說(shuō)的 “>80%”，指的是合并進(jìn)生產(chǎn)環(huán)境的代碼行中，可歸因于 Claude 的占比。這個(gè)指標(biāo)更保守，體現(xiàn)在兩方面：一是我們的歸因流程本身存在缺口；二是那些未被歸因給 Claude 的代碼行中，也包含自動(dòng)生成代碼和其他并非人類(lèi)手寫(xiě)的內(nèi)容。

[^4]: 這輪代碼產(chǎn)量激增，正在擠壓大家共用的基礎(chǔ)設(shè)施。作為全球大部分軟件構(gòu)建的平臺(tái)，GitHub 在整個(gè) 2025 年大約記錄了 10 億次代碼提交；而到 2026 年年中，這一數(shù)字已經(jīng)變成每周 2.75 億次，按全年速度估算大約會(huì)達(dá)到 140 億次。GitHub 首席運(yùn)營(yíng)官表示，公司正“極其努力地”擴(kuò)容，僅僅為了跟上這個(gè)增長(zhǎng)速度。

[^5]: 關(guān)于這項(xiàng)調(diào)查的方法學(xué)細(xì)節(jié)，可參見(jiàn) Claude Opus 4.7 System Card 的第 2.3.5 節(jié)。

[^6]: 許多受訪者可能并未仔細(xì)考慮應(yīng)如何校正這個(gè)問(wèn)題中的各種偏差或定義細(xì)節(jié)，而 METR 最近的研究顯示，開(kāi)發(fā)者對(duì) AI 帶來(lái)生產(chǎn)率提升的主觀估計(jì)，往往會(huì)高于實(shí)際值。

[^7]: 具體加速能達(dá)到多大程度，很大程度上取決于起始代碼本身還留有多少優(yōu)化空間，因此這里的絕對(duì)倍數(shù)不應(yīng)被直接解讀為現(xiàn)實(shí)世界中的訓(xùn)練加速效果。更有信息量的是這種“同條件對(duì)比”所提供的比較：不同模型之間（過(guò)去一年從約 3 倍到約 52 倍）以及模型與熟練人類(lèi)之間（在同樣任務(wù)上，人類(lèi) 4 到 8 小時(shí)做到約 4 倍）的差異。

[^8]: 為了檢查裁判偏置，我們還在另一組 127 個(gè)時(shí)刻上做了同樣測(cè)試；這些時(shí)刻里，人類(lèi)當(dāng)時(shí)的下一步本來(lái)就已經(jīng)很強(qiáng)（與原始測(cè)試集“人類(lèi)方向存在改進(jìn)空間”不同）。在這組對(duì)照中，模型給出的建議只有大約 20% 的情況下被判定為更優(yōu)。

點(diǎn)個(gè)“愛(ài)心”，再走吧

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.