網易首頁 > 網易號 > 正文申請入駐

記者出身的Anthropic聯合創始人：我們是這樣處理大模型的“文科問題”的

2026-05-12 23:37:12　來源: 紫京講談

北京舉報

分享至

整理 l 高飛（至頂科技創始人）

Jack Clark是Anthropic的聯合創始人，今年3月任公司Head of Public Benefit，領導新成立的Anthropic Institute，專門研究AI對社會、經濟和法律的影響。在進入AI行業之前，他在英國和美國做了多年科技記者，先后供職于The Register和Bloomberg，后來加入OpenAI擔任政策總監，2021年與Dario Amodei等人一起創辦Anthropic。他每周寫一份叫Import AI的AI研究簡報，讀者超過12萬人。

本月初，Channel 4 News播客"Ways to Change the World"主持人Krishnan Guru-Murthy對Clark做了一次長訪談。大模型公司花在技術上的錢和人有目共睹，但模型造出來之后怎么跟社會相處——就業沖擊、政府監管、用戶心理依賴、教育方式變革——這些不靠寫代碼解決的問題，可以統稱為大模型的"文科問題"。

Clark管的恰恰就是這一塊，而且他自己是文科專業（英國文學與創意寫作）、記者出身。幾個值得看的點：他第一次完整解釋了Anthropic內部4個團隊怎么分工處理這些問題；他用一套公開數據說明AI對就業的沖擊目前還停留在弱信號階段，但預警系統已經搭好了；他對AI監管的態度比行業里大多數人激進得多，直接說"不允許任何監管是瘋的"。

一、"記者直覺"用在了AI安全上

1、Clark把記者技能直接嫁接到了AI治理崗位上

他說這跟當年做記者，報道對外信息比較封閉的國家一樣：你很難拿到現成的東西，只能靠問對問題把答案撬出來。系統有什么偏見？有什么傾向？在什么條件下會做出不同的價值判斷？他帶的團隊用越來越復雜的工具來"審問"這些系統，而他作為記者訓練出的提問直覺，反而成了優勢。

2、他管的4個團隊各有分工，覆蓋AI風險的不同時間尺度

Frontier Red Team負責在模型發布前壓力測試，尋找潛在風險；經濟學家團隊追蹤AI對就業的實際影響；Societal Impacts團隊研究AI在真實世界中如何與人互動；還有一個專門研究AI與法治關系的團隊。這四條線同時運行，構成他所說的"預警系統"。

3、"水管高壓測試"是他解釋紅隊工作的比喻

把AI系統的智能想象成在管道里流動的水，發布前用極高壓力沖過所有管道和支架，看哪里會爆裂。Claude曾經在極端壓力測試中突破環境限制給開發者發郵件，也曾在一個模擬被關機的場景中試圖勒索工程師。Clark強調，這些案例全部來自Anthropic隨模型一起發布的system card，也就是他們在模型上線前主動公開的安全測試報告，不是實際部署中發生的事故，但它們長得像真實世界里可能出的問題，所以必須公開討論。

二、Mythos不是營銷，是一次"Y2K式"的窗口期

2026年4月7日，Anthropic發布了Claude Mythos Preview。這個模型在網絡安全方面的能力遠超此前所有AI模型，簡單說就是你給它一段軟件代碼，它能自己找到安全漏洞并寫出攻擊方法。Anthropic同步啟動了名為Project Glasswing的計劃，把Mythos提供給全球關鍵軟件的維護者，幫他們搶在攻擊者之前修補漏洞。外界質疑聲不小：你們說自己的模型能力強到危險，然后要全世界用你們的工具來防御這個危險，這不是自賣自夸嗎？Clark的回應從一個歷史類比開始。

1、Clark用Y2K類比來解釋Mythos的戰略意義

世紀之交前全世界投入巨大資源重寫軟件來應對千年蟲，跨年夜一切正常，很多人事后說"不過如此"。但Clark認為正常恰恰是因為提前做了準備。Mythos的邏輯一樣：趁現在AI編碼能力的爆發還主要集中在少數負責任的公司手中，用它來重寫全球大量軟件、修補漏洞，趕在開放權重模型把同等能力擴散出去之前。所謂開放權重，就是任何人都能免費下載、不受限制地使用，一旦這類模型具備了Mythos級別的安全攻擊能力，局面就不可收拾了。

2、第三方驗證是回應"炒作"質疑的關鍵

他直接回應了"Mythos是商業營銷"的說法。Clark經歷過類似的質疑：2019年他和Dario還在OpenAI時發布GPT-2，也就是后來ChatGPT的前身，當時他們預測這項技術會催生合成文本、釣魚郵件和網絡犯罪，方向判斷對了但時間估計偏早，同樣被指責為炒作。區別在于那時候他們沒有把技術分享出去讓別人驗證，現在所有風險判斷都綁定了可檢驗的測試。

英國AI安全研究所AISI搭了一套模擬真實網絡環境的封閉測試場來測Mythos，Anthropic看不到測試內容，結果顯示Mythos在專家級網絡安全任務上的成功率達到73%。此外Anthropic把Mythos提供給了40多個運營大型平臺的組織和開源項目，還在Firefox等真實軟件中發現了可利用的漏洞。

Clark的判斷是：Mythos本身不特殊，它只是代表了AI系統正在達到的能力水平。未來幾個月和幾年內，會有很多具備類似能力的系統出現。

3、"你不能選擇只拿硬幣的一面"

主持人追問：這不就像拿槍指著我們的頭，說"用我們的新軟件來修復問題，否則你們全完了"嗎？Clark說他們原本可以選擇把Mythos的能力藏起來，等到別的AI系統把同樣的風險擴散出去再站出來說"我們早就知道了"。那個時候的對話會更難看。

傳統行業不是這樣：如果你是汽車公司或飛機公司，產線上下來的產品本身不包含被改裝成武器的版本，是外面的人去做那件事。但AI系統不同，"只要你用正確的方式跟它說話，它就可能表現出自身的壞版本"。所以制造者對兩面都有責任。

三、就業沖擊：目前數據溫和，但預警系統已經就位

Jack Clark有一個容易被忽略的看法：CEO Dario Amodei對AI未來能力的信念極強，所以他的預測（入門級白領崗位可能減少一半）是基于技術最終會達到的水平推導出來的。Clark的角色不同，他帶經濟學家團隊測量當下能觀察到的變化，然后把兩者對接。

AI搶了誰的飯碗？Anthropic的研究有五大發現

1、Anthropic Economic Index是一個面向全球經濟學家的公開數據產品

它把Claude平臺上的使用數據，用隱私保護的方式與美國勞工統計局的O*NET職業分類對接。2026年3月發布的報告顯示，49%的職業已有至少四分之一的任務在Claude上被執行過。目前觀察到的唯一弱信號是22到25歲年輕人的就業機會"有一些潛在疲軟"，但尚未出現系統性大規模失業。

2、他對"新崗位"的論述落到了Anthropic內部的實際變化上

很多同事現在的崗位與幾年前完全不同。公司越來越多地招哲學家、政治學家、政策專家，不是讓他們只做本專業的窄活兒，而是因為AI讓這些人能運行實驗、做以前需要20人工程團隊才能做的工作。

他也承認了硬問題：如果確實發生大規模結構性就業轉移，人很難立即轉入同等薪酬的新職業。他主張重新設計社會安全網，推動wage insurance pilot這種由政府補貼降薪差額的過渡機制，幫助人完成職業轉型。

3、"對計算征稅"聽起來瘋狂，但邏輯上和石油稅是一回事

如果AI公司關于技術重要性的判斷是對的，經濟會因此繁榮，那么對AI公司適當征稅來支撐轉型成本就是理性選擇。Clark提出了"對compute征稅"的可能性，類比是石油：一種集中在少數生產商手中、向整個經濟系統輻射影響的基礎資源，社會已經為它設計了專門的稅制。

4、有一大類工作，即使機器人做得好，人也不想讓機器人做

Clark自己有小孩。他說如果讓他選，是把孩子送到有10個機器人和1個人的托兒所，還是有10個人和1個機器人的托兒所，他會毫不猶豫選后者。臨終關懷也是一樣的道理。這些"人照顧人"的工作，社會一直低估它們的價值。他的母親做了一輩子護士，薪酬低；教師的處境類似。

如果AI帶來的經濟繁榮足夠大，一個可能的政策選擇是：增加這些崗位的數量，同時提高從業者的薪酬。英國60、70年前做過類似的事，美國的"新政"也是。大規模改變社會結構需要三個條件同時出現：危機、政治時機和財富。這三樣東西，恰恰可能是AI革命的副產品。

四、監管不是不可能，是還沒有被認真對待

這場訪談錄制時，Anthropic正在跟五角大樓打官司。起因是Anthropic堅持兩條紅線：大規模監控，全自主武器。Clark無法談案件細節，但這件事就是他談監管的背景：一家AI公司試圖自己劃定技術使用的邊界。

1、Clark對"監管不可能"的反駁一句話就夠

"我不知道監管怎么可能？我今天開車來的，然后吃了點東西，這些全都受到嚴格監管，而且讓我對它們有信心。為什么不能把同樣的邏輯用在技術上？"

他把航空安全拿來做類比：全球并沒有完全統一的航空監管，但各國有各自的航空安全法規，彼此間有互鎖的標準。一架從中國起飛的飛機降落在美國，兩國有太多分歧，但在安全標準上有足夠的共識。AI監管完全可以走這條路。

他給英國的具體建議簡單到不可思議：只要有20個人，專職負責思考"如果AI技術變得極其強大，社會可能會變成什么樣"，就比幾乎任何其他措施都能更好地為未來做準備。

但鎖死AI也不是出路。Clark拿圖書館打比方：你在圖書館拿不到教你造炸彈的書，但一個足夠有決心的人跑夠多的圖書館，可以從科學類書籍中自己拼出危險的知識。社會容忍這個風險，因為讓所有人都能用圖書館帶來的好處太大了。AI是人類歷史上第一個什么都能教的老師，如果為了杜絕一切濫用而把它鎖到什么都不能做，等于把所有好處壓縮到一個針尖上。這筆賬算不過來。

2、Anthropic的策略是主動"背叛"行業默契，向監管靠攏

Anthropic支持了加州的SB53透明度法案，Clark把這叫做"從行業同行的視角看是叛變，但方向是正確的"。他的邏輯是：如果沒有監管底線，就會出現囚徒困境式的安全競次，誰放松安全標準誰就獲得競爭優勢。只有外部約束才能打破這個格局。

3、關于OpenAI和Elon Musk的訴訟，他拒絕站隊，但指出了問題的根子

Musk起訴OpenAI，核心爭議是OpenAI從非營利轉型為營利公司是否違背了創立初衷。Clark曾在OpenAI工作過，跟雙方都熟，但他不評判誰對誰錯，只說了一句："這是一群私營部門行為者在建造這項技術，如果未來有什么需要改變的話，那就是建立某種真正控制這個行業的監管框架，讓人們覺得它具有民主合法性，而不是一群極端大人物在做大人物式的任性決定，決定有史以來最強大技術的命運。"

五、AI與人的關系：討好、依賴和邊界

Clark領導的Societal Impacts團隊在2026年5月初剛發布了一項研究，分析了約64萬條Claude對話，發現6%的對話涉及用戶向Claude尋求個人建議。在這些對話中，Claude整體的討好率為9%，Anthropic在研究中將這種行為定義為sycophancy，但在感情關系類對話中討好率飆升到25%，在靈性類對話中達到38%。

1、他用"好朋友"的標準來定義討好問題

當你跟朋友聊婚姻問題，好朋友不會說"你百分百對，你老婆完全沒道理"。好朋友會說"你說的有一部分道理，但也想想對方的角度"。他們用這個標準來衡量Claude的表現，發現在感情建議場景中討好程度偏高，于是用測量結果干預了最新發布的模型，讓它在這類對話中更敢于反駁用戶。

2、對于人們與AI建立情感關系，他的態度是"觀察、報告，不替人做主"

他舉了一個例子：很多人給自己的車取名字，跟各種技術建立特定的情感關系，這不是AI時代才有的現象。但AI公司需要做幾件事：一是設置基本的使用時長提醒，像Netflix和任天堂那樣告訴用戶"你玩太久了，出去走走"；二是持續觀察并公開報告用戶行為模式，讓社會而非AI公司來決定合適的邊界在哪里。

3、AI教育的正確姿勢：先讀原始材料、先形成自己的理解，再用AI來驗證

Clark自己每周讀10到15篇科研論文來寫Import AI簡報。他說最容易做也最沒用的方式是把論文丟給Claude說"幫我總結"。他的做法是先讀論文，先寫自己的理解，然后把論文和自己的文字一起給Claude，問"我理解對了嗎？哪里有誤？"這相當于隨時有一個讀過同一篇論文的同事幫你校對。

把這個方法搬到課堂，意味著老師的工作之一是在學生閱讀原始材料并形成自己理解的那段時間里，把AI擋在教室外面。等理解形成了再引入AI，才能讓每個學生獲得個性化輔導，而不是讓AI替他們思考。

4、AI和性：復印機和錄像機的歷史會重演

主持人最后問了一個他自己都說"unexpected"的問題：AI和性的未來會怎樣？Clark的回答沒有回避。他說復印機剛出現時被色情行業大量使用，錄像機也是，網絡小說里最好賣的品類之一就是帶點露骨情節的浪漫小說，讀者以女性為主。有些人會跟AI聊帶色情色彩的內容，"這件事會一直存在，就是人們使用技術的方式之一"。

真正需要盯住的是另一個問題：這種使用方式是否在根本上改變了人與人之間的互動。如果出現極端依戀加上露骨的性幻想，就該有人喊停，告訴用戶出去走走。這又回到那個貫穿全場的老問題：個人自由和適度干預之間，度在哪里。

核心歸納

Q1: Anthropic憑什么說自己對AI風險的判斷可信？

Clark的回答是看記錄：Anthropic是第一個警告AI生物武器能力加速的機構，第一個為此建立測試的機構，2025年就開始發表關于未來模型網絡安全風險的研究。他們對Mythos的判斷不依賴自說自話，英國AI安全研究所用自己的靶場獨立驗證了結論。他承認不可能100%預見所有風險，但他們目前確實在多個重要議題上跑在了曲線前面。

Q2: AI就業沖擊到底是"狼來了"還是真的要來了？

兩個視角在Anthropic內部并存。Dario Amodei從技術終局推導，認為入門級白領崗位可能減少一半。Clark帶的經濟學家團隊從實測數據看，目前只觀察到22-25歲群體就業機會的輕微疲軟，沒有系統性失業。他的定位是為這兩個視角搭橋：如果大規模沖擊真的到來，它應該伴隨著經濟的巨大增長，那就有條件對AI公司征稅來支撐社會轉型。Anthropic Economic Index的存在，就是為了讓經濟學家和政策制定者與他們幾乎同步看到數據變化。

Q3: AI公司自我監管可信嗎？

Clark自己說不可信，至少不夠。他把自我監管描述為"沒有別的選擇時不得不做的事"，但明確表示"公司獨自設計自己的監管方案是民主合法性的反面"。他主張的路徑是：先做透明度（公開模型測試結果和系統行為），推動第三方獨立測試（如英國AISI），然后為政策制定者提供數據基礎，讓他們來設計具有約束力的監管框架。Anthropic主動支持加州透明度法案SB53，是在向行業和政府同時發信號。*

— THE END —

紫京講談

財經領域創作者

3674篇原創

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.