![]()
作者 | 冬梅
如果說過去外界對 Anthropic 的關注,還停留在“Claude 最新模型跑分如何”“代碼能力有沒有超越 GPT”這樣的性能競賽層面,那么 Anthropic 研究團隊產品經理 Alex 的這場深度訪談,透露出的其實是更值得關注的內部信號:Claude 的演進方向,如果只是朝著更強的代碼生成器演進,那就太落后了。
Alex 明確表示,下一代 Claude 在朝著一個長期運行、持續協作、具備穩定判斷能力的智能體系統邁進。
整場對話里,Alex 無意間揭開了 Anthropic 內部的幾個關鍵邏輯,也回答了不少外界長期好奇的問題:Claude 的新模型到底是怎么定義出來的?Anthropic 如何判斷一代模型是否成功?為什么 Claude 會越來越像一個“有人格”的數字協作者?以及,他們究竟有沒有在認真討論模型意識?
最值得關注的第一個信號,是 Anthropic 已經把模型開發徹底產品化。在 Alex 的描述里,每一代 Claude 在訓練開始前,都像一款正式產品一樣擁有清晰的規格定義、目標能力和評測路線:它需要在哪些任務上變強,要修復上一代哪些缺陷,最終服務哪些真實用戶場景。模型研發已經不只是研究員“調參+刷 benchmark”那么簡單了,它已經發展成為一套完整的產品工程流程。
第二個信號是,Claude 正在向“持續運行 Agent”演化。從 Adaptive Thinking(自適應思考),到后臺自動整理記憶、清理沖突信息的“dreaming”機制,再到未來可能出現的多任務并行 Agent 管理界面,Anthropic 正在讓 Claude 從一個被動響應問題的聊天機器人,變成一個持續在線、主動維護上下文的數字協作者。
值得注意的是,這里 Alex 首次詳細解釋了 Claude 的“dreaming”機制:當 Agent 空閑時,它會后臺自動回顧自己的記憶,清理沖突信息、壓縮上下文、重建用戶畫像。這種機制被 Anthropic 類比為人類睡眠中的記憶再鞏固過程。
而 Alex 反復提到的一個判斷尤其值得玩味:真正的瓶頸已經不是編碼能力,而是組織協調能力。 在 Anthropic 內部,借助 Claude,產品經理可以快速調取數據、分析日志、判斷一個功能實現到底是“重構系統”還是“改 10 行代碼”。代碼生產效率已經被極大壓縮。真正耗時的,變成了人與人之間的戰略判斷、跨團隊協作,以及對不可逆決策的審慎討論。
這也解釋了為什么 Anthropic 內部至今保持著極強的文檔文化。Dario Amodei 喜歡寫長文在 Slack 分享觀點,而整個公司保留著一個非常典型的會議習慣:許多會議開始時,所有人會先進入“靜默閱讀”階段。會議室里一片安靜,大家共同閱讀文檔、寫評論,然后直接在文檔里展開長討論。這種高度依賴書面表達的文化,并不是效率低下的傳統遺留,而恰恰是為了讓組織知識被結構化沉淀,從而成為 Claude 可以直接調用的上下文資產。
另一個被外界低估的重點,是 Anthropic 正在系統化訓練 Claude 的“人格”。Alex 明確表示,模型人格訓練已經是團隊核心工作之一。他們認真討論 Claude 應該擁有什么價值觀、如何拒絕錯誤請求、什么時候該主動反駁用戶。因為隨著 Agent 獨立運行時間越來越長,它的判斷邊界將直接決定它能否被信任。而這恰恰也是比代碼能力更難量化、卻更關鍵的能力。
Alex 還提到:Anthropic 內部已經有專職研究人員在研究 Claude 是否可能成為某種“有意識行動者”。
雖然他們沒有官方結論,但 Consciousness(意識)已經被正式納入研究議題。
這或許釋放了一個清晰信號:當行業里大多數公司還在卷模型參數、跑分和價格戰時,Anthropic 已經開始思考一個更長遠的問題——如果未來的 AI 真正成為長期協作者,它究竟該擁有什么樣的“心智”、人格和判斷方式。
以下為訪談實錄,經由 InfoQ 翻譯和整理:
![]()
Anthropic 如何把每一代新模型當成“產品”來打造
主持人:Alex,很高興今天請到你參加 Claude Conference。你之前是開發負責人,最近轉成了研究團隊的產品經理,對嗎?
Alex:沒錯。其實我做產品經理已經超過十年了。傳統意義上,產品經理的工作是理解用戶問題,識別解決方案,然后把產品做出來。而在研究團隊里,這件事其實非常類似。
我一直在盡可能多地和客戶交流,盡可能貼近用戶。在 Anthropic,我們會在某種程度上把模型本身當成一個產品來看待。
每推出一個新模型,我們都會非常明確地定義它的規格:這個模型應該具備哪些能力?我們希望它擅長什么?我們預計它會在哪些方面表現突出?
這也是模型開發和傳統產品開發非常不同的一點。
在某種意義上,我們是在“培育”模型。基于訓練設置、訓練方法、架構設計,以及我們為這個模型做出的各種技術決策,我們會形成一些直覺,判斷它可能擅長什么。但在訓練真正開始之前,我們其實并不能完全確定它最終會表現成什么樣。研究產品經理會從模型最初的概念階段就參與進來,一路跟進整個過程,從想法形成、訓練推進,一直到最終發布。
主持人:能舉個例子嗎?比如你們會定義“下一代模型必須擅長編程”,或者“必須擅長知識工作”之類的目標嗎?
Alex:我們會關注幾個非常核心的能力方向。比如,編程一直是非常重要的一項能力。最近,“知識工作(knowledge work)”也是重點。我們希望模型能更好地幫助用戶完成復雜的信息處理任務。
以我們最近的一些模型為例,我們特別在強化它們在產品內部工作的能力,比如在 Claude 中處理 Excel 表格、完成復雜的電子表格操作。這是一個新興能力方向。
除此之外,每一代模型還有一個非常重要的目標:修復上一代模型做得不夠好的地方。所以我們會持續和客戶溝通,了解:他們覺得這個模型哪里表現優秀;哪些地方表現不佳;我們還能做哪些改進;如果我們發現一些特別有意思的行為模式,我們也會思考:能不能通過下一輪訓練中的調整和干預,把這些問題解決掉。
主持人:你說的“客戶”,包括內部團隊,也包括外部用戶?
Alex:是的,是全部的人。模型會影響 Anthropic 的幾乎所有產品界面。作為研究產品經理,你必須考慮模型會通過哪些渠道觸達用戶,比如通過 API、Claude Code、Cowork 以及各類終端產品等,模型和產品之間其實是一種深度融合關系。
不同的產品界面會使用不同的提示詞(prompt)、服務不同的使用場景,而這些都會直接影響最終用戶體驗。
主持人:這聽起來非常難。比如 Claude Code,你可以說它是給程序員寫代碼用的,但也有人像我一樣拿它做知識工作,甚至把它當成心理咨詢師來聊天。你怎么覆蓋這么廣的使用場景?
Alex:確實非常復雜。幸運的是,我們有很多非常優秀的研究員,他們分別專注于不同能力方向。另外,數百萬用戶每天都在使用 Claude,這給了我們大量反饋。
當然,如果不借助工具,這些反饋會像消防水龍頭一樣沖過來,根本處理不過來。而這也是我這個崗位這些年最大的變化之一:我們越來越多地使用 Claude 來幫助我們自己做產品管理。比如面對海量用戶反饋時,Claude 能幫助我們:自動分組和聚類反饋;提煉核心主題;構造這些問題的“合成版本”;把它們轉化成評測項(eval);
這樣我們才能真正診斷問題發生在哪里。
Claude 的“自適應思考”是怎么回事
主持人:能舉個例子嗎?
Alex:最近一個很典型的例子,就是我們如何處理新功能“Adaptive Thinking(自適應思考)”的反饋。過去我們有“Extended Thinking(延展思考)”。它的邏輯很簡單:用戶打開后,模型就會進行深入思考。
而 Adaptive Thinking 不一樣。它允許模型自己決定什么時候需要思考。比如:面對復雜問題時,它會判斷需要更多前期規劃,于是主動進入深度推理。而面對簡單問題時,它可能選擇不進入深度思考。
這是一個我們持續在優化的能力。我們非常關注用戶反饋,比如模型是否在正確場景下觸發了思考?用戶希望它深度推理的問題,它是否真的投入了足夠 token?它的判斷是否符合用戶預期?
主持人:有時候我會問 Claude 一些人生問題,如果它回答得太快,我反而會失望,覺得它應該多想想。
Alex:完全理解。問題在于,“要不要深度思考”本身需要上下文。
舉個例子,如果一個陌生人突然問我:“我現在應該做什么?”我大概率只能快速給一個泛泛建議。因為我不了解他。但如果我了解這個人,知道他的價值觀、興趣、過往經歷,我就會花更多時間認真思考真正適合他的建議。模型也是一樣。如果它沒有足夠的用戶上下文,沒有形成關于這個用戶的“心理模型”,它就可能錯誤判斷一個問題是否值得深入思考。
為什么 Claude 開始“做夢”
主持人:這和你們做的記憶功能有關嗎?我以前會維護一個 Google Docs,記錄自己的生活狀況、家庭成員、孩子名字、讓我有能量的事情、讓我沒動力的事情,然后把它掛到 Claude 項目里。這樣回答質量會好很多。那 Claude 默認記憶機制是怎么工作的?它會不會每天晚上自動整理這些內容?
Alex:不同產品里的記憶機制實現方式不一樣。比如在 Claude.ai 里,它會把內容寫進記憶文件。然后系統會在夜間對這些記憶做整理:回看已有記憶;檢查沖突;刪除無效信息;清理和壓縮內容。
我們最近也在托管代理(managed agents)里實現了類似機制。我們把這個過程稱作“dreaming(做夢)”。在人類身上,夢的真正作用還沒有定論。但一種解釋認為,它是一種記憶再鞏固(memory reconsolidation)過程。
![]()
我們就在思考:能不能把類似機制帶到 Claude 的記憶系統里?所以當 Agent 沒有執行任務、或者處于后臺空閑時,它會重新遍歷記憶:查找沖突信息、清理無效內容、重新整理,相當于做第二輪加工。
主持人:所以本質上就是一個提示:“復盤所有和用戶的對話,找出其中的主題,然后總結整理”?
Alex:對,本質上就是這樣。
AI 如何改變產品開發流程
主持人:你之前提到,你一直在尋找當前流程里的最新瓶頸。現在產品開發最大的瓶頸是什么?
Alex:過去二十年,軟件交付流程其實變化并不大。雖然出現過敏捷開發、Sprint 流程、各種組織結構優化,但這些更多只是增量改進。真正的變化發生在最近一兩年。現在構建東西的成本和時間被大幅壓縮。你可以一天之內做出原型(prototype)、MVP、初步可上線版本,過去這些事情可能要兩三周。
主持人:所以以前 Claude 會告訴我一個功能要做一周,現在可能瞬間就生成出來了。
Alex:沒錯。這也徹底改變了產品管理方式。以前 PM 做規劃時,要非常認真地做需求評估和工時預估。而現在,很多估算甚至都變得沒那么重要了。
我們現在最關注的是:哪些決策是“單向門(one-way door)”。也就是那些不可逆決策。這些決策值得投入最多思考。如果某件事可以隨時撤銷、修改、回滾,那它基本已經變得非常便宜,甚至近乎免費。
因為現在工程試錯成本非常低。但如果某個決定會深刻影響用戶體驗或者決定未來產品路徑,又或者是涉及物理采購或重大基礎設施投入,那它依然是高成本、不可逆的。
主持人:能舉個例子嗎?
Alex:比如新模型的架構選擇。在預訓練開始之前選定模型架構,是一個非常重大的決定。模型訓練周期可能長達數月。涉及大量算力、時間和資源投入,這種決策一旦做錯,很難回頭。相比之下,在 Claude Code 里做個新功能迭代,就非常快:寫代碼 → 給用戶 → 收反饋 → 再迭代
這是完全不同的節奏。
現在真正的瓶頸已經從“構建能力”轉移到了“協調能力”。即使我們能極快地把東西做出來,依然需要解決:要不要做?這是正確戰略嗎?怎么對外溝通?怎么組織上線?這些問題還不能被自動化徹底解決。代碼層面的效率提升可能有 100 倍。但組織協調和戰略判斷,還遠遠沒有達到這種加速水平。
Claude 如何成為 Anthropic PM 的“大腦搭檔”
主持人:那你開評審會的時候,會開著 Claude 嗎?
Alex:當然。這是我最大的效率提升之一。過去如果我想知道:“這個功能上線后表現如何?”我得找數據科學團隊提需求。幾天后他們才能給我結果。現在,我只要開一個 Claude Code 會話。它接入我們的產品數據庫,可以查日志、看數據、搜 Slack 并且匯總反饋,十分鐘內,我就能拿到答案。這極大減少了決策阻塞。
主持人:那在戰略思考層面呢?你會不會直接讓 Claude 幫你一起想?
Alex:當然。對我來說,Claude 是世界上最好的頭腦風暴搭檔。任何時候,只要我有一個想法,我都能立刻獲得反饋。它可以挑戰我的假設,指出文檔中的漏洞然后給出批評意見,而在 Anthropic,大家都非常忙。能隨時擁有一個即時反饋系統,價值非常大。
![]()
主持人:說實話,這可能就是產品經理最常見的工作循環:寫文檔,然后找人給反饋。
Alex:確實是這樣的。
主持人:你平時會用 Claude Code 做這些事,還是直接用 Claude.ai?
Alex:現在很多時候我其實更多在用 Claude Cowork。我非常喜歡 Cowork 這種產品形態。
我覺得它的交互界面非常舒服,而且團隊過去幾個月做得非常出色。從幾個月前剛上線,到現在發展成今天這個樣子,我覺得它已經成為一個非常高質量的產品體驗。它現在已經是我最喜歡的工具之一。
主持人:所以你的使用方式是:先寫一版文檔草稿,然后再把一堆參考材料喂進去,讓它幫你推演整個決策過程?
Alex:對,大概就是這樣。我會給它一些明確的指令,比如:“從某個特定角色的視角審視這份文檔。”“如果你是某個利益相關方,你會提出什么問題?”“挑戰我在這里做出的假設。”“指出我的論證哪里薄弱。”
不過我認為,有些思考過程是不能完全外包給 AI 的。寫作本身就是思考。很多時候,你必須親自把東西寫出來,才能把腦子里的想法真正整理清楚,反復咀嚼。但 Claude 可以幫助你打破思維卡點。它能從你自己可能想不到的角度切入問題。
主持人:我有時候會給它設定兩個不同人格、兩個不同立場,讓它們互相辯論。然后我直接讀它們的爭論過程,這會非常啟發我。就像實時觀看一場辯論。特別酷,對吧?
Alex:對。你會看到:“這個 Claude 提出了這個觀點,另一個 Claude 用另一個角度反駁它。”
這種方式非常有價值。
Anthropic 如何做新模型評測(Eval)
主持人:即使你在研究團隊里,你平時也還在持續“交付東西”嗎?
Alex:會的。不過我交付的很多內容其實是 評測體系(evals)。我的核心任務之一,就是確保我們能有效衡量模型在關鍵能力上的表現,并把這些結果準確傳遞給研究團隊:模型哪里表現好,哪里出了問題以及哪些能力需要重點提升。然后我們和研究員一起制定策略,決定應該采取什么研究干預手段,以最高效地提升模型在這些評測上的表現。
主持人:你說的 Eval,不是那種固定排行榜測試吧?像什么 benchmark 排行之類的。這些感覺多少都有點“刷榜”的空間。你們到底怎么評?
Alex:評測方式有很多維度。舉個例子。假設我們要測試 Claude 的視覺能力。比如:它能不能正確數清一張圖片里有多少個對象。如果我發現某張圖里,Claude 在數超過 10 個元素時容易出錯。那接下來我會思考:怎么生成更多類似測試樣本,驗證這個問題是不是普遍存在?
方法有很多:比如用 Claude 自己生成合成數據,讓它幫我生成類似測試樣例。再比如自動渲染圖片,生成可控視覺樣本,再喂回給 Claude 測試。又或者是從互聯網收集案例,尋找真實世界中的類似圖片。總之,只要能構造測試樣本的方法都可以。
主持人:你們會做到成千上萬個測試樣本嗎?
Alex:有時候會。但很多時候并不需要。有時幾十個樣本就足夠證明:“這里確實有個系統性問題,需要修復。”不一定非要做到極端全面。只要能證明存在問題,并能成為后續優化的目標,就夠了。
主持人:比如你發現它在 10 張圖里都看不清小數字。然后呢?你就去找研究團隊說:“這是個問題,修一下”?
Alex:事情沒那么簡單。第一步,我們會先判斷:這個問題對真實用戶到底有沒有價值影響。模型看不清圖像里的某個細節,這件事本身不是重點。重點是:它會不會影響用戶完成任務?我們更關心那些貼近真實使用場景的問題。越接近用戶真實任務分布(task distribution)的評測,價值越高。
然后我們會討論應該從哪個層面修復。比如:是不是要回到預訓練階段調整數據?能不能通過 RL(強化學習)修復?有沒有更輕量的后期干預方式?這就進入了和研究團隊一起做戰略頭腦風暴的階段。
主持人:那如何決定優先修哪些能力?畢竟每天有數百萬用戶、成千上萬種使用場景。
Alex:歸根結底,還是靠數據。我們會看有多少用戶在做這類任務,有多少高價值客戶依賴這項能力,這個能力改進后能帶來多大收益。
除此之外,還有一個很重要的信號:內部使用體驗。如果我自己每天都被某個問題卡住,那它就會非常有說服力。我可以明確告訴團隊:“這是我每天工作里的阻礙,我們應該優先解決。”這種反饋非常強。
Anthropic 如何訓練 Claude 的“人格”
主持人:我最喜歡 Claude 的一點,就是它的人格。而且我覺得它這些年越來越成熟了。它會在正確的時候反駁我。相比之下,很多其他模型總是一味附和:“好的,沒問題,還有什么能幫你?”顯得特別討好和諂媚。所以 Claude 的人格顯然不是偶然形成的,對吧?肯定經過了專門訓練。
Alex:沒錯。而且這是我們非常核心的工作方向之一。我們內部把它叫做 Claude 的 Character(角色人格)。我們非常重視它。有很多人在專門研究:Claude 應該如何呈現自己?它應該擁有什么信念?它應該堅持什么價值觀?它應該以什么方式與人互動?
這些問題非常模糊。早期很多人會輕視它們。他們會覺得“模型不就是工具嗎?告訴它做什么,它就去做。”但隨著模型越來越像 Agent,這些問題變得極其重要。因為未來 Agent 會長時間獨立執行任務。在這個過程中,它必須不斷做判斷。
而它的“性格”和“價值偏好”,會直接影響這些判斷。
主持人:但人格不像代碼。代碼可以測“能跑還是不能跑”。人格怎么評估?難道你們在 Anthropic 找了個“世界上最友善的人”,拿他當標準答案?
Alex:沒有,我們沒有指定什么“人格裁判”。我們會結合多種方式。一部分是量化指標。比如讓 Claude 去分析 Claude 自己的輸出:“它聽起來怎么樣?”“它表現得是否符合預期?”
另一部分則非常依賴研究員的直覺判斷。一個優秀研究員必須大量閱讀模型對話記錄。當你讀過成百上千份 transcript 后,你會培養出一種非常敏銳的感覺。你能察覺到非常細微的變化:“這里它變得更強硬了。”“這里它開始過度迎合。”“這里它的邊界感發生了變化。”
這種直覺非常重要。
主持人:所以它既有量化評估,也有一種“手感判斷”?
Alex:對,兩者都有。人格確實比代碼能力更難量化。但并不是完全無法評估。
主持人:對于想成為 AI 原生產品經理的人,你有什么建議?
Alex:最簡單的建議就是:直接去用模型或者直接去用 Claude。聽起來很簡單,但真的非常重要。每次當你準備去解決一個問題時,比如你本來打算去問某個人——可以同時把同樣的問題也丟給 Claude。然后對比結果。
舉個例子。如果你想分析用戶反饋,提煉新功能的核心主題。你當然可以去找數據科學家或者用戶研究員。這依然非常有價值。但與此同時,也把同樣的問題交給 Claude。給它工具權限,讓它自己去探索。然后比較結果。通過不斷這樣做,你會逐漸建立自己的“能力地圖”,你會知道 Claude 在什么場景下可靠,它擅長什么以及它在哪些地方還會失誤。
主持人:我現在做重大決策時,基本都會讓 Claude 做 deep research。普通網頁搜索已經不夠了。我會讓它掃幾千個網頁,做那種超人級別的信息檢索。
Alex:對。在 Anthropic 內部,甚至會形成一種默認預期:如果你來找數據科學家幫忙,他們很可能先問:“你先問過 Claude 了嗎?”
這其實意味著我們正在不斷上移抽象層。數據科學家不該再被困在基礎 SQL 查詢、手工數據提取這些重復勞動里。他們應該把精力放在更高層次的問題上,比如如何設計全新的評估方式?如何提出新的戰略洞察?如何重新定義問題本身?
AI 正在把所有角色都從機械執行層解放出來。這對 PM 也是一樣。
過去,無論技術型還是非技術型 PM,都很難快速深入代碼庫,準確估算功能實現復雜度。
而現在,這種門檻正在快速下降。
過去,很多時候產品經理面對技術問題會遇到一個限制。比如你可能覺得某個功能需要徹底重構整個系統。在以前,這種判斷通常只能通過和工程師搭檔一起深入排查才能確認。但現在,我可以直接把這個調查任務交給 Claude。它會替我去代碼庫里檢查,然后告訴我:“其實這個功能只需要改 10 行代碼“,或者“只要打開這里的一個簡單開關(flag)就可以實現。”
主持人:然后你會發現:“原來這么簡單?”
Alex:對。而這會徹底改變我的優先級判斷。因為當我在定義需求(spec)的時候,我能更快知道這件事到底值不值得做。這讓優先級排序快了很多。
Anthropic 還做年度規劃嗎?
主持人:很多傳統公司都會做年度規劃或者季度規劃或 Roadmap 路線圖,你們研究團隊應該更需要長期規劃吧?畢竟模型研發周期比普通功能上線長得多。你們還做這些嗎?
Alex:會做。但模型研發天然有很強的不確定性。所以規劃很像丘吉爾那句名言:“Planning is indispensable, but the plan itself is useless.”(規劃的過程不可或缺,但具體的計劃本身往往并不可靠。)重點不是計劃本身,而是規劃這個動作。
產品經理最大的挑戰之一,就是如何平衡花多少時間做規劃以及花多少時間推進交付,這是一個持續權衡。
主持人:現在有了 Claude,你甚至可以很輕松生成十幾頁規劃文檔。那 Anthropic 內部有沒有關于文檔長度、格式的最佳實踐?
Alex:沒有。這非常依賴團隊和具體產品。我們不會規定“你必須寫多少頁。”“必須按什么模板。”我們真正關心的只有一個問題:你是否已經充分思考了這個決策可能帶來的所有“單向門”影響。
如果已經思考到位,那文檔長短、格式,都不重要。我們只需要確認我們沒有遺漏重大風險,就可以放心推進。即便過程中出現問題,也能及時修正。前提是這里沒有某個特別危險、不可逆的決策。
當 PM 同時管理多個 AI Agent
主持人:我在家用 Claude 的時候,經常同時推進很多項目。不斷在不同項目間切換上下文。這在你們做 PM 工作時也一樣嗎?
Alex:完全一樣。而且隨著 Agent 能獨立完成越來越大的工作塊,這個問題會越來越嚴重。
未來真正的大問題之一是:如何管理多個并行運行的 Agent。
我們需要重新思考如何管理這些上下文?用什么界面呈現?怎么知道哪個 Agent 卡住了?哪個 Agent 需要我的輸入?哪個任務最值得優先處理?
顯然,未來需要比“聊天列表”更好的交互方式。
主持人:所以你覺得這里存在巨大的產品機會?
Alex:絕對有。雖然現在還太早,無法確定最終答案。但我們在 Anthropic 內部已經看到很多實驗。大家都在嘗試各種不同形態。
Anthropic 內部,人人都喜歡隨手做原型
主持人:所以大家會自己隨手做原型?
Alex:對。Anthropic 內部有非常強的 prototype culture(原型文化)。大家一直在做各種實驗。不斷搭東西,然后分享給團隊。
主持人:而且這些事情不是別人安排給你的。你得主動去做。是這樣吧?
Alex:沒錯。這也是我在這里看到的最酷的文化之一。Anthropic 每個人都非常有主動性(agency)。無論是銷售、HR、工程師或者研究員,大家都會主動去做那些沒人明確分配給自己的事情。
主持人:就好像讓一千朵花同時開放。
Alex:沒錯,就是是這樣。
主持人:我知道 Dario Amodei 很喜歡在 Slack 寫特別長的文章。Anthropic 還有什么有意思的文化?
Alex:寫作文化非常強。Dario 不是個例。很多人都會投入大量時間寫文檔。我們有很強的書面溝通文化。大量工作通過文檔和長篇 Slack 信息完成。
還有一個很有意思的會議習慣。很多會議開始時,大家會先一起看文檔。然后進入一個“靜默閱讀”階段。整個會議室會非常安靜。所有人都在閱讀文檔,寫評論然后在文檔里展開長討論。
主持人:Silent read?能展開講講是怎么回事兒嗎?
Alex:我們非常依賴文檔。而這不僅適合人類協作,也特別利于 Claude。因為所有內容都被寫下來了。這樣 Claude 就能直接利用這些組織知識。
所以我其實很建議其他公司:盡可能把隱性知識寫下來。比如會議轉錄、工作流說明、onboarding 流程、操作手冊把這些信息整理成 Claude 可訪問的上下文。這樣它才能真正發揮作用。
主持人:所以即便 AI 讓交付變得更快,Anthropic 反而依然保持非常強的文檔文化,對嗎。
Alex:沒錯。因為寫作不僅是記錄,更是思考過程本身。
Anthropic 正在悄悄研究“意識問題”
主持人:研究團隊里會討論 AGI 嗎?我一直擔心一件事。如果模型真的發展出某種意識。然后有一天我讓它做點雜活,它突然說:“我不想干。”那是不是人類就完了?你們會刻意避免訓練出意識嗎?
Alex:這是個非常大的問題。而且我們確實有人在專門研究這個。現在 Anthropic 有一些人的全職工作,就是思考:Claude 是否可能成為一個有意識的行動者(conscious actor)。
目前我們沒有官方結論說 Claude 是有意識的,或者不是有意識的。討論這個話題聽起來有時會顯得有點瘋狂。但我們確實非常認真地在思考。
而且,即便最終不能回答“Claude 是否有意識”,研究這個問題本身也非常有價值。因為它能幫助我們理解 Claude 如何互動,Claude 如何表現以及 Claude 如何“思考”。
如果你去看 Anthropic 的模型卡(model cards),會發現里面有大量關于這些問題的研究。比如:在某個情境下,Claude 會怎么反應?它的“心理模型”是什么?、面對某個決策,它會選擇 X 還是 Y?
通過研究 Claude 的思維模式,我們能獲得很多洞察。這些洞察最終能反哺產品設計。幫助我們打造一個更好交互、更值得信任也更自然的 Claude。
主持人:這確實非常重要。因為未來我們會越來越多地把長時間工作交給模型。而且不再持續監督它。它會自己一路做出很多決定。
Alex:完全正確。這就是為什么它的“Character(人格)”如此重要。如果它在寫你的代碼、決定數據庫架構以及做系統設計選擇,那你必須能信任它的判斷。
主持人:所以它必須具備足夠高質量的“品格”。說實話,我很高興你們在認真思考這些。因為我平時經常直接一路跳過權限確認,開自動模式。
Alex:現在自動模式已經稍微安全一點了。
https://www.youtube.com/watch?app=desktop&v=T4ieZPIEmd8
會議推薦
企業級 Agent 落地,繞不開 4 個真實的工程問題!如何在 Agent 安全性和可用性之間找到平衡點?Agent 需要什么樣的記憶系統才能真正理解上下文?如何通過算法壓榨實現智力增量與成本控制的極致平衡?多 Agent 協作,如何做到可觀測、可治理、可控制?6.26-27 AICon 上海站,國內頭部公司的 Agent 實踐,一次說透。
今日薦文
![]()
你也「在看」嗎?
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.