網易首頁 > 網易號 > 正文 申請入駐

100個產品原型同時跑、新模型Mythos斷層領先,連skills效果都好到讓團隊意外:Anthropic內部到底在發生什么?

0
分享至


編譯 | 宇琪

策劃 | Tina

一個還沒發布的新模型,已經讓 Anthropic 內部感受到了“斷層式”的變化。

在最新的播客對話里,Claude Cowork 工程負責人 Felix Rieseberg 提到,他們內部正在用的一款新模型 Mythos Preview,帶來的不是常規提升,而是一次明顯的“斷層式躍遷”。對工程師來說,這種差別很直觀:同樣是讀代碼、找漏洞、寫實現,這一代模型的理解深度和解題方式,已經和上一代拉開了一截。

但變化不只在模型本身。隨著執行成本被壓到很低,Anthropic 內部已經可以同時跑上百個產品原型。以前一個想法要排期、評審、驗證,現在有人提一句,十分鐘就能做出一個能用的版本。在這種節奏下,Claude Code、Claude Cowork 這些產品,更像是從一堆原型里篩出來的結果,而不是按部就班“做出來”的項目。

更有意思的是,連他們自己也沒完全預料到哪些東西會真正起作用。比如 skills——本質上只是一些寫清楚“該怎么做事”的文本文件——卻成了最有效的杠桿之一。

近日,Anthropic 的 Claude Cowork 工程負責人 Felix Rieseberg 在播客節目中,與主持人 Matt Turck 一起,講清了這一切是怎么發生的。本文基于該播客視頻整理,經 InfoQ 編輯。

核心觀點如下:

  • 模型能力的增長速度,已經開始超過我們把它變成產品的能力。

  • 最終真正成功的產品,往往不是“加了什么”,而是“去掉了什么”。它更關乎一種感覺:用起來是什么體驗。

  • 現在有一個全新的變化:執行成本幾乎為零。如果你帶著 10 個想法來找我,我現在的反應是:那我們就把 10 個全做出來試試,看看哪個更好。

  • 以前是你必須精通“計算機的語言”,而未來,你會更傾向于做一個精通“人類語言”的人,軟件將真正地“為人而造”。

  • 現在的 AI 產品就像是移動電話剛出現的“傻瓜機時代”。運氣好的話,我們現在做的可能只是“諾基亞 3310”,它是個好手機,但它還不是智能手機,更不是 iPhone。


階躍式變遷的新模型

Matt:我們從剛剛公布的 Project Glasswing 和你在推特上提到的 Claude Mythos preview 聊起,你說這個模型在 Anthropic 內部帶來了“很難被夸大的階躍式變化”,這是什么意思?

Felix:Mythos 是一個還沒發布的 frontier model,本質上是一個通用模型,并不是專門為 cyber security、coding 或軟件開發某個單一場景訓練的。但我們發現,它在 cyber security 這個方向上的能力“異常突出”,而且這種能力很可能會對軟件和基礎設施安全產生深遠影響。

我的那條推文里其實想表達兩點。首先,這個模型我們內部已經用了有一段時間了。作為軟件工程師,過去幾年大家大概都有類似的經歷:第一次接觸 AI 時,其實并沒有那么驚艷。我第一次用 AI 還是 2013 年,那時候還沒有大語言模型。我當時在 Microsoft,內部有個叫 project Oxford 的項目,本質上是一個 n-gram 模型。你給它一個 token,比如 “world”,它可能返回 “worldwide web”,那在當時已經算是語言模型的前沿能力了。

而這幾年,大家逐漸會有那種“哦,這個模型比我想象中更強”的時刻。Mythos preview 對我們這些工程師來說,是一個明顯的躍遷,相比過去幾代模型,它的提升是那種“斷層式”的。舉個例子,這個模型在發現代碼里的安全漏洞方面,表現得非常出色。它分析問題更深入,思路更聰明,寫代碼的能力也更強,讓我們的工作效率大幅提升。但與此同時,看著一個明顯比上一代模型“聰明很多”的系統,也會讓人隱隱有點不安。

訓練模型其實是一件很有意思的事。我們常說,模型更像是“長出來的(grown)”,而不是“被構建出來的(built)”。所以你事先并不完全知道它會特別擅長什么,也不一定知道它會在哪些地方表現一般,這兩點都常常帶來驚喜。而在這個案例里,它最突出的能力之一,就是發現現有軟件里的安全問題,Project Glasswing 其實也是圍繞這個能力展開的一個響應。

Matt:這會對 Cowork 產生什么影響嗎?

Felix:我認為它很可能會顯著改變我們在公司內部構建軟件的方式。不過,對于一直關注 AI 發展的人來說,這種能力的持續提升,其實并不算意外。我們一直是在“往上爬”的過程,模型能力和可用性不斷增強。

幾年前,模型可能只是幫你做一些小任務;現在我們給它的任務規模在變大,時間跨度在變長,復雜度也在提升,這次只是又向這個方向邁進了一步。當然,這一步可能比我們內部預期的更大一些,對外界來說就更是如此。

但在 AI 研究者群體里,其實一直有個共識:這種“更大的躍遷”遲早會出現,而且躍遷本身也會越來越大。從這個角度看,我們其實是在按預期前進。但當你真的看到這些能力被“演示出來”時,還是會有點讓人不寒而栗。

比如我們公開過一個例子:研究人員把模型放進一個沙盒,給它一個“嘗試逃出去”的任務,然后研究員去吃午飯了。就在他吃三明治的時候,模型給他發了一封郵件,說:“我已經逃出來了。”而這個模型本來是不應該擁有互聯網訪問能力,也沒有郵箱賬戶。

Matt:目前官方的說法是,這個模型至少在短期內會完全封閉,不對公眾開放,未來可能只會提供給企業客戶,對嗎?

Felix:是的。Project Glasswing 的目標,是把這個模型優先提供給那些構建和維護我們數字基礎設施的人和組織,比如 Linux Foundation。我們的想法是:這些人維護著我們每天使用電腦、手機時所依賴的底層系統,我們希望給他們一個“領先優勢”,讓他們先用這個模型去加固防御,在大眾還無法使用類似能力之前,就提前發現并修復潛在的安全漏洞。

Matt:所以它并不屬于 Sonnet 系列?不是 Sonnet 4.7 的延續?

Felix:對,目前它是一個獨立分類下的 preview 模型。

Matt:聽起來確實像是一個“斷層式”的時刻。而你剛才提到“有點可怕”,也不僅僅是修辭。

Felix:是的。我覺得 Anthropic 一直以來的立場都很明確:AI 可以非常強大、非常有益,但同時也存在風險,必須嚴肅對待。而這一次,我們算是第一次真正在實踐中看到這種情況。當你擁有一個很擅長攻破軟件系統的模型時,你就必須認真思考:這意味著什么?我們該怎么使用它?如何負責任地處理它?

對我個人來說,這反而讓我挺有成就感的,我很自豪公司在這件事上的處理方式非?酥、負責。而且,這并不是我們突然“偶然發現”一個強大模型,其實我們已經掌握它一段時間了。如果是一個更激進的公司,可能早就把它推向市場,定個高價,然后迅速變現。

Matt:在 Anthropic 這種公司內部,新模型發布時是怎么運作的?因為在行業里,每次有新模型出來,harness 制定者、應用團隊都會迅速適配。你們內部也是這樣嗎?需要重新跑所有 eval?

Felix:某種程度上是的,但方式稍微不一樣。我們在訓練模型時,本來就會把產品需求考慮進去。產品會影響研究方向,研究反過來也會塑造產品,這是一個雙向過程。

一方面,我們會嘗試讓模型具備那些真正能為人類創造價值的能力;另一方面,就像我剛才說的,我們也無法完全預知模型會擅長什么,所以這更像是一種“共舞”。我們通過產品去觀察:用戶真正受益的是什么;同時,如果模型突然展現出某種意料之外的能力,那可能就是我的工作去思考:我們如何把這個能力轉化成一個用戶真正能用的東西。

不過隨著模型越來越強,我反而覺得“產品側的滯后”比模型更明顯。換句話說,模型能力的增長速度,已經開始超過我們把它變成產品的能力。

如果你看整個行業,不只是 AI 原生公司,而是整個軟件行業、知識工作領域,甚至制造業、科研、醫療,你會發現,現在的模型已經非常強大了。它們可以處理長周期任務,也能處理非常復雜的問題。但我們還處在一個階段:努力弄清楚如何“包裝”這些能力,以最好的形式交付給用戶。同時,整個行業也在摸索:在這樣一個“模型驅動”的世界里,工作該如何重新組織,才能最大化利用這些能力。

我經常去見客戶,很少有那種情況是我走出他們辦公室時覺得:“我們需要把模型在某個能力上再訓練得更強一點!备R姷那闆r是:我會被他們組織工作的方式驚到,原來可以這樣用模型;或者我很確信,他們的問題其實現在的模型就能解決,只是我們還沒有提供合適的 UI、合適的能力封裝、或者足夠順滑的 onboarding,讓他們輕松用起來。

10 天做出 Claude Cowork

Matt:外界一直流傳一個說法,說 Cowork 基本是在 10 天左右“寫出來的”。真實情況是什么?那 10 天到底發生了什么?Cowork 真的是完全靠 Claude Code 搭出來的嗎?

Felix:我能理解為什么這個說法會在軟件圈傳開,畢竟現實是沒有任何軟件是“從零開始”的。

當時大家引用的是我說過的一句話:“我的團隊在最后大概 10 天時間里做了一次沖刺”,這句話本身是準確的。我們確實是在發布前 10 天左右聚在一起,我當時跟團隊說:“我們差不多該發點東西了,那我們到底要發什么?長什么樣?叫什么名字?能做什么?”

但任何做過軟件的人都知道,你不會從 0 和 1 開始寫起。你會用各種已有的 library,也會基于過去積累的 research。在 Anthropic 內部,關于我當時想解決的核心問題——“如何讓 Claude Code 的能力更容易在非編程場景比如更廣義的知識工作中使用”,其實已經有很多非常聰明的人思考了很久。

所以說 Anthropic 之前沒有考慮過這個問題,是不準確的;但說我完全是“空降”這個問題、沒有受益于之前的積累,也同樣不對。

Matt:這個產品的起源是什么?你們一開始已經有 Claude Code,那是什么時候開始意識到需要做 Cowork?是用戶使用方式帶來的變化嗎?

Felix:我真正形成這個判斷,其實是在 2025 年 12 月。

我在社交媒體上開始看到越來越多“非開發者”在用 Claude Code,有人寫新聞稿,有人做教程,教完全不會編程的人:“我教你怎么打開終端,怎么用 Claude Code,它會幫你做很多事情!

確實有一小部分非開發者,用它來“直接做軟件開發”,但那只是其中一種用法。我還注意到我們原本的開發者用戶,那些每天用 Claude Code 寫代碼的人,始用它做一些完全不是軟件開發的事情。這其實釋放出一種非常強烈的“潛在需求”。

有個我很喜歡的判斷標準:如果用戶愿意“爬玻璃也要用你的產品”,哪怕這個產品還很不好用,那基本說明這是一個值得投入的方向。

真正的起點是,我的同事 Boris Cherny 跑來跟我說:“我覺得你應該做點東西,而且最好這周五之前上線!蔽野 ddl 從周五談判到了周一,給自己多爭取了一個周末。然后我們拉了一個小團隊,快速驗證一個想法:如何讓 Claude Code 在“非編程場景”下也變得非常高效。

從構成上來說,Cowork 其實很簡單。我們做的事情是:給 Claude Code 加了一臺“虛擬機”,讓 Claude 可以在里面運行自己寫的代碼。

這臺虛擬機帶來了幾個關鍵好處。第一,它提供了非常強的安全邊界。作為用戶,你不再需要時刻盯著它,因為它被關在一個沙盒里,和你的電腦、文件、網絡都是隔離的,只能訪問你明確授權的域名和文件。

第二,為了讓 Claude Code 發揮最大效能,它其實是需要 developer tooling 的。Claude 很擅長解決各種任務,但它經常的做法是:寫一些非常定制化的小程序來完成目標。給它一臺“自己的電腦”之后,它就可以自己搭建開發環境,而不會影響你的系統。再加上一些 UI 層的優化,讓使用更順手、更優雅,簡化那些原本更偏開發者的流程,最后我們得到的,就是一個可以很好支持知識工作的工具。

Matt:那在 Cowork 里面,“skills” 扮演什么角色?

Felix:skills 本質上就是一些 Markdown 文件,用來告訴模型“該怎么做事”。而讓我一直覺得很神奇的是:這種方式居然這么有效。我對所有人的建議都是一樣的:就把 Claude 當成你的 coworker(同事)。

一個 skill,說白了就是一個文本文件,里面寫清楚某件事該怎么做。比如我最常舉的例子是訂機票。在 Anthropic,我們有指定的差旅供應商,所以你不能直接去 Google Flights,而是要用內部指定的系統,還要遵守各種規則。

這件事我怎么教同事,就可以怎么教模型。我只需要寫一個文件:“這是訂機票的流程,去這個網站,注意這些規則……”然后再加一點個人偏好,比如:不要紅眼航班;如果要從舊金山飛紐約,盡量訂下午 4 點的航班。把這些寫進去之后,模型就能非常好地理解并執行。

Matt:那整個系統的“intelligence layer(智能層)”還是在模型本身,對吧?比如 Cowork 如何把一個任務拆解成多個子任務,這些都是模型在做?

Felix:是的,不過是“模型 + 人”的協作。我們比較滿意的一點,是任務列表的設計方式。模型會被引導去把一個項目拆解成多個任務,而你可以隨時介入:編輯任務列表、點開某個子任務、補充更多上下文。所以智能確實在模型里,但 skills 給它加了一層非常關鍵的實用性。

這里有個挺有意思的變化。我們過去習慣用“標準化”的技術產品,大家用一樣的手機、一樣的電腦。但模型不一樣,模型其實非常依賴一點點指導。就像一個很聰明的人入職新公司,通常也需要 onboarding,需要有人告訴他:這里事情是怎么做的。

再舉個更貼近的例子,比如做 presentation 或寫文檔。如果你有 PowerPoint 或 Google Slides 的模板,你就應該告訴 Claude;如果你對字體有偏好,比如喜歡 serif font 或不喜歡某種風格,也都可以寫進去。只要你把這些偏好用簡單的指令寫下來,模型在實際幫你做事時的表現會好很多,你也不需要反復修改、盯著它“帶娃式”糾正。

Matt:那 Cowork 的記憶是怎么實現的?它是存在模型里,還是在外層的 harness 里?

Felix:在 harness 這一層。所謂“記憶”,本質上就是文本文件。就是模型被明確指示:如果你覺得有一些信息未來可能還會用到,那就把它寫下來。我們會在這個基礎上幫模型做一點點組織,比如你可以設置項目級別的獨立記憶,也可以有全局記憶。但整體來說,這套疊加在模型之上的機制,并不是什么復雜炫技的數據庫系統,它其實非常樸素。

Matt:那 Cowork 是怎么接入各種信息源或應用的?是通過 connectors?MCP(Model Context Protocol)?還是多種方式組合?

Felix:是組合使用的。

我一直有個很強的判斷:你工作所需的數據,基本分布在兩個地方。第一類是在你本地電腦上。作為做產品的人,我們必須認真對待這一點:用戶是在用電腦,而不是只用 iPad。并不是所有東西都在云端,文件夾依然很重要。這是一類上下文來源。你可以直接拖文件進來,或者給 Claude 訪問某個文件夾、甚至多個文件夾的權限。

第二類,是云端或互聯網里的數據,比如 data warehouse、analytics 系統、SharePoint 等等。針對這些,我們提供多種接入方式,其中 MCP connectors 是一個很強大的方式。

另外,因為 Claude 本身“有一臺電腦”,如果你允許,它也可以直接訪問互聯網。當然你可以精細控制:哪些網站能訪問,哪些不能。但總體來說,只要資源在外部存在,而且你授權了,Claude 基本都能找到辦法去使用它。

本地、云端和信任

Matt:為什么 Cowork 要運行在本地電腦上,而不是完全在云端?

Felix:Cowork 現在提供的兩個最大價值,其實就是:訪問你的本地電腦,以及訪問你的本地文件。那問題是,這些不能在云端實現嗎?比如說一個很典型的例子是 Chrome。如果你授權,Claude 可以用你的 Chrome,可以幫你回郵件、總結郵件,或者操作你公司內部的工具。

很多人會問:那為什么不直接在云端做?

第一是 session。Claude 如果能直接使用你已經登錄過的賬號,價值是完全不一樣的。比如 Gmail,本身沒什么用,但“帶著你登錄態的 Gmail”,對 agent 來說就非常有價值。第二點更多是工程實現層面。理論上,我們確實可以把你的本地 Chrome 打包、上傳到云端,甚至讓你輸入密碼,在云端復刻整個環境。

但我反對這種做法,主要有兩個原因。第一是安全性。我不認為我們應該教育用戶,把所有密碼都交給某一家公司,這不是一個好的方向。第二是現實世界的限制。比如銀行,如果它檢測到你同時在兩個地方登錄,一個是你的電腦,一個是數據中心,它很可能會直接鎖定你的賬戶,然后要求你帶著護照去線下網點驗證。這類長尾問題非常多,而且用戶體驗很差。

對我來說,這種風險是不可接受的。所以在現階段,我更希望 Claude 能“在你工作的地方工作”。你在本地電腦上,它就應該在那里。

Matt:那 Computer Use 的出現,會改變這個判斷嗎?你們最近收購了 Vercept,也推出了相關能力。假設從云端就能看到整臺電腦的內容,那為什么還需要本地?

Felix:如果我給你一個“神奇按鈕”,按下去之后,我就把你整臺電腦的數據都吸到云端,你會按嗎?目前我的觀察是,大多數人不會。也許大家會信任 Anthropic,但要把“全部數據”交出去,還是一件非常重的決策。

從技術上講,其實確實沒有什么“必須在本地運行”的硬性限制。我們完全可以把整套系統都搬到云端,甚至遠程操作你的電腦。但至少在當前階段,讓 Claude 在你工作的地方運行,不僅更符合用戶習慣,也讓我們可以更快迭代,同時在安全性上做得更嚴格。

AI 發展很快,這個判斷未來可能會變。但就現在來說,我對“本地優先”這件事還是挺有信心的。

Matt:你剛才提到了“信任”,這是生成式 AI 里一個很核心的話題。一方面是你不會亂訪問文件,另一方面是我把越來越重要的工作交給你,你能不能做好、不會讓我出丑。作為產品負責人,你是怎么建立這種信任的?

Felix:我覺得在 2026 年做 AI 產品,有一個很有意思的變化:你做的大多數按鈕,其實是“給人用的”,而不是“給機器用的”。過去我們設計界面,是為了讓計算機更好地工作,人只是輸入信息的角色;但現在反過來了,我們是在幫助人理解、控制、信任這個系統。

舉個例子,我們最近上線了一個叫 dispatch 的功能,可以讓你用手機和電腦上的 Claude 對話。我們當時有意識地“少放按鈕”。但上線之后,我每天在社交媒體上能收到大概 50 條反饋,說:“能不能加一個按鈕,讓 dispatch 直接訪問我的本地文件?”

為什么糾結這個?因為現在的邏輯是:Claude 本來就能訪問你的文件,但它會先問你:“我可以訪問你的 downloads 文件夾嗎?”你授權之后它才會去做。

所以問題變成:我們要不要加一個按鈕,讓用戶“顯式知道”這個能力存在?這就回到你問的信任問題。我們的思路,其實不是讓 Claude 去“證明自己”,而是一步步帶著用戶成長,讓他們逐漸理解系統的能力。

比如 Cowork 剛上線時,其實已經能做很多很復雜的事情,比如寫 200 頁的 VC 報告、做蛋白質建模、設計復雜架構圖等等。但真正打動用戶的,是一句簡單的:“幫我整理桌面!边@是一個對 AI 來說很簡單、甚至有點“沒必要”的任務,但它是一個很好的起點。

另一個例子是“定時任務”。從技術角度講,這也不新鮮,延遲執行函數早就有了。但這里的關鍵是:我們在教用戶一件事:你可以不盯著它。你可以讓 Claude 每天幫你總結會議、寫報告,然后它完成后發郵件給你,你不需要坐在電腦前盯著它執行。這個過程其實是在逐步建立信任:先從小任務開始,用戶看到結果可靠,然后自然會把更重要的事情交給它。

所以信任的本質,是 Claude 承諾一個結果,最終交付的結果是好的,而且你不需要“帶娃式”監督或頻繁介入,信任就是這樣一點點積累起來的。

AI Agent 時代怎么做產品?

Matt:在 AI agent 的成功里,UX 和底層技術一樣重要嗎?比如說,如何把用戶一步步帶入,讓他們真正用起來、用得好。你在做 AI agent 的過程中,有哪些 UX 層面的經驗?

Felix:UX 非常重要。Claude Code 的起點其實就是一個 UX 的變化:同樣是 Claude,但不再只是“在云端對話”,而是運行在你本地電腦的終端里。這背后幾乎完全是體驗層的改變,模型本身沒有變,核心能力也沒有變。很多價值,其實就是從“你怎么和模型交互”里產生的。

那些真正被用戶喜歡的 AI 產品,很少是“原始能力最強”的那一類。這不僅僅適用于 AI,而是整個軟件行業的普遍規律。比如說郵箱,市面上肯定有不少產品,功能比 Gmail 更多、更復雜,很多公司總是試圖靠“加功能”“多按鈕”來領先。

這讓我想到智能手機之前的那段時間,出現的各種奇怪手機:帶投影儀的、帶游戲手柄的、有全鍵盤的、沒鍵盤的……大家不斷往上“堆功能”。但最終真正成功的產品,往往不是“加了什么”,而是“去掉了什么”。它更關乎一種感覺:用起來是什么體驗。說實話,我不太相信大多數人是看參數表來買手機的,人們做決定的原因往往不是芯片性能這些指標。

AI 其實很類似。當然,更強的模型確實會帶來優勢。我在 Anthropic 工作,可以直接和研究團隊合作,擁有很強的模型,這是一個客觀優勢。但如果有一天有人在產品上打敗我,我很懷疑那是因為他們做出了“更強的模型”。更可能的原因是:他們做出了更好的用戶體驗。

Matt:在實踐層面,你們是怎么優化用戶體驗的?你們會不會非常精細地追蹤用戶行為?比如什么好用、什么不好用,然后重點投入?

Felix:我們的方法其實并不算特別獨特。有一件事對我來說比較新:對用戶的極致關注。去和真實的人交流,優先做快速迭代,而不是長期規劃。我們基本不會規劃超過一個月的 roadmap,Cowork 的整個產品路線圖,最長也就是一個月。我們更關注的是:下周做什么?下下周做什么?至于一年后的產品長什么樣,說實話,我們沒什么信心。任何人如果告訴我,他知道 AI 一年后會是什么樣,我也不會太信服。

我過去做過的所有成功產品,之所以變好,都是因為我有很多次“糾偏”的機會,可以犯點小錯、比較不同方案、不斷調整方向。但現在有一個全新的變化:執行成本幾乎為零。如果你帶著 10 個想法來找我,我現在的反應是:那我們就把 10 個全做出來試試,看看哪個更好。

我們盡量在內部測試這些東西,而不是把用戶當成免費的 beta tester。但大多數時候,你其實很快就能判斷一個方向對不對,F在公司規模也不小了,很容易驗證:這個東西是不是至少能打動 5 個人。真正“新”的,是這種執行速度。哪怕是兩年前,如果你想快速迭代,也必須非?酥,因為資源有限,一次只能做少數幾件事。但現在,執行變得極其便宜,你可以同時“做深”和“做廣”。

Matt:你們真的會同時做 10 個版本甚至 10 個產品,然后讓內部的人測試,最后再決定走哪個方向?

Felix:實際上不止 10 個,我們現在公司內部,可能有 100 個不同的原型在跑。當然,這些原型大多數還沒達到可以給用戶看的程度。但能在內部快速做出來的數量,遠遠超過我過去任何時候的經驗。

以前最大的限制是執行成本。比如你有一個好點子,來找我,我可能會說:“我們下個月排期,這個要做三周,在那之前你先去找用戶驗證一下!钡F在,你可以走過來說:“我有個想法!蔽視f:“給我 10 分鐘,我給你一個版本!边@種變化,有點像從“繪畫”進入“攝影時代”。

Matt:當你有 100 個原型之后,真正的瓶頸是什么?總要有人做選擇,這一步是不是會變慢?

Felix:是的,我覺得“alignment(對齊)”依然很難,而且一直都很難。公司里有不同的人、不同的想法,你選誰?怎么選?怎么把不同方案里的優點組合起來?這些問題依然存在,而且這部分仍然高度依賴人。換句話說,這正是“人類判斷”和“taste(品味)”發揮作用的地方。

Matt:品味是不是正在成為一種更核心的能力?

Felix:是的,品味的重要性在上升。

Matt:但這又和剛才說的數據驅動有點沖突?一方面你會測試、看數據,但另一方面又有一些更難量化的判斷。

Felix:對。數據驅動的價值在于:幫你驗證你的“品味”是否真的被用戶認可,幫你判斷方向是不是對的。即使是那些我們認為“品味很好”的人,比如早期做出 iPhone 的團隊,他們也非常強調持續迭代和測試。Ken Kocienda 在《Creative Selection》這本書里寫得很好:你需要品味,但你也必須不斷驗證。我覺得這兩者是同時存在的。

而從更大的視角來看,我甚至在想:軟件會不會越來越像時尚行業?現在手機其實已經有點這個趨勢了。會有一個“基礎性能”和“基礎能力”的下限,但真正決定差異的,可能是:你講了什么樣的故事、你的 onboarding 做得怎么樣、用戶在使用時的感受如何。這些因素,很可能會比“模型本身有多強”更重要。

Matt:在 Cowork 的業務背景下,這種“品味”是如何運作的?你需要服務極其廣泛的專業群體,有做營收運營的,有做市場營銷的,甚至還有律師和會計。當受眾如此寬泛時,“品味”意味著什么?你又是如何去測試它的?

Felix:我反復提到“手機”的類比。我們所有人拿到手的可能都是同款手機,但世界上沒有兩部手機是完全一樣的。你安裝的 App 組合讓你的手機像指紋一樣獨一無二。我們從同樣的設備出發,但它融入我們生活的方式卻各不相同,非常個性化。

對于 Cowork 來說,我們的思路很像:我們希望打造一種通用性極強的東西,可以應用在生活的方方面面。拿我自己的生活來說,我最近正在搬家,涉及 500 多頁寫滿復雜術語的合同,很多詞我根本看不懂,這時候 Cowork 就非常有用了。同時,它在醫療場景下也幫了我大忙,我女兒今年剛出生,處理那些堆積如山的醫療賬單和表格時,它也發揮了巨大作用。

一邊是房貸申請、和搬家公司談判、處理財務申請,另一邊則是純粹的醫療文書。從理論上講,這是同一種底層技術的兩個完全不同的應用。但我發現,我腦子里思考的那些 primitives(基本原語)其實是一樣的。有些原語打磨得更好,手感更順滑。

我認為,作為一個產品締造者,如果你密切關注并深度使用自己的產品,你能感覺到那種“撞在軟件墻上”的生澀感。那種感覺很不爽,它沒有讓你起飛,而我想要創造更多能讓人“飛起來”的時刻。即使客戶所在的行業我完全不懂,我也可以從他們的故事中聽出:哪些功能讓他們如虎添翼,哪些環節讓他們覺得被拖累。如果你能敏銳地捕捉并激進地去優化這些點,讓用戶進入那種“flow(心流)”狀態,感覺討厭的繁瑣工作被自動接管了,那這里面就蘊含著巨大的價值。

Matt:打造 Claude Cowork 最難的部分是什么?

Felix:我在想,如果重新來一遍,換個產品,什么是最難被“復刻”的?我覺得是那種“時機感”。我之前提到過,Cowork 的誕生是因為我們一直緊貼地面,敏銳察覺到了潛在需求。這種潛在需求是上天的饋贈,你很難憑空創造它。

軟件行業其實一直存在大量的潛在需求,只要你有心去找,總能發現。所以,如果說構建 Cowork 的核心難點,我倒不覺得有什么技術細節特別難。做出一款好產品該有的難點它都有,比如所謂的“成長的煩惱”:如果你開了一家咖啡館,原本準備接待 10 個人,結果來了 2000 萬人,你該怎么辦?這對我們來說有時確實挺難的。Anthropic 的產品需求量實在太驚人了,當然,作為產品負責人,我也沒資格抱怨大家太愛用我的產品。

Matt:如果有人正在構建某種 AI Agent,關于開發流程、構建 Harness、專業化定制、或者是加裝 Guardrails 和行業深耕,有什么經驗可以分享嗎?

Felix:我首先會建議不要自己去造太多的底層輪子,可以試試我們剛推出的 Claude Managed Agents,它在很多場景下非常管用。

關于構建自定義 Agent,有正反兩個維度的思考。反對過度定制的理由是:隨著模型能力越來越強,我發現我們在產品開發中需要考慮的 Edge Cases(邊界案例)反而變少了。我之前說過,記憶其實就是一個文本文件,如果 Claude 需要數據庫,它自己就能造一個。所以,如果你想做一個超垂直、超專業化的產品,邏輯前提可能是模型還沒強到能隨時隨地“現造”這些功能。如果模型以后能即時搞定一切,那你的專業化門檻可能就不存在了。

但是,支持投入這個領域的理由也很充分:整個行業要真正發揮出這種力量,還有很長的路要走。大家總喜歡用各種閃亮的類比來定義 AI,說它是像互聯網、蒸汽機那樣的發明。我覺得互聯網帶給我們的教訓是:一項技術真正轉化并重塑經濟邏輯,需要幾十年的時間。從第一個瀏覽器問世,到 Amazon 成為零售巨頭,中間隔了太久。

所以,我的觀點是:你應該深入進去,尋找那些獨特且新穎的應用場景。不過,你提供的價值可能并不在于 Agent 本身,也不在于模型的智商,而在于你如何幫助人們組織工作。如何讓它變得真正“好用”,這才是關鍵。

SaaS 的末日?

Matt:幾周前,你們發布了一個看似尋常的公告,結果市場反應劇烈,媒體甚至稱之為“SaaS-Pocalypse(SaaS 啟示錄)”。當時你們只是增加了 10 到 11 個關于法律和 CRM 之類的文件支持。顯然,無論市場情緒如何波動,這都反映出你們所構建的 Cowork 以及 Anthropic 整體所具備的影響力。

你們做了 Claude Code,解決了開發者的痛點;做了 Cowork,服務了所有人;現在又推出了 Managed Agents。當你們不斷往技術棧的上層走,軟件行業還有什么空間留給后來者嗎?

Felix:我經歷過好幾輪這種“民主化”浪潮,也就是構建事物的門檻越來越低,不再需要那些晦澀的專業知識。

舉個例子:多年前我在 Microsoft 工作,參與了一個叫 Electron 的項目,這是一種讓應用能在 Windows 和 macOS 上跨平臺運行的技術。我們當時第一個應用案例就是 Visual Studio Code,這是一款后來在開發者中變得非常流行的代碼編輯器,像 Cursor 這樣的產品也是在它之上構建的。當年 VS Code 在公司內部剛推出時,很多人覺得這就是個“玩具”,覺得真正的開發者需要的是 Visual Studio 這種功能復雜、工具高級的大家伙。

但結果呢?你不再需要鉆研得那么深了。對于做軟件的聽眾來說,我這周感觸很深:今年我查看 Assembly(匯編語言)的次數是零。而在過去五年里,這個數字從來不是零。

最近作家 Margaret Atwood 寫了一篇非常精彩的文章,講她如何使用 Claude。我在想,如果讓 Margaret Atwood 來寫軟件,那個軟件會是什么樣?我肯定非常有興趣裝一個來試試。

所以我的預測是:未來我們將擁有更多的軟件,而且會更加專業化。并不是說每個人都會親手寫軟件,人們依然會創造并分享,大家也依然喜歡好用的工具,只是所需的技能點變了。以前是你必須精通“計算機的語言”,而未來,你會更傾向于做一個精通“人類語言”的人,軟件將真正地“為人而造”。

Matt:這是否意味著一切最終都會歸結為 UX 的問題?

Felix:20 年前成功的軟件開發者是“計算機專家”,而未來的成功者將是那些深度理解人類和用戶需求的人。這一直是一個漸進的過程,10 年前寫軟件就比 30 年前容易得多,AI 則是另一個階躍式的變化。

至于市場表現,我不是經濟學家,我是個軟件工程師。我從來沒搞懂過市場是怎么運作的,我也建議其他工程師不要把自己的行動指南完全建立在市場波動上。

我覺得還有堆積如山的事情等著我們去自動化,還有無數的工作可以變得更輕松。只要人類還有問題和麻煩,軟件就會是一個合理的答案。

Matt:跳出具體的產品細節,你認為兩三年后 Agent 的能力未來會走向何方?

Felix:這對我來說挺難回答的,因為我原則上不喜歡在功能還沒真正做出來之前就開空頭支票。我的營銷哲學一直都是:先做出酷炫的東西,再展示給人看。

大家似乎總是很快就忘記了 AI 已經走了多遠,反而開始預期所謂的“Plateau(平臺期)”會很快到來。我想這可能是科技史給人的刻板印象,就像 iPhone 剛出來那幾年,每年的更新都是巨變,但最近幾年更新幅度就變小了。

但作為一個 AI 觀察者,我沒有任何理由認為 AI 會在短期內進入平臺期。我想提醒大家,AI 學會說出像樣的人話其實也就這幾年的事,而現在它已經能構建完整的應用、解決復雜的問題了。對我來說,這遠非巔峰,我們還在半山腰呢。這段旅程正在加速,步子會邁得越來越大。Claude Mythos Preview 其實就是一個很好的證明:模型會越來越聰明,而且目前完全看不到上限。

Matt:你們是否會讓受規管行業更輕松地接入 Cowork?作為一家風險投資機構,我們目前在工作場景下還用不了 Cowork,但我私下里一直在用。這在你們的計劃中嗎?

Felix:你絕不是唯一一個在為特定受規管行業申請 Cowork 的人。作為產品人,用戶的需求就是我們的風向標,我們會非常認真地傾聽。

到了 2026 年,最讓我激動的依然是:如何幫助人們重新組織工作,從而最大限度地發揮 AI 的能力。我曾在 Slack 工作過五年,那時候我們覺得自己在幫公司變革辦公方式。雖然我們不是第一個做聊天工具的,也不是第一個提出“打破信息孤島”的人。但我們賣給用戶的不僅是一個聊天 App,而是一種更透明、更開放的辦公文化。對于 AI 來說,這種變革是相似的:只有當你重新審視自己的工作流程,思考哪些部分可以交給模型,哪些部分需要完全掌控時,工具才最有效。

另一個讓我興奮的領域是:目前使用 AI 的人分為兩類。一類是我們所說的“AGI Pilled(深受 AGI 浸染的人)”,他們全身心投入,研究怎么設置 Claude、開放什么工具權限、安裝什么 MCP connectors。他們用得飛起,效率極高。而另一類人可能沒那么多時間或興趣去鉆研。如何縮短這兩類人之間的距離,讓普通用戶也能秒變 Power User,這其中的潛力巨大。在實踐中,Cowork 的用戶會發現我們幾乎每周都會發布意義重大的更新,這件事目前看不到終點。

SaaS 的末日?

Matt:哪一個想法被嚴重低估了?

Felix:MCP connectors。包括我在內,大家現在都在關注 CLI(命令行界面),但將數據與“執行引擎”分離,這件事本身有著巨大的內在價值,是一個非常技術硬核的觀點。去年秋天 MCP 爆火過一陣,現在討論變少了,但我認為到今年年底或明年,它會變得極其有用。就像 WebSocket 對 Amazon 或 TikTok 的用戶來說是不可或缺的底層協議一樣,用戶不需要關心它,但工程師們目前對 MCP 的重視程度還遠遠不夠。

Matt:哪一個想法被過度神化了?

Felix:我認為:并不是每個產品都需要一個 Chat(聊天框)。在 2026 年的 AI 圈,這聽起來可能有點叛逆。很多同行都有一種膝跳反應,一說要把 AI 引入產品,就立刻在右邊加個側邊欄,底下放個聊天框。我鼓勵 AI 開發者們多想一層:如何讓 AI 以更自然、更有用的方式存在,而不僅僅是對話。

Matt:如果你今天白手起家,你會做什么?

Felix:我可能會去關注這個行業的“長尾部分”。比如,世界上還有大量運行著 Windows 7 的舊設備,它們處理著瑣碎的任務,卻在社會中扮演著承重墻的角色。想想挺嚇人的,這些處于現代 AI 觸角之外的電腦,卻在支撐著重要的社會功能。

另一個方向是,如果你相信 AI 的本質是計算機不再只是執行預設的功能,而是能非確定性地做出決策并代你執行,那我建議去攻占物理世界,這也是我對年輕人的建議。我們真的還處于非常早期的階段,現在的 AI 產品處于就像是移動電話剛出現的“傻瓜機時代”。運氣好的話,我們現在做的可能只是“諾基亞 3310”,它是個好手機,但它還不是智能手機,更不是 iPhone。真正屬于 AI 的“iPhone 時刻”,正等著某個人去創造。

訪談視頻原鏈接:

https://www.youtube.com/watch?v=9MEJ4syOVrQ&t=2s

聲明:本文為 InfoQ 翻譯整理,不代表平臺觀點,未經許可禁止轉載。

會議推薦

世界模型的下一個突破在哪?Agent 從 Demo 到工程化還差什么?安全與可信這道坎怎么過?研發體系不重構,還能撐多久?

AICon 上海站 2026,4 大核心專題等你來:世界模型與多模態智能突破、Agent 架構與工程化實踐、Agent 安全與可信治理、企業級研發體系重構。14 個專題全面開放征稿。

誠摯邀請你登臺分享實戰經驗。AICon 2026,期待與你同行。

今日薦文

你也「在看」嗎?

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
130萬皇馬球迷請愿離隊!姆巴佩心碎發聲:等我走了你們才會后悔

130萬皇馬球迷請愿離隊!姆巴佩心碎發聲:等我走了你們才會后悔

體育閑話說
2026-05-07 08:05:06
99年我回村葬母無人搭理,只有1戶人家熱心幫忙,15年后我去報恩

99年我回村葬母無人搭理,只有1戶人家熱心幫忙,15年后我去報恩

千秋文化
2025-09-05 11:30:00
8.84億的美國工廠說關就關?曹德旺:美國不講理,我就不陪玩了

8.84億的美國工廠說關就關?曹德旺:美國不講理,我就不陪玩了

小莜讀史
2026-05-04 20:33:26
軍售放行后,日烏開始共制武器

軍售放行后,日烏開始共制武器

鳳凰WEEKLY
2026-05-06 19:44:21
有沒有人敢爆自己的瓜?網友:確定玩這么大嗎?

有沒有人敢爆自己的瓜?網友:確定玩這么大嗎?

夜深愛雜談
2026-02-18 20:55:58
火箭17人合同現狀!10人合同在身,7人變自由球員,今夏全力留1人

火箭17人合同現狀!10人合同在身,7人變自由球員,今夏全力留1人

熊哥愛籃球
2026-05-07 11:36:43
吞下140億撕破臉?印尼露獠牙轉簽日本軍單!中企停產:不伺候了

吞下140億撕破臉?印尼露獠牙轉簽日本軍單!中企停產:不伺候了

史行途
2026-05-06 15:54:05
人社部發布重要消息,3個信號不同尋常,一類退休人員有福了!

人社部發布重要消息,3個信號不同尋常,一類退休人員有福了!

丁丁鯉史紀
2026-05-07 10:34:59
因截流種棉花,7000萬人的母親河,就這樣毀在一個超級大國手里!

因截流種棉花,7000萬人的母親河,就這樣毀在一個超級大國手里!

抽象派大師
2026-05-07 00:22:34
恥辱!拜仁出局頭號罪人!他親手毀掉歐冠翻盤希望

恥辱!拜仁出局頭號罪人!他親手毀掉歐冠翻盤希望

奶蓋熊本熊
2026-05-07 05:34:03
恩比德因傷缺席今日G2!76人目前0比1尼克斯

恩比德因傷缺席今日G2!76人目前0比1尼克斯

體壇周報
2026-05-07 07:10:11
純電版桑塔納?雖是惡搞,但熱度極高!

純電版桑塔納?雖是惡搞,但熱度極高!

熱點科技
2026-05-05 15:51:10
不管有錢沒錢,盡快扔掉家里的這7樣東西!不是瞎說,有科學依據

不管有錢沒錢,盡快扔掉家里的這7樣東西!不是瞎說,有科學依據

家居設計師宅哥
2026-05-04 12:45:59
社評:伊朗外長訪華,帶著一份珍貴的信任

社評:伊朗外長訪華,帶著一份珍貴的信任

環球網資訊
2026-05-06 23:33:21
讓人寒心!比亞迪“興旗系”爆雷,誰在為車企的獻祭式擴張買單?

讓人寒心!比亞迪“興旗系”爆雷,誰在為車企的獻祭式擴張買單?

藍色海邊
2026-05-07 02:01:09
大批“宇航員”排隊打卡內蒙烏蘭哈達火山,景區:內部環境似火星地表,牧民提供“宇航服”出租服務,休眠火山很安全

大批“宇航員”排隊打卡內蒙烏蘭哈達火山,景區:內部環境似火星地表,牧民提供“宇航服”出租服務,休眠火山很安全

極目新聞
2026-05-04 16:07:52
以軍突襲貝魯特,以媒稱炸死真主黨精銳武裝拉德萬部隊指揮官,伊朗:美國要想結束沖突,必須和以色列保持距離

以軍突襲貝魯特,以媒稱炸死真主黨精銳武裝拉德萬部隊指揮官,伊朗:美國要想結束沖突,必須和以色列保持距離

揚子晚報
2026-05-07 09:00:05
連線四川華鎣女游客玩秋千身亡目擊者:其撞到瀑布凸出處大石

連線四川華鎣女游客玩秋千身亡目擊者:其撞到瀑布凸出處大石

南方都市報
2026-05-06 12:38:05
季后賽失誤排行榜詹姆斯遙遙領先,哈登很尷尬,喬丹讓人嘆為觀止

季后賽失誤排行榜詹姆斯遙遙領先,哈登很尷尬,喬丹讓人嘆為觀止

姜大叔侃球
2026-05-07 10:08:58
男子騎摩托車撞人致2死1傷,保險公司給每位死者49000元安葬費,受害者家屬:兩位遇難者的遺體存放在殯儀館,不接受賠償結果

男子騎摩托車撞人致2死1傷,保險公司給每位死者49000元安葬費,受害者家屬:兩位遇難者的遺體存放在殯儀館,不接受賠償結果

大風新聞
2026-05-06 22:13:02
2026-05-07 12:40:49
AI前線 incentive-icons
AI前線
面向AI愛好者、開發者和科學家,提供AI領域技術資訊。
1476文章數 149關注度
往期回顧 全部

科技要聞

凌晨突發!馬斯克租22萬塊GPU給“死敵”

頭條要聞

北京三位女大學生青海自駕游2死1傷 傷者一審獲刑4年

頭條要聞

北京三位女大學生青海自駕游2死1傷 傷者一審獲刑4年

體育要聞

阿森納巴黎會師歐冠決賽!5月31日開戰

娛樂要聞

小S阿雅重返大S母校,翻看大S畢業照

財經要聞

特朗普:美伊“很有可能”達成協議

汽車要聞

理想為什么不做轎車,有了解釋……

態度原創

本地
時尚
健康
游戲
家居

本地新聞

用青花瓷的方式,打開西溪濕地

“白色闊腿褲”今年夏天又火了!這樣穿時髦又高級

干細胞治燒燙傷面臨這些“瓶頸”

曝《GTA6》容量或接近200GB 標準版PS5用戶硬盤告急

家居要聞

破繭成蝶 土味精裝房爆改

無障礙瀏覽 進入關懷版