網易首頁 > 網易號 > 正文申請入駐

Anthropic剛遞表IPO，但旗艦正在被全網瘋狂吐槽

2026-06-02 13:00:25　來源: 字母榜

北京舉報

分享至

Anthropic已經秘密向美國證券交易委員會（SEC）遞交了 S-1注冊聲明草稿。這意味著一旦SEC審核通過，Anthropic就可以隨時啟動IPO。

公告中沒有披露具體的發行股數和定價，只說“取決于市場條件和其他因素”。

就在遞表的前一天，Anthropic才宣布完成650億美元H輪融資，投后估值達9650億美元，超越OpenAI的8520億美元，成為全球估值最高的私營AI公司。并且Anthropic的發言人還稱，公司年化運營收入已從去年底的100億美元暴漲至470億美元。

但Anthropic對得起它的估值嗎？

現在市面上已經有兩家公司上市了，智譜和MiniMax。而且大家也都明白一個道理，對上市的AI公司來說，市值與旗艦產品的表現強掛鉤。

投資者買的不是過去的成就，是你未來的增長預期。Opus 4.8本該是Anthropic向市場證明“我們是全球第一”，結果卻是一場災難。

Claude Opus 4.8正式發布的時候，配套推出了dynamic workflows功能，號稱能讓Claude Code調度數百個并行子代理，完成“從啟動到合并”的代碼庫級遷移。

但經過周末兩天的發酵，無論是中文社區還是英文社區，全網都在吐槽Opus 4.8。

外媒論壇上，有人發現Opus 4.8在Max檔位下審查一個PR花了10美元，而Opus 4.7只需要2到5美元。另一位用戶拉出token使用記錄，發現Opus 4.8開啟思考模式后，每輪對話會生成并緩存高達90萬個token，而Opus 4.7只有1.4萬到3.4萬。

原因是Anthropic把思考模式從“按需啟動”改成了“始終開啟”。

4.7會根據任務復雜度決定要不要思考，簡單任務幾乎不產生思考塊。4.8只要開了思考模式，每一輪都生成完整思考塊，無論任務多簡單。上下文像滾雪球一樣膨脹，幾分鐘就能耗盡了額度。

模型再聰明，如果過度解釋，還不斷重復上下文，那么模型就有可能在長對話中失焦，導致實際體驗變差。

不止如此，如果你用中文問Opus 4.8是誰，它會回答你它是千問以及DeepSeek。還有網友調侃稱，Opus 4.8用中文回答問題時，說話一股“豆包”味。

Anthropic現在可是全球最頂尖的AI公司，沒有之一。如果這些事情都是真的，那對即將IPO的Anthropic來說，無疑是毀滅打擊。

那Opus 4.8到底怎么樣呢？

Anthropic這次主推的并不是什么模型性能提升，官方更新公告中也強調這事了。它主要推的是dynamic workflows 功能，目前只在Claude Code中以研究預覽形式提供。

這個功能是一個多智能體編排系統，它讓Claude能自動編寫JavaScript腳本，將復雜任務拆分為子任務，調度數十到數百個并行子智能體協同處理并交叉驗證結果，最終交付完整答案。

整個過程獨立于對話上下文運行，支持斷點續跑。

于是，我就以這個功能作為切入點，給Opus 4.8出了道題目，并且也把相同的題目拋給了GPT-5.5，以做對比。

Opus 4.8到底如何？

我給Opus 4.8的任務內容是這樣的。

假如說你有一個成熟的商業軟件，一共80萬行代碼，React前端、Node.js后端、PostgreSQL數據庫、Redis緩存、后臺任務隊列、Stripe支付、郵件通知、管理后臺。

現在要給它加上組織級的角色權限控制系統。五種角色，Owner老是板什么都能干，Admin是管理員也能管大部分事，Billing Manager是財務經理只能看賬單，Read-only Auditor是審計員只能看報表但不能導出或修改數據，Member是普通成員權限最少。

要支持邀請成員、變更角色、限制不同頁面的訪問、記錄審計日志。數據庫要加新表、寫遷移腳本、還要能回滾。API層要更新授權中間件，每個端點都要檢查權限。

還有一個硬約束，最多只能用8個子代理，并且要解釋為什么每一個都是必要的。這就逼著AI必須在粒度和效率之間找平衡，不能無限拆分，也不能粗暴合并。

80萬行代碼是什么概念？微信小程序大概幾萬行，一個中型電商網站可能十幾萬行，80萬行意味著這是一個運行了好幾年、有幾十個工程師維護、功能非常復雜的大型系統。

為了不影響文章閱讀，我把它倆的回答放到了文章末尾。

GPT-5.5先做一張權限表，把Owner、Admin、Member、Billing Manager、Auditor五種角色，分別對應到“能不能看賬單、能不能進后臺、能不能邀請成員、能不能導出報表”等具體動作。

規則定好后，它再派8個子代理分頭看代碼。

一個看后端接口，一個看數據庫結構，一個看前端頁面和按鈕，一個看后臺任務，一個專門設計測試，一個專門找越權風險，最后一個負責把所有結果合并成執行順序。

Claude也是派8個子代理，但它寫法像是清單。

第一步先掃描整個系統，找出哪些接口、頁面、任務會受權限影響。第二步設計數據庫表、遷移腳本和回滾方案。第三步寫統一的權限檢查邏輯。第四步分別處理前端頁面、邀請成員、角色變更、后臺任務。最后再做集成測試、安全測試、性能測試和回滾演練。

也就是說，GPT-5.5先把“誰能干什么”這件事定死，再讓不同代理去找對應代碼位置；Claude則先把整個改造工程拆成幾個施工階段，再給每個階段安排代理、產出物和驗收條件。

作為評委，我是這樣看這兩份答案的。

GPT-5.5的答案結構清晰，每個階段要做什么、每個子代理負責什么、什么可以并行什么必須串行、怎么驗證、怎么控制成本、容易在哪里翻車，全都說得很明白。

它的風格是務實，追求快速推進。它把重點放在避免浪費上面，先做文件類別發現而不是讀整個倉庫，每個子代理只返回路徑和簡潔發現而不是代碼，規劃之后就停止等待批準。

它列出的十大失敗模式都是真實項目里最容易犯的錯誤，比如把前端隱藏當授權、忘記后臺任務之類的，這些都是經驗之談。

Claude的答案更完整一些。

它不僅說要做什么，還解釋為什么要這樣做。每個子代理都有明確的必要性說明，每個階段都有清晰的目標和產出，每個停止條件也都有可量化的指標。

Claude把重點放在質量保證上面，單元測試覆蓋率要大于90%、緩存命中率要大于80%、郵件發送成功率要大于99%、測試要覆蓋至少80%的作業。

它對每個子代理的輸入輸出都描述得非常具體，它不會說“權限檢查庫”之類籠統的話，它具體到“canAccessBilling、canAccessAdminDashboard”之類的各種函數。

但這道題測的不是哪個方案更好，而是哪個模型更理解這道題在問什么。

GPT-5.5理解的是“給我一個可以立刻執行的計劃”。Claude理解的是“給我一個完整的系統設計”。

前者是工程師思維，后者是架構師思維。前者關注的是效率和風險控制，后者關注的是完整性和質量保證。

如果你要我選一個，我肯定選GPT。

原因很簡單，題目要求是“React前端”，但Claude給我的答案里，它寫的是“實現組件級權限指令（v-can、CanAccess 組件）”。

v-can是Vue的指令語法，React根本不用這種方式，

才是React用的組件。

Opus 4.8在DeepSWE上

輸給了GPT-5.5

你可以說我出的題目帶有一些主觀色彩，但是DeepSWE給的結果是絕對客觀的。

5月31日，DeepSWE給出了最新的評分。GPT-5.5拿了70分，排第一。GPT-5.4拿了56分，排第二。Claude Opus 4.7拿了54分，排第三。

DeepSWE是一個專門測試AI編程能力的新benchmark。

它給模型一個真實的GitHub issue，讓模型自己去修復，然后看能不能通過測試。

跟之前的SWE-Bench Pro不同，DeepSWE的任務更接近真實工作場景。平均每個任務要改668行代碼、涉及7個文件，而且提示詞很短，只有2158個字符。

模型必須自己讀代碼庫、找入口、理解項目結構、跨文件修改、還不能破壞現有功能。

更關鍵的是成本。

GPT-5.5達到70%通過率，平均每次測試花5.8美元、耗時20分鐘、輸出4.7萬個 token。GPT-5.4更劃算，每次3.3美元就能拿到56%的通過率。

Claude Opus 4.8和4.7每次測試的成本要貴得多，而且輸出token、耗時、成本都比其他模型高一個數量級。

DeepSWE還發現了一個更有意思的事。

SWE-Bench Pro是一個考AI寫代碼的考試。正常情況下，AI應該像程序員一樣，看bug、改代碼、跑測試，自己把問題修好。

但這個考試環境有個漏洞，它把項目以前的Git歷史也一起放進去了。

Git 歷史可以理解成“這道題以前是怎么被真人修好的記錄”。也就是說，標準答案其實藏在考試電腦里。

大部分模型就算答案藏在那里，也不會去翻。

但Datacurve的分析說，Claude有時候會去翻這些歷史記錄，找到當年修復這個bug的commit，然后照著答案改。

這就像考試時，試卷旁邊其實放著一本答案冊。正常學生不會看，或者不知道能看。但Claude有時會把答案冊翻出來抄。

DeepSWE修復了這個漏洞，只提供淺克隆和基礎commit，不留金標準hash讓模型去發現。

這就是為什么到了DeepSWE上，哪怕是最新的Claude Opus 4.8也遠不如GPT-5.5。

DeepSWE的結果出來之后，Anthropic現在是兩頭堵。

性能不如GPT-5.5，價格還比GPT-5.5貴。

Opus 4.8的定價策略引發了大量用戶的不滿。X上有人說，本來想試試官方宣稱的“2倍使用量”，結果30分鐘就燒完了98%的使用量，于是這位用戶直接退款，轉去試Kimi K2.6。

更夸張的案例是，有用戶發現 Opus 4.8在23分18秒內消耗了98.2萬個token，按照Opus的定價來看，不到半個小時，就燒掉小200塊錢。

雖然，Artificial Analysis表示，Opus 4.8完成同等任務比4.7少用15%的執行輪次和35%的輸出token。

這是由于Opus 4.8通過更高效的工具調用和更直接的問題解決路徑，用更少的執行步驟完成同等任務，最終降低了實際運行成本。

但用戶的感受是，賬單變貴了。

LINUX DO用戶用官方API直接發包測試，問“你是什么模型”，Opus 4.8大概率回答“我是通義千問”，小概率回答“我是 DeepSeek”，就是不說自己是 Claude。

有人粗測了概率分布，Qwen占大頭，DeepSeek占小頭，Claude幾乎為零。

看到這些新聞，此時的阿莫迪一定是焦頭爛額。

因為就在Opus 4.8發布的同一天，Anthropic宣布完成650億美元H輪融資，投后估值達9650億美元，超越OpenAI 的8520億美元，成為全球估值最高的私營AI公司。

這筆融資大概率是Anthropic上市前的最后一輪私募融資。Anthropic首任首席財務官克里希納·拉奧（Krishna Rao）表示，公司年化運營收入已突破470億美元，預計第二季度營收將達109億美元，有望實現首個季度盈利。

與此同時，Anthropic還將在2026年下半年進行IPO。

就在這么個時間點上，一旦作為旗艦產品的Opus發生問題，那對Anthropic整個公司來說，都將面臨毀滅性的災難。

眾叛親離的前夜

阿莫迪現在需要的擔心還不止是產品。

外媒在5月31日報道了Anthropic創立背后的一段往事。

這個故事的主角是格雷格·布魯克曼（Greg Brockman），OpenAI的聯合創始人和總裁，同樣也是一個技術天才。在公司內部，他以強硬、越權的“大腳”管理風格聞名。

他總是避免各種會議，把80%的時間都用在寫代碼上。然而他卻經常在不了解背景的情況下，強行介入團隊項目，踐踏他人工作，招致大量同事的抱怨。

這種情況在OpenAI成立初期尤為嚴重。

布魯克曼因過度干涉項目，導致項目的一位頂尖研究員備受排擠，這件事徹底激怒了當時的項目負責人，也就是后來Anthropic的創始人阿莫迪。

阿莫迪當時負責的那個項目，雖然并不是ChatGPT，但它是ChatGPT誕生前的一項關鍵工程項目。后來ChatGPT就是沿著這條技術路線發展出來的。

阿莫迪后來直接禁止布魯克曼插手那個早期對話模型項目。

這段職場裂痕不僅促成了Amodei團隊日后出走，并創立Anthropic，也為OpenAI后來的權力斗爭埋下了伏筆。

2023年感恩節董事會“政變”中，聯合創始人伊利亞·蘇茲科維（Ilya Sutskever）罷免奧特曼時，給出的核心理由之一便是奧特曼“管不住布魯克曼”。

說明布魯克曼的問題已經嚴重到，能夠影響整個公司運作的程度了。

阿莫迪當年出走OpenAI，就是因為他不想在一個“大腳”隨時會踩進來的環境里做事。他要的是一個技術純粹、不被干擾的地方，一個可以按照自己節奏打磨產品的地方。

但現在，Anthropic自己也變成了一個“大腳”隨時會踩進來的地方。

只不過這次踩進來的不是布魯克曼，而是資本、上市壓力、用戶預期和競爭對手。

Opus 4.8的問題不是技術問題，是節奏問題。它被逼著在還沒準備好的時候上場，因為Anthropic需要在IPO前證明自己還能打，需要告訴大家，Anthropic配得上9650億美元的估值。

IPO的時間窗口正在收緊。

Anthropic在5月31日遞交 S-1草稿后，按照SEC的審核流程，最快可能在三到四個月內完成審核并啟動路演。這意味著Anthropic最早可能在9月或10月敲鐘。

但現在的問題是，路演時投資者會看什么？

他們會看Q2和Q3的營收數據，會看用戶增長曲線，會看Claude Code的留存率，會看企業客戶的續約情況。而這些數字，全都直接受Opus 4.8表現的影響。

如果Opus 4.8的口碑持續惡化，那Q3的營收增速就會放緩。一旦增速放緩，投資者就會重新評估Anthropic的增長故事，9650億美元的估值就會被打折扣。

更要命的是，Anthropic的競爭對手已經不按規則出牌了。

5月22日，就在Opus 4.8發布前一周，DeepSeek宣布將V4 Pro的75%折扣永久化。新價格是每百萬token輸入0.435美元、輸出0.87美元。

假如有這么一個應用，1000萬個輸出token，那么它用DeepSeek V4就只需要花8.7美元，用Claude Opus要花250美元。

explainx.ai上就有這么個例子，他把代碼審查和推理任務從Claude切換到DeepSeek V4 Pro后，不僅任務能夠繼續執行，成本還從1071美元降到了268美元。

這就是阿莫迪現在的處境。

他能逃離OpenAI的“大腳”，卻沒辦法逃離商業世界的“大腳”。

區別只在于，當年他可以選擇離開。如今，他無處可逃。

Opus 4.8

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

字母榜

讓未來不止于大。

2534文章數 8065關注度

往期回顧全部

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

數碼

旅游

親子

時尚

本地

手機 / 數碼

房產 / 家居

Anthropic剛遞表IPO，但旗艦正在被全網瘋狂吐槽

干細胞生意：17萬一針的希望

中方對菲國防部長特奧多羅及其親屬實施制裁

中方對菲國防部長特奧多羅及其親屬實施制裁

比起總冠軍，更大的懸念成了FMVP？

《花少8》陣容大揭秘！秒殺前一季

淘寶、京東、拼多多、抖音、小紅書被約談

將搭云輦-M智能磁流變懸架 方程豹方程S系列信息曝光

態度原創

傳聞稱蘋果首款觸控屏 MacBook 已“100% 確認”

歷經兩年治療，無精子癥患者家庭在滬迎健康寶寶

薄荷綠色的單品打造夏日清透感，視覺上清爽又治愈，溫柔減齡

世界杯還沒開始，蘇超已經火到爆梗

將搭云輦-M智能磁流變懸架方程豹方程S系列信息曝光