无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

Anthropic剛遞表IPO,但旗艦正在被全網瘋狂吐槽

0
分享至



Anthropic已經秘密向美國證券交易委員會(SEC)遞交了 S-1注冊聲明草稿。這意味著一旦SEC審核通過,Anthropic就可以隨時啟動IPO。

公告中沒有披露具體的發行股數和定價,只說“取決于市場條件和其他因素”。

就在遞表的前一天,Anthropic才宣布完成650億美元H輪融資,投后估值達9650億美元,超越OpenAI的8520億美元,成為全球估值最高的私營AI公司。并且Anthropic的發言人還稱,公司年化運營收入已從去年底的100億美元暴漲至470億美元。

但Anthropic對得起它的估值嗎?

現在市面上已經有兩家公司上市了,智譜和MiniMax。而且大家也都明白一個道理,對上市的AI公司來說,市值與旗艦產品的表現強掛鉤。

投資者買的不是過去的成就,是你未來的增長預期。Opus 4.8本該是Anthropic向市場證明“我們是全球第一”,結果卻是一場災難。

Claude Opus 4.8正式發布的時候,配套推出了dynamic workflows功能,號稱能讓Claude Code調度數百個并行子代理,完成“從啟動到合并”的代碼庫級遷移。

但經過周末兩天的發酵,無論是中文社區還是英文社區,全網都在吐槽Opus 4.8。

外媒論壇上,有人發現Opus 4.8在Max檔位下審查一個PR花了10美元,而Opus 4.7只需要2到5美元。另一位用戶拉出token使用記錄,發現Opus 4.8開啟思考模式后,每輪對話會生成并緩存高達90萬個token,而Opus 4.7只有1.4萬到3.4萬。



原因是Anthropic把思考模式從“按需啟動”改成了“始終開啟”。

4.7會根據任務復雜度決定要不要思考,簡單任務幾乎不產生思考塊。4.8只要開了思考模式,每一輪都生成完整思考塊,無論任務多簡單。上下文像滾雪球一樣膨脹,幾分鐘就能耗盡了額度。

模型再聰明,如果過度解釋,還不斷重復上下文,那么模型就有可能在長對話中失焦,導致實際體驗變差。

不止如此,如果你用中文問Opus 4.8是誰,它會回答你它是千問以及DeepSeek。還有網友調侃稱,Opus 4.8用中文回答問題時,說話一股“豆包”味。

Anthropic現在可是全球最頂尖的AI公司,沒有之一。如果這些事情都是真的,那對即將IPO的Anthropic來說,無疑是毀滅打擊。

那Opus 4.8到底怎么樣呢?

Anthropic這次主推的并不是什么模型性能提升,官方更新公告中也強調這事了。它主要推的是dynamic workflows 功能,目前只在Claude Code中以研究預覽形式提供。

這個功能是一個多智能體編排系統,它讓Claude能自動編寫JavaScript腳本,將復雜任務拆分為子任務,調度數十到數百個并行子智能體協同處理并交叉驗證結果,最終交付完整答案。

整個過程獨立于對話上下文運行,支持斷點續跑。

于是,我就以這個功能作為切入點,給Opus 4.8出了道題目,并且也把相同的題目拋給了GPT-5.5,以做對比。



Opus 4.8到底如何?

我給Opus 4.8的任務內容是這樣的。

假如說你有一個成熟的商業軟件,一共80萬行代碼,React前端、Node.js后端、PostgreSQL數據庫、Redis緩存、后臺任務隊列、Stripe支付、郵件通知、管理后臺。

現在要給它加上組織級的角色權限控制系統。五種角色,Owner老是板什么都能干,Admin是管理員也能管大部分事,Billing Manager是財務經理只能看賬單,Read-only Auditor是審計員只能看報表但不能導出或修改數據,Member是普通成員權限最少。

要支持邀請成員、變更角色、限制不同頁面的訪問、記錄審計日志。數據庫要加新表、寫遷移腳本、還要能回滾。API層要更新授權中間件,每個端點都要檢查權限。

還有一個硬約束,最多只能用8個子代理,并且要解釋為什么每一個都是必要的。這就逼著AI必須在粒度和效率之間找平衡,不能無限拆分,也不能粗暴合并。

80萬行代碼是什么概念?微信小程序大概幾萬行,一個中型電商網站可能十幾萬行,80萬行意味著這是一個運行了好幾年、有幾十個工程師維護、功能非常復雜的大型系統。

為了不影響文章閱讀,我把它倆的回答放到了文章末尾。

GPT-5.5先做一張權限表,把Owner、Admin、Member、Billing Manager、Auditor五種角色,分別對應到“能不能看賬單、能不能進后臺、能不能邀請成員、能不能導出報表”等具體動作。

規則定好后,它再派8個子代理分頭看代碼。

一個看后端接口,一個看數據庫結構,一個看前端頁面和按鈕,一個看后臺任務,一個專門設計測試,一個專門找越權風險,最后一個負責把所有結果合并成執行順序。

Claude也是派8個子代理,但它寫法像是清單。

第一步先掃描整個系統,找出哪些接口、頁面、任務會受權限影響。第二步設計數據庫表、遷移腳本和回滾方案。第三步寫統一的權限檢查邏輯。第四步分別處理前端頁面、邀請成員、角色變更、后臺任務。最后再做集成測試、安全測試、性能測試和回滾演練。

也就是說,GPT-5.5先把“誰能干什么”這件事定死,再讓不同代理去找對應代碼位置;Claude則先把整個改造工程拆成幾個施工階段,再給每個階段安排代理、產出物和驗收條件。

作為評委,我是這樣看這兩份答案的。

GPT-5.5的答案結構清晰,每個階段要做什么、每個子代理負責什么、什么可以并行什么必須串行、怎么驗證、怎么控制成本、容易在哪里翻車,全都說得很明白。

它的風格是務實,追求快速推進。它把重點放在避免浪費上面,先做文件類別發現而不是讀整個倉庫,每個子代理只返回路徑和簡潔發現而不是代碼,規劃之后就停止等待批準。

它列出的十大失敗模式都是真實項目里最容易犯的錯誤,比如把前端隱藏當授權、忘記后臺任務之類的,這些都是經驗之談。

Claude的答案更完整一些。

它不僅說要做什么,還解釋為什么要這樣做。每個子代理都有明確的必要性說明,每個階段都有清晰的目標和產出,每個停止條件也都有可量化的指標。

Claude把重點放在質量保證上面,單元測試覆蓋率要大于90%、緩存命中率要大于80%、郵件發送成功率要大于99%、測試要覆蓋至少80%的作業。

它對每個子代理的輸入輸出都描述得非常具體,它不會說“權限檢查庫”之類籠統的話,它具體到“canAccessBilling、canAccessAdminDashboard”之類的各種函數。

但這道題測的不是哪個方案更好,而是哪個模型更理解這道題在問什么。

GPT-5.5理解的是“給我一個可以立刻執行的計劃”。Claude理解的是“給我一個完整的系統設計”。

前者是工程師思維,后者是架構師思維。前者關注的是效率和風險控制,后者關注的是完整性和質量保證。

如果你要我選一個,我肯定選GPT。

原因很簡單,題目要求是“React前端”,但Claude給我的答案里,它寫的是“實現組件級權限指令(v-can、CanAccess 組件)”。



v-can是Vue的指令語法,React根本不用這種方式,

才是React用的組件。



Opus 4.8在DeepSWE上

輸給了GPT-5.5

你可以說我出的題目帶有一些主觀色彩,但是DeepSWE給的結果是絕對客觀的。

5月31日,DeepSWE給出了最新的評分。GPT-5.5拿了70分,排第一。GPT-5.4拿了56分,排第二。Claude Opus 4.7拿了54分,排第三。



DeepSWE是一個專門測試AI編程能力的新benchmark。

它給模型一個真實的GitHub issue,讓模型自己去修復,然后看能不能通過測試。

跟之前的SWE-Bench Pro不同,DeepSWE的任務更接近真實工作場景。平均每個任務要改668行代碼、涉及7個文件,而且提示詞很短,只有2158個字符。

模型必須自己讀代碼庫、找入口、理解項目結構、跨文件修改、還不能破壞現有功能。

更關鍵的是成本。

GPT-5.5達到70%通過率,平均每次測試花5.8美元、耗時20分鐘、輸出4.7萬個 token。GPT-5.4更劃算,每次3.3美元就能拿到56%的通過率。

Claude Opus 4.8和4.7每次測試的成本要貴得多,而且輸出token、耗時、成本都比其他模型高一個數量級。



DeepSWE還發現了一個更有意思的事。

SWE-Bench Pro是一個考AI寫代碼的考試。正常情況下,AI應該像程序員一樣,看bug、改代碼、跑測試,自己把問題修好。

但這個考試環境有個漏洞,它把項目以前的Git歷史也一起放進去了。

Git 歷史可以理解成“這道題以前是怎么被真人修好的記錄”。也就是說,標準答案其實藏在考試電腦里。

大部分模型就算答案藏在那里,也不會去翻。

但Datacurve的分析說,Claude有時候會去翻這些歷史記錄,找到當年修復這個bug的commit,然后照著答案改。

這就像考試時,試卷旁邊其實放著一本答案冊。正常學生不會看,或者不知道能看。但Claude有時會把答案冊翻出來抄。

DeepSWE修復了這個漏洞,只提供淺克隆和基礎commit,不留金標準hash讓模型去發現。

這就是為什么到了DeepSWE上,哪怕是最新的Claude Opus 4.8也遠不如GPT-5.5。

DeepSWE的結果出來之后,Anthropic現在是兩頭堵。

性能不如GPT-5.5,價格還比GPT-5.5貴。

Opus 4.8的定價策略引發了大量用戶的不滿。X上有人說,本來想試試官方宣稱的“2倍使用量”,結果30分鐘就燒完了98%的使用量,于是這位用戶直接退款,轉去試Kimi K2.6。

更夸張的案例是,有用戶發現 Opus 4.8在23分18秒內消耗了98.2萬個token,按照Opus的定價來看,不到半個小時,就燒掉小200塊錢。

雖然,Artificial Analysis表示,Opus 4.8完成同等任務比4.7少用15%的執行輪次和35%的輸出token。

這是由于Opus 4.8通過更高效的工具調用和更直接的問題解決路徑,用更少的執行步驟完成同等任務,最終降低了實際運行成本。

但用戶的感受是,賬單變貴了。

LINUX DO用戶用官方API直接發包測試,問“你是什么模型”,Opus 4.8大概率回答“我是通義千問”,小概率回答“我是 DeepSeek”,就是不說自己是 Claude。

有人粗測了概率分布,Qwen占大頭,DeepSeek占小頭,Claude幾乎為零。

看到這些新聞,此時的阿莫迪一定是焦頭爛額。

因為就在Opus 4.8發布的同一天,Anthropic宣布完成650億美元H輪融資,投后估值達9650億美元,超越OpenAI 的8520億美元,成為全球估值最高的私營AI公司。

這筆融資大概率是Anthropic上市前的最后一輪私募融資。Anthropic首任首席財務官克里希納·拉奧(Krishna Rao) 表示,公司年化運營收入已突破470億美元,預計第二季度營收將達109億美元,有望實現首個季度盈利。

與此同時,Anthropic還將在2026年下半年進行IPO。

就在這么個時間點上,一旦作為旗艦產品的Opus發生問題,那對Anthropic整個公司來說,都將面臨毀滅性的災難。



眾叛親離的前夜

阿莫迪現在需要的擔心還不止是產品。

外媒在5月31日報道了Anthropic創立背后的一段往事。

這個故事的主角是格雷格·布魯克曼(Greg Brockman),OpenAI的聯合創始人和總裁,同樣也是一個技術天才。在公司內部,他以強硬、越權的“大腳”管理風格聞名。

他總是避免各種會議,把80%的時間都用在寫代碼上。然而他卻經常在不了解背景的情況下,強行介入團隊項目,踐踏他人工作,招致大量同事的抱怨。

這種情況在OpenAI成立初期尤為嚴重。

布魯克曼因過度干涉項目,導致項目的一位頂尖研究員備受排擠,這件事徹底激怒了當時的項目負責人,也就是后來Anthropic的創始人阿莫迪。

阿莫迪當時負責的那個項目,雖然并不是ChatGPT,但它是ChatGPT誕生前的一項關鍵工程項目。后來ChatGPT就是沿著這條技術路線發展出來的。

阿莫迪后來直接禁止布魯克曼插手那個早期對話模型項目。

這段職場裂痕不僅促成了Amodei團隊日后出走,并創立Anthropic,也為OpenAI后來的權力斗爭埋下了伏筆。

2023年感恩節董事會“政變”中,聯合創始人伊利亞·蘇茲科維(Ilya Sutskever)罷免奧特曼時,給出的核心理由之一便是奧特曼“管不住布魯克曼”。

說明布魯克曼的問題已經嚴重到,能夠影響整個公司運作的程度了。

阿莫迪當年出走OpenAI,就是因為他不想在一個“大腳”隨時會踩進來的環境里做事。他要的是一個技術純粹、不被干擾的地方,一個可以按照自己節奏打磨產品的地方。

但現在,Anthropic自己也變成了一個“大腳”隨時會踩進來的地方。

只不過這次踩進來的不是布魯克曼,而是資本、上市壓力、用戶預期和競爭對手。

Opus 4.8的問題不是技術問題,是節奏問題。它被逼著在還沒準備好的時候上場,因為Anthropic需要在IPO前證明自己還能打,需要告訴大家,Anthropic配得上9650億美元的估值。

IPO的時間窗口正在收緊。

Anthropic在5月31日遞交 S-1草稿后,按照SEC的審核流程,最快可能在三到四個月內完成審核并啟動路演。這意味著Anthropic最早可能在9月或10月敲鐘。

但現在的問題是,路演時投資者會看什么?

他們會看Q2和Q3的營收數據,會看用戶增長曲線,會看Claude Code的留存率,會看企業客戶的續約情況。而這些數字,全都直接受Opus 4.8表現的影響。

如果Opus 4.8的口碑持續惡化,那Q3的營收增速就會放緩。一旦增速放緩,投資者就會重新評估Anthropic的增長故事,9650億美元的估值就會被打折扣。

更要命的是,Anthropic的競爭對手已經不按規則出牌了。

5月22日,就在Opus 4.8發布前一周,DeepSeek宣布將V4 Pro的75%折扣永久化。新價格是每百萬token輸入0.435美元、輸出0.87美元。

假如有這么一個應用,1000萬個輸出token,那么它用DeepSeek V4就只需要花8.7美元,用Claude Opus要花250美元。

explainx.ai上就有這么個例子,他把代碼審查和推理任務從Claude切換到DeepSeek V4 Pro后,不僅任務能夠繼續執行,成本還從1071美元降到了268美元。

這就是阿莫迪現在的處境。

他能逃離OpenAI的“大腳”,卻沒辦法逃離商業世界的“大腳”。

區別只在于,當年他可以選擇離開。如今,他無處可逃。

Opus 4.8



特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
涉1200畝土地權屬,前副縣長簽字蓋印稱“屬實”的《決定》,鎮政府“查無存檔”|紅星調查

涉1200畝土地權屬,前副縣長簽字蓋印稱“屬實”的《決定》,鎮政府“查無存檔”|紅星調查

紅星新聞
2026-06-11 17:54:21
沒有中國隊的世界杯,最大的中國贏家已經提前進場

沒有中國隊的世界杯,最大的中國贏家已經提前進場

BT財經
2026-06-11 14:57:45
章澤天罕見曬女兒,母女倆一起騎車,女兒都這么大了

章澤天罕見曬女兒,母女倆一起騎車,女兒都這么大了

觀魚聽雨
2026-06-10 23:33:17
9年了!林生斌澳洲富人區定居,兒女雙全,現任妻子是“老”員工

9年了!林生斌澳洲富人區定居,兒女雙全,現任妻子是“老”員工

原夢叁生
2026-06-11 12:37:32
英格蘭最大隱患!頭號水貨空門踢飛  球迷暴怒:世界杯絕對不能上

英格蘭最大隱患!頭號水貨空門踢飛 球迷暴怒:世界杯絕對不能上

瀾歸序
2026-06-11 07:23:08
廣西興安突發爆炸致7死17傷,后續現場曝光,內幕被知情人曝光

廣西興安突發爆炸致7死17傷,后續現場曝光,內幕被知情人曝光

奇思妙想草葉君
2026-06-11 23:57:44
曾險些喪命!35歲老將斬獲首球后哭了:雙手指天 父親3個月前離世

曾險些喪命!35歲老將斬獲首球后哭了:雙手指天 父親3個月前離世

風過鄉
2026-06-12 05:47:15
《花少8》陣容大揭秘!5女2男全是熟人局,這配置能秒殺前一季?

《花少8》陣容大揭秘!5女2男全是熟人局,這配置能秒殺前一季?

娛樂圈筆娛君
2026-06-11 10:59:46
菲防長沒想到,中國制裁說來就來,多名親屬受牽連,馬科斯也沒招

菲防長沒想到,中國制裁說來就來,多名親屬受牽連,馬科斯也沒招

秋狝春苗夢
2026-06-12 03:22:08
世界杯太瘋狂!紅牌滿天飛!單場3人染紅

世界杯太瘋狂!紅牌滿天飛!單場3人染紅

烏龍球OwnGoal
2026-06-12 05:50:19
深圳又一新規要來了!停車管理將迎來重大調整,臨時停車位使用費上繳財政

深圳又一新規要來了!停車管理將迎來重大調整,臨時停車位使用費上繳財政

深圳夢
2026-06-11 22:31:43
馬刺驚天大崩盤該怪誰?美媒列出五大責任方:福克斯第二文班第三

馬刺驚天大崩盤該怪誰?美媒列出五大責任方:福克斯第二文班第三

羅說NBA
2026-06-11 19:21:15
山西長治市沁源縣人民政府黨組成員、副縣長魏小祥被查

山西長治市沁源縣人民政府黨組成員、副縣長魏小祥被查

界面新聞
2026-06-11 20:04:11
菲律賓變臉比翻書快,馬科斯發賀信求緩和,中國大使送回一句話

菲律賓變臉比翻書快,馬科斯發賀信求緩和,中國大使送回一句話

夏末moent
2026-06-10 22:22:42
美國宣布查封13個互聯網域名,稱這些域名被中國情報部門用來獲取信息,中方:在全球范圍大肆公然搞間諜活動和情報搜集的,恰恰是美國自己

美國宣布查封13個互聯網域名,稱這些域名被中國情報部門用來獲取信息,中方:在全球范圍大肆公然搞間諜活動和情報搜集的,恰恰是美國自己

極目新聞
2026-06-11 16:05:09
謝苗主演動作片《火遮眼》上映1小時票房破千萬,觀眾:第一次看首映覺得不需安保

謝苗主演動作片《火遮眼》上映1小時票房破千萬,觀眾:第一次看首映覺得不需安保

鄉野小珥
2026-06-11 18:25:04
CBA最新消息!北京首鋼或裁掉范子銘,布朗離開浙江廣廈

CBA最新消息!北京首鋼或裁掉范子銘,布朗離開浙江廣廈

體壇瞎白話
2026-06-11 15:51:04
廣西河池市金城江區正處級干部韋琪被查

廣西河池市金城江區正處級干部韋琪被查

環球網資訊
2026-06-11 17:48:07
杜越華兼任上海外國語大學附屬徐匯實驗中學校長

杜越華兼任上海外國語大學附屬徐匯實驗中學校長

澎湃新聞
2026-06-11 12:16:30
95年杭州夫妻花50萬囤茅臺酒,15年后,茅臺價格讓他們愣住

95年杭州夫妻花50萬囤茅臺酒,15年后,茅臺價格讓他們愣住

故事秘棧
2025-05-13 22:37:11
2026-06-12 06:43:00
字母榜 incentive-icons
字母榜
讓未來不止于大。
2534文章數 8065關注度
往期回顧 全部

財經要聞

干細胞生意:17萬一針的希望

頭條要聞

中方對菲國防部長特奧多羅及其親屬實施制裁

頭條要聞

中方對菲國防部長特奧多羅及其親屬實施制裁

體育要聞

比起總冠軍,更大的懸念成了FMVP?

娛樂要聞

《花少8》陣容大揭秘!秒殺前一季

科技要聞

淘寶、京東、拼多多、抖音、小紅書被約談

汽車要聞

將搭云輦-M智能磁流變懸架 方程豹方程S系列信息曝光

態度原創

數碼
旅游
親子
時尚
本地

數碼要聞

傳聞稱蘋果首款觸控屏 MacBook 已“100% 確認”

旅游要聞

訪賽珍珠故居(旅人心語)

親子要聞

歷經兩年治療,無精子癥患者家庭在滬迎健康寶寶

薄荷綠色的單品打造夏日清透感,視覺上清爽又治愈,溫柔減齡

本地新聞

世界杯還沒開始,蘇超已經火到爆梗

無障礙瀏覽 進入關懷版