![]()
機器之心編輯部
前幾天,OpenAI 正式發布了全新的大模型 GPT-5.4-Cyber。和很多網友的感受一樣,這個模型也給我們帶來了一種極其強烈的既視感。
這款新模型在目標用戶群、應用場景甚至宣發策略上,幾乎完全對標了 Anthropic 前些天發布的 Claude Mythos。這種「貼身肉搏」的態勢已經到了毫不掩飾的地步。就連《紐約時報》都在最新的報道標題中一針見血地指出:「與 Anthropic 一樣,OpenAI……」。
![]()
這種同質化的趨勢絕不僅僅停留在最底層的基座模型上。如果你把目光投向這兩家公司近期發布的一系列產品,你會發現它們正在成為彼此的鏡像!
在資本市場的無影燈下,這種趨同更加明顯。目前兩家公司在二級市場上的估值咬得非常緊,Anthropic 甚至在近期憑借其在企業級市場的狂飆突進,價格略高于 OpenAI。資本的嗅覺最為靈敏,在他們眼中,這兩只獨角獸正在長出相同的犄角。
![]()
看起來,底層大模型的同質化必然會導致上層應用的趨同。
今天,我想和大家探討的,正是代表著當今 AI 輔助編程最高水平的兩個標桿工具: OpenAI 的Codex和 Anthropic 的Claude Code。從曾經的分道揚鑣,到如今的殊途同歸,它們是如何一步步長成了同一副模樣的?
從分道揚鑣到殊途同歸:雙雄的演進史
把時間撥回幾年以前,Codex 和 Claude Code 完全是兩種不同技術哲學的產物。
Codex 的底層邏輯是「天下武功唯快不破」。它就像是一個跟在你身后、隨時準備補全代碼的 5 年經驗高級開發。
![]()
在 OpenAI 的構想中,Codex 是一個輕量級、高互動的終端智能體,它主打快速迭代和交互式編程。它的執行速度極快,在 Cerebras WSE-3 硬件的加持下,能夠達到每秒 1000 個 token 的吞吐量。在具體的工作流中,Codex 提供建議、自動編輯和全自動三種明確的審批模式,讓開發者始終保持在循環之內。這種設計思路非常符合那些需要快速構建原型、處理高頻交互的極客開發者。
反觀 Claude Code,它從誕生之初就自帶一種高冷且克制的「架構師」屬性。
![]()
Anthropic 為它注入了處理極端復雜任務的基因。它依賴高達 100 萬 token 的龐大上下文窗口,以及獨特的「壓縮」技術來實現無限對話。Claude Code 的信條是「全局掌控,謀定而后動」。在執行任何動作之前,它會先使用智能體搜索技術吃透整個代碼庫的脈絡,然后協調多文件進行一致性修改。對于那些涉及數萬行代碼遷移的企業級重構任務,Claude Code 展現出了驚人的統治力。
然而,隨著時間的推移以及應用場景的不斷下探,這兩個原本性格迥異的工具,開始互相抄作業。
![]()
圖源:MorphLLM
在處理復雜項目時,單體 AI 模型面臨的最大瓶頸就是上下文污染。你讓 AI 重構鑒權模塊,它讀了 40 個文件之后,往往就忘記了第一個文件的設計模式。為了解決這個痛點,兩家公司給出了幾乎一模一樣的答案:為每個子任務分配獨立的上下文窗口。
OpenAI 很快推出了全新的 macOS 桌面端應用,將任務按項目隔離在不同的線程中,并在云端沙盒里獨立運行。Anthropic 則推出了智能體團隊架構,允許開發者派生出多個子智能體,它們共享任務列表和依賴關系,并在各自的獨立窗口中并行工作。你會發現,無論是叫「云端沙盒」還是叫「智能體團隊」,它們在工程實現上的核心理念已經完全重合。
在基準測試的成績單上,它們也呈現出一種微妙的平衡。GPT-5.3-Codex 在終端任務 Terminal-Bench 2.0 中以 77.3% 的得分領先。Claude Code 則在復雜的 SWE-bench Verified 榜單上拿下了 80.8% 的成績。它們都在自己的優勢區間里做到了極致,同時又在拼命彌補自身的短板。
OpenClaw 效應:推倒高墻的無形之手
如果說兩家公司的內部戰略決定了它們走向同質化的內因,那么整個開源生態的倒逼則是不可忽視的外力。在這里,我們必須要提到 OpenClaw 給整個 AI 編程工具賽道帶來的深遠影響。
作為開源社區推出的工作流框架,OpenClaw 的出現可以說是推倒了巨頭們辛苦建立的生態高墻。它將大模型與本地終端工具鏈的交互過程進行了標準化。過去,如何讓大模型優雅地調用本地 Git 提交、如何安全地在沙盒中運行測試腳本、如何進行多步推理驗證,這些都是 Codex 和 Claude Code 各自引以為傲的專有「黑科技」。
但 OpenClaw 將這些流程抽象成了通用的協議。這意味著,開發者不再需要為了某一種特定的協同模式而被綁定在特定的平臺上。開源社區的狂歡讓標準化成為了不可逆轉的洪流。面對這種情況,無論是 OpenAI 還是 Anthropic,都不得不放低姿態去兼容這種開放的標準。
當底層的技術壁壘被 OpenClaw 這種開源力量拉平,當所有的高級特性都成為了行業的標準配置,Codex 和 Claude Code 唯一的出路,就是在更細微的用戶體驗層面進行無止境的內卷。這也是為什么我們會覺得它們越來越像,因為在標準化的框架下,最優解往往只有一個 —— 就像是生物的趨同演化。
Codex 正在追趕 Claude Code
雖然 Claude Code 與 Codex 正在趨同演化的道路上,但兩者的差異依然存在,甚至 Codex 在某些方面已經更受開發者青睞。
前兩天,在 r/ClaudeCode 社區,一位擁有 14 年經驗、曾在科技巨頭工作的高級工程師 u/Canamerican726 分享了一份極其硬核的測評。
具體而言,他在一個包含 8 萬行代碼的復雜項目中,分別投入 100 小時使用 Claude Code 和 20 小時使用 Codex。
![]()
在他的視角里,使用 Claude Code 就像在指導一個被截止日期追趕的工程師,它沖刺速度極快,卻經常會無視開發者在 CLAUDE.md 中寫下的規范,并且喜歡在現有文件里不斷堆砌代碼來完成任務,缺乏重構思維。
相比之下, Codex 給他的感覺更像是一個擁有 5 到 6 年經驗的沉穩老手。它的處理速度雖然要慢上 3 到 4 倍,但會在中途主動停下來思考并重構代碼,并且嚴格遵守指令邊界。這種高度的自主性,讓這位工程師敢于把任務直接扔給它,然后放心地去做其他事情。
同樣的聲音也出現在 X 等社交網絡上。研究員 Aran Komatsuzaki 結合自己的使用體驗提到,在前端領域 Claude Code 依然占優,但在后端規劃和保持信息更新方面,高頻調用網絡搜索的 Codex 顯然更加扎實。
![]()
評論區里充滿了真實業務場景下的血淚總結。有開發者極其犀利地指出,基于 Opus 的模型雖然跑得快,但往往會給項目積攢下大量的「代碼清潔債務」,Codex 動作慢,卻能在前行的同時順手把地掃干凈。我甚至看到有用戶總結出了一條生存法則,建議大家在上下文窗口的使用率達到 70% 時立刻開啟新會話,否則極其容易收到系統附贈的隱蔽 bug。
![]()
這些來自一線的真實吐槽清晰地表明,當兩大神器的能力面板越來越重合時,決定開發者最終陣營歸屬的,往往就是這些關乎「填坑成本」和「維護心智」的微小體驗差距,當然對于中國用戶還有一些特殊的困難,比如:
![]()
冷思考:同質化背后的生態暗戰
當然,Codex 和 Claude Code 和優劣還在于各位開發者自己,也要看開發者自身的能力,正如上述 u/Canamerican726 的評測報告總結的那樣:如果你不懂軟件工程,這兩個工具都會輸出糟糕的結果,工具并不等同于技能。
這句話戳破了 AI 編程工具長期以來營造的某種幻覺。我們曾經以為,只要有足夠強大的 AI 助手,哪怕是沒有任何基礎的 Vobe Coder 也能單槍匹馬打造出企業級應用。但現實是,Claude Code 需要一個極其專注且技能過硬的「駕駛員」,否則它很容易在龐大的代碼庫中迷失方向。Codex 雖然更加獨立,但它同樣需要開發者提供精準的系統上下文才能發揮最大效用。
那么,在工具能力高度同質化的今天,這兩家公司的護城河究竟轉移到了哪里?
答案藏在那些枯燥的財務報表和定價策略里。在相同的任務下,Claude Code 消耗的 token 數量往往是 Codex 的 3 到 4 倍。使用成本更高。對于企業團隊來說,使用 Claude Code 每個月需要為每位開發者支付 100 到 200 美元的費用。而 Codex 則將其能力打包進了價格更為親民的訂閱計劃中,并且通過龐大的 GitHub 社區積攢了大量基礎用戶。
![]()
圖源:MorphLLM
Anthropic 的野心在于將 Claude Code 深度嵌入到那些不缺錢的科技巨頭的工作流中。比如 Stripe 就讓 1370 名工程師使用 Claude Code,在 4 天內完成了一項原本需要 10 個人工作數周的跨語言代碼遷移。Ramp 公司更是依靠它將事件響應時間縮短了 80%。OpenAI 則依靠其無孔不入的生態滲透率,讓 Codex 成為了許多普通開發者的默認選擇。
這不再是一場單純的技術競賽,而是一場關于生態綁定、定價策略以及用戶習慣重塑的消耗戰。
開發者的十字路口
回望這一年來的技術演進,GPT-5.4-Cyber 的發布只是這場漫長戰役中的一個微小注腳。Codex 和 Claude Code 正在走向「同一張面孔」,標志著 AI 編程工具從早期充滿變數和獵奇色彩的測試階段,正式邁入了成熟且乏味的工業化生產階段。
現在,Claude Code 每天會自動生成 13.5 萬次 GitHub 提交,這個數字已經占到了全網公開提交量的 4%。我們可以預見,在不久的將來,大部分的樣板代碼、基礎測試用例以及常規的代碼重構,都會由這些長得越來越像的 AI 智能體在后臺默默完成。
![]()
圖源:MorphLLM & SemiAnalysis / GitHub Search API
面對兩個在能力上無限趨近、在體驗上相互模仿的超級工具,我們作為人類開發者的核心價值還剩下什么?或許,工具紅利期即將徹底結束。當每個人手中都握著同樣鋒利的武器時,真正決定勝負的,將不再是誰擁有更好的代碼補全速度,而是誰能更好地定義問題、誰擁有更宏大的系統架構視野,以及誰能在這個被 AI 填滿的代碼世界里,找到那份屬于人類獨有的不可替代性。
話說回來,你選哪個?
https://www.morphllm.com/comparisons/codex-vs-claude-code
https://www.reddit.com/r/ClaudeCode/comments/1sk7e2k/claude_code_100_hours_vs_codex_20_hours/
https://x.com/arankomatsuzaki/status/2044270102003196007
https://www.nytimes.com/2026/04/14/technology/openai-cybersecurity-gpt54-cyber.html
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.