剛剛,OpenAI 正式進軍 AI 芯片領域。
北京時間 6 月 24 日晚間,OpenAI 發布了旗下第一顆自研芯片,代號“Jalape?o”(西班牙語里的“墨西哥辣椒”)。這顆芯片由 OpenAI 自主設計架構,博通(Broadcom)負責硅片實現與網絡互聯,臺積電(TSMC)代工制造,采用 3 納米先進制程。
當天,博通 CEO Hock Tan 和總裁 Charlie Kawwas 將首批工程樣片交到了 OpenAI CEO Sam Altman 和總裁 Greg Brockman 手中。
![]()
圖 | 博通公司首席執行官 Hock Tan 將一片芯片晶圓遞交給 OpenAI 公司首席執行官 Sam Altman。(來源:OpenAI)
在公告中,OpenAI 把這顆芯片稱為“Intelligence Processor”——智能處理器,而不是業內更常見的“AI 加速器”。這個命名或許暗示了 OpenAI 對其的產品定位:它并非通用芯片,而是一顆圍繞大語言模型(LLM)推理場景設計的處理器。
九個月,AI 開始參與設計自己的硬件
本次官宣中,最引人注目的應該是這枚芯片的研發速度。
據 Brockman 在接受 CNBC 采訪時透露,Jalape?o 從最初的架構設計到完成制造流片(tape-out,即將芯片版圖數據提交至晶圓廠),全程僅耗時約九個月。這個速度在高性能半導體行業相當罕見。
作為對比,Google 第一代 TPU(Tensor Processing Unit,張量處理單元)從架構到流片大約花了三年,傳統芯片公司的同等規模項目通常需要五到七年。OpenAI 在公告中直言,“我們相信這是高性能先進半導體領域有史以來最快的 ASIC 開發周期。”
如此快的開發速度背后有兩個關鍵因素。
一是 OpenAI 自身的 AI 模型深度參與了芯片設計流程。Brockman 表示,模型在加速設計優化方面的表現“令團隊自己都感到驚訝”。換句話說,AI 正在幫助設計運行自己的硬件。
二是團隊經驗。OpenAI 硬件負責人 Richard Ho 此前在 Google 工作近九年,是 Cloud TPU 項目的核心工程師,曾主導多代 TPU 從概念走向量產。他在 2023 年底加入 OpenAI 后迅速組建團隊。據此前路透社報道,OpenAI 芯片團隊規模已擴展到約 40 人。
![]()
圖 | Richard Ho(來源:OpenAI)
Jalape?o 是一顆 ASIC(Application-Specific Integrated Circuit,專用集成電路),主要面向 AI 推理,也就是當用戶向 ChatGPT 提問、讓 Codex 執行編碼任務時,后臺真正處理請求的環節。隨著 ChatGPT 日活用戶突破數億、Codex 等智能體產品上線,推理側的算力消耗和成本壓力正在快速攀升。
據此前多家媒體引述的技術細節,Jalape?o 采用脈動陣列(systolic array)架構,并搭配高帶寬內存(HBM)。OpenAI 在數據搬運路徑、計算與存儲配比上做了專門優化。官方表述是,芯片“減少了數據搬運,使實際利用率遠遠逼近理論峰值性能”。簡單來說,就是讓每一分算力都盡可能被模型真正用上。
Richard Ho 在此前斯坦福大學的一次閉門分享中,曾用一句話概括這顆芯片的設計哲學:“你必須為模型將要去的方向設計硬件,而不是為模型今天所在的位置。”在他看來,這不是單純的芯片工程,而是一個系統工程,涵蓋硅片、機架、網絡、供電、散熱和數據中心的完整鏈條。
關于性能,OpenAI 的說法相對謹慎:早期測試顯示,Jalape?o 每瓦性能將“大幅優于當前最先進水平”,具體技術報告將在未來數月發布。
但 Hock Tan 在接受路透社采訪時就比較直接。他表示,Jalape?o 的性能已經與英偉達 Blackwell 系列和 Google TPU 處于同一水平。另據 Blockonomi 報道,Hock Tan 提到,初步樣品的推理成本相比傳統 AI GPU 降低了約 50%。不過該數據尚未獲得 OpenAI 方面獨立確認。
目前可以確認的是,工程樣品已經在實驗室以目標頻率和功耗成功運行 ML 工作負載,包括 GPT-5.3-Codex-Spark 模型。
OpenAI 的全棧野心
那么問題來了,OpenAI 為什么要自己做芯片?
最直接的原因,或許是降低對英偉達的過度依賴。Brockman 在 CNBC 采訪中坦言,OpenAI“永遠無法足夠快地獲取算力”。Hock Tan也表示,博通客戶的算力需求“簡直是無底洞”,這種需求緊張狀態可能會一直延續到 2028 年。
但 OpenAI 不想止步于此,它還想擁有對技術的全棧控制。
OpenAI 在公告中寫道,公司正在設計模型底下的基礎設施:芯片架構、內核、內存系統、網絡、調度和部署系統,每一層都圍繞同一個目標優化。這個思路與 Google 做 TPU、蘋果做 M 芯片的邏輯一脈相承。區別在于,OpenAI 起步最晚,但試圖用更快的速度補上這塊短板。
部署時間表上,OpenAI 計劃在 2026 年底前啟動初步部署。Hock Tan對 CNBC 表示,年底會進行“小規模原型部署”,2027 年開始放量,2028 年上半年全速運轉。配套服務器將由天弘科技(Celestica)生產,芯片和服務器均不對外銷售,僅供 OpenAI 內部使用,最終部署在微軟等合作伙伴的數據中心內。
Hock Tan此前預估的芯片部署總功耗為 10 吉瓦(GW)。而在周三的發布活動上,他表示,2027 年 1.3 吉瓦的部署量預測“可能過于保守”,因為實際需求遠超預期。下一代芯片預計將在 2028 年推出,此后計劃按年迭代。
當然,需要了解的是,當前的 AI 芯片賽道已經相當擁擠。
Google 的 TPU 已經迭代到第六代,是目前最成熟的非英偉達 AI 加速方案;亞馬遜的 Trainium 芯片已投入商用,OpenAI 今年早些時候也與 AWS 簽署協議使用 Trainium;微軟在 2023 年底發布了自研 AI 芯片 Maia;Meta 也在開發 MTIA 芯片。AI 芯片初創公司 Cerebras 今年 5 月完成 IPO 上市,OpenAI 還與其簽署了三年期算力采購協議。
換句話說,自研芯片并不意味著 OpenAI 會放棄外部算力來源。更準確地說,它是在把算力來源變得更多元,同時盡量把最核心的推理成本和基礎設施控制權握在自己手里。
不過,自研芯片從來不是容易的事。微軟和 Meta 都在這條路上摸索多年,進展都不太順利。一顆大規模 AI 芯片的全流程成本可達數億美元。如果算上配套軟件棧和外圍系統,成本還會繼續上升。
而且,OpenAI 的芯片團隊規模也仍遠小于 Google 和亞馬遜的同類團隊。后續能否持續擴充人才、迭代架構,是決定這條路能走多遠的關鍵變量。此外,定制 ASIC 在靈活性上天然不及通用 GPU。Jalape?o 針對推理場景做了深度優化,但面對快速演進的模型架構,它的適應性仍有待大規模驗證。
1.https://openai.com/index/openai-broadcom-jalapeno-inference-chip/
2.https://www.theverge.com/ai-artificial-intelligence/955939/openai-reveals-its-first-ai-processor-jalapeno?
3.https://x.com/OpenAI/status/2069770172802773292
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.