无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

當(dāng)工程師拒絕更聰明的模型:AI推理大戰(zhàn),OpenAI換了一把"槍"

0
分享至

人工智能推理市場(chǎng)正在經(jīng)歷一場(chǎng)深刻的范式轉(zhuǎn)變——速度,而非智能,正成為開發(fā)者愿意為之付費(fèi)的核心變量。這一偏好的逆轉(zhuǎn),將長(zhǎng)期處于邊緣地位的芯片公司Cerebras推向了聚光燈下,也讓OpenAI斥資數(shù)百億美元押注一家即將上市的晶圓級(jí)芯片制造商。

據(jù)行業(yè)研究機(jī)構(gòu)SemiAnalysis的深度報(bào)告,OpenAI已與Cerebras簽署總規(guī)模高達(dá)750兆瓦算力的主協(xié)議,潛在擴(kuò)展至2吉瓦,對(duì)應(yīng)剩余履約義務(wù)達(dá)246億美元。

這筆交易的核心邏輯在于:OpenAI旗下GPT-5.3-Codex-Spark模型在Cerebras硬件上可實(shí)現(xiàn)每用戶每秒2000個(gè)token的生成速度,遠(yuǎn)超基于HBM的GPU集群所能提供的交互體驗(yàn)。與此同時(shí),Cerebras正站在IPO的門檻上,其命運(yùn)已與OpenAI深度綁定。

這場(chǎng)速度革命的市場(chǎng)信號(hào)已相當(dāng)清晰。SemiAnalysis披露,其團(tuán)隊(duì)80%的AI支出(年化峰值達(dá)1000萬美元)集中在Anthropic的Opus 4.6快速模式上——該模式以6倍溢價(jià)換取2.5倍交互速度。更具說服力的是,當(dāng)Opus 4.7發(fā)布時(shí),團(tuán)隊(duì)中多名工程師拒絕升級(jí),原因僅僅是新版本不支持快速模式。這是SemiAnalysis團(tuán)隊(duì)首次主動(dòng)放棄前沿智能,轉(zhuǎn)而選擇更快的token生成速度。


速度溢價(jià):開發(fā)者用錢包投票

推理市場(chǎng)的競(jìng)爭(zhēng)格局正在沿著一條新的軸線重新劃分。

正如英偉達(dá)CEO Jensen Huang在今年GTC大會(huì)上反復(fù)強(qiáng)調(diào)的,吞吐量(每GPU每秒token數(shù))與交互性(每用戶每秒token數(shù))是推理的根本性權(quán)衡——前者服務(wù)于批量處理,后者決定用戶體驗(yàn)。SemiAnalysis將其比喻為"公共汽車與法拉利"的選擇:你可以慢速服務(wù)大量用戶,也可以快速服務(wù)單個(gè)用戶。


市場(chǎng)的偏好已通過消費(fèi)行為得到驗(yàn)證。Opus 4.6快速模式以6倍價(jià)格換取約2.5倍的交互速度,一度成為Anthropic利潤(rùn)率最高的產(chǎn)品SKU,也是其今年ARR爆發(fā)式增長(zhǎng)的重要驅(qū)動(dòng)力。然而,SemiAnalysis與OpenRouter合作收集的數(shù)據(jù)顯示,該模式近期已出現(xiàn)性能退化——標(biāo)準(zhǔn)Opus 4.6的交互速度穩(wěn)定在約40 tps,快速模式曾超過100 tps,但近期已降至約70 tps,實(shí)際加速比從2.5倍縮水至約1.75倍。

OpenAI和Anthropic均已意識(shí)到這一需求分層,并通過快速模式、優(yōu)先模式、批量定價(jià)等多種產(chǎn)品形態(tài),試圖覆蓋整個(gè)市場(chǎng)并尋找利潤(rùn)最大化的組合點(diǎn)。

晶圓級(jí)芯片:一場(chǎng)豪賭的技術(shù)邏輯

Cerebras的核心賭注,是突破光刻機(jī)單次曝光的物理極限,將整張晶圓做成一塊芯片。

其第三代產(chǎn)品WSE-3基于臺(tái)積電N5工藝制造,在一張晶圓上集成了44GB SRAM,提供21PB/s的內(nèi)存帶寬——比HBM高出數(shù)千倍。這一架構(gòu)的本質(zhì)是:用極高的內(nèi)存帶寬換取極低的訪存延遲,使得在小批量、低算術(shù)強(qiáng)度的解碼場(chǎng)景下,WSE-3能夠充分發(fā)揮其理論算力,而基于HBM的GPU在同等場(chǎng)景下往往處于"算力饑渴"狀態(tài)。

然而,這一架構(gòu)也帶來了顯著的計(jì)算密度代價(jià)。SemiAnalysis指出,WSE-3的稠密FP16算力實(shí)際僅為15.625 PFLOPS——這與Cerebras官方宣傳的125 PFLOPS相差8倍,差距源于其采用了8:1非結(jié)構(gòu)化稀疏假設(shè),SemiAnalysis將此稱為"Feldman公式",并將其與英偉達(dá)的"Jensen數(shù)學(xué)"相提并論,但認(rèn)為前者走得更遠(yuǎn)。

在系統(tǒng)成本方面,SemiAnalysis估算每臺(tái)CS-3服務(wù)器的物料成本(含KVSS CPU節(jié)點(diǎn))約為45萬美元,遠(yuǎn)高于其硅片本身約2萬美元的臺(tái)積電晶圓成本。高昂的定制化電源模塊(來自Vicor)、液冷系統(tǒng)以及每批次晶圓所需的定制掩膜版,共同推高了整體成本結(jié)構(gòu)。


架構(gòu)短板:網(wǎng)絡(luò)帶寬的幾何困境

WSE-3最顯著的弱點(diǎn),是極為有限的片外帶寬。

每塊WSE-3僅提供150GB/s(1.2Tb/s)的片外帶寬,僅為英偉達(dá)Blackwell NVLink5單GPU 900GB/s規(guī)模擴(kuò)展帶寬的六分之一。這一限制并非設(shè)計(jì)疏忽,而是晶圓級(jí)架構(gòu)的內(nèi)在約束——SemiAnalysis將其稱為"島嶼問題"。

問題的根源在于晶圓的均勻步進(jìn)曝光機(jī)制。WSE-3由84個(gè)相同的曝光單元(die)拼接而成,每個(gè)曝光單元必須完全相同,以確??鏳ie的片上2D網(wǎng)格互聯(lián)正常工作。這意味著無法將SerDes PHY集中部署在晶圓邊緣——若要增加I/O帶寬,就必須在每個(gè)曝光單元中都預(yù)留PHY面積,而位于晶圓內(nèi)部的PHY無法連接外部,形成大量"擱淺硅"。此外,PHY模塊還會(huì)在片上網(wǎng)格中形成"空洞",增加數(shù)據(jù)路由延遲,削弱晶圓級(jí)架構(gòu)的核心優(yōu)勢(shì)。

這一帶寬瓶頸直接限制了Cerebras服務(wù)大模型的能力。對(duì)于參數(shù)量超過1萬億、上下文窗口達(dá)到百萬token級(jí)別的現(xiàn)代智能體工作負(fù)載,Cerebras不得不采用流水線并行策略,將模型按層切分到多塊晶圓上,僅在晶圓間傳輸激活值。但隨著模型規(guī)模擴(kuò)大,所需晶圓數(shù)量線性增加,每次晶圓間傳輸?shù)墓潭ㄑ舆t也隨之累積,最終侵蝕速度優(yōu)勢(shì)。

SRAM擴(kuò)展已死:路線圖的隱憂

Cerebras面臨的另一個(gè)結(jié)構(gòu)性挑戰(zhàn),是SRAM密度擴(kuò)展的物理極限。

從WSE-1(臺(tái)積電16nm,18GB SRAM)到WSE-2(7nm,40GB),SRAM容量實(shí)現(xiàn)了2.2倍的代際提升。但WSE-3從7nm升級(jí)至5nm,SRAM容量?jī)H從40GB增至44GB,增幅僅10%,而邏輯晶體管數(shù)量增長(zhǎng)了約50%。SemiAnalysis的數(shù)據(jù)顯示,在5nm之后,臺(tái)積電N3E相對(duì)N5的SRAM單元面積幾乎沒有縮減,N2及后續(xù)節(jié)點(diǎn)亦然——SRAM擴(kuò)展實(shí)際上已經(jīng)停滯。


這意味著Cerebras未來提升SRAM容量的唯一路徑,是在固定晶圓面積內(nèi)犧牲計(jì)算面積換取存儲(chǔ)面積,形成嚴(yán)格的零和權(quán)衡。下一代CS-4系統(tǒng)將沿用基于N5的WSE-3,僅通過提升功耗來提高時(shí)鐘頻率和算力,SRAM容量維持不變。

相比之下,英偉達(dá)收購Groq后,可通過混合鍵合技術(shù)在Z軸方向疊加SRAM芯片(即LP40路線圖),繞開平面擴(kuò)展的限制。Cerebras也在探索類似路徑——將DRAM晶圓或光子互聯(lián)晶圓通過混合鍵合疊加在WSE上,但SemiAnalysis對(duì)其技術(shù)可行性和時(shí)間表持審慎態(tài)度,認(rèn)為晶圓級(jí)混合鍵合面臨的熱機(jī)械應(yīng)力和鍵合波挑戰(zhàn)遠(yuǎn)比常規(guī)芯片復(fù)雜。

OpenAI交易:?jiǎn)我豢蛻舻碾p刃劍

Cerebras與OpenAI的關(guān)系,已遠(yuǎn)超普通供應(yīng)商與客戶的范疇。

根據(jù)SemiAnalysis援引的S-1文件,雙方于2025年12月簽署主關(guān)系協(xié)議(MRA),OpenAI承諾在2026至2028年間分批采購750兆瓦AI推理算力,每批次合同期3至4年,可延長(zhǎng)至5年,并持有額外采購1.25吉瓦的選擇權(quán)。截至2025年12月31日,Cerebras剩余履約義務(wù)達(dá)246億美元。


資本結(jié)構(gòu)上,OpenAI同時(shí)扮演三重角色:向Cerebras提供10億美元有擔(dān)保營(yíng)運(yùn)資金貸款(年利率6%,若以算力交付方式償還則豁免利息);持有3344.5萬股N類(無投票權(quán))普通股認(rèn)股權(quán)證,行權(quán)價(jià)格接近于零;并在完全稀釋基礎(chǔ)上可能持有Cerebras約12%的股份。若MRA因OpenAI以外的原因終止,Cerebras須立即償還全部貸款余額及應(yīng)計(jì)利息,且OpenAI有權(quán)直接控制托管賬戶資金的使用。

這一結(jié)構(gòu)意味著Cerebras的增長(zhǎng)前景與單一客戶高度綁定。SemiAnalysis預(yù)計(jì),Cerebras未來數(shù)年收入將出現(xiàn)明顯拐點(diǎn),OpenAI是主要增長(zhǎng)驅(qū)動(dòng)力,但執(zhí)行風(fēng)險(xiǎn)同樣集中——在2028年前,Cerebras需要交付的服務(wù)器數(shù)量將比其歷史累計(jì)出貨量高出一個(gè)數(shù)量級(jí),而數(shù)據(jù)中心容量的落地進(jìn)度是最大的不確定性。

速度換智能:這筆交易值多少錢

OpenAI在Cerebras上運(yùn)行的旗艦產(chǎn)品GPT-5.3-Codex-Spark,并非真正的GPT-5.3-Codex,而是基于gpt-oss-120B架構(gòu)、經(jīng)GPT-5.3-Codex蒸餾訓(xùn)練的小型模型,參數(shù)量比原版小逾10倍。

SemiAnalysis對(duì)此直言不諱:Cerebras的芯片在經(jīng)濟(jì)上目前只能高效服務(wù)相對(duì)較小的模型。對(duì)于參數(shù)量超過1萬億、上下文窗口達(dá)到100萬token的現(xiàn)代智能體工作負(fù)載,OpenAI若要在Cerebras上運(yùn)行,需要接受顯著的成本溢價(jià),且預(yù)計(jì)實(shí)際交互速度將低于每秒1000個(gè)token。

然而,這一判斷背后存在一個(gè)關(guān)鍵變量:算法進(jìn)步的速度。SemiAnalysis認(rèn)為,距離120B參數(shù)模型達(dá)到GPT-5.5級(jí)別的智能,可能不到一年時(shí)間。屆時(shí),"以前沿智能換極速token"的價(jià)值主張將發(fā)生質(zhì)變——正如今天工程師們寧愿放棄Opus 4.7的更高智能,也要堅(jiān)守Opus 4.6快速模式的交互體驗(yàn)。

750兆瓦的初始承諾已經(jīng)鎖定。真正的問題是:當(dāng)120B模型的智能追上今天的前沿水平,OpenAI是否會(huì)選擇將選擇權(quán)轉(zhuǎn)化為實(shí)際采購,將協(xié)議規(guī)模擴(kuò)展至2吉瓦乃至更多。這一答案,將決定Cerebras的IPO估值能否兌現(xiàn),也將定義下一階段推理戰(zhàn)爭(zhēng)的勝負(fù)手。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
當(dāng)?shù)耍「逗榔拮由缑綍裾找P(guān)注 網(wǎng)友評(píng)論嬌妻最美遼籃太太團(tuán)之一

當(dāng)?shù)耍「逗榔拮由缑綍裾找P(guān)注 網(wǎng)友評(píng)論嬌妻最美遼籃太太團(tuán)之一

狼叔評(píng)論
2026-05-18 16:10:03
葬禮結(jié)束不到 24 小時(shí),何超儀曝光何超蕸真實(shí)死因

葬禮結(jié)束不到 24 小時(shí),何超儀曝光何超蕸真實(shí)死因

橙星文娛
2026-05-18 13:09:52
金螳螂73名員工精準(zhǔn)套現(xiàn)上億元,或是資本狂歡下的精準(zhǔn)收割

金螳螂73名員工精準(zhǔn)套現(xiàn)上億元,或是資本狂歡下的精準(zhǔn)收割

新財(cái)聞
2026-05-18 07:34:52
德比斯回應(yīng)曇花5現(xiàn):以為是批評(píng)我的外貌!1冠是運(yùn)氣 5冠就是實(shí)力

德比斯回應(yīng)曇花5現(xiàn):以為是批評(píng)我的外貌!1冠是運(yùn)氣 5冠就是實(shí)力

念洲
2026-05-18 17:22:07
天壇的“祈年殿”,為什么是全中國(guó)等級(jí)最高的“圓形”古建筑?

天壇的“祈年殿”,為什么是全中國(guó)等級(jí)最高的“圓形”古建筑?

良有方
2026-05-16 08:05:05
天壇千萬不能隨便去!別再無知了,這不是迷信

天壇千萬不能隨便去!別再無知了,這不是迷信

凡人侃史
2026-05-16 17:11:41
自廢武功!盧偉出現(xiàn)了3個(gè)錯(cuò)誤,坑慘了上海隊(duì)

自廢武功!盧偉出現(xiàn)了3個(gè)錯(cuò)誤,坑慘了上海隊(duì)

體育哲人
2026-05-18 10:42:03
德國(guó)通過兩次世界大戰(zhàn),放盡了俄國(guó)的血,打斷了俄國(guó)擴(kuò)張氣運(yùn)

德國(guó)通過兩次世界大戰(zhàn),放盡了俄國(guó)的血,打斷了俄國(guó)擴(kuò)張氣運(yùn)

黃麗搞笑小能手
2026-05-18 15:31:54
女子騎馬摔成腰椎骨折,馬場(chǎng)經(jīng)理:我實(shí)話實(shí)說啊

女子騎馬摔成腰椎骨折,馬場(chǎng)經(jīng)理:我實(shí)話實(shí)說啊

北青網(wǎng)-北京青年報(bào)
2026-05-18 20:34:40
中國(guó)歷史九大未解懸案,個(gè)個(gè)都是謎團(tuán),至今無人能解

中國(guó)歷史九大未解懸案,個(gè)個(gè)都是謎團(tuán),至今無人能解

長(zhǎng)風(fēng)文史
2026-05-18 13:13:33
美股期貨全線走低,芯片股跳水,美光科技漲超3%,百度大漲5%

美股期貨全線走低,芯片股跳水,美光科技漲超3%,百度大漲5%

21世紀(jì)經(jīng)濟(jì)報(bào)道
2026-05-18 20:24:22
雍正王朝:看鄔思道在西北時(shí)被逼做了啥,才知道他為何不救年羹堯

雍正王朝:看鄔思道在西北時(shí)被逼做了啥,才知道他為何不救年羹堯

銘記歷史呀
2026-05-17 16:16:04
他是外交部原部長(zhǎng),1985年被鄧小平怒批“胡說八道”,活到了98歲

他是外交部原部長(zhǎng),1985年被鄧小平怒批“胡說八道”,活到了98歲

歷史人文2
2026-05-09 22:00:03
米切爾:作為領(lǐng)袖我必須以身作則,戰(zhàn)尼克斯是惡戰(zhàn)可能還有搶七

米切爾:作為領(lǐng)袖我必須以身作則,戰(zhàn)尼克斯是惡戰(zhàn)可能還有搶七

懂球帝
2026-05-18 13:53:45
換裝賓客散場(chǎng)后續(xù):酒店放關(guān)鍵證據(jù),新娘另有目的,??拥綀?chǎng)賓客

換裝賓客散場(chǎng)后續(xù):酒店放關(guān)鍵證據(jù),新娘另有目的,專坑到場(chǎng)賓客

青橘罐頭
2026-05-18 07:17:45
比紀(jì)凌塵丑但有錢!闞清子被富豪丑老公扶上奔馳大G,錢比臉更重要

比紀(jì)凌塵丑但有錢!闞清子被富豪丑老公扶上奔馳大G,錢比臉更重要

八卦王者
2026-05-18 13:56:18
世體:費(fèi)爾明右腳第五跖骨受重?fù)?,他?dān)心會(huì)影響世界杯表現(xiàn)

世體:費(fèi)爾明右腳第五跖骨受重?fù)?,他?dān)心會(huì)影響世界杯表現(xiàn)

懂球帝
2026-05-18 17:25:30
749局退休人員自述:龍是真的存在的,吞下龍肉可以前往地心世界

749局退休人員自述:龍是真的存在的,吞下龍肉可以前往地心世界

神奇的錘子
2024-08-10 11:19:10
3分鐘傾家蕩產(chǎn)?年入千億“精神鴉片”,正精準(zhǔn)掏空中國(guó)人的錢包

3分鐘傾家蕩產(chǎn)?年入千億“精神鴉片”,正精準(zhǔn)掏空中國(guó)人的錢包

趣文說娛
2026-05-12 19:53:22
特朗普急了,返美路上發(fā)飆:中國(guó)有大宴會(huì)廳,美國(guó)必須跟上!

特朗普急了,返美路上發(fā)飆:中國(guó)有大宴會(huì)廳,美國(guó)必須跟上!

混沌錄
2026-05-17 17:44:42
2026-05-18 21:56:50
華爾街見聞官方 incentive-icons
華爾街見聞官方
中國(guó)領(lǐng)先的金融商業(yè)信息提供商
146248文章數(shù) 2653597關(guān)注度
往期回顧 全部

科技要聞

同一公司,有人獎(jiǎng)金是6年工資,我卻只有半年

頭條要聞

河南商丘現(xiàn)自建"狼堡"成打卡點(diǎn) 村民稱房主姓楊

頭條要聞

河南商丘現(xiàn)自建"狼堡"成打卡點(diǎn) 村民稱房主姓楊

體育要聞

58順位的保羅,最強(qiáng)第三中鋒

娛樂要聞

票房會(huì)破14億!口碑第一電影出現(xiàn)了

財(cái)經(jīng)要聞

中國(guó)芯片,怎么突然不便宜了?

汽車要聞

二排座椅能躺能轉(zhuǎn)/三排座椅能收納 零跑D99座艙玩法多樣

態(tài)度原創(chuàng)

本地
健康
手機(jī)
游戲
公開課

本地新聞

用蘇繡的方式,打開江西婺源

專家揭秘干細(xì)胞回輸?shù)陌踩L(fēng)險(xiǎn)

手機(jī)要聞

5499元起!紅魔11S Pro系列手機(jī)發(fā)布,唯一風(fēng)水雙冷散熱

PS獨(dú)占新作要封神了?主創(chuàng)接二連三夸爆:太優(yōu)秀了

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版