无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

曝GPT-5.5用上「全球最快芯片」,Claude慌了!

0
分享至


新智元報(bào)道


【新智元導(dǎo)讀】120B模型飆到2000 token/秒,CFO更放話已在跑GPT-5.5!Cerebras 560億美元IPO首日暴漲68%,但SemiAnalysis萬(wàn)字拆解直指死穴。

SemiAnalysis,硅谷最硬核的芯片分析機(jī)構(gòu),4月份光是AI工具的訂閱費(fèi)就燒到了年化1000萬(wàn)美元。

其中80%花在同一個(gè)地方,Anthropic的Opus 4.6 fast模式。

它比標(biāo)準(zhǔn)模式貴6倍,但token輸出速度快2.5倍!


然后Opus 4.7來(lái)了。更聰明,跑分全面碾壓上一代,但工程師集體拒絕升級(jí)。

理由只有一個(gè),4.7沒(méi)有fast模式。

他們寧可用更笨的模型,也要更快的token!


而這個(gè)趨勢(shì)的最大受益者,是一家剛剛以560億美元估值登陸納斯達(dá)克的芯片公司,Cerebras。

2000 token/秒,怎么來(lái)的

OpenAI今年2月甩出了GPT-5.3-Codex-Spark。

名字掛著GPT-5.3的招牌,但底層是一個(gè)從完整版GPT-5.3 Codex蒸餾出來(lái)的小模型,參數(shù)量只有原版的十分之一,120B。

雖然是用智能換來(lái)的,但速度確實(shí)夸張到離譜——2000 token/秒。

作為對(duì)比,Anthropic最快的Opus 4.6 fast大約70-100 token/秒,GPT-5系列在英偉達(dá)GPU上是大約130 token/秒。

而Codex-Spark一腳油門(mén)踩到了一個(gè)數(shù)量級(jí)開(kāi)外。


讓它跑這么快的,正是Cerebras的WSE-3,一塊餐盤(pán)大小的晶圓級(jí)芯片。

這件事直接引爆了一筆246億美元的合同,也把Cerebras一路推進(jìn)了納斯達(dá)克。5月14日首日暴漲68%,2026年至今最大科技IPO。

但Cerebras CFO Bob Komin說(shuō),這還只是開(kāi)胃菜。

IPO前夜,他在采訪中亮了一張沒(méi)人預(yù)料到的牌——

我們服務(wù)所有模型,對(duì)模型大小沒(méi)有限制。今天,我們正在跑萬(wàn)億參數(shù)的模型。我們正在跑OpenAI內(nèi)部的GPT-5.4和GPT-5.5。

如果這是真的,Cerebras就不只是一個(gè)「小模型快跑」的玩家了,IPO當(dāng)天的瘋狂漲幅立刻站得住腳。


但SemiAnalysis偏偏在同一周甩出了一篇兩萬(wàn)字的技術(shù)拆解報(bào)告,直接把這個(gè)故事撕開(kāi)了一道口子。

Cerebras公開(kāi)云上,最大的生產(chǎn)模型是GPT-OSS,總參數(shù)120B;預(yù)覽模型最大355B。曾經(jīng)上過(guò)的Llama 70B和405B,后來(lái)也被悄悄下了架。

2025年最火,但體量也更大的開(kāi)源模型(比如DeepSeek),從頭到尾就沒(méi)出現(xiàn)在Cerebras Cloud上。


CFO口中的那個(gè)數(shù)字,目前只存在于「OpenAI內(nèi)部」,外界無(wú)法驗(yàn)證。

要搞清楚這中間的裂縫有多大,得先看看這塊晶圓到底是怎么回事。

一整塊硅的賭注

半導(dǎo)體行業(yè)干了50年的事情就是切硅片。

一整塊晶圓刻出幾十顆芯片,切割,封裝,各干各的。英偉達(dá)的B300已經(jīng)把單顆芯片撐到了858平方毫米,基本上是光刻的極限了。

相比之下,Cerebras卻反其道而行——它不切。

整塊晶圓就是一顆芯片。

46,225平方毫米,比英偉達(dá)的GPU大58倍,大約一個(gè)餐盤(pán)的尺寸。上面集成了4萬(wàn)億個(gè)晶體管、90萬(wàn)個(gè)計(jì)算核心,和44GB的SRAM內(nèi)存。


重點(diǎn)來(lái)了,SRAM。

GPU用的是HBM(高帶寬內(nèi)存),容量大但速度相對(duì)慢。一塊B300配了288GB的HBM,帶寬在TB/秒級(jí)別。

WSE-3只有44GB的SRAM,但內(nèi)存帶寬高達(dá)21PB/秒。



Cerebras速度碾壓的秘密就在這里。

SRAM帶寬大到解碼時(shí)幾乎可以把全部計(jì)算核心喂飽。GPU的計(jì)算核心只能餓著等內(nèi)存。

而推理的瓶頸,正是解碼。

模型一個(gè)token一個(gè)token往外吐的時(shí)候,每吐一個(gè)就要把全部權(quán)重從內(nèi)存里讀一遍。帶寬越高,讀得越快,token出得越快。


SemiAnalysis做了一個(gè)很直觀的對(duì)比。

同樣只給一個(gè)用戶(hù)生成token的場(chǎng)景下,GPU能實(shí)際利用的算力只有理論峰值的零頭。WSE-3理論上可以把全部15.6 PFLOPS的FP16算力吃滿。

差距不是百分之幾十,而是數(shù)量級(jí)的。


用他們的原話形容,這就像是公交車(chē)和F1的區(qū)別。

GPU是公交車(chē),一次拉很多人但每個(gè)人都慢。WSE-3是F1賽車(chē),一次只拉一個(gè)人但飛快。

想用賽車(chē)的客戶(hù),甚至愿意付6倍價(jià)格來(lái)買(mǎi)速度。Opus 4.6 fast已經(jīng)證明了這一點(diǎn)。

但這輛「車(chē)」有一個(gè)致命問(wèn)題——它的「油箱」只有44升。


對(duì)于小模型來(lái)說(shuō),WSE-3的44GB SRAM綽綽有余,但放到今天的大模型面前根本不夠看。

DeepSeek V4有1.6萬(wàn)億參數(shù),即使用最激進(jìn)的壓縮方式(FP8量化),光權(quán)重就要490GB。一塊WSE-3裝不下,要切成至少12塊塞進(jìn)12塊晶圓。

分布就要通信,而這也是Cerebras最致命的短板。

每塊WSE-3對(duì)外帶寬只有150GB/秒。

英偉達(dá)一塊Blackwell GPU通過(guò)NVLink5能跑到900GB/秒,是Cerebras的6倍。被英偉達(dá)收購(gòu)的Groq更夸張,單顆LPU3就有9.6Tb/秒,8倍。


帶寬加不了。這是物理層面的死結(jié)。

WSE-3的制造方式?jīng)Q定了一切。整塊晶圓用同一套模板反復(fù)曝光,12列7行,84個(gè)完全相同的die拼成一顆芯片。

想加高速通信端口(SerDes),就得在每個(gè)die里都加。但84個(gè)die里只有邊緣的能接到外面,中間的全是擺設(shè),純粹浪費(fèi)硅面積。

更要命的是,SerDes是模擬電路,面積大,還會(huì)干擾旁邊的數(shù)字邏輯。在die中間放SerDes,等于在自家的高速公路上挖坑。


所以Cerebras被困在了一個(gè)島嶼上。島上的高速公路四通八達(dá),但通往外界的橋只有一座單車(chē)道。

如此一來(lái),Cerebras跑大模型只剩一條路,把模型按層切開(kāi),每塊晶圓放幾層,晶圓之間只傳中間計(jì)算結(jié)果(比完整的模型權(quán)重小得多)。

但流水線越長(zhǎng),延遲越高。

SemiAnalysis算了一筆賬,12塊晶圓跑DeepSeek V4,光是層間傳輸?shù)墓潭ㄑ舆t就要疊加12次,緩存數(shù)據(jù)的搬運(yùn)時(shí)間高達(dá)數(shù)毫秒。



所以CFO在CNBC上說(shuō)的那番話,至少目前更像是路線圖上的故事。

但在120B以下這個(gè)區(qū)間,Cerebras交出的成績(jī)單沒(méi)什么好挑的。

代價(jià)是什么呢

知名評(píng)測(cè)機(jī)構(gòu)Artificial Analysis用Llama 4 Maverick做過(guò)實(shí)測(cè),Cerebras 2400 token/秒,英偉達(dá)Blackwell 1040 token/秒,直接碾了一倍多。

AI編程工具Devin背后的Cognition已經(jīng)把Cerebras接進(jìn)了產(chǎn)品,快速模式下1000 token/秒。Notion、LiveKit、GSK等也已經(jīng)在用。


但代價(jià)是,公開(kāi)云跑得動(dòng)的上限就是GPT-OSS級(jí)別,最大上下文只有128K。

根據(jù)SemiAnalysis從Claude Code、Cursor等工具中采集的43.2萬(wàn)條真實(shí)請(qǐng)求,其中有將近50%都超過(guò)了128K。

而Agent時(shí)代的上下文只會(huì)越來(lái)越長(zhǎng),128K很快就是瓶頸。


速度快,但模型小、上下文短、選擇少。這就是開(kāi)發(fā)者今天拿到手的Cerebras。

但這里藏著一個(gè)很多人還沒(méi)注意到的細(xì)節(jié),足以改變整個(gè)競(jìng)爭(zhēng)格局。

Cerebras與OpenAI的協(xié)議里寫(xiě)著一條排他條款,合同期內(nèi)不得向「特定OpenAI競(jìng)爭(zhēng)對(duì)手」出售產(chǎn)品。

CEO Feldman沒(méi)有點(diǎn)名,但所有人都知道指的是誰(shuí),Anthropic。

12%股權(quán)、10億美元貸款、246億美元訂單鎖定。Cerebras已經(jīng)被牢牢綁在了OpenAI的戰(zhàn)車(chē)上。

推理戰(zhàn)爭(zhēng),OpenAI剛剛換了一把槍

如今,AI軍備競(jìng)賽的主戰(zhàn)場(chǎng)已經(jīng)變了。

訓(xùn)練只做一次,推理每天做數(shù)十億次。

2026年三分之二的AI算力消耗在推理上,到2027年預(yù)計(jì)達(dá)到80%。

根據(jù)OpenAI的計(jì)劃,AWS的Trainium負(fù)責(zé)理解用戶(hù)輸入,Cerebras負(fù)責(zé)生成輸出token,GPU負(fù)責(zé)訓(xùn)練和長(zhǎng)上下文,三套硬件各管一段。這套組合拳只為一件事,成本打下來(lái),速度拉上去。


對(duì)比之下,Opus 4.6 fast的速度已經(jīng)從100 token/秒退化到了70 token/秒,Cerebras也在合同里把它鎖在了門(mén)外。

那么問(wèn)題來(lái)了,Anthropic的極速推理方案在哪里?

參考資料:

https://x.com/dee_bosa/status/2055351401472020949?s=20

https://newsletter.semianalysis.com/p/cerebras-faster-tokens-please

編輯:摩西

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
太解氣了!老師硬剛家長(zhǎng)對(duì)話流出:你能投訴六次,我就能依法維權(quán)

太解氣了!老師硬剛家長(zhǎng)對(duì)話流出:你能投訴六次,我就能依法維權(quán)

火山詩(shī)話
2026-05-18 07:34:35
攝影師證實(shí)抱抱盲兔是盲人,有網(wǎng)友心疼希望給她一次機(jī)會(huì)

攝影師證實(shí)抱抱盲兔是盲人,有網(wǎng)友心疼希望給她一次機(jī)會(huì)

映射生活的身影
2026-05-17 16:16:06
英足球高管:皇馬免簽策略滋生了球員特權(quán)心態(tài),成為亂局根源

英足球高管:皇馬免簽策略滋生了球員特權(quán)心態(tài),成為亂局根源

懂球帝
2026-05-17 23:03:59
2-0,38歲梅西發(fā)威:無(wú)敵1傳1射,率隊(duì)3連勝,升至美職聯(lián)第一

2-0,38歲梅西發(fā)威:無(wú)敵1傳1射,率隊(duì)3連勝,升至美職聯(lián)第一

側(cè)身凌空斬
2026-05-18 08:10:16
醫(yī)生發(fā)現(xiàn):能活到90歲的糖尿病人,基本在60歲,就已經(jīng)不做7事了

醫(yī)生發(fā)現(xiàn):能活到90歲的糖尿病人,基本在60歲,就已經(jīng)不做7事了

墜入二次元的海洋
2026-05-18 16:16:04
至少在已經(jīng)過(guò)去的25年里,中國(guó)的“財(cái)神”不是趙公明,而是WTO!

至少在已經(jīng)過(guò)去的25年里,中國(guó)的“財(cái)神”不是趙公明,而是WTO!

細(xì)雨中的呼喊
2026-02-21 06:59:07
英國(guó)首相斯塔默可能考慮辭職,此前曾表示不會(huì)一走了之讓國(guó)家陷入混亂

英國(guó)首相斯塔默可能考慮辭職,此前曾表示不會(huì)一走了之讓國(guó)家陷入混亂

魯中晨報(bào)
2026-05-17 10:06:11
湖北荊州站候車(chē)大廳因極端暴雨天氣出現(xiàn)大量漏水,派出所工作人員:目前站內(nèi)已經(jīng)沒(méi)有再漏水,車(chē)站已恢復(fù)正常運(yùn)營(yíng)

湖北荊州站候車(chē)大廳因極端暴雨天氣出現(xiàn)大量漏水,派出所工作人員:目前站內(nèi)已經(jīng)沒(méi)有再漏水,車(chē)站已恢復(fù)正常運(yùn)營(yíng)

瀟湘晨報(bào)
2026-05-18 15:25:32
我年終獎(jiǎng)才6000新助理拿20萬(wàn),女總裁續(xù)約我拒絕:市值800億無(wú)關(guān)

我年終獎(jiǎng)才6000新助理拿20萬(wàn),女總裁續(xù)約我拒絕:市值800億無(wú)關(guān)

曉艾故事匯
2026-05-17 10:57:09
比紀(jì)凌塵丑但有錢(qián)!闞清子被富豪丑老公扶上奔馳大G,錢(qián)比臉更重要

比紀(jì)凌塵丑但有錢(qián)!闞清子被富豪丑老公扶上奔馳大G,錢(qián)比臉更重要

八卦王者
2026-05-18 13:56:18
許志寶被查

許志寶被查

農(nóng)民日?qǐng)?bào)
2026-05-18 18:02:57
何超儀公布姐姐死因,何超蕸從小患哮喘,父親總是百般寵愛(ài)她

何超儀公布姐姐死因,何超蕸從小患哮喘,父親總是百般寵愛(ài)她

好賢觀史記
2026-05-18 14:48:27
印度咬死不簽鬧上法庭,世界足聯(lián)崩潰:中國(guó)6000萬(wàn),你兩屆才3500萬(wàn)

印度咬死不簽鬧上法庭,世界足聯(lián)崩潰:中國(guó)6000萬(wàn),你兩屆才3500萬(wàn)

通鑒史智
2026-05-18 14:39:34
雙喜臨門(mén)?德比斯12天后若奪賽季第6冠 有望升至車(chē)手積分榜第一

雙喜臨門(mén)?德比斯12天后若奪賽季第6冠 有望升至車(chē)手積分榜第一

念洲
2026-05-18 08:37:52
花生再次被關(guān)注!調(diào)查發(fā)現(xiàn):糖尿病常吃花生不過(guò)半年或有4好處

花生再次被關(guān)注!調(diào)查發(fā)現(xiàn):糖尿病常吃花生不過(guò)半年或有4好處

芹姐說(shuō)生活
2026-05-15 23:37:01
上海澤天53歲董事長(zhǎng)程奇斌:上場(chǎng)時(shí)沒(méi)意識(shí)到正在創(chuàng)造歷史

上海澤天53歲董事長(zhǎng)程奇斌:上場(chǎng)時(shí)沒(méi)意識(shí)到正在創(chuàng)造歷史

懂球帝
2026-05-17 21:49:27
泡泡瑪特王寧母校獲贈(zèng)20億Token,網(wǎng)友質(zhì)疑僅值幾百元

泡泡瑪特王寧母校獲贈(zèng)20億Token,網(wǎng)友質(zhì)疑僅值幾百元

三言科技
2026-05-18 09:27:36
香煙再被熱議!醫(yī)生研究發(fā)現(xiàn):抽得越多,壽命越長(zhǎng)?告訴你真相

香煙再被熱議!醫(yī)生研究發(fā)現(xiàn):抽得越多,壽命越長(zhǎng)?告訴你真相

路醫(yī)生健康科普
2026-05-18 17:29:22
什么是有面兒?1.特朗普喝酒,2.黃仁勛穿西裝,這才是成年人最頂級(jí)的“有面兒”

什么是有面兒?1.特朗普喝酒,2.黃仁勛穿西裝,這才是成年人最頂級(jí)的“有面兒”

情感大頭說(shuō)說(shuō)
2026-05-17 21:02:37
剛剛,中國(guó)核心動(dòng)力領(lǐng)域重大突破!1000kg推力渦扇發(fā)動(dòng)機(jī)通過(guò)驗(yàn)收

剛剛,中國(guó)核心動(dòng)力領(lǐng)域重大突破!1000kg推力渦扇發(fā)動(dòng)機(jī)通過(guò)驗(yàn)收

DeepAuto車(chē)探
2026-05-18 19:16:51
2026-05-18 20:27:00
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺(tái)領(lǐng)航智能+時(shí)代
15243文章數(shù) 66875關(guān)注度
往期回顧 全部

科技要聞

同一公司,有人獎(jiǎng)金是6年工資,我卻只有半年

頭條要聞

585人村莊62人患癌 村民舉報(bào)泡花堿工廠4年未得到解決

頭條要聞

585人村莊62人患癌 村民舉報(bào)泡花堿工廠4年未得到解決

體育要聞

41歲,他還想第5次踢世界杯

娛樂(lè)要聞

票房會(huì)破14億!口碑第一電影出現(xiàn)了

財(cái)經(jīng)要聞

中國(guó)芯片,怎么突然不便宜了?

汽車(chē)要聞

二排座椅能躺能轉(zhuǎn)/三排座椅能收納 零跑D99座艙玩法多樣

態(tài)度原創(chuàng)

手機(jī)
家居
教育
藝術(shù)
軍事航空

手機(jī)要聞

DXO影像第一!聯(lián)想moto razr fold手機(jī)全面評(píng)測(cè):全程無(wú)短板,這才是商務(wù)折疊旗艦該有的樣子

家居要聞

觀山隱秀 心靈沉淀

教育要聞

項(xiàng)目式學(xué)習(xí):學(xué)生如何從課堂走向生活?

藝術(shù)要聞

這才是帝王書(shū)法“尖子生“,水平完勝宋徽宗

軍事要聞

莫斯科遭一年多來(lái)最大規(guī)模無(wú)人機(jī)襲擊 3死18傷

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版