无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

DeepSeek狂吞17萬(wàn)億Tokens?國(guó)產(chǎn)AI算力,最關(guān)鍵一戰(zhàn)來(lái)了!

0
分享至


新智元報(bào)道


【新智元導(dǎo)讀】DeepSeek三模型霸占OpenRouter前十,月調(diào)用合計(jì)超17萬(wàn)億tokens。Agent負(fù)載正在碾壓一切基礎(chǔ)設(shè)施!現(xiàn)在,自主創(chuàng)新的國(guó)產(chǎn)生態(tài),正在悄悄改寫(xiě)下一代AI基礎(chǔ)設(shè)施的入場(chǎng)券。

打開(kāi)OpenRouter最新的模型月榜,V4上線一個(gè)月,DeepSeek的存在感很強(qiáng)。

V4 Flash月調(diào)用9.13T tokens,穩(wěn)坐第1。V4 Pro也沖到了3.89T排第9。再加上V3.2的4.07T排第8,DeepSeek三個(gè)模型同時(shí)擠進(jìn)前十,月調(diào)用合計(jì)超過(guò)17萬(wàn)億tokens。


應(yīng)用方面,排名前兩位的Hermes Agent和OpenClaw,月調(diào)用量分別達(dá)到了10.8T和6.25T tokens。

換句話(huà)說(shuō),如今Token消耗的絕對(duì)主力,已經(jīng)從傳統(tǒng)的聊天機(jī)器人,徹底讓位給了會(huì)規(guī)劃、檢索、調(diào)用工具并反復(fù)驗(yàn)證的Agent系統(tǒng)。

它就像一個(gè)小型工作流,單次任務(wù)動(dòng)輒觸發(fā)上百輪LLM調(diào)用,并伴隨數(shù)十次工具執(zhí)行,再加上長(zhǎng)記憶和自演進(jìn)產(chǎn)生的數(shù)據(jù),負(fù)載常常飆升至數(shù)百GB甚至TB級(jí)。


這種以「萬(wàn)億」為單位的高強(qiáng)度并發(fā),正在將底層基礎(chǔ)設(shè)施的每一個(gè)短板都無(wú)限放大。

同一套能力

接住了不同的頭部模型

而這,也呼應(yīng)了幾個(gè)月前行業(yè)里流傳的一個(gè)似是而非的傳聞。

當(dāng)時(shí)DeepSeek V4的發(fā)布有所推遲,坊間便出現(xiàn)一種猜測(cè),是不是因?yàn)閂4在跟昇騰做底層的深度適配,拖慢了節(jié)奏?

這甚至引發(fā)了一種錯(cuò)覺(jué),讓人以為昇騰正在成為某一家大模型廠商的「專(zhuān)有硬件」,不得不把大量精力耗費(fèi)在特定模型的查漏補(bǔ)缺上。

這恰恰是對(duì)算力底座和模型演進(jìn)關(guān)系最大的一個(gè)誤解。

DeepSeek V4之所以能在開(kāi)源首日,真正做到「開(kāi)箱即優(yōu)」,并不是因?yàn)闀N騰為了某款模型削足適履,而是因?yàn)長(zhǎng)LM演進(jìn)到今天,必然會(huì)撞上這幾堵墻。

而昇騰,只是恰好提前在那里等它。

放眼中國(guó)大模型的第一梯隊(duì),就會(huì)發(fā)現(xiàn)一個(gè)事實(shí),不管是智譜、MiniMax,還是這次引爆全網(wǎng)的DeepSeek,盡管各自的微觀算法、應(yīng)用場(chǎng)景千差萬(wàn)別,但在邁向「低精度量化、長(zhǎng)上下文、萬(wàn)億MoE」這幾個(gè)方向時(shí),步調(diào)是一致的。

面對(duì)整條賽道的共性需求,昇騰交出的是一套通用的答卷。

就拿剛剛過(guò)去的4月來(lái)說(shuō),智譜GLM-5.1、MiniMax M2.7、DeepSeek V4三個(gè)頭部模型密集開(kāi)源,昇騰全部做到了發(fā)布即支持。

能做到這種覆蓋速度,唯一的解釋是,其底層的能力是高度通用的。

頭部模型撞上「同一堵墻」

昇騰的能力之所以能實(shí)現(xiàn)通用,是因?yàn)轭^部模型走到了同一個(gè)路口。

首先是MoE架構(gòu),它的好處是每次只激活一小部分專(zhuān)家來(lái)干活,計(jì)算效率高。但代價(jià)很明顯,專(zhuān)家分散在不同的卡上,每次推理都要大量卡間通信。

上下文方面,V4兩個(gè)版本都標(biāo)配百萬(wàn)token。模型側(cè)已經(jīng)在用混合稀疏注意力(CSA/HCA)拼命壓成本,但百萬(wàn)級(jí)KVCache對(duì)基礎(chǔ)設(shè)施的內(nèi)存壓力仍然是實(shí)打?qū)嵉摹?/p>

精度方面,V4-Pro在HuggingFace上標(biāo)注FP4+FP8混合精度,MoE專(zhuān)家參數(shù)用FP4,其他用FP8。低精度推理已經(jīng)從「能不能壓縮」進(jìn)入了「壓縮后是否可靠」的階段。

通信、內(nèi)存、精度,是各大頭部模型在部署時(shí)都會(huì)面臨的難題。

而能夠系統(tǒng)性地解決這三件事的AI軟硬件平臺(tái),將率先搶占下一代AI基礎(chǔ)設(shè)施的關(guān)鍵入口。

萬(wàn)億MoE的通信瓶頸

一個(gè)算子打通

MoE的關(guān)鍵在于,計(jì)算被稀疏化以后,通信變成了第一瓶頸。

昇騰之前已經(jīng)有MC2通算融合算子,在不同的并行方式下把矩陣計(jì)算和集合通信做了融合。

然而,在EP并行模式下,現(xiàn)有算子仍無(wú)法實(shí)現(xiàn)通信與Grouped Matmul計(jì)算的完全并行,因此并未達(dá)到真正的通算融合。

MegaMoE補(bǔ)上的,正是這個(gè)缺口。

它把MoE推理中原本分開(kāi)執(zhí)行的五個(gè)步驟(Alltoall Dispatch、GMM1、Swiglu、GMM2、Alltoall Combine)融成一個(gè)大算子,讓通信和計(jì)算盡可能同時(shí)進(jìn)行。同時(shí)支持Prefill和Decode場(chǎng)景。

昇騰Atlas 800 A3上的實(shí)測(cè)數(shù)據(jù)顯示,DeepSeek V3.1和Qwen3-235B兩個(gè)模型接入MegaMoE融合算子后,Prefill場(chǎng)景可獲得20%到30%的性能提升,Decode場(chǎng)景也有10%以上的收益。

百萬(wàn)上下文

先過(guò)內(nèi)存這一關(guān)

百萬(wàn)token上下文要真正跑好,有一個(gè)繞不過(guò)去的問(wèn)題。

Prefix Cache(前綴緩存)是當(dāng)前大模型推理服務(wù)中廣泛使用的優(yōu)化技術(shù)。

它通過(guò)緩存多輪對(duì)話(huà)或長(zhǎng)文檔中重復(fù)出現(xiàn)的前綴部分的KVCache,讓新請(qǐng)求可以跳過(guò)這部分的重復(fù)計(jì)算,從而降低首token時(shí)延、提升整體吞吐。多輪對(duì)話(huà)、RAG、Agent場(chǎng)景都離不開(kāi)它。

但單機(jī)的Prefix Cache有一個(gè)根本局限,緩存只存在本機(jī)本地內(nèi)存里。容量有限,容易被淘汰。更關(guān)鍵的是,跨機(jī)器的實(shí)例之間完全不共享,集群越大,緩存利用率反而越低。

而多機(jī)部署、PD分離、大規(guī)模專(zhuān)家并行,恰恰是所有萬(wàn)億級(jí)MoE模型的標(biāo)準(zhǔn)部署方式,并且都對(duì)多機(jī)間的內(nèi)存共享和數(shù)據(jù)調(diào)度提出了更高要求。

為此,昇騰提出了全新的KVCache池化方案,框架層通過(guò)KV Connector對(duì)接池化后端,去除冗余的三方轉(zhuǎn)發(fā)層。

  • 通信層引入HIXL實(shí)現(xiàn)零拷貝傳輸,數(shù)據(jù)搬運(yùn)下沉至設(shè)備側(cè)高帶寬鏈路,NPU間點(diǎn)對(duì)點(diǎn)直連免除CPU中轉(zhuǎn)。

  • 借助MemFabric實(shí)現(xiàn)跨節(jié)點(diǎn)內(nèi)存統(tǒng)一編址,將不同機(jī)器的物理內(nèi)存融合成全局大池。

同時(shí),長(zhǎng)序列還有一個(gè)更底層的壓力。

在業(yè)界的普遍認(rèn)知中,Prefill階段的計(jì)算量隨序列長(zhǎng)度呈平方級(jí)增長(zhǎng),Decode階段的KVCache內(nèi)存占用則隨序列長(zhǎng)度線性增長(zhǎng),長(zhǎng)序列同時(shí)帶來(lái)計(jì)算和內(nèi)存的雙重瓶頸。

對(duì)此,昇騰采用了PCP做Prefill階段的算力切分,DCP做Decode階段的KVCache內(nèi)存切分,兩者配合把雙重壓力同時(shí)分?jǐn)傞_(kāi)。

這套方案讓Agentic場(chǎng)景下的Prefill性能提升4倍以上,并且不限于某一個(gè)模型,任何需要百萬(wàn)級(jí)上下文的場(chǎng)景都能受益。

當(dāng)超長(zhǎng)上下文逐漸變成「基本需求」,長(zhǎng)序列的基礎(chǔ)設(shè)施能力,已經(jīng)是開(kāi)發(fā)者選擇平臺(tái)時(shí)繞不開(kāi)的一道題了。

低精量化

難的不是壓縮是可靠

通信和內(nèi)存之外,精度是第三個(gè)繞不過(guò)去的難題。

傳統(tǒng)量化方式(INT4/INT8/FP8)用全局統(tǒng)一縮放因子,相當(dāng)于一把尺子量所有參數(shù),碰到異常值整個(gè)縮放范圍就被拽偏了。

在參數(shù)分布差異極大的MoE模型中,這一問(wèn)題尤為致命。

為了解決這個(gè)矛盾,行業(yè)正在向Microscaling格式(MXFP4/MXFP8)收斂。它的原理是把參數(shù)分成小組,每組用獨(dú)立縮放因子,異常值只影響本組,不拖累全局。

但光有格式標(biāo)準(zhǔn)還不夠,關(guān)鍵是硬件和工具鏈能不能跟上。

昇騰950系列創(chuàng)新性地在架構(gòu)層面提供了專(zhuān)用的塊縮放因子計(jì)算單元和MXFP矩陣乘法加速器,從硬件層原生支撐mx格式。

再往上,MindStudio工具支持一鍵生成MXFP4/MXFP8模型權(quán)重,開(kāi)發(fā)者不需要手動(dòng)處理量化細(xì)節(jié)。

從硬件到工具鏈全部打通之后,任何想走M(jìn)XFP路線的模型,在昇騰上都能快速適配。

接得住巨浪

就能接得住江海

從低精量化到長(zhǎng)序列池化再到MoE通算融合,這三個(gè)方向看似各自獨(dú)立,但背后對(duì)應(yīng)的是同一個(gè)命題,Agent時(shí)代的推理基礎(chǔ)設(shè)施該怎么建。

而在這個(gè)命題上,昇騰全系列產(chǎn)品不僅已經(jīng)實(shí)現(xiàn)了對(duì)DeepSeek的全面支持,更讓人看到了V4背后的一條完整鏈路,從底層芯片、底層編程語(yǔ)言到核心算子,關(guān)鍵環(huán)節(jié)都有中國(guó)自己的方案。

可以說(shuō),DeepSeek V4的出現(xiàn),印證了中國(guó)已經(jīng)可以依靠一整套自主創(chuàng)新的生態(tài)體系來(lái)打造頂尖大模型。

而昇騰,正是這條生態(tài)鏈路上的算力底座,一個(gè)面向全行業(yè)的通用AI軟硬件平臺(tái)。

Agent時(shí)代的推理負(fù)載還在膨脹,下一個(gè)萬(wàn)億級(jí)模型隨時(shí)會(huì)來(lái)。這個(gè)平臺(tái)能接得住的,遠(yuǎn)不止DeepSeek。


特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
1951年,我軍為何槍斃了五位原國(guó)軍高級(jí)將領(lǐng),他們分別是誰(shuí)?

1951年,我軍為何槍斃了五位原國(guó)軍高級(jí)將領(lǐng),他們分別是誰(shuí)?

大運(yùn)河時(shí)空
2026-05-29 14:25:03
83年飛行員王學(xué)成叛逃臺(tái)灣,鄧麗君慰問(wèn)時(shí)耳語(yǔ)一句后被強(qiáng)行支走

83年飛行員王學(xué)成叛逃臺(tái)灣,鄧麗君慰問(wèn)時(shí)耳語(yǔ)一句后被強(qiáng)行支走

鑒史錄
2026-05-24 15:48:49
破案了!孫銘徽狀態(tài)全無(wú)卻王博不敢拿下的原因找到,廈蜜一針見(jiàn)血

破案了!孫銘徽狀態(tài)全無(wú)卻王博不敢拿下的原因找到,廈蜜一針見(jiàn)血

南海浪花
2026-05-29 20:47:44
豆包回應(yīng)“家長(zhǎng)聽(tīng)豆包給嬰兒每頓只喂60ml奶”:不實(shí),正常情況下不會(huì)給出該建議

豆包回應(yīng)“家長(zhǎng)聽(tīng)豆包給嬰兒每頓只喂60ml奶”:不實(shí),正常情況下不會(huì)給出該建議

揚(yáng)子晚報(bào)
2026-05-28 19:39:39
一個(gè)都不能少!收復(fù)臺(tái)灣后,中國(guó)還需收復(fù)三大領(lǐng)土,全是戰(zhàn)略要地

一個(gè)都不能少!收復(fù)臺(tái)灣后,中國(guó)還需收復(fù)三大領(lǐng)土,全是戰(zhàn)略要地

瑛派兒老黃
2026-05-29 00:10:19
52歲北京炒股冠軍罕見(jiàn)發(fā)聲:如果本金有20W,建議死啃漲停雙響炮

52歲北京炒股冠軍罕見(jiàn)發(fā)聲:如果本金有20W,建議死啃漲停雙響炮

股經(jīng)縱橫談
2026-04-13 18:28:54
媒體曝女大學(xué)生因戀愛(ài)被家人騙進(jìn)戒網(wǎng)癮學(xué)校,當(dāng)?shù)兀涸摍C(jī)構(gòu)未經(jīng)教育局審批,前學(xué)員講述

媒體曝女大學(xué)生因戀愛(ài)被家人騙進(jìn)戒網(wǎng)癮學(xué)校,當(dāng)?shù)兀涸摍C(jī)構(gòu)未經(jīng)教育局審批,前學(xué)員講述

瀟湘晨報(bào)
2026-05-29 20:59:25
研究表明:性生活越頻繁,射精和勃起問(wèn)題越少!

研究表明:性生活越頻繁,射精和勃起問(wèn)題越少!

黯泉
2026-04-05 20:40:12
知名連鎖便利店許昌首店午夜開(kāi)業(yè):大批市民深夜排長(zhǎng)隊(duì),消費(fèi)者稱(chēng)有“滿(mǎn)117元減50元”活動(dòng),多款商品已缺貨

知名連鎖便利店許昌首店午夜開(kāi)業(yè):大批市民深夜排長(zhǎng)隊(duì),消費(fèi)者稱(chēng)有“滿(mǎn)117元減50元”活動(dòng),多款商品已缺貨

極目新聞
2026-05-30 11:26:25
僅差3分!哈珀迎來(lái)神級(jí)里程碑,大衛(wèi)羅賓遜的紀(jì)錄可能也保不住了

僅差3分!哈珀迎來(lái)神級(jí)里程碑,大衛(wèi)羅賓遜的紀(jì)錄可能也保不住了

世界體育圈
2026-05-29 15:47:32
匈牙利重罰拼多多“砍一刀”

匈牙利重罰拼多多“砍一刀”

智識(shí)漂流
2026-05-30 07:20:42
騎士總經(jīng)理離職!甘西將出任76人籃球運(yùn)營(yíng)總裁:接替莫雷職位

騎士總經(jīng)理離職!甘西將出任76人籃球運(yùn)營(yíng)總裁:接替莫雷職位

羅說(shuō)NBA
2026-05-30 06:34:16
因工作變動(dòng),蔡朝暉、鄒廣不再擔(dān)任海南省副省長(zhǎng)

因工作變動(dòng),蔡朝暉、鄒廣不再擔(dān)任海南省副省長(zhǎng)

澎湃新聞
2026-05-30 09:46:30
“你兒子肝臟不要了?”男孩中藥配晚餐,吃到干嘔家長(zhǎng)卻無(wú)動(dòng)于衷

“你兒子肝臟不要了?”男孩中藥配晚餐,吃到干嘔家長(zhǎng)卻無(wú)動(dòng)于衷

妍妍教育日記
2026-05-29 07:20:09
黃忠斬了夏侯淵,為何就能名震天下?這放在戰(zhàn)爭(zhēng)史上都是轟動(dòng)大事

黃忠斬了夏侯淵,為何就能名震天下?這放在戰(zhàn)爭(zhēng)史上都是轟動(dòng)大事

長(zhǎng)風(fēng)文史
2026-05-29 17:20:19
六輛裝甲車(chē)白守!無(wú)人機(jī)鉆門(mén)縫炸穿指揮室,旅長(zhǎng)當(dāng)場(chǎng)腦漿迸裂

六輛裝甲車(chē)白守!無(wú)人機(jī)鉆門(mén)縫炸穿指揮室,旅長(zhǎng)當(dāng)場(chǎng)腦漿迸裂

深度報(bào)
2026-05-30 00:32:15
王思雨加盟WNBL

王思雨加盟WNBL

刺猬籃球
2026-05-29 13:37:38
央視主持人肖曉琳美國(guó)家中去世,留下深刻26字遺言

央視主持人肖曉琳美國(guó)家中去世,留下深刻26字遺言

調(diào)侃國(guó)際觀點(diǎn)
2026-05-30 04:29:02
25歲女生在廣東走夜路遭醉漢凝視辱罵,硬核維權(quán)當(dāng)場(chǎng)獲賠2000元+書(shū)面道歉!

25歲女生在廣東走夜路遭醉漢凝視辱罵,硬核維權(quán)當(dāng)場(chǎng)獲賠2000元+書(shū)面道歉!

東莞好生活
2026-05-30 10:59:02
羅永浩卸任跑路,一切都回不去了

羅永浩卸任跑路,一切都回不去了

新浪財(cái)經(jīng)
2026-05-29 14:17:22
2026-05-30 15:59:00
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺(tái)領(lǐng)航智能+時(shí)代
15341文章數(shù) 66893關(guān)注度
往期回顧 全部

科技要聞

車(chē)圈大佬發(fā)聲:價(jià)格戰(zhàn)遠(yuǎn)去,但競(jìng)爭(zhēng)仍殘酷

頭條要聞

香港著名演員劉洵離世 《倩女幽魂》中曾飾演普渡慈航

頭條要聞

香港著名演員劉洵離世 《倩女幽魂》中曾飾演普渡慈航

體育要聞

歲月不饒人!39歲德約鏖戰(zhàn)近5小時(shí)拼到嘔吐

娛樂(lè)要聞

向太曝黃曉明曾當(dāng)眾給她下跪

財(cái)經(jīng)要聞

雙匯管不住一頭豬

汽車(chē)要聞

900V+3.2秒破百 領(lǐng)克10+&領(lǐng)克10上市16.99萬(wàn)元起

態(tài)度原創(chuàng)

本地
健康
旅游
家居
數(shù)碼

本地新聞

用剪紙的方式,打開(kāi)江蘇揚(yáng)州

嘗試干細(xì)胞療法如何避免踩坑?

旅游要聞

Design Hotels?再添新成員,萬(wàn)豪中餐廳與廣州酒家同創(chuàng)菜單 | 一周旅行指南

家居要聞

云棲 舒展如流云

數(shù)碼要聞

英特爾ATX12VO V3供電標(biāo)準(zhǔn)曝光,閑置效率提高29%

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版