網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

DeepSeek狂吞17萬(wàn)億Tokens？國(guó)產(chǎn)AI算力，最關(guān)鍵一戰(zhàn)來(lái)了！

2026-05-29 13:17:47　來(lái)源: 新智元

北京舉報(bào)

分享至

新智元報(bào)道

【新智元導(dǎo)讀】DeepSeek三模型霸占OpenRouter前十，月調(diào)用合計(jì)超17萬(wàn)億tokens。Agent負(fù)載正在碾壓一切基礎(chǔ)設(shè)施！現(xiàn)在，自主創(chuàng)新的國(guó)產(chǎn)生態(tài)，正在悄悄改寫(xiě)下一代AI基礎(chǔ)設(shè)施的入場(chǎng)券。

打開(kāi)OpenRouter最新的模型月榜，V4上線一個(gè)月，DeepSeek的存在感很強(qiáng)。

V4 Flash月調(diào)用9.13T tokens，穩(wěn)坐第1。V4 Pro也沖到了3.89T排第9。再加上V3.2的4.07T排第8，DeepSeek三個(gè)模型同時(shí)擠進(jìn)前十，月調(diào)用合計(jì)超過(guò)17萬(wàn)億tokens。

應(yīng)用方面，排名前兩位的Hermes Agent和OpenClaw，月調(diào)用量分別達(dá)到了10.8T和6.25T tokens。

換句話(huà)說(shuō)，如今Token消耗的絕對(duì)主力，已經(jīng)從傳統(tǒng)的聊天機(jī)器人，徹底讓位給了會(huì)規(guī)劃、檢索、調(diào)用工具并反復(fù)驗(yàn)證的Agent系統(tǒng)。

它就像一個(gè)小型工作流，單次任務(wù)動(dòng)輒觸發(fā)上百輪LLM調(diào)用，并伴隨數(shù)十次工具執(zhí)行，再加上長(zhǎng)記憶和自演進(jìn)產(chǎn)生的數(shù)據(jù)，負(fù)載常常飆升至數(shù)百GB甚至TB級(jí)。

這種以「萬(wàn)億」為單位的高強(qiáng)度并發(fā)，正在將底層基礎(chǔ)設(shè)施的每一個(gè)短板都無(wú)限放大。

同一套能力

接住了不同的頭部模型

而這，也呼應(yīng)了幾個(gè)月前行業(yè)里流傳的一個(gè)似是而非的傳聞。

當(dāng)時(shí)DeepSeek V4的發(fā)布有所推遲，坊間便出現(xiàn)一種猜測(cè)，是不是因?yàn)閂4在跟昇騰做底層的深度適配，拖慢了節(jié)奏？

這甚至引發(fā)了一種錯(cuò)覺(jué)，讓人以為昇騰正在成為某一家大模型廠商的「專(zhuān)有硬件」，不得不把大量精力耗費(fèi)在特定模型的查漏補(bǔ)缺上。

這恰恰是對(duì)算力底座和模型演進(jìn)關(guān)系最大的一個(gè)誤解。

DeepSeek V4之所以能在開(kāi)源首日，真正做到「開(kāi)箱即優(yōu)」，并不是因?yàn)闀N騰為了某款模型削足適履，而是因?yàn)長(zhǎng)LM演進(jìn)到今天，必然會(huì)撞上這幾堵墻。

而昇騰，只是恰好提前在那里等它。

放眼中國(guó)大模型的第一梯隊(duì)，就會(huì)發(fā)現(xiàn)一個(gè)事實(shí)，不管是智譜、MiniMax，還是這次引爆全網(wǎng)的DeepSeek，盡管各自的微觀算法、應(yīng)用場(chǎng)景千差萬(wàn)別，但在邁向「低精度量化、長(zhǎng)上下文、萬(wàn)億MoE」這幾個(gè)方向時(shí)，步調(diào)是一致的。

面對(duì)整條賽道的共性需求，昇騰交出的是一套通用的答卷。

就拿剛剛過(guò)去的4月來(lái)說(shuō)，智譜GLM-5.1、MiniMax M2.7、DeepSeek V4三個(gè)頭部模型密集開(kāi)源，昇騰全部做到了發(fā)布即支持。

能做到這種覆蓋速度，唯一的解釋是，其底層的能力是高度通用的。

頭部模型撞上「同一堵墻」

昇騰的能力之所以能實(shí)現(xiàn)通用，是因?yàn)轭^部模型走到了同一個(gè)路口。

首先是MoE架構(gòu)，它的好處是每次只激活一小部分專(zhuān)家來(lái)干活，計(jì)算效率高。但代價(jià)很明顯，專(zhuān)家分散在不同的卡上，每次推理都要大量卡間通信。

上下文方面，V4兩個(gè)版本都標(biāo)配百萬(wàn)token。模型側(cè)已經(jīng)在用混合稀疏注意力（CSA/HCA）拼命壓成本，但百萬(wàn)級(jí)KVCache對(duì)基礎(chǔ)設(shè)施的內(nèi)存壓力仍然是實(shí)打?qū)嵉摹?/p>

精度方面，V4-Pro在HuggingFace上標(biāo)注FP4+FP8混合精度，MoE專(zhuān)家參數(shù)用FP4，其他用FP8。低精度推理已經(jīng)從「能不能壓縮」進(jìn)入了「壓縮后是否可靠」的階段。

通信、內(nèi)存、精度，是各大頭部模型在部署時(shí)都會(huì)面臨的難題。

而能夠系統(tǒng)性地解決這三件事的AI軟硬件平臺(tái)，將率先搶占下一代AI基礎(chǔ)設(shè)施的關(guān)鍵入口。

萬(wàn)億MoE的通信瓶頸

一個(gè)算子打通

MoE的關(guān)鍵在于，計(jì)算被稀疏化以后，通信變成了第一瓶頸。

昇騰之前已經(jīng)有MC2通算融合算子，在不同的并行方式下把矩陣計(jì)算和集合通信做了融合。

然而，在EP并行模式下，現(xiàn)有算子仍無(wú)法實(shí)現(xiàn)通信與Grouped Matmul計(jì)算的完全并行，因此并未達(dá)到真正的通算融合。

MegaMoE補(bǔ)上的，正是這個(gè)缺口。

它把MoE推理中原本分開(kāi)執(zhí)行的五個(gè)步驟（Alltoall Dispatch、GMM1、Swiglu、GMM2、Alltoall Combine）融成一個(gè)大算子，讓通信和計(jì)算盡可能同時(shí)進(jìn)行。同時(shí)支持Prefill和Decode場(chǎng)景。

昇騰Atlas 800 A3上的實(shí)測(cè)數(shù)據(jù)顯示，DeepSeek V3.1和Qwen3-235B兩個(gè)模型接入MegaMoE融合算子后，Prefill場(chǎng)景可獲得20%到30%的性能提升，Decode場(chǎng)景也有10%以上的收益。

百萬(wàn)上下文

先過(guò)內(nèi)存這一關(guān)

百萬(wàn)token上下文要真正跑好，有一個(gè)繞不過(guò)去的問(wèn)題。

Prefix Cache（前綴緩存）是當(dāng)前大模型推理服務(wù)中廣泛使用的優(yōu)化技術(shù)。

它通過(guò)緩存多輪對(duì)話(huà)或長(zhǎng)文檔中重復(fù)出現(xiàn)的前綴部分的KVCache，讓新請(qǐng)求可以跳過(guò)這部分的重復(fù)計(jì)算，從而降低首token時(shí)延、提升整體吞吐。多輪對(duì)話(huà)、RAG、Agent場(chǎng)景都離不開(kāi)它。

但單機(jī)的Prefix Cache有一個(gè)根本局限，緩存只存在本機(jī)本地內(nèi)存里。容量有限，容易被淘汰。更關(guān)鍵的是，跨機(jī)器的實(shí)例之間完全不共享，集群越大，緩存利用率反而越低。

而多機(jī)部署、PD分離、大規(guī)模專(zhuān)家并行，恰恰是所有萬(wàn)億級(jí)MoE模型的標(biāo)準(zhǔn)部署方式，并且都對(duì)多機(jī)間的內(nèi)存共享和數(shù)據(jù)調(diào)度提出了更高要求。

為此，昇騰提出了全新的KVCache池化方案，框架層通過(guò)KV Connector對(duì)接池化后端，去除冗余的三方轉(zhuǎn)發(fā)層。

通信層引入HIXL實(shí)現(xiàn)零拷貝傳輸，數(shù)據(jù)搬運(yùn)下沉至設(shè)備側(cè)高帶寬鏈路，NPU間點(diǎn)對(duì)點(diǎn)直連免除CPU中轉(zhuǎn)。
借助MemFabric實(shí)現(xiàn)跨節(jié)點(diǎn)內(nèi)存統(tǒng)一編址，將不同機(jī)器的物理內(nèi)存融合成全局大池。

同時(shí)，長(zhǎng)序列還有一個(gè)更底層的壓力。

在業(yè)界的普遍認(rèn)知中，Prefill階段的計(jì)算量隨序列長(zhǎng)度呈平方級(jí)增長(zhǎng)，Decode階段的KVCache內(nèi)存占用則隨序列長(zhǎng)度線性增長(zhǎng)，長(zhǎng)序列同時(shí)帶來(lái)計(jì)算和內(nèi)存的雙重瓶頸。

對(duì)此，昇騰采用了PCP做Prefill階段的算力切分，DCP做Decode階段的KVCache內(nèi)存切分，兩者配合把雙重壓力同時(shí)分?jǐn)傞_(kāi)。

這套方案讓Agentic場(chǎng)景下的Prefill性能提升4倍以上，并且不限于某一個(gè)模型，任何需要百萬(wàn)級(jí)上下文的場(chǎng)景都能受益。

當(dāng)超長(zhǎng)上下文逐漸變成「基本需求」，長(zhǎng)序列的基礎(chǔ)設(shè)施能力，已經(jīng)是開(kāi)發(fā)者選擇平臺(tái)時(shí)繞不開(kāi)的一道題了。

低精量化

難的不是壓縮是可靠

通信和內(nèi)存之外，精度是第三個(gè)繞不過(guò)去的難題。

傳統(tǒng)量化方式（INT4/INT8/FP8）用全局統(tǒng)一縮放因子，相當(dāng)于一把尺子量所有參數(shù)，碰到異常值整個(gè)縮放范圍就被拽偏了。

在參數(shù)分布差異極大的MoE模型中，這一問(wèn)題尤為致命。

為了解決這個(gè)矛盾，行業(yè)正在向Microscaling格式（MXFP4/MXFP8）收斂。它的原理是把參數(shù)分成小組，每組用獨(dú)立縮放因子，異常值只影響本組，不拖累全局。

但光有格式標(biāo)準(zhǔn)還不夠，關(guān)鍵是硬件和工具鏈能不能跟上。

昇騰950系列創(chuàng)新性地在架構(gòu)層面提供了專(zhuān)用的塊縮放因子計(jì)算單元和MXFP矩陣乘法加速器，從硬件層原生支撐mx格式。

再往上，MindStudio工具支持一鍵生成MXFP4/MXFP8模型權(quán)重，開(kāi)發(fā)者不需要手動(dòng)處理量化細(xì)節(jié)。

從硬件到工具鏈全部打通之后，任何想走M(jìn)XFP路線的模型，在昇騰上都能快速適配。

接得住巨浪

就能接得住江海

從低精量化到長(zhǎng)序列池化再到MoE通算融合，這三個(gè)方向看似各自獨(dú)立，但背后對(duì)應(yīng)的是同一個(gè)命題，Agent時(shí)代的推理基礎(chǔ)設(shè)施該怎么建。

而在這個(gè)命題上，昇騰全系列產(chǎn)品不僅已經(jīng)實(shí)現(xiàn)了對(duì)DeepSeek的全面支持，更讓人看到了V4背后的一條完整鏈路，從底層芯片、底層編程語(yǔ)言到核心算子，關(guān)鍵環(huán)節(jié)都有中國(guó)自己的方案。

可以說(shuō)，DeepSeek V4的出現(xiàn)，印證了中國(guó)已經(jīng)可以依靠一整套自主創(chuàng)新的生態(tài)體系來(lái)打造頂尖大模型。

而昇騰，正是這條生態(tài)鏈路上的算力底座，一個(gè)面向全行業(yè)的通用AI軟硬件平臺(tái)。

Agent時(shí)代的推理負(fù)載還在膨脹，下一個(gè)萬(wàn)億級(jí)模型隨時(shí)會(huì)來(lái)。這個(gè)平臺(tái)能接得住的，遠(yuǎn)不止DeepSeek。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.