![]()
新智元報(bào)道
![]()
【新智元導(dǎo)讀】DeepSeek三模型霸占OpenRouter前十,月調(diào)用合計(jì)超17萬(wàn)億tokens。Agent負(fù)載正在碾壓一切基礎(chǔ)設(shè)施!現(xiàn)在,自主創(chuàng)新的國(guó)產(chǎn)生態(tài),正在悄悄改寫(xiě)下一代AI基礎(chǔ)設(shè)施的入場(chǎng)券。
打開(kāi)OpenRouter最新的模型月榜,V4上線一個(gè)月,DeepSeek的存在感很強(qiáng)。
V4 Flash月調(diào)用9.13T tokens,穩(wěn)坐第1。V4 Pro也沖到了3.89T排第9。再加上V3.2的4.07T排第8,DeepSeek三個(gè)模型同時(shí)擠進(jìn)前十,月調(diào)用合計(jì)超過(guò)17萬(wàn)億tokens。
![]()
應(yīng)用方面,排名前兩位的Hermes Agent和OpenClaw,月調(diào)用量分別達(dá)到了10.8T和6.25T tokens。
換句話(huà)說(shuō),如今Token消耗的絕對(duì)主力,已經(jīng)從傳統(tǒng)的聊天機(jī)器人,徹底讓位給了會(huì)規(guī)劃、檢索、調(diào)用工具并反復(fù)驗(yàn)證的Agent系統(tǒng)。
它就像一個(gè)小型工作流,單次任務(wù)動(dòng)輒觸發(fā)上百輪LLM調(diào)用,并伴隨數(shù)十次工具執(zhí)行,再加上長(zhǎng)記憶和自演進(jìn)產(chǎn)生的數(shù)據(jù),負(fù)載常常飆升至數(shù)百GB甚至TB級(jí)。
![]()
這種以「萬(wàn)億」為單位的高強(qiáng)度并發(fā),正在將底層基礎(chǔ)設(shè)施的每一個(gè)短板都無(wú)限放大。
同一套能力
接住了不同的頭部模型
而這,也呼應(yīng)了幾個(gè)月前行業(yè)里流傳的一個(gè)似是而非的傳聞。
當(dāng)時(shí)DeepSeek V4的發(fā)布有所推遲,坊間便出現(xiàn)一種猜測(cè),是不是因?yàn)閂4在跟昇騰做底層的深度適配,拖慢了節(jié)奏?
這甚至引發(fā)了一種錯(cuò)覺(jué),讓人以為昇騰正在成為某一家大模型廠商的「專(zhuān)有硬件」,不得不把大量精力耗費(fèi)在特定模型的查漏補(bǔ)缺上。
這恰恰是對(duì)算力底座和模型演進(jìn)關(guān)系最大的一個(gè)誤解。
DeepSeek V4之所以能在開(kāi)源首日,真正做到「開(kāi)箱即優(yōu)」,并不是因?yàn)闀N騰為了某款模型削足適履,而是因?yàn)長(zhǎng)LM演進(jìn)到今天,必然會(huì)撞上這幾堵墻。
而昇騰,只是恰好提前在那里等它。
放眼中國(guó)大模型的第一梯隊(duì),就會(huì)發(fā)現(xiàn)一個(gè)事實(shí),不管是智譜、MiniMax,還是這次引爆全網(wǎng)的DeepSeek,盡管各自的微觀算法、應(yīng)用場(chǎng)景千差萬(wàn)別,但在邁向「低精度量化、長(zhǎng)上下文、萬(wàn)億MoE」這幾個(gè)方向時(shí),步調(diào)是一致的。
面對(duì)整條賽道的共性需求,昇騰交出的是一套通用的答卷。
就拿剛剛過(guò)去的4月來(lái)說(shuō),智譜GLM-5.1、MiniMax M2.7、DeepSeek V4三個(gè)頭部模型密集開(kāi)源,昇騰全部做到了發(fā)布即支持。
能做到這種覆蓋速度,唯一的解釋是,其底層的能力是高度通用的。
頭部模型撞上「同一堵墻」
昇騰的能力之所以能實(shí)現(xiàn)通用,是因?yàn)轭^部模型走到了同一個(gè)路口。
首先是MoE架構(gòu),它的好處是每次只激活一小部分專(zhuān)家來(lái)干活,計(jì)算效率高。但代價(jià)很明顯,專(zhuān)家分散在不同的卡上,每次推理都要大量卡間通信。
上下文方面,V4兩個(gè)版本都標(biāo)配百萬(wàn)token。模型側(cè)已經(jīng)在用混合稀疏注意力(CSA/HCA)拼命壓成本,但百萬(wàn)級(jí)KVCache對(duì)基礎(chǔ)設(shè)施的內(nèi)存壓力仍然是實(shí)打?qū)嵉摹?/p>
精度方面,V4-Pro在HuggingFace上標(biāo)注FP4+FP8混合精度,MoE專(zhuān)家參數(shù)用FP4,其他用FP8。低精度推理已經(jīng)從「能不能壓縮」進(jìn)入了「壓縮后是否可靠」的階段。
通信、內(nèi)存、精度,是各大頭部模型在部署時(shí)都會(huì)面臨的難題。
而能夠系統(tǒng)性地解決這三件事的AI軟硬件平臺(tái),將率先搶占下一代AI基礎(chǔ)設(shè)施的關(guān)鍵入口。
萬(wàn)億MoE的通信瓶頸
一個(gè)算子打通
MoE的關(guān)鍵在于,計(jì)算被稀疏化以后,通信變成了第一瓶頸。
昇騰之前已經(jīng)有MC2通算融合算子,在不同的并行方式下把矩陣計(jì)算和集合通信做了融合。
然而,在EP并行模式下,現(xiàn)有算子仍無(wú)法實(shí)現(xiàn)通信與Grouped Matmul計(jì)算的完全并行,因此并未達(dá)到真正的通算融合。
MegaMoE補(bǔ)上的,正是這個(gè)缺口。
它把MoE推理中原本分開(kāi)執(zhí)行的五個(gè)步驟(Alltoall Dispatch、GMM1、Swiglu、GMM2、Alltoall Combine)融成一個(gè)大算子,讓通信和計(jì)算盡可能同時(shí)進(jìn)行。同時(shí)支持Prefill和Decode場(chǎng)景。
昇騰Atlas 800 A3上的實(shí)測(cè)數(shù)據(jù)顯示,DeepSeek V3.1和Qwen3-235B兩個(gè)模型接入MegaMoE融合算子后,Prefill場(chǎng)景可獲得20%到30%的性能提升,Decode場(chǎng)景也有10%以上的收益。
百萬(wàn)上下文
先過(guò)內(nèi)存這一關(guān)
百萬(wàn)token上下文要真正跑好,有一個(gè)繞不過(guò)去的問(wèn)題。
Prefix Cache(前綴緩存)是當(dāng)前大模型推理服務(wù)中廣泛使用的優(yōu)化技術(shù)。
它通過(guò)緩存多輪對(duì)話(huà)或長(zhǎng)文檔中重復(fù)出現(xiàn)的前綴部分的KVCache,讓新請(qǐng)求可以跳過(guò)這部分的重復(fù)計(jì)算,從而降低首token時(shí)延、提升整體吞吐。多輪對(duì)話(huà)、RAG、Agent場(chǎng)景都離不開(kāi)它。
但單機(jī)的Prefix Cache有一個(gè)根本局限,緩存只存在本機(jī)本地內(nèi)存里。容量有限,容易被淘汰。更關(guān)鍵的是,跨機(jī)器的實(shí)例之間完全不共享,集群越大,緩存利用率反而越低。
而多機(jī)部署、PD分離、大規(guī)模專(zhuān)家并行,恰恰是所有萬(wàn)億級(jí)MoE模型的標(biāo)準(zhǔn)部署方式,并且都對(duì)多機(jī)間的內(nèi)存共享和數(shù)據(jù)調(diào)度提出了更高要求。
為此,昇騰提出了全新的KVCache池化方案,框架層通過(guò)KV Connector對(duì)接池化后端,去除冗余的三方轉(zhuǎn)發(fā)層。
通信層引入HIXL實(shí)現(xiàn)零拷貝傳輸,數(shù)據(jù)搬運(yùn)下沉至設(shè)備側(cè)高帶寬鏈路,NPU間點(diǎn)對(duì)點(diǎn)直連免除CPU中轉(zhuǎn)。
借助MemFabric實(shí)現(xiàn)跨節(jié)點(diǎn)內(nèi)存統(tǒng)一編址,將不同機(jī)器的物理內(nèi)存融合成全局大池。
同時(shí),長(zhǎng)序列還有一個(gè)更底層的壓力。
在業(yè)界的普遍認(rèn)知中,Prefill階段的計(jì)算量隨序列長(zhǎng)度呈平方級(jí)增長(zhǎng),Decode階段的KVCache內(nèi)存占用則隨序列長(zhǎng)度線性增長(zhǎng),長(zhǎng)序列同時(shí)帶來(lái)計(jì)算和內(nèi)存的雙重瓶頸。
對(duì)此,昇騰采用了PCP做Prefill階段的算力切分,DCP做Decode階段的KVCache內(nèi)存切分,兩者配合把雙重壓力同時(shí)分?jǐn)傞_(kāi)。
這套方案讓Agentic場(chǎng)景下的Prefill性能提升4倍以上,并且不限于某一個(gè)模型,任何需要百萬(wàn)級(jí)上下文的場(chǎng)景都能受益。
當(dāng)超長(zhǎng)上下文逐漸變成「基本需求」,長(zhǎng)序列的基礎(chǔ)設(shè)施能力,已經(jīng)是開(kāi)發(fā)者選擇平臺(tái)時(shí)繞不開(kāi)的一道題了。
低精量化
難的不是壓縮是可靠
通信和內(nèi)存之外,精度是第三個(gè)繞不過(guò)去的難題。
傳統(tǒng)量化方式(INT4/INT8/FP8)用全局統(tǒng)一縮放因子,相當(dāng)于一把尺子量所有參數(shù),碰到異常值整個(gè)縮放范圍就被拽偏了。
在參數(shù)分布差異極大的MoE模型中,這一問(wèn)題尤為致命。
為了解決這個(gè)矛盾,行業(yè)正在向Microscaling格式(MXFP4/MXFP8)收斂。它的原理是把參數(shù)分成小組,每組用獨(dú)立縮放因子,異常值只影響本組,不拖累全局。
但光有格式標(biāo)準(zhǔn)還不夠,關(guān)鍵是硬件和工具鏈能不能跟上。
昇騰950系列創(chuàng)新性地在架構(gòu)層面提供了專(zhuān)用的塊縮放因子計(jì)算單元和MXFP矩陣乘法加速器,從硬件層原生支撐mx格式。
再往上,MindStudio工具支持一鍵生成MXFP4/MXFP8模型權(quán)重,開(kāi)發(fā)者不需要手動(dòng)處理量化細(xì)節(jié)。
從硬件到工具鏈全部打通之后,任何想走M(jìn)XFP路線的模型,在昇騰上都能快速適配。
接得住巨浪
就能接得住江海
從低精量化到長(zhǎng)序列池化再到MoE通算融合,這三個(gè)方向看似各自獨(dú)立,但背后對(duì)應(yīng)的是同一個(gè)命題,Agent時(shí)代的推理基礎(chǔ)設(shè)施該怎么建。
而在這個(gè)命題上,昇騰全系列產(chǎn)品不僅已經(jīng)實(shí)現(xiàn)了對(duì)DeepSeek的全面支持,更讓人看到了V4背后的一條完整鏈路,從底層芯片、底層編程語(yǔ)言到核心算子,關(guān)鍵環(huán)節(jié)都有中國(guó)自己的方案。
可以說(shuō),DeepSeek V4的出現(xiàn),印證了中國(guó)已經(jīng)可以依靠一整套自主創(chuàng)新的生態(tài)體系來(lái)打造頂尖大模型。
而昇騰,正是這條生態(tài)鏈路上的算力底座,一個(gè)面向全行業(yè)的通用AI軟硬件平臺(tái)。
Agent時(shí)代的推理負(fù)載還在膨脹,下一個(gè)萬(wàn)億級(jí)模型隨時(shí)會(huì)來(lái)。這個(gè)平臺(tái)能接得住的,遠(yuǎn)不止DeepSeek。
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.