无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

扒完DeepSeek-V4技術(shù)報(bào)告,我看到了異構(gòu)內(nèi)存的含金量

0
分享至


芯東西(公眾號:aichip001)
作者 程茜
編輯 漠影

芯東西4月25日報(bào)道,本周五,“國產(chǎn)大模型頂流”DeepSeek-V4開源,其產(chǎn)業(yè)影響力火速蔓延:DeepSeek-V4-Pro登頂Hugging Face開源模型榜,A股和港股的AI算力板塊全線飄紅,國產(chǎn)AI芯片廠家、云巨頭、服務(wù)器廠家開啟密集適配、接入……


DeepSeek-V4兩款模型DeepSeek-V4-Pro與DeepSeek-V4-Flash,采用MoE架構(gòu),總參數(shù)規(guī)模達(dá)到1.6T(激活49B)與284B(激活13B),均支持最長百萬Token上下文。


昨日,DeepSeek還亮出核心技術(shù)底牌,正式發(fā)布新模型技術(shù)報(bào)告,全面拆解新一代架構(gòu)升級內(nèi)核、深度優(yōu)化預(yù)訓(xùn)練與后訓(xùn)練全流程體系,公開了全套核心算法與迭代秘籍。

扒完這份報(bào)告不難發(fā)現(xiàn),DeepSeek-V4以CSA、HCA混合注意力、異構(gòu)KV Cache、FP4量化感知訓(xùn)練等系統(tǒng)性創(chuàng)新,從算法根源打破“內(nèi)存墻”,讓百萬Token長上下文推理真正走向低成本、可規(guī)模化的工程落地。

算法層面的突破背后,DeepSeek-V4更是用極致壓縮架構(gòu),反向定義了下一代AI芯片必須走的硬件升級方向:通過差異化存算方案,適配不同數(shù)據(jù)在帶寬、延遲、存儲容量上的多元需求

一、DeepSeek-V4開啟效率革命,百萬級超長上下文拉滿

DeepSeek-V4全系標(biāo)配百萬Token超長上下文,其上下文長度達(dá)到上一代DeepSeek-V3.2模型的近8倍

根據(jù)技術(shù)報(bào)告,這得益于其核心架構(gòu)的幾項(xiàng)關(guān)鍵升級:

首先,DeepSeek-V4采用了混合注意力架構(gòu)。DeepSeek結(jié)合了CSA(壓縮稀疏注意力)和HCA(高度壓縮注意力),使DeepSeek-V4-Pro在100萬Token的上下文設(shè)置下,相比DeepSeek-V3.2僅需27%的單Token推理浮點(diǎn)運(yùn)算量,KV Cache占用量降至前代模型的10%

更輕量的DeepSeek-V4-Flash將效率推至更高水平,其單Token浮點(diǎn)運(yùn)算量僅為DeepSeek-V3.2的10%,KV Cache占用容量更是低至后者的7%


這一架構(gòu)升級的核心思路是,CSA先將KV Cache沿序列維度進(jìn)行壓縮,再在壓縮后的條目上執(zhí)行稀疏注意力,僅關(guān)注最相關(guān)的壓縮塊。HCA則采用更大壓縮率,將每128個(gè)Token的KV信息融合為一個(gè)條目,但保持稠密注意力,兩種機(jī)制交替,底層使用CSA保持精細(xì)的局部依賴,高層使用HCA大幅壓縮遠(yuǎn)端上下文。


▲CSA核心架構(gòu)(左)、HCA核心架構(gòu)(右)

其次,DeepSeek引入了mHC(流形約束超連接)以及Muon優(yōu)化器,mHC結(jié)構(gòu)能在保留模型表征能力的同時(shí)提升多層網(wǎng)絡(luò)間信號傳播的穩(wěn)定性;Muon優(yōu)化器可幫助實(shí)現(xiàn)更快的收斂速度和更高的訓(xùn)練穩(wěn)定性。

最后是升級版DeepSeekMoE,DeepSeek-V4保持每層384個(gè)路由專家+1個(gè)共享專家,每Token激活6個(gè)的DeepSeekMoE框架,并將初始層的密集FFN替換為Hash路由的MoE層,提升稀疏激活效率。

此外,DeepSeek-V4還設(shè)計(jì)了異構(gòu)KV Cache與磁盤緩存機(jī)制:壓縮后的CSA/HCA條目存盤,滑動窗口SWA未壓縮KV支持全緩存、周期檢查點(diǎn)、零緩存三級策略,靈活平衡存儲與計(jì)算,實(shí)現(xiàn)共享前綴請求零重復(fù)預(yù)填充。


▲DeepSeek-V4整體架構(gòu)

二、算法創(chuàng)新打破內(nèi)存墻,DeepSeek-V4倒逼AI芯片重構(gòu)存算邏輯

DeepSeek-V4的技術(shù)革新背后,是萬億參數(shù)模型普遍面臨的推理效率困局。

算力是最近幾年大模型產(chǎn)業(yè)的焦點(diǎn)話題,從算力供給、GPU緊缺程度,再到超算集群的規(guī)模化擴(kuò)張,始終是行業(yè)熱議焦點(diǎn)。

但伴隨大模型進(jìn)入商業(yè)落地、實(shí)際部署的關(guān)鍵期,產(chǎn)業(yè)界愈發(fā)意識到,即便算力問題得到階段性緩解,系統(tǒng)層面的瓶頸并未消失,而是悄然轉(zhuǎn)移到了另一個(gè)核心環(huán)節(jié)——內(nèi)存

伴隨大模型參數(shù)規(guī)模卷上萬億、上下文長度達(dá)到百萬,AI推理產(chǎn)生的中間過程數(shù)據(jù)體量急劇膨脹,對內(nèi)存承載上限與讀寫訪問效率形成嚴(yán)苛考驗(yàn)。以英偉達(dá)H200為例,其配備141GB HBM3E顯存和4.8TB/s傳輸帶寬,但算力與內(nèi)存帶寬仍存在明顯差距。AI解碼時(shí)數(shù)據(jù)搬運(yùn)速度跟不上運(yùn)算節(jié)奏,大量計(jì)算單元空轉(zhuǎn)閑置,既浪費(fèi)硬件性能也加劇高功耗問題。

當(dāng)前場景下,GPU算力并未充分閑置,但顯存裝不下、數(shù)據(jù)傳太慢拖了后腿,會引發(fā)功耗飆升、整機(jī)部署成本大幅攀升等一系列連鎖問題。

在這樣的背景下,AI芯片的競爭邏輯正在重構(gòu):不單純比拼“運(yùn)算速度”,而是延伸至內(nèi)存容量、數(shù)據(jù)吞吐、能耗控制的綜合較量

此前不少廠商依靠堆砌高規(guī)格內(nèi)存,以硬件冗余掩蓋架構(gòu)短板保障推理運(yùn)行,代價(jià)是功耗與硬件成本持續(xù)走高。但這種治標(biāo)不治本的方案,已無法適配長期產(chǎn)業(yè)發(fā)展。

因此,當(dāng)下AI芯片廠商正面臨雙重挑戰(zhàn):內(nèi)存墻瓶頸持續(xù)加劇,且DeepSeek-V4算法迭代提速,倒逼硬件同步進(jìn)化

正如前文所述,DeepSeek-V4通過幾項(xiàng)關(guān)鍵架構(gòu)創(chuàng)新攻克“內(nèi)存墻”難題,真正實(shí)現(xiàn)了百萬Token長文本推理的規(guī)模化落地。但矛盾的是,當(dāng)前多數(shù)AI芯片仍采用同質(zhì)化存算設(shè)計(jì),難以適配新一代大模型的分層運(yùn)行邏輯與異構(gòu)數(shù)據(jù)特征。

這也意味著,這樣的AI芯片會抵消模型算法升級換來的壓縮優(yōu)勢、成本優(yōu)勢與性能增益,成為制約大模型推理效能釋放的核心瓶頸。

具體來看,DeepSeek-V4推理存在鮮明的數(shù)據(jù)異構(gòu)特征:KV Cache、門控路由、注意力與共享專家參數(shù)屬于高頻低延遲的熱數(shù)據(jù);384個(gè)全量路由專家、壓縮遠(yuǎn)端KV、磁盤級冷存KV為低頻低時(shí)效的冷數(shù)據(jù),僅少量專家參與激活計(jì)算。

并且模型本身已通過量化壓縮、分級緩存、冷熱分層存儲完成精細(xì)化設(shè)計(jì),天然適配異構(gòu)內(nèi)存架構(gòu),亟需硬件以差異化存算方案匹配不同數(shù)據(jù)的帶寬、延遲與容量需求

三、冷熱數(shù)據(jù)分層+雙DRAM融合,異構(gòu)內(nèi)存破局內(nèi)存墻

想要破解這一困局,從系統(tǒng)層面著手的核心思路是:讓不同類型的內(nèi)存各司其職。深耕3D內(nèi)存領(lǐng)域多年的微珩科技,其底層研發(fā)邏輯正與此思路一脈相承。

具體來看,針對DeepSeek-V4的異構(gòu)數(shù)據(jù)訪問特性,微珩扶光芯片摒棄單一內(nèi)存堆疊設(shè)計(jì),融合3D DRAM與2D DRAM,打造了定制化異構(gòu)內(nèi)存子系統(tǒng)

該架構(gòu)的創(chuàng)新性在于,以3D堆疊DRAM替代端側(cè)LPU傳統(tǒng)片上SRAM,結(jié)合三維堆疊、混合鍵合封裝,縮短數(shù)據(jù)傳輸路徑,兼顧SRAM低時(shí)延與DRAM高密度、低成本優(yōu)勢。

基于此,其能解決SRAM容量小、面積與成本高的局限,同等芯片面積存儲大幅擴(kuò)容,適配大參數(shù)模型、長上下文推理;避開HBM供應(yīng)鏈與高帶寬依賴問題。再加上其存算就近互聯(lián),權(quán)重常駐存儲、訪存更穩(wěn)定,能降低功耗與量產(chǎn)成本。

其中,3D DRAM依托TSV硅通孔垂直堆疊架構(gòu),大幅縮短數(shù)據(jù)傳輸路徑,兼具低訪問延遲、低比特功耗與超高帶寬,適配高頻熱點(diǎn)數(shù)據(jù)讀寫;

2D DRAM采用成熟平面布線方案,散熱表現(xiàn)優(yōu)異、容量可靈活拓展,且成本可控、供給穩(wěn)定,適配低頻冷數(shù)據(jù)存儲。

兩類內(nèi)存形成高速低耗、大容量低成本互補(bǔ)組合。此外,微珩科技自研的數(shù)據(jù)映射策略,還能適配DeepSeek-V4的分層調(diào)度邏輯。

對帶寬敏感的核心熱數(shù)據(jù)微珩將KV Cache、MoE門控網(wǎng)絡(luò)、共享專家、注意力參數(shù),以及已激活路由專家高速緩存,統(tǒng)一掛載至3D DRAM。

門控網(wǎng)絡(luò)需實(shí)時(shí)完成384個(gè)路由專家權(quán)重運(yùn)算,支撐單Token動態(tài)調(diào)度;壓縮后的KV Cache解碼階段仍需逐輪高頻調(diào)取;共享專家與注意力參數(shù)為推理核心高頻組件,疊加激活專家緩存的時(shí)間局部性訪問特征,依托3D DRAM高帶寬、低延遲優(yōu)勢,保障核心鏈路高速讀寫與高效計(jì)算。

帶寬需求較低的冷數(shù)據(jù),則統(tǒng)一存放于2D DRAM,包含F(xiàn)P4量化全量路由專家、HCA壓縮遠(yuǎn)端KV條目及磁盤下沉冷緩存。

模型單Token僅激活6位專家,其余全量參數(shù)長期低頻駐存,2D DRAM大容量、低成本的特性,可承載384個(gè)全量專家參數(shù)與低頻遠(yuǎn)端數(shù)據(jù)存儲,基礎(chǔ)帶寬足以匹配訪問需求。

這樣通過冷熱數(shù)據(jù)分層異構(gòu)部署的策略,能在控制硬件成本的前提下進(jìn)一步釋放推理性能,以壓低萬億參數(shù)大模型的落地部署成本與落地門檻。

四、微珩科技用異構(gòu)內(nèi)存,改寫大模型落地規(guī)則

DeepSeek-V4的問世,不僅是架構(gòu)層面的創(chuàng)新,更是大模型在端側(cè)落地部署的關(guān)鍵里程碑。

桌面一體機(jī)、邊緣服務(wù)器等端側(cè)設(shè)備在部署大模型時(shí),往往會受限于高速內(nèi)存成本高昂且容量有限。

根源在于傳統(tǒng)架構(gòu)采用單一內(nèi)存方案,對所有模型參數(shù)進(jìn)行同質(zhì)化存儲,這樣一來,全部署于低速內(nèi)存會限制推理性能;全部署于高速內(nèi)存會面臨容量不足的問題,都會導(dǎo)致大模型難以在端側(cè)落地。

DeepSeek-V4來自算法層面的核心升級,疊加微珩扶光芯片的2D+3D異構(gòu)架構(gòu),恰好形成一套完整可行的破局方案。

算法端,DeepSeek通過CSA、HCA從算法層壓縮計(jì)算與顯存,搭配異構(gòu)KV Cache做分級存儲、FP4量化壓縮參數(shù),三者協(xié)同使得僅高頻訪問的關(guān)鍵參數(shù)駐留高速內(nèi)存,其余海量資源全部遷移至低速內(nèi)存,為端側(cè)部署掃清算力瓶頸。

硬件端微珩扶光芯片的2D+3D異構(gòu)內(nèi)存架構(gòu)具有天然優(yōu)勢,對應(yīng)DeepSeek-V4的分層策略,2D DRAM承接海量路由專家和冷數(shù)據(jù),降低硬件成本;3D DRAM保障KV Cache、門控網(wǎng)絡(luò)等核心數(shù)據(jù)高速流轉(zhuǎn),實(shí)現(xiàn)推理效率提升。無需堆砌昂貴的HBM,端側(cè)設(shè)備即可運(yùn)行萬億參數(shù)級大模型。

長期來看,這套算法與硬件一體化的解決方案或能打破超算中心對高階AI能力的壟斷,推動AI算力從高成本云端,大規(guī)模下沉至消費(fèi)電子、智能硬件、邊緣終端等全域設(shè)備,真正落地端側(cè)普惠、算力平權(quán)的產(chǎn)業(yè)趨勢。

微珩科技在3D內(nèi)存方案的技術(shù)革新、商業(yè)化方面已經(jīng)有不少成果。其芯片團(tuán)隊(duì)于2021年量產(chǎn)了首款3D內(nèi)存方案計(jì)算芯片,是國內(nèi)首批開展相關(guān)技術(shù)方案設(shè)計(jì)與量產(chǎn)的企業(yè)之一,近年來已先后量產(chǎn)兩代芯片,累計(jì)實(shí)現(xiàn)營收超10億元。

身處本輪技術(shù)范式迭代的關(guān)鍵周期,微珩科技已成為端側(cè)AI產(chǎn)業(yè)化落地的核心推動者。

結(jié)語:DeepSeek算法革新,正倒逼內(nèi)存產(chǎn)業(yè)升級

當(dāng)大模型競爭從算法參數(shù)比拼邁入軟硬協(xié)同落地的全新周期,單一的架構(gòu)優(yōu)化或是硬件堆料,都已無法支撐行業(yè)長期發(fā)展。可以預(yù)見,未來AI產(chǎn)業(yè)的核心競爭力,將可能不再局限于云端超算的極限算力,而是落腳于存算異構(gòu)、分層調(diào)度、成本可控的全域部署能力。端側(cè)算力下沉、算力平權(quán)普及或?qū)⒊蔀椴豢赡娴漠a(chǎn)業(yè)趨勢。

當(dāng)下,DeepSeek-V4的算法革新,正倒逼內(nèi)存架構(gòu)走向精細(xì)化、差異化的分層設(shè)計(jì)。以微珩扶光芯片為代表的異構(gòu)內(nèi)存方案,印證了冷熱數(shù)據(jù)分流、高低速內(nèi)存協(xié)同是突破端側(cè)瓶頸的有效路徑。這也意味著,從云端集中式算力,到云邊端分布式協(xié)同,AI產(chǎn)業(yè)正迎來一次底層架構(gòu)的變革。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
危機(jī)來了!5天未被發(fā)現(xiàn),美無人艇潛入臺海,接近中國護(hù)衛(wèi)艦拍照

危機(jī)來了!5天未被發(fā)現(xiàn),美無人艇潛入臺海,接近中國護(hù)衛(wèi)艦拍照

超喜歡我的狗子
2026-06-13 16:29:43
馬科斯怎么都料不到!在仁愛礁坐灘27年的破船,卻意外助力中國了

馬科斯怎么都料不到!在仁愛礁坐灘27年的破船,卻意外助力中國了

共工之錨
2026-06-10 00:41:05
捷克2男爬山抄捷徑發(fā)現(xiàn)中歐最偉大寶藏 爽領(lǐng)近400萬獎金

捷克2男爬山抄捷徑發(fā)現(xiàn)中歐最偉大寶藏 爽領(lǐng)近400萬獎金

環(huán)球趣聞分享
2026-06-13 14:48:58
隨著深圳青年人1-1,陜西聯(lián)合5-0,中甲最新排名出爐!深圳排第2

隨著深圳青年人1-1,陜西聯(lián)合5-0,中甲最新排名出爐!深圳排第2

薇說體育
2026-06-14 22:05:07
吉利TT即將上市,長得像小米SU7!

吉利TT即將上市,長得像小米SU7!

米粒說車唯一呀
2026-06-13 19:02:53
世界杯小組賽荷蘭VS日本!傳來3好1壞消息,荷蘭有望迎來開門紅

世界杯小組賽荷蘭VS日本!傳來3好1壞消息,荷蘭有望迎來開門紅

小青年淥淥
2026-06-14 21:58:05
47歲湯唯官宣二胎,恭喜!

47歲湯唯官宣二胎,恭喜!

舊事別提
2026-06-12 23:15:13
全球最割裂的股市規(guī)則!全世界都是自由T+0,唯獨(dú)大A散戶鎖死T+1

全球最割裂的股市規(guī)則!全世界都是自由T+0,唯獨(dú)大A散戶鎖死T+1

王二哥老搞笑
2026-06-09 20:28:44
一代人的記憶,走了

一代人的記憶,走了

中國新聞周刊
2026-06-14 20:57:02
A股,重大調(diào)整!明天實(shí)施!

A股,重大調(diào)整!明天實(shí)施!

數(shù)據(jù)寶
2026-06-14 17:35:20
“深情支持賈躍亭”的副省長,栽在了1.29億家產(chǎn)上

“深情支持賈躍亭”的副省長,栽在了1.29億家產(chǎn)上

聞訊而談
2026-06-14 21:57:05
巴拉圭“胸神”16年后重返世界杯,靠火辣身材爆紅,愿為贏球裸奔

巴拉圭“胸神”16年后重返世界杯,靠火辣身材爆紅,愿為贏球裸奔

劉森森
2026-06-14 12:34:30
接連爆粗口,林詩棟賽場情緒失控,會被處罰?國乒前輩都曾重罰

接連爆粗口,林詩棟賽場情緒失控,會被處罰?國乒前輩都曾重罰

運(yùn)動探索
2026-06-14 17:53:56
集體拉升!中東、美伊協(xié)議,突傳重磅!伊朗,最新回應(yīng)!

集體拉升!中東、美伊協(xié)議,突傳重磅!伊朗,最新回應(yīng)!

證券時(shí)報(bào)e公司
2026-06-13 22:28:10
阿斯:貝蒂斯找安東尼替代者并不容易,正在評估多個(gè)人選

阿斯:貝蒂斯找安東尼替代者并不容易,正在評估多個(gè)人選

懂球帝
2026-06-14 16:22:35
賴昌星前妻近狀曝光:拒絕政府安置,獨(dú)居3000平老宅,只做一件事

賴昌星前妻近狀曝光:拒絕政府安置,獨(dú)居3000平老宅,只做一件事

人生錄
2026-06-01 13:52:39
叛逆女學(xué)霸魯林希17歲拒保送清華,大二在美國未婚生子,后來怎樣

叛逆女學(xué)霸魯林希17歲拒保送清華,大二在美國未婚生子,后來怎樣

從零到一研究所
2026-06-13 12:33:55
世界杯最新積分榜:再爆大冷!澳大利亞2-0創(chuàng)歷史,歐洲隊(duì)5戰(zhàn)3敗

世界杯最新積分榜:再爆大冷!澳大利亞2-0創(chuàng)歷史,歐洲隊(duì)5戰(zhàn)3敗

球場沒跑道
2026-06-14 14:03:32
林高遠(yuǎn)王曼昱戀情真相曝光,31歲近況解釋淡出國乒原因

林高遠(yuǎn)王曼昱戀情真相曝光,31歲近況解釋淡出國乒原因

殘夢斷憶
2026-06-13 00:56:06
金澤猝逝絕非偶然?同公司陳曉曾跳車保清白,娛樂圈兩級差距太刺眼

金澤猝逝絕非偶然?同公司陳曉曾跳車保清白,娛樂圈兩級差距太刺眼

鍋鍋愛歷史
2026-06-14 23:29:32
2026-06-14 23:59:00
芯東西 incentive-icons
芯東西
智東西AI媒體矩陣品牌。芯東西,芯片產(chǎn)業(yè)新媒體。我們是一群追芯人,專注報(bào)道AI芯片和半導(dǎo)體產(chǎn)業(yè)創(chuàng)新。
2373文章數(shù) 8158關(guān)注度
往期回顧 全部

科技要聞

Anthropic最強(qiáng)模型被禁,傳亞馬遜通風(fēng)報(bào)信

頭條要聞

展會商品掃碼后跳轉(zhuǎn)至“涉黃網(wǎng)站” 多方回應(yīng)

頭條要聞

展會商品掃碼后跳轉(zhuǎn)至“涉黃網(wǎng)站” 多方回應(yīng)

體育要聞

8年8隊(duì)奪冠,鄧肯那句話,現(xiàn)在還給了馬刺

娛樂要聞

鄧超攜子觀戰(zhàn)NBA,等等帥氣十足

財(cái)經(jīng)要聞

金價(jià)跌至900元關(guān)口,大媽又來抄底了!

汽車要聞

綜合續(xù)航超1600km/零百加速4秒級 2027款星途ES預(yù)售18.99萬起

態(tài)度原創(chuàng)

教育
游戲
家居
旅游
軍事航空

教育要聞

中考結(jié)束,但人生的無限可能才剛剛開始

逆天BUG秒賺上億!《地平線6》緊急關(guān)閉吃雞模式

家居要聞

空間微調(diào) 移形換境

旅游要聞

6月14日最佳情報(bào)|五龍?zhí)断娜斟尥藓萌ヌ帲瑹熍_現(xiàn)丁達(dá)爾現(xiàn)象!

軍事要聞

特朗普:美伊協(xié)議周日簽 還有終極手段

無障礙瀏覽 進(jìn)入關(guān)懷版