網易首頁 > 網易號 > 正文 申請入駐

扒完DeepSeek-V4技術報告,我看到了異構內存的含金量

0
分享至


芯東西(公眾號:aichip001)
作者 程茜
編輯 漠影

芯東西4月25日報道,本周五,“國產大模型頂流”DeepSeek-V4開源,其產業影響力火速蔓延:DeepSeek-V4-Pro登頂Hugging Face開源模型榜,A股和港股的AI算力板塊全線飄紅,國產AI芯片廠家、云巨頭、服務器廠家開啟密集適配、接入……


DeepSeek-V4兩款模型DeepSeek-V4-Pro與DeepSeek-V4-Flash,采用MoE架構,總參數規模達到1.6T(激活49B)與284B(激活13B),均支持最長百萬Token上下文。


昨日,DeepSeek還亮出核心技術底牌,正式發布新模型技術報告,全面拆解新一代架構升級內核、深度優化預訓練與后訓練全流程體系,公開了全套核心算法與迭代秘籍。

扒完這份報告不難發現,DeepSeek-V4以CSA、HCA混合注意力、異構KV Cache、FP4量化感知訓練等系統性創新,從算法根源打破“內存墻”,讓百萬Token長上下文推理真正走向低成本、可規模化的工程落地。

算法層面的突破背后,DeepSeek-V4更是用極致壓縮架構,反向定義了下一代AI芯片必須走的硬件升級方向:通過差異化存算方案,適配不同數據在帶寬、延遲、存儲容量上的多元需求。

一、DeepSeek-V4開啟效率革命,百萬級超長上下文拉滿

DeepSeek-V4全系標配百萬Token超長上下文,其上下文長度達到上一代DeepSeek-V3.2模型的近8倍。

根據技術報告,這得益于其核心架構的幾項關鍵升級:

首先,DeepSeek-V4采用了混合注意力架構。DeepSeek結合了CSA(壓縮稀疏注意力)和HCA(高度壓縮注意力),使DeepSeek-V4-Pro在100萬Token的上下文設置下,相比DeepSeek-V3.2僅需27%的單Token推理浮點運算量,KV Cache占用量降至前代模型的10%。

更輕量的DeepSeek-V4-Flash將效率推至更高水平,其單Token浮點運算量僅為DeepSeek-V3.2的10%,KV Cache占用容量更是低至后者的7%


這一架構升級的核心思路是,CSA先將KV Cache沿序列維度進行壓縮,再在壓縮后的條目上執行稀疏注意力,僅關注最相關的壓縮塊。HCA則采用更大壓縮率,將每128個Token的KV信息融合為一個條目,但保持稠密注意力,兩種機制交替,底層使用CSA保持精細的局部依賴,高層使用HCA大幅壓縮遠端上下文。


▲CSA核心架構(左)、HCA核心架構(右)

其次,DeepSeek引入了mHC(流形約束超連接)以及Muon優化器,mHC結構能在保留模型表征能力的同時提升多層網絡間信號傳播的穩定性;Muon優化器可幫助實現更快的收斂速度和更高的訓練穩定性。

最后是升級版DeepSeekMoE,DeepSeek-V4保持每層384個路由專家+1個共享專家,每Token激活6個的DeepSeekMoE框架,并將初始層的密集FFN替換為Hash路由的MoE層,提升稀疏激活效率。

此外,DeepSeek-V4還設計了異構KV Cache與磁盤緩存機制:壓縮后的CSA/HCA條目存盤,滑動窗口SWA未壓縮KV支持全緩存、周期檢查點、零緩存三級策略,靈活平衡存儲與計算,實現共享前綴請求零重復預填充。


▲DeepSeek-V4整體架構

二、算法創新打破內存墻,DeepSeek-V4倒逼AI芯片重構存算邏輯

DeepSeek-V4的技術革新背后,是萬億參數模型普遍面臨的推理效率困局。

算力是最近幾年大模型產業的焦點話題,從算力供給、GPU緊缺程度,再到超算集群的規?;瘮U張,始終是行業熱議焦點。

但伴隨大模型進入商業落地、實際部署的關鍵期,產業界愈發意識到,即便算力問題得到階段性緩解,系統層面的瓶頸并未消失,而是悄然轉移到了另一個核心環節——內存。

伴隨大模型參數規模卷上萬億、上下文長度達到百萬,AI推理產生的中間過程數據體量急劇膨脹,對內存承載上限與讀寫訪問效率形成嚴苛考驗。以英偉達H200為例,其配備141GB HBM3E顯存和4.8TB/s傳輸帶寬,但算力與內存帶寬仍存在明顯差距。AI解碼時數據搬運速度跟不上運算節奏,大量計算單元空轉閑置,既浪費硬件性能也加劇高功耗問題。

當前場景下,GPU算力并未充分閑置,但顯存裝不下、數據傳太慢拖了后腿,會引發功耗飆升、整機部署成本大幅攀升等一系列連鎖問題。

在這樣的背景下,AI芯片的競爭邏輯正在重構:不單純比拼“運算速度”,而是延伸至內存容量、數據吞吐、能耗控制的綜合較量。

此前不少廠商依靠堆砌高規格內存,以硬件冗余掩蓋架構短板保障推理運行,代價是功耗與硬件成本持續走高。但這種治標不治本的方案,已無法適配長期產業發展。

因此,當下AI芯片廠商正面臨雙重挑戰:內存墻瓶頸持續加劇,且DeepSeek-V4算法迭代提速,倒逼硬件同步進化。

正如前文所述,DeepSeek-V4通過幾項關鍵架構創新攻克“內存墻”難題,真正實現了百萬Token長文本推理的規模化落地。但矛盾的是,當前多數AI芯片仍采用同質化存算設計,難以適配新一代大模型的分層運行邏輯與異構數據特征。

這也意味著,這樣的AI芯片會抵消模型算法升級換來的壓縮優勢、成本優勢與性能增益,成為制約大模型推理效能釋放的核心瓶頸。

具體來看,DeepSeek-V4推理存在鮮明的數據異構特征:KV Cache、門控路由、注意力與共享專家參數屬于高頻低延遲的熱數據;384個全量路由專家、壓縮遠端KV、磁盤級冷存KV為低頻低時效的冷數據,僅少量專家參與激活計算。

并且模型本身已通過量化壓縮、分級緩存、冷熱分層存儲完成精細化設計,天然適配異構內存架構,亟需硬件以差異化存算方案匹配不同數據的帶寬、延遲與容量需求

三、冷熱數據分層+雙DRAM融合,異構內存破局內存墻

想要破解這一困局,從系統層面著手的核心思路是:讓不同類型的內存各司其職。深耕3D內存領域多年的微珩科技,其底層研發邏輯正與此思路一脈相承。

具體來看,針對DeepSeek-V4的異構數據訪問特性,微珩扶光芯片摒棄單一內存堆疊設計,融合3D DRAM與2D DRAM,打造了定制化異構內存子系統

該架構的創新性在于,以3D堆疊DRAM替代端側LPU傳統片上SRAM,結合三維堆疊、混合鍵合封裝,縮短數據傳輸路徑,兼顧SRAM低時延與DRAM高密度、低成本優勢。

基于此,其能解決SRAM容量小、面積與成本高的局限,同等芯片面積存儲大幅擴容,適配大參數模型、長上下文推理;避開HBM供應鏈與高帶寬依賴問題。再加上其存算就近互聯,權重常駐存儲、訪存更穩定,能降低功耗與量產成本。

其中,3D DRAM依托TSV硅通孔垂直堆疊架構,大幅縮短數據傳輸路徑,兼具低訪問延遲、低比特功耗與超高帶寬,適配高頻熱點數據讀寫;

2D DRAM采用成熟平面布線方案,散熱表現優異、容量可靈活拓展,且成本可控、供給穩定,適配低頻冷數據存儲。

兩類內存形成高速低耗、大容量低成本互補組合。此外,微珩科技自研的數據映射策略,還能適配DeepSeek-V4的分層調度邏輯。

對帶寬敏感的核心熱數據,微珩將KV Cache、MoE門控網絡、共享專家、注意力參數,以及已激活路由專家高速緩存,統一掛載至3D DRAM。

門控網絡需實時完成384個路由專家權重運算,支撐單Token動態調度;壓縮后的KV Cache解碼階段仍需逐輪高頻調取;共享專家與注意力參數為推理核心高頻組件,疊加激活專家緩存的時間局部性訪問特征,依托3D DRAM高帶寬、低延遲優勢,保障核心鏈路高速讀寫與高效計算。

帶寬需求較低的冷數據,則統一存放于2D DRAM,包含FP4量化全量路由專家、HCA壓縮遠端KV條目及磁盤下沉冷緩存。

模型單Token僅激活6位專家,其余全量參數長期低頻駐存,2D DRAM大容量、低成本的特性,可承載384個全量專家參數與低頻遠端數據存儲,基礎帶寬足以匹配訪問需求。

這樣通過冷熱數據分層異構部署的策略,能在控制硬件成本的前提下進一步釋放推理性能,以壓低萬億參數大模型的落地部署成本與落地門檻。

四、微珩科技用異構內存,改寫大模型落地規則

DeepSeek-V4的問世,不僅是架構層面的創新,更是大模型在端側落地部署的關鍵里程碑。

桌面一體機、邊緣服務器等端側設備在部署大模型時,往往會受限于高速內存成本高昂且容量有限。

根源在于傳統架構采用單一內存方案,對所有模型參數進行同質化存儲,這樣一來,全部署于低速內存會限制推理性能;全部署于高速內存會面臨容量不足的問題,都會導致大模型難以在端側落地。

DeepSeek-V4來自算法層面的核心升級,疊加微珩扶光芯片的2D+3D異構架構,恰好形成一套完整可行的破局方案。

算法端,DeepSeek通過CSA、HCA從算法層壓縮計算與顯存,搭配異構KV Cache做分級存儲、FP4量化壓縮參數,三者協同使得僅高頻訪問的關鍵參數駐留高速內存,其余海量資源全部遷移至低速內存,為端側部署掃清算力瓶頸。

硬件端微珩扶光芯片的2D+3D異構內存架構具有天然優勢,對應DeepSeek-V4的分層策略,2D DRAM承接海量路由專家和冷數據,降低硬件成本;3D DRAM保障KV Cache、門控網絡等核心數據高速流轉,實現推理效率提升。無需堆砌昂貴的HBM,端側設備即可運行萬億參數級大模型。

長期來看,這套算法與硬件一體化的解決方案或能打破超算中心對高階AI能力的壟斷,推動AI算力從高成本云端,大規模下沉至消費電子、智能硬件、邊緣終端等全域設備,真正落地端側普惠、算力平權的產業趨勢。

微珩科技在3D內存方案的技術革新、商業化方面已經有不少成果。其芯片團隊于2021年量產了首款3D內存方案計算芯片,是國內首批開展相關技術方案設計與量產的企業之一,近年來已先后量產兩代芯片,累計實現營收超10億元。

身處本輪技術范式迭代的關鍵周期,微珩科技已成為端側AI產業化落地的核心推動者。

結語:DeepSeek算法革新,正倒逼內存產業升級

當大模型競爭從算法參數比拼邁入軟硬協同落地的全新周期,單一的架構優化或是硬件堆料,都已無法支撐行業長期發展??梢灶A見,未來AI產業的核心競爭力,將可能不再局限于云端超算的極限算力,而是落腳于存算異構、分層調度、成本可控的全域部署能力。端側算力下沉、算力平權普及或將成為不可逆的產業趨勢。

當下,DeepSeek-V4的算法革新,正倒逼內存架構走向精細化、差異化的分層設計。以微珩扶光芯片為代表的異構內存方案,印證了冷熱數據分流、高低速內存協同是突破端側瓶頸的有效路徑。這也意味著,從云端集中式算力,到云邊端分布式協同,AI產業正迎來一次底層架構的變革。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
社保掛靠迎來全面嚴查,過往繳費全部清算,3類人下場早已注定

社保掛靠迎來全面嚴查,過往繳費全部清算,3類人下場早已注定

復轉這些年
2026-04-26 18:03:47
內訌?名記曝火箭球員不清楚KD怎么了 阿門:我認為他心情不錯

內訌?名記曝火箭球員不清楚KD怎么了 阿門:我認為他心情不錯

驚奇侃球
2026-04-27 02:21:38
鵝肉立大功!中科院研究發現:鵝肉可促進免疫細胞再生,可多吃

鵝肉立大功!中科院研究發現:鵝肉可促進免疫細胞再生,可多吃

Thurman在昆明
2026-04-23 17:05:10
色情片并不可怕,但它會偷走你的“勁”,讓你做什么都索然無味

色情片并不可怕,但它會偷走你的“勁”,讓你做什么都索然無味

知識圈
2026-04-26 09:35:01
睡眠不好,多是肝火旺,常喝這3樣,清肝助眠,安覺睡到天亮!

睡眠不好,多是肝火旺,常喝這3樣,清肝助眠,安覺睡到天亮!

江江食研社
2026-04-26 01:30:03
動真格了!最新5名上將被罷免了人大代表資格

動真格了!最新5名上將被罷免了人大代表資格

李昕言溫度空間
2026-04-26 20:21:10
“天價賠償570億美元:六年了,我們一分錢沒拿到”

“天價賠償570億美元:六年了,我們一分錢沒拿到”

觀察者網
2026-04-26 17:21:11
天助川普,伊朗要遭殃了

天助川普,伊朗要遭殃了

西樓飲月
2026-04-26 23:14:22
白宮記者晚宴現場突發槍擊事件!網友:川普可能要破美總統記錄了

白宮記者晚宴現場突發槍擊事件!網友:川普可能要破美總統記錄了

火山詩話
2026-04-26 10:09:16
奕境X9北京車展全球首秀,定位大六座旗艦SUV

奕境X9北京車展全球首秀,定位大六座旗艦SUV

新京報
2026-04-25 22:34:05
白宮開槍兇手是老師?網傳其剛在洛杉磯拿了“月度優秀教師”獎

白宮開槍兇手是老師?網傳其剛在洛杉磯拿了“月度優秀教師”獎

爆角追蹤
2026-04-26 12:16:15
兩男子應聘浦發銀行銷售代表,通過3輪面試,做了497元體檢,工資卡都辦好了,銀行卻以學歷不符為由拒絕入職

兩男子應聘浦發銀行銷售代表,通過3輪面試,做了497元體檢,工資卡都辦好了,銀行卻以學歷不符為由拒絕入職

大象新聞
2026-04-24 16:49:09
泡泡瑪特推出Labubu冰箱,售價5999元,上千人預約

泡泡瑪特推出Labubu冰箱,售價5999元,上千人預約

大象新聞
2026-04-26 13:01:02
天津賴老師被處理后續,更多學生爆內情,賴老師就喜歡送禮的家長

天津賴老師被處理后續,更多學生爆內情,賴老師就喜歡送禮的家長

漢史趣聞
2026-04-26 17:43:17
中國民間向烏克蘭捐款至少6530萬美元

中國民間向烏克蘭捐款至少6530萬美元

紫京講談
2026-04-26 16:22:17
哈登10分6失誤!騎士36-38猛龍,看數據:他才是頭號罪人!

哈登10分6失誤!騎士36-38猛龍,看數據:他才是頭號罪人!

運籌帷幄的籃球
2026-04-27 02:19:32
5月1日全國統一施行:飯局、人情往來、私下轉賬,均納入嚴格監管

5月1日全國統一施行:飯局、人情往來、私下轉賬,均納入嚴格監管

一口娛樂
2026-04-27 01:04:39
假空姐大鬧亞航后續:知情人士透露真實身份,這下輪到女子老實了

假空姐大鬧亞航后續:知情人士透露真實身份,這下輪到女子老實了

離離言幾許
2026-04-26 07:28:42
雨潤食品加工廠被強拆6年,1.5億補償款至今僅解決500萬;商丘梁園區住建局:在想辦法

雨潤食品加工廠被強拆6年,1.5億補償款至今僅解決500萬;商丘梁園區住建局:在想辦法

大風新聞
2026-04-26 19:34:27
偉大傳承!趙心童贏球后主動握手致敬丁俊暉 央媒:意義超越勝負

偉大傳承!趙心童贏球后主動握手致敬丁俊暉 央媒:意義超越勝負

念洲
2026-04-26 20:15:54
2026-04-27 02:55:00
芯東西 incentive-icons
芯東西
專注AI芯片、半導體產業媒體
2301文章數 8154關注度
往期回顧 全部

科技要聞

漲價浪潮下,DeepSeek推動AI“價格戰”

頭條要聞

特朗普內閣又一女部長落馬:強迫男下屬為其提供性服務

頭條要聞

特朗普內閣又一女部長落馬:強迫男下屬為其提供性服務

體育要聞

森林狼3比1掘金:逆境中殺出了多孫穆?!

娛樂要聞

僅次《指環王》的美劇,有第二季

財經要聞

事關新就業群體,中辦、國辦發文

汽車要聞

預售19.38萬元起 哈弗猛龍PLUS七座版亮相

態度原創

時尚
數碼
家居
教育
本地

比闊腿褲還時髦?今年夏天一定要有“這條褲子”,減齡又松弛

數碼要聞

三星Tab S12系列進入固件測試階段 或配10500mAh大電池

家居要聞

自然肌理 溫潤美學

教育要聞

超燃暴擊!孩子們為啥都樂翻天了?!這所人附系學校揭秘

本地新聞

云游中國|逛世界風箏都 留學生探秘中國傳統文化

無障礙瀏覽 進入關懷版