无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

8大國產(chǎn)AI芯片火速適配DeepSeek-V4!華為百度阿里全吻上來了

0
分享至


芯東西(公眾號:aichip001)
作者 程茜
編輯 Panken

芯東西4月24日報道,剛剛,華為昇騰直播解讀DeepSeek-V4技術(shù),并披露昇騰950性能表現(xiàn)。截至發(fā)稿,華為昇騰、寒武紀(jì)、海光信息、摩爾線程、沐曦股份、昆侖芯、平頭哥真武、天數(shù)智芯8家國產(chǎn)AI芯片品牌和英偉達(dá)均已適配DeepSeek-V4。


▲昇騰950性能表現(xiàn)(圖源:昇騰CANN直播截圖)

此外,華為云、騰訊云、PPIO、用友、聯(lián)想智能云、天翼云息壤、云工場科技等云服務(wù)商,寧暢、長江計算、百信、昆侖技術(shù)等服務(wù)器企業(yè),鄭州人工智能計算中心等算力服務(wù)提供商都第一時間宣布適配或上架DeepSeek-V4模型服務(wù)。網(wǎng)易智企、萬格智元、極光、網(wǎng)易有道旗下Agent產(chǎn)品宣布接入DeepSeek-V4。


▲截至發(fā)稿,官宣支持DeepSeek模型的AI芯片企業(yè)(芯東西制表)

根據(jù)DeepSeek-V4技術(shù)報告,其并細(xì)粒度專家并行(EP)方案同時在英偉達(dá)GPU和華為昇騰NPU上完成驗(yàn)證,相比非融合基線在通用推理場景中實(shí)現(xiàn)1.50-1.73倍加速,在對延遲敏感的強(qiáng)化學(xué)習(xí)推演和高速Agent服務(wù)場景中最高可達(dá)1.96倍


▲DeepSeek-V4技術(shù)報告

據(jù)DeepSeek公眾號披露,受限于高端算力,目前DeepSeek-V4-Pro的服務(wù)吞吐十分有限,預(yù)計下半年昇騰950超節(jié)點(diǎn)批量上市后,其價格會大幅下調(diào)


▲DeepSeek官方文章

DeepSeek-V4模型采用FP4+FP8混合精度訓(xùn)練,在脫離英偉達(dá)生態(tài)背景下,其大概率是基于深度定制的內(nèi)部格式。網(wǎng)友猜測,該模型依托華為昇騰950超節(jié)點(diǎn)集群完成訓(xùn)練,從側(cè)面印證華為底層算力架構(gòu)與低精度混合訓(xùn)練技術(shù),已具備支撐萬億級大模型的能力。


▲DeepSeek在Hugging Face上的模型卡

智源研究院眾智FlagOS社區(qū)在8款A(yù)I芯片上適配DeepSeek-V4時,實(shí)現(xiàn)了三大技術(shù)突破:支持8種以上芯片的全算子替代、解除張量并行最多單機(jī)8卡限制、支持從“FP4+FP8混合精度”到BF16的精度轉(zhuǎn)換

截至今日收盤,AI算力芯片板塊股價大漲,在A股,海光信息以8.2%的增幅領(lǐng)漲、寒武紀(jì)增幅為2.23%,在港股,天數(shù)智芯的漲幅達(dá)到9.54%


▲AI芯片板塊股價變化

一、華為昇騰首發(fā)適配,支撐DeepSeek-V4毫秒級推理、超高并發(fā)推理

首發(fā)適配DeepSeek-V4后,華為昇騰今日16點(diǎn)開啟了“基于CANN的訓(xùn)推優(yōu)化實(shí)踐”直播。在直播中,華為相關(guān)研發(fā)人員提到其基于CANN進(jìn)行了全鏈路優(yōu)化:


1、昇騰950超節(jié)點(diǎn)支撐DeepSeek V4毫秒級推理,背后有三大黑科技

昇騰950超節(jié)點(diǎn)實(shí)現(xiàn)DeepSeek V4-Pro 20ms和DeepSeek V4-Flash 10ms低時延推理。這得益于昇騰950代際底層架構(gòu)的三大升級:

首先是原生精度加速,其全面支持FP8、MXFP8、MXFP4等數(shù)據(jù)格式,在保證模型精度的同時,可實(shí)現(xiàn)內(nèi)存占用降低50%+,計算能力翻倍。

其次是稀疏訪存優(yōu)化,針對MoE模型的離散訪存特征,他們通過大幅提升硬件級稀疏訪存能力,解決了專家路由過程中的帶寬瓶頸。

最后是Vector與Cube共享Memory,其采用創(chuàng)新存儲架構(gòu)設(shè)計,實(shí)現(xiàn)了向量單元(Vector)與矩陣單元(Cube)的Memory共享,消除大量片上數(shù)據(jù)搬運(yùn)開銷,降低了端到端推理時延。

根據(jù)華為官方信息,昇騰950超節(jié)點(diǎn)還從基礎(chǔ)器件、協(xié)議算法到光電互聯(lián),實(shí)現(xiàn)了系統(tǒng)級突破,支持用戶以64卡為步長按需擴(kuò)展,可實(shí)現(xiàn)8192卡無收斂全互聯(lián),提供業(yè)界最大Scale Up能力。

華為與DeepSeek聯(lián)合定義了昇騰超節(jié)點(diǎn)架構(gòu),專門解決大模型超長上下文推理的時延高、吞吐低、成本貴三大痛點(diǎn),同時能做到萬卡級大規(guī)模擴(kuò)展,并靠NAND SSU做低成本大容量KV Cache,支撐4K~1M全長度長序列應(yīng)用。

2、昇騰同步開源DeepSeek-V4復(fù)雜稀疏注意力+mHC續(xù)訓(xùn)實(shí)現(xiàn)

華為昇騰通過TorchTitan-NPU插件與Autofuse自動融合技術(shù)協(xié)同,實(shí)測模型吞吐量最高達(dá)到1100 tokens/p/s,實(shí)現(xiàn)模型訓(xùn)練性能開箱即優(yōu)。

這得益于以下三大維度的系統(tǒng)級優(yōu)化:

極簡分布式并行架構(gòu): 突破傳統(tǒng)復(fù)雜的混合并行設(shè)計,采用超節(jié)點(diǎn)親和的大EP+純FSDP的極簡并行切分策略。


▲并行策略

原生“入圖”與自動融合:TorchTitan-NPU深度適配torch.compile機(jī)制,使能訓(xùn)練入圖技術(shù),依托Inductor+AutoFuse(基于Ascend C的Codegen后端)實(shí)現(xiàn)端到端的Vector算子自動融合,為整網(wǎng)帶來高達(dá)31.8%的開箱即用性能收益。

稀疏Attention高效融合算子: 針對稀疏注意力等復(fù)雜結(jié)構(gòu),開發(fā)SparseAttnSharedkv、LightningIndexer 等多個高效的NPU融合算子,釋放芯片稀疏算力。

3、推昇騰PyPTO編程范式,讓大模型算子開發(fā)輕量化

此外,昇騰CANN還推出PyPTO編程范式,解決自定義算子開發(fā)門檻高、周期長的痛點(diǎn)。該范式提供完善的Python API,使開發(fā)者能夠以符合Python習(xí)慣的語法進(jìn)行算子開發(fā)。

PyPTO編程范式有四大特點(diǎn):

首先是高效的算子開發(fā),PyPTO依托內(nèi)置高級編譯優(yōu)化,可自動完成流水編排與內(nèi)存管理,使開發(fā)者無需關(guān)注硬件細(xì)節(jié)而專注于計算流表達(dá),實(shí)現(xiàn)DeepSeek-V4新一代模型算子開發(fā)周期可縮短至天級

其次是高性能Kernel自動生成,針對Attention、Compressor、mHC等復(fù)雜邏輯算子,PyPTO可自動生成高度優(yōu)化的Kernel,避免開發(fā)者手動處理繁瑣的同步與數(shù)據(jù)搬運(yùn),縮短從算法驗(yàn)證到部署落地的開發(fā)周期。


▲融合Kernel

第三是PTO ISA虛擬指令集跨代兼容,PyPTO基于PTO虛擬指令集(PTO ISA),實(shí)現(xiàn)了對硬件新特性的“零感適配”,針對不同代際芯片統(tǒng)一指令接口,同一套算子代碼可在不同代際芯片上的兼容實(shí)現(xiàn)。

其借助畢昇編譯器的VF(Vector Fusion)自動融合能力,可在micro kernel級別實(shí)現(xiàn)更優(yōu)融合。

最后是TileLang社區(qū)生態(tài),TileLang-Ascend是TileLang針對華為昇騰平臺深度優(yōu)化的實(shí)現(xiàn),分別對應(yīng)Tilelang-Ascend的Expert和Developer開發(fā)模式,提供AscendC基礎(chǔ)指令和PTO AS兩種對接層次,為各種編程前端語言和編譯器提供多層開放接口。

DeepSeek-V4模型相關(guān)實(shí)現(xiàn)已在TileAI開源社區(qū)正式發(fā)布,后續(xù)將持續(xù)推進(jìn)性能優(yōu)化與功能迭代。

二、4家國產(chǎn)AI芯片官宣適配DeepSeek-V4

DeepSeek-V4模型發(fā)布后,寒武紀(jì)、華為昇騰、海光信息、摩爾線程火速官宣適配,拉開國產(chǎn)AI芯片支持DeepSeek系列模型的大幕。

1、寒武紀(jì)

寒武紀(jì)基于vLLM推理框架完成對DeepSeek最新開源模型285B DeepSeek-V4-flash和1.6T DeepSeek-V4-pro適配,適配代碼已開源到GitHub社區(qū)。

2、華為

華為昇騰超節(jié)點(diǎn)全系列產(chǎn)品支持DeepSeek-V4系列模型。基于DeepSeek-V4-Pro模型,在8K輸入場景,昇騰950超節(jié)點(diǎn)可實(shí)現(xiàn)TPOT約20ms時單卡Decode吞吐4700TPS。DeepSeek-V4-Flash模型,8K長序列輸入場景下可實(shí)現(xiàn)TPOT約10ms時單卡Decode吞吐1600TPS(注:上述Benchmark數(shù)據(jù)均基于Offine推理模式采集,不包含Serving調(diào)度和框架負(fù)載均衡影響)。

基于昇騰A3 64卡超節(jié)點(diǎn)結(jié)合大EP模式部署,DeepSeek-V4-Flash模型,8K/1K輸入輸出場景,基于vLLM推理引擎可實(shí)現(xiàn)2000+TPS的單卡Decode吞吐。針對DeepSeek V4-Pro模型,昇騰A3正同步支持推理部署,性能持續(xù)優(yōu)化中。


3、海光信息

海光DCU同步完成對DeepSeek-V4的Day0適配,其中,DTK(異構(gòu)計算平臺)可為DeepSeek-V4提供完整的軟件生態(tài)支撐,DAS(人工智能基礎(chǔ)軟件系統(tǒng))集成超2000個算子,提高DeepSeek-V4微調(diào)與推理性能,DAP(人工智能應(yīng)用平臺)內(nèi)置知識庫引擎、智能體編排引擎等高階模塊,可將DeepSeek-V4便捷集成到主流AI平臺。

4、摩爾線程

摩爾線程聯(lián)手智源眾智FlagOS社區(qū),在旗艦級AI訓(xùn)推一體全功能GPU MTT S5000上,實(shí)現(xiàn)對新一代大模型DeepSeek-V4-Flash的Day-0極速適配,并完成全量核心算子的深度優(yōu)化與部署支持。

DeepSeek-V4模型首次采用“FP4+FP8”混合精度策略,當(dāng)前國內(nèi)主流AI芯片仍普遍以BF16為主。摩爾線程具有原生FP8支持優(yōu)勢,能夠高效承載DeepSeek-V4的精度設(shè)計。摩爾線程與FlagOS社區(qū)正持續(xù)推進(jìn)擁有1.6T旗艦?zāi)P停?.86萬億參數(shù))的DeepSeek-V4-Pro在MTT S5000上的遷移適配工作。

三、8大芯片全量適配,拆解三大黑科技

智源研究院眾智FlagOS社區(qū)宣布將對DeepSeek-V4模型進(jìn)行全量適配,目前其已完成DeepSeek-V4-Flash在8款以上AI芯片上的全量適配與推理部署,包括海光、沐曦、華為昇騰、摩爾線程(FP8)、昆侖芯、平頭哥真武、天數(shù)、英偉達(dá)(FP8)等芯片,正在推進(jìn)DeepSeek-V4-Pro模型在多個芯片的遷移適配。

這背后,智源研究院實(shí)現(xiàn)了三大技術(shù)突破:

1、支持8種以上芯片全算子替代

本次DeepSeek-V4-Flash的適配,全球最大的Triton單一算子庫FlagGems實(shí)現(xiàn)了模型推理鏈路中全部算子的替代。在40個主流模型上,推理任務(wù)算子覆蓋度達(dá)到90%~100%,能完整支持DeepSeek-V4-Flash的全部計算需求。這意味著徹底脫離CUDA算子依賴、無需芯片廠商逐一適配、新算子即時可用。

2、獨(dú)立并行策略,解除張量并行最多單機(jī)8卡限制

FlagOS團(tuán)隊對o_group張量并行改動有:

(1)獨(dú)立的并行策略:獨(dú)立于已有的張量并行通信組之外,為o-group單獨(dú)構(gòu)建所需要的張量并行通信組,確保其他模型結(jié)構(gòu)張量并行切分超過8的情況下,o-group的張量并行在8以內(nèi)。

(2)參數(shù)轉(zhuǎn)換調(diào)整:對o_group相關(guān)的參數(shù)進(jìn)行對應(yīng)單獨(dú)的張量并行切分處理。

(3)覆蓋面擴(kuò)展:這一優(yōu)化能夠?qū)eepSeek-V4-Flash在單獨(dú)采用張量并行策略下,把可運(yùn)行芯片范圍從”僅限單機(jī)80GB以上顯存的個別高端卡“擴(kuò)展到”多機(jī)64GB/32GB的更多主流國產(chǎn)芯片”。

3、支持“FP4+FP8混合精度”到BF16的精度轉(zhuǎn)換

DeepSeek-V4模型采用FP4+FP8混合精度訓(xùn)練,但當(dāng)前所有國內(nèi)非英偉達(dá)AI芯片都未能支持FP4+FP8混合精度,只有摩爾線程原生支持了FP8,其余依然以BF16為主。

FlagOS完成了從FP4到BF16的完整精度轉(zhuǎn)換,將FP4量化權(quán)重轉(zhuǎn)換為BF16格式;FlagOS對推理鏈路中的GEMM、Attention、MoE路由等關(guān)鍵計算節(jié)點(diǎn)逐一適配了BF16路徑;經(jīng)過標(biāo)準(zhǔn)評測集驗(yàn)證,BF16版本與FP4原生版本在核心能力指標(biāo)上保持對齊,確保精度轉(zhuǎn)換不引入業(yè)務(wù)層面的效果損失。

FlagOS推出了FP8和BF16兩種適配版本,讓DeepSeek-V4-Flash不再是“只有最新英偉達(dá)卡才能跑”的模型,而是真正可以部署在FP8及BF16生態(tài)的主流國產(chǎn)芯片上。

智源研究院公布的數(shù)據(jù)顯示,經(jīng)GPQA_Diamond、AIME等評測集驗(yàn)證,F(xiàn)lagOS適配后的DeepSeek-V4-Flash,在語言理解、復(fù)雜推理、代碼生成、數(shù)學(xué)計算等核心能力上,可與CUDA原生版本對齊


DeepSeek-V4-Flash安裝部署指引:GitHub:https://github.com/flagos-ai/DeepSeek-V4-FlagOS

結(jié)語:DeepSeek-V4的里程碑時刻,國產(chǎn)頂級大模型+國產(chǎn)高端算力深度綁定

萬眾期待的“國產(chǎn)大模型之光”DeepSeek-V4正式亮相后,多款國產(chǎn)高端芯片率先完成適配與深度兼容。這也意味著,國產(chǎn)頂級大模型與本土高端算力矩陣實(shí)現(xiàn)了全棧深度綁定與協(xié)同。

此次華為等國產(chǎn)芯片廠商與 DeepSeek 強(qiáng)強(qiáng)聯(lián)合,在技術(shù)協(xié)同迭代、規(guī)模化產(chǎn)業(yè)落地、本土生態(tài)共建三大維度,都具有里程碑意義。此舉有望打破英偉達(dá)長期主導(dǎo)的壟斷生態(tài),推動國內(nèi)AI國產(chǎn)軟硬一體、自主可控產(chǎn)業(yè)鏈發(fā)展。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
貴人推一把!6-7月旺到讓人眼紅的4個生肖,順風(fēng)順?biāo)異灺暟l(fā)財

貴人推一把!6-7月旺到讓人眼紅的4個生肖,順風(fēng)順?biāo)異灺暟l(fā)財

毅談生肖
2026-06-14 12:01:26
大反轉(zhuǎn)!Anthropic CEO拒修漏洞才被封,舉報Claude新模型是自家大股東

大反轉(zhuǎn)!Anthropic CEO拒修漏洞才被封,舉報Claude新模型是自家大股東

智東西
2026-06-14 10:01:06
不止輸球,林詩棟打急眼了!鄧亞萍毫不留情:怎么全犯低級錯誤?

不止輸球,林詩棟打急眼了!鄧亞萍毫不留情:怎么全犯低級錯誤?

十點(diǎn)街球體育
2026-06-14 20:05:27
雙頂流被曝戀情后,男方媽媽態(tài)度已說明一切,這次真捏到軟柿子了

雙頂流被曝戀情后,男方媽媽態(tài)度已說明一切,這次真捏到軟柿子了

楓塵余往逝
2026-06-14 06:52:04
iOS 27悄悄更新了6個功能,第一條就讓我血壓下來了

iOS 27悄悄更新了6個功能,第一條就讓我血壓下來了

心事寄山海
2026-06-13 00:10:34
一輪牛市,科技見頂就是牛市結(jié)束,大家被“洗腦”了!

一輪牛市,科技見頂就是牛市結(jié)束,大家被“洗腦”了!

郭小凡財經(jīng)
2026-06-14 09:13:07
體面分手!大白邊揭曉CBA總決賽謎團(tuán):一對一交易,盧偉絕口不提

體面分手!大白邊揭曉CBA總決賽謎團(tuán):一對一交易,盧偉絕口不提

林子說事
2026-06-14 14:27:11
今年7月1日深圳全城開放無人出租車運(yùn)營,科技正影響普通人飯碗?

今年7月1日深圳全城開放無人出租車運(yùn)營,科技正影響普通人飯碗?

侃故事的阿慶
2026-06-14 14:23:55
最新披露:美國同意伊朗稀釋濃縮鈾庫存,將解凍伊朗250億美元的資產(chǎn),允許伊朗出售石油并獲取收入

最新披露:美國同意伊朗稀釋濃縮鈾庫存,將解凍伊朗250億美元的資產(chǎn),允許伊朗出售石油并獲取收入

政知新媒體
2026-06-14 18:48:06
“排除中國的G7,就像沒有冠軍隊的世界杯”

“排除中國的G7,就像沒有冠軍隊的世界杯”

觀察者網(wǎng)
2026-06-14 16:31:23
恥辱!巴西世界杯首戰(zhàn)丟分頭號罪人!從世界級變廢柴!

恥辱!巴西世界杯首戰(zhàn)丟分頭號罪人!從世界級變廢柴!

奶蓋熊本熊
2026-06-14 08:34:31
1904年,王維勤被活剮凌遲時一張罕見留影,臉面向人群充滿絕望

1904年,王維勤被活剮凌遲時一張罕見留影,臉面向人群充滿絕望

史之銘
2026-06-14 15:03:48
我替富豪生孩子,查出生病后讓我打掉我沒聽,生產(chǎn)當(dāng)天富豪傻眼了

我替富豪生孩子,查出生病后讓我打掉我沒聽,生產(chǎn)當(dāng)天富豪傻眼了

星宇共鳴
2026-03-13 09:28:49
特奧多羅在撒謊!他的家族企業(yè)與中國關(guān)系密切,甚至工廠就在中國

特奧多羅在撒謊!他的家族企業(yè)與中國關(guān)系密切,甚至工廠就在中國

阿龍聊軍事
2026-06-14 12:53:56
一招隨手棋葬送大好局面,LG杯首盤局勢大反轉(zhuǎn)

一招隨手棋葬送大好局面,LG杯首盤局勢大反轉(zhuǎn)

田心生活
2026-06-14 19:13:35
林高遠(yuǎn)王曼昱戀情真相曝光,31歲近況解釋淡出國乒原因

林高遠(yuǎn)王曼昱戀情真相曝光,31歲近況解釋淡出國乒原因

殘夢斷憶
2026-06-13 00:56:06
中國北方生態(tài)回暖!東平湖發(fā)現(xiàn)了淡水蟶,華北地下水回升!

中國北方生態(tài)回暖!東平湖發(fā)現(xiàn)了淡水蟶,華北地下水回升!

林子說事
2026-06-14 13:45:42
女人和婚外異性有了關(guān)系,多半會變成這種樣子,不難發(fā)現(xiàn)

女人和婚外異性有了關(guān)系,多半會變成這種樣子,不難發(fā)現(xiàn)

葉飛飛情感屋
2026-06-14 17:15:49
馬刺今夏三大目標(biāo)!3個首輪換頂級鋒線,換走福克斯扶正哈珀?

馬刺今夏三大目標(biāo)!3個首輪換頂級鋒線,換走福克斯扶正哈珀?

劉哥談體育
2026-06-14 15:20:30
93年遼寧大批77式手槍失竊,北京限期春節(jié)破案,嫌犯身份出人意料

93年遼寧大批77式手槍失竊,北京限期春節(jié)破案,嫌犯身份出人意料

磊子講史
2026-06-06 13:11:48
2026-06-14 21:00:49
芯東西 incentive-icons
芯東西
智東西AI媒體矩陣品牌。芯東西,芯片產(chǎn)業(yè)新媒體。我們是一群追芯人,專注報道AI芯片和半導(dǎo)體產(chǎn)業(yè)創(chuàng)新。
2373文章數(shù) 8158關(guān)注度
往期回顧 全部

科技要聞

Anthropic最強(qiáng)模型被禁,傳亞馬遜通風(fēng)報信

頭條要聞

伊朗球員受訪 反問美記者:我在美國安全嗎

頭條要聞

伊朗球員受訪 反問美記者:我在美國安全嗎

體育要聞

8年8隊奪冠,鄧肯那句話,現(xiàn)在還給了馬刺

娛樂要聞

鄧超攜子觀戰(zhàn)NBA,等等帥氣十足

財經(jīng)要聞

金價跌至900元關(guān)口,大媽又來抄底了!

汽車要聞

綜合續(xù)航超1600km/零百加速4秒級 2027款星途ES預(yù)售18.99萬起

態(tài)度原創(chuàng)

藝術(shù)
教育
游戲
本地
家居

藝術(shù)要聞

Lori Putnam | 光感拉滿的印象風(fēng)景寫生

教育要聞

高三生必看!四川省本科高校2026年招生章程要點(diǎn)匯總

豆包能打游戲了!神級更新 內(nèi)置虛擬機(jī)

本地新聞

AK劉彰邂逅河北南大港濕地

家居要聞

空間微調(diào) 移形換境

無障礙瀏覽 進(jìn)入關(guān)懷版