无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

482天,DeepSeek V4隱藏三件事:開源六個(gè)模型,攜手華為芯片提速

0
分享至



靴子落地。

4月24日消息,距離V3時(shí)隔482天,期待已久的DeepSeek V4終于來了!

今天上午,DeepSeek官網(wǎng)正式上線DeepSeek-V4接口和模型介紹,包括DeepSeek-V4-flash和DeepSeek-V4-pro兩個(gè)模型版本。



DeepSeek-V4擁有百萬字超長(zhǎng)上下文,在Agent能力、世界知識(shí)和推理性能上均實(shí)現(xiàn)國(guó)內(nèi)與開源領(lǐng)域的領(lǐng)先。API服務(wù)已同步更新,通過修改model_name為deepseek-v4-pro或deepseek-v4-flash即可調(diào)用。其中,在Agentic Coding評(píng)測(cè)中,V4-Pro已達(dá)到當(dāng)前開源模型最佳水平。

我也用了一下DeepSeek專家模式,但目測(cè)DeepSeek Chat官網(wǎng)還無法識(shí)別V4模型。



我也通過DeepSeek論文和官網(wǎng),發(fā)現(xiàn)三個(gè)官方賬號(hào)沒有講的事實(shí):

1、這次DeepSeek不止開源兩個(gè)模型,而是六個(gè)模型。

除了Pro、Flash之外,還包括Base系列的DeepSeek-V4-Flash-Base、DeepSeek-V4-Pro-Base;兩個(gè)推理最高版本DeepSeek-V4-Pro-Max、DeepSeek-V4-Flash-Max等等。

2、隨著DeepSeek V4系列發(fā)布,V3系列和之前deepseek-chat系列模型API棄用。

其中,deepseek-chat (將于 2026/07/24 棄用),deepseek-reasoner (將于 2026/07/24 棄用)。當(dāng)前階段內(nèi),這兩個(gè)模型名分別指向deepseek-v4-flash 的非思考模式與思考模式。

3、在推理和訓(xùn)練算力層面,DeepSeek采用分布式訓(xùn)練架構(gòu),由于強(qiáng)化學(xué)習(xí)(RL)下需要長(zhǎng)尾的小批量數(shù)據(jù),在推理層面則研發(fā)出細(xì)粒度EP(Fine-Grained EP)內(nèi)核方案,并且進(jìn)行開源。DeepSeek已經(jīng)在英偉達(dá)GPU和華為昇騰 NPUs平臺(tái)上驗(yàn)證了細(xì)粒度EP方案。

與強(qiáng)大的非融合基線相比,該方案在通用推理工作負(fù)載上可實(shí)現(xiàn)1.50至1.73倍的加速(173%),在對(duì)延遲敏感的場(chǎng)景(如強(qiáng)化學(xué)習(xí)展開和高速智能體服務(wù))中,加速比甚至可達(dá)1.96倍(196%)。DeepSeek已將基于 CUDA 的超大規(guī)模內(nèi)核實(shí)現(xiàn) MegaMoE2 開源,作為 DeepGEMM 的一個(gè)組成部分。



換句話說,DeepSeek現(xiàn)在就一門心思干V4模型,而且已經(jīng)將國(guó)產(chǎn)化AI算力當(dāng)作可選項(xiàng)之一,形成了英偉達(dá)+昇騰兩格局,而且用一系列的技術(shù)和方案將國(guó)產(chǎn)算力利用率提升。

理論上看,DeepSeek V4開源大模型很強(qiáng),但核心還是在于Agent、算力成本、世界理解和推理層面。顯然,DeepSeek不是你想象的成為世界最強(qiáng)模型,而是最好用的模型。



DeepSeek發(fā)六大模型:

高性能、性價(jià)比都有

DeepSeek首次公布兩個(gè)大的模型系列:

一個(gè)是性能比肩頂級(jí)閉源模型的DeepSeek-V4-Pro(1.6T參數(shù),已激活 49B);

另一個(gè)是更快捷、高效的經(jīng)濟(jì)之選的DeepSeek-V4-Flash (284B 參數(shù),已激活 13B)。

兩者均支持一百萬個(gè)標(biāo)記的上下文長(zhǎng)度。

文章指出,DeepSeek-V4 開創(chuàng)了一種全新的注意力機(jī)制,在 token 維度進(jìn)行壓縮,結(jié)合 DSA 稀疏注意力(DeepSeek Sparse Attention),實(shí)現(xiàn)了全球領(lǐng)先的長(zhǎng)上下文能力,并且相比于傳統(tǒng)方法大幅降低了對(duì)計(jì)算和顯存的需求。從現(xiàn)在開始,1M(一百萬)上下文將是 DeepSeek 所有官方服務(wù)的標(biāo)配。



這是DeepSeek-V4系列的全新整體架構(gòu)。

1、混合注意力架構(gòu):DeepSeek設(shè)計(jì)了一種混合注意力機(jī)制,結(jié)合了壓縮稀疏注意力(CSA)和高度壓縮注意力(HCA),以顯著提高長(zhǎng)上下文效率。在 100 萬個(gè)詞元的上下文設(shè)置下,與 DeepSeek-V3.2 相比,DeepSeek-V4-Pro 僅需27% 的單詞元推理浮點(diǎn)運(yùn)算次數(shù)和10% 的鍵值緩存。

2、流形約束超連接(mHC):DeepSeek引入 mHC 來加強(qiáng)傳統(tǒng)的殘差連接,增強(qiáng)跨層信號(hào)傳播的穩(wěn)定性,同時(shí)保持模型的表達(dá)能力。

3、Muon優(yōu)化器:我們采用Muon優(yōu)化器以實(shí)現(xiàn)更快的收斂速度和更高的訓(xùn)練穩(wěn)定性。

其中,DeepSeek-V4-Pro采用1.6相較前代模型實(shí)現(xiàn)全面升級(jí),Agent能力顯著提升,Agentic Coding評(píng)測(cè)位列開源模型頂尖水準(zhǔn),實(shí)際使用體驗(yàn)優(yōu)于Sonnet 4.5,交付質(zhì)量接近Opus 4.6非思考模式;同時(shí)其世界知識(shí)儲(chǔ)備大幅領(lǐng)先同類開源模型,僅略次于頂級(jí)閉源模型Gemini-Pro-3.1,在數(shù)學(xué)、STEM及競(jìng)賽代碼等場(chǎng)景下推理性能突破開源上限,整體實(shí)力可媲美全球頂尖閉源模型。



而DeepSeek-V4-Flash是一款高效高性價(jià)比的選擇,其世界知識(shí)略弱于 V4-Pro,但推理能力相近;憑借更小的參數(shù)與激活規(guī)模,可提供更快速、低成本的API服務(wù),簡(jiǎn)單 Agent 任務(wù)表現(xiàn)與 V4-Pro 持平,僅在高難度任務(wù)上存在差距。



當(dāng)然,DeepSeek不止發(fā)了兩款模型,其公號(hào)隱藏了其他四個(gè)模型:基礎(chǔ)系列的DeepSeek-V4-Flash-Base、DeepSeek-V4-Pro-Base;兩個(gè)推理最高版本DeepSeek-V4-Pro-Max、DeepSeek-V4-Flash-Max等等。



我算了一下,這次V4共發(fā)布六款模型,這還不包括非推理的三個(gè)版本。



據(jù)悉,DeepSeek-V4-Pro-Max是DeepSeek-V4-Pro的最高推理模式,顯著提升了開源模型的知識(shí)能力,穩(wěn)居目前最佳開源模型之列。它在編碼基準(zhǔn)測(cè)試中取得了頂尖性能,并在推理和智能體任務(wù)方面顯著縮小了與領(lǐng)先的閉源模型之間的差距。

DeepSeek-V4-Flash也有一個(gè)Max版本,在擁有更大的推理預(yù)算時(shí),其推理性能與 Pro 版本相當(dāng),但由于其參數(shù)規(guī)模較小,在純知識(shí)任務(wù)和最復(fù)雜的智能體工作流程方面自然略遜一籌。

總體而言,DeepSeek-V4系列保留了Transformer架構(gòu)和多標(biāo)記預(yù)測(cè)(MTP)模塊,同時(shí)在DeepSeek-V3的基礎(chǔ)上引入了若干關(guān)鍵升級(jí)。



華為+英偉達(dá)加持,

開源1.96倍推理加速的算力內(nèi)核

早前很多媒體報(bào)道稱,DeepSeek推遲的核心原因,在于國(guó)產(chǎn)化算力訓(xùn)練不足。

在論文當(dāng)中,DeepSeek特別提到算力“踩坑”的問題,并且通過梳理大模型算力訓(xùn)練和推理,研發(fā)了多種模塊和方案,形成V4國(guó)產(chǎn)化能力。

DeepSeek提到,在DeepSeek-V4系列中,每個(gè)MoE層主要可以分解為四個(gè)階段:兩個(gè)通信受限階段,分發(fā)(Dispatch)和合并(Combine),以及兩個(gè)計(jì)算受限階段,線性層1(Linear-1)和線性層2(Linear-2)。團(tuán)隊(duì)的分析顯示,在單個(gè)MoE層內(nèi),通信的總時(shí)間少于計(jì)算的總時(shí)間。因此,在將通信和計(jì)算融合為統(tǒng)一管道后,計(jì)算仍然是主要的瓶頸,這意味著系統(tǒng)可以在不降低端到端性能的情況下容忍較低的互連帶寬。



為了進(jìn)一步降低互連帶寬需求并放大重疊的好處,DeepSeek引入了一種更細(xì)粒度的專家分區(qū)方案:Fine-Grained EP。

受到許多相關(guān)工作的啟發(fā),DeepSeek將專家拆分并調(diào)度成波次。每個(gè)波次包含一小部分專家。一旦波次內(nèi)的所有專家完成通信,計(jì)算就可以立即開始,而無需等待其他專家。在穩(wěn)態(tài)下,當(dāng)前波次的計(jì)算、下一個(gè)波次的令牌傳輸和已完成專家的結(jié)果發(fā)送都同時(shí)進(jìn)行,這在專家之間形成了細(xì)粒度的流水線,使計(jì)算和通信在整個(gè)波次中持續(xù)進(jìn)行?;诓ù蔚恼{(diào)度加快了速度。在極端情況下(如強(qiáng)化學(xué)習(xí)(RL)的 rollout),通常也會(huì)遇到長(zhǎng)尾小批量。

因此,DeepSeek表示,其在 NVIDIA GPU 和華為Ascend NPU平臺(tái)上驗(yàn)證了細(xì)粒度EP方案。與強(qiáng)大的非融合基線相比,它在通用推理工作負(fù)載上實(shí)現(xiàn)了 1.50-1.73 倍的加速,在對(duì)延遲敏感的場(chǎng)景(如 RL rollout 和高速代理服務(wù))中最高可實(shí)現(xiàn) 1.96 倍的加速。

DeepSeek已經(jīng)開源了基于CUDA的Mega-Kernel,命名為 MegaMoE2,作為DeepGEMM的一個(gè)組件。

此外,為最大限度地提高 GPU 資源利用率,并支持高優(yōu)先級(jí)任務(wù)的快速硬件調(diào)配,DeepSeek還將GPU 集群,采用一種全集群范圍的搶占式任務(wù)調(diào)度器,任何正在運(yùn)行的任務(wù)都可能隨時(shí)被搶占。

而在大規(guī)模GPU集群中,硬件故障較為常見。為此,DeepSeek實(shí)現(xiàn)了一項(xiàng)可搶占且具備容錯(cuò)能力的大型語(yǔ)言模型生成服務(wù),以支持強(qiáng)化學(xué)習(xí)/OPD 的部署。 具體而言,DeepSeek為每項(xiàng)生成請(qǐng)求實(shí)施了一種基于標(biāo)記粒度的預(yù)寫日志(WAL)。每當(dāng)為某項(xiàng)請(qǐng)求生成新標(biāo)記時(shí),我們會(huì)立即將其追加到該請(qǐng)求的 WAL 中。在搶占過程中,DeepSeek會(huì)暫停推理引擎,并保存KV 緩存。

總結(jié),DeepSeek V4在大模型算力計(jì)算、通訊互聯(lián)、內(nèi)存等方向都做了很多的工作,這確實(shí)是V4推遲發(fā)布的原因,也是V4依然能夠?qū)崿F(xiàn)成本低廉下實(shí)現(xiàn)性能提升的關(guān)鍵原因。



如今,DeepSeek-V4-Flash版本價(jià)格低至2元輸出1M tokens上下文。



DeepSeek過去一年重要時(shí)刻點(diǎn)梳理如下

2024年12月28日:發(fā)布DeepSeek V3大模型,訓(xùn)練周期2個(gè)月、成本低于600萬美元,推理性能對(duì)標(biāo)OpenAI o1,代碼與邏輯推理能力接近GPT-4 Turbo。

2025年1月20日:推出R1推理優(yōu)化模型(表現(xiàn)優(yōu)于OpenAI o1)并開源多模態(tài)模型Janus-Pro。

當(dāng)日DeepSeek遭遇峰值3.2 Tbps的DDoS攻擊導(dǎo)致部分區(qū)域服務(wù)中斷;1月27日,DeepSeek App登頂,引發(fā)美股科技股震蕩、英偉達(dá)股價(jià)暴跌16%。

2025年5月28日:推出DeepSeek R1-0528升級(jí)版本,參數(shù)量685B,代碼與推理能力直逼OpenAI o3、超越Claude 4,支持128K上下文長(zhǎng)度,部署成本更低。

2025年8月-9月:8月18日在Hugging Face開源V3.1-Base版本(128K上下文、約685B參數(shù));8月20日-21日發(fā)布DeepSeek V3.1并完成升級(jí),定位為“邁向Agent時(shí)代的第一步”。

9月6日,DeepSeek調(diào)整API價(jià)格表、取消夜間優(yōu)惠。

2025年12月1日:DeepSeek發(fā)布V3.2系列模型(含標(biāo)準(zhǔn)版與高性能版),性能逼近甚至超越同類閉源模型,128K上下文場(chǎng)景中預(yù)填充成本降低51%、解碼速度提升62.5%,推理總成本僅為同類閉源模型1/3,其中V3.2-Speciale在數(shù)學(xué)證明賽事中獲金牌,達(dá)到人類選手第二水平。

2026年1月20日:恰逢DeepSeek-R1開源一周年,開發(fā)者在GitHub的FlashMLA代碼庫(kù)中意外發(fā)現(xiàn)神秘標(biāo)識(shí)符“MODEL-1”,其橫跨114個(gè)文件、出現(xiàn)28次,與現(xiàn)有V3.2模型并列引用且未沿用舊版命名規(guī)則,暗示DeepSeek將推出架構(gòu)重構(gòu)的新版本模型而非簡(jiǎn)單迭代。

2026年2月10日:野村證券發(fā)布報(bào)告,預(yù)計(jì)2月中旬推出的DeepSeek V4模型不會(huì)重現(xiàn)去年V3發(fā)布時(shí)引發(fā)的全球AI算力需求恐慌,指出V4核心價(jià)值在于通過底層架構(gòu)創(chuàng)新推動(dòng)AI應(yīng)用商業(yè)化落地。

2026年2月11日:DeepSeek App推送1.7.4版本更新,開啟新模型灰度測(cè)試,該版本疑似V4正式亮相前的終極灰度版。

3月:DeepSeek更新了專家模型,并且發(fā)布了多份研究論文。

發(fā)布稿的結(jié)尾,DeepSeek 自己引了一句話。

「不誘于譽(yù),不恐于誹,率道而行,端然正己?!?/p>

這是荀子《非十二子》里的一句。字面意思是,不被贊譽(yù)誘惑,不被誹謗嚇到,按自己認(rèn)定的道往前走,端正自己。放在今天這個(gè)場(chǎng)景里,有點(diǎn)意思。

過去半年,關(guān)于V4什么時(shí)候發(fā)、是不是跳票、是不是已經(jīng)被別家超越、是不是已經(jīng)被 Claude 蒸餾數(shù)據(jù)搞定了之類的傳言在中文和英文AI圈來來回回跑了好幾輪。

年初甚至還有人信誓旦旦說V4會(huì)在春節(jié)前發(fā),結(jié)果等到了四月底。他們沒回應(yīng)過一次。然后在某個(gè)周五的上午,把V4放出來,同步開源,同步上線官網(wǎng)和App,同步更新API,順便把內(nèi)部員工已經(jīng)棄用Claude的事實(shí)寫進(jìn)發(fā)布稿。

沒有路線圖,沒有直播,沒有訪談。

率道而行這四個(gè)字,聽著像是一句口號(hào)。但如果你把過去半年 V3.2 那次「沒什么亮點(diǎn)」的 Exp 版本、DSA那套為V4鋪了半年的稀疏注意力、1M 上下文從王牌變成標(biāo)配的這條路徑放在一起看。DeepSeek已經(jīng)做到了。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
二戰(zhàn)時(shí)期,唯一一個(gè)沒有參戰(zhàn)的世界性強(qiáng)國(guó),當(dāng)時(shí)它到底在忙什么?

二戰(zhàn)時(shí)期,唯一一個(gè)沒有參戰(zhàn)的世界性強(qiáng)國(guó),當(dāng)時(shí)它到底在忙什么?

云霄紀(jì)史觀
2026-05-14 17:55:31
哈登拿下天王山后,NBA奪冠概率更新!騎士3.6%升第4馬刺屈居第3

哈登拿下天王山后,NBA奪冠概率更新!騎士3.6%升第4馬刺屈居第3

鍋?zhàn)踊@球
2026-05-14 16:20:23
安心、貼心、省心筑基,技術(shù)創(chuàng)新為核,車展上BU改革下的“新”傳祺

安心、貼心、省心筑基,技術(shù)創(chuàng)新為核,車展上BU改革下的“新”傳祺

汽車通訊社
2026-04-30 22:31:18
最后時(shí)刻,黃仁勛擠上飛向北京的“空軍一號(hào)”

最后時(shí)刻,黃仁勛擠上飛向北京的“空軍一號(hào)”

中國(guó)新聞周刊
2026-05-13 20:56:03
我們正在見證,人類史上最瘋狂的股市!

我們正在見證,人類史上最瘋狂的股市!

市值Observation
2026-05-14 16:37:40
不瞞了!馬斯克罕見承認(rèn):美國(guó)是第一,但第二到第十全都來自中國(guó)

不瞞了!馬斯克罕見承認(rèn):美國(guó)是第一,但第二到第十全都來自中國(guó)

瀲滟晴方DAY
2026-04-25 23:29:34
會(huì)談結(jié)束!中美談足135分鐘,中方一錘定音,臺(tái)灣問題有了定論

會(huì)談結(jié)束!中美談足135分鐘,中方一錘定音,臺(tái)灣問題有了定論

阿物評(píng)論哥
2026-05-14 16:58:40
18年了!汶川地震丟下學(xué)生逃跑的“范跑跑”,如今竟過成了這樣?

18年了!汶川地震丟下學(xué)生逃跑的“范跑跑”,如今竟過成了這樣?

一盅情懷
2026-05-14 09:05:26
臺(tái)灣網(wǎng)友曾發(fā)出質(zhì)疑:我們?nèi)兆舆^得明明挺好,為什么還要回歸?

臺(tái)灣網(wǎng)友曾發(fā)出質(zhì)疑:我們?nèi)兆舆^得明明挺好,為什么還要回歸?

南風(fēng)不及你溫柔
2026-05-14 09:03:21
80歲以上,不管存款多少,記得提前給自己備5樣?xùn)|西,早了解

80歲以上,不管存款多少,記得提前給自己備5樣?xùn)|西,早了解

小談食刻美食
2026-05-14 08:03:53
太突然!國(guó)際奧委會(huì)連招呼沒打,直接  “點(diǎn)名”上海?

太突然!國(guó)際奧委會(huì)連招呼沒打,直接 “點(diǎn)名”上海?

華人星光
2026-05-14 11:01:10
馬斯克攜幼子現(xiàn)身北京人民大會(huì)堂 外國(guó)網(wǎng)友:孩子那身新中式簡(jiǎn)直太棒

馬斯克攜幼子現(xiàn)身北京人民大會(huì)堂 外國(guó)網(wǎng)友:孩子那身新中式簡(jiǎn)直太棒

快科技
2026-05-14 19:00:09
四川武警營(yíng)門推哨兵后續(xù):大家都搞錯(cuò)了罪名,她面臨的不是襲警罪

四川武警營(yíng)門推哨兵后續(xù):大家都搞錯(cuò)了罪名,她面臨的不是襲警罪

奇思妙想草葉君
2026-05-13 18:25:17
暴跌65%,中年人最愛的豪車也崩了!

暴跌65%,中年人最愛的豪車也崩了!

蔣東文
2026-05-12 21:16:35
笑死!馬斯克像個(gè)“好奇寶寶”,360度轉(zhuǎn)圈拍人民大會(huì)堂。網(wǎng)友:沒發(fā)朋友圈等于白來...

笑死!馬斯克像個(gè)“好奇寶寶”,360度轉(zhuǎn)圈拍人民大會(huì)堂。網(wǎng)友:沒發(fā)朋友圈等于白來...

品牌新
2026-05-14 17:08:48
停更3年,千萬粉絲網(wǎng)紅改名宣布回歸,4小時(shí)漲粉240萬

停更3年,千萬粉絲網(wǎng)紅改名宣布回歸,4小時(shí)漲粉240萬

天津生活通
2026-05-14 10:34:09
基本盤被指用來嘲諷有愛國(guó)情懷的人

基本盤被指用來嘲諷有愛國(guó)情懷的人

映射生活的身影
2026-05-13 21:13:11
中美關(guān)系,有了新定位

中美關(guān)系,有了新定位

中國(guó)新聞周刊
2026-05-14 16:01:38
2年1.3億跪舔式續(xù)約庫(kù)里,2年500萬逼走克萊,勇士翻臉堪稱教科書

2年1.3億跪舔式續(xù)約庫(kù)里,2年500萬逼走克萊,勇士翻臉堪稱教科書

姜大叔侃球
2026-05-14 19:46:25
特朗普稱中美關(guān)系將會(huì)更好

特朗普稱中美關(guān)系將會(huì)更好

中國(guó)日?qǐng)?bào)網(wǎng)
2026-05-14 20:19:47
2026-05-14 21:15:00
智能紀(jì)元AGI
智能紀(jì)元AGI
專注科技、科學(xué)、商業(yè)產(chǎn)業(yè)報(bào)道
2315文章數(shù) 10609關(guān)注度
往期回顧 全部

科技要聞

馬斯克說會(huì)談很順利 黃仁勛點(diǎn)贊 庫(kù)克比耶

頭條要聞

老人攜帶170萬"現(xiàn)金"到銀行存款 柜員發(fā)現(xiàn)全是練功券

頭條要聞

老人攜帶170萬"現(xiàn)金"到銀行存款 柜員發(fā)現(xiàn)全是練功券

體育要聞

爭(zhēng)議抽象天王山,和季后賽最穩(wěn)定中鋒

娛樂要聞

何九華官宣當(dāng)爸!全程不提孩子?jì)?/h3>

財(cái)經(jīng)要聞

李強(qiáng)會(huì)見美國(guó)工商界代表

汽車要聞

雙零重力座椅/AI智能體/調(diào)光天幕 啟境GT7內(nèi)飾發(fā)布

態(tài)度原創(chuàng)

數(shù)碼
藝術(shù)
親子
公開課
軍事航空

數(shù)碼要聞

三星承諾將打造更節(jié)能的智能家電,旗下產(chǎn)品可幫用戶“省電費(fèi)”

藝術(shù)要聞

美國(guó)務(wù)卿魯比奧點(diǎn)贊中式美學(xué),實(shí)景令人驚嘆!

親子要聞

中國(guó)爸、外國(guó)媽,我們姐弟仨眼睛都是什么顏色?

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

美以伊戰(zhàn)爭(zhēng)期間以總理密訪阿聯(lián)酋

無障礙瀏覽 進(jìn)入關(guān)懷版