无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

DeepSeek V4 傳下周發布,核心架構組件曝光,這次可能是真的

0
分享至

DeepSeek V4 要來了?這次可能是真的

4 月 19 日,普林斯頓 AI 實驗室研究員Yifan Zhang在 X 上發了一條極其簡短的帖子——"V4, next week."

隨后在跟帖里列出了三項架構組件


Yifan Zhang 發布的 V4 預告推文 消息源可信度分析

先說說這個爆料人的背景,判斷一下可信度:

Yifan Zhang,本科北大元培、碩士清華姚班,現為普林斯頓大學 AI Lab Fellow

研究方向是大語言模型推理與強化學習,曾在字節跳動 Seed 基礎模型團隊做過研究實習。

? 個人主頁:yfz.ai

需要注意的是,他目前并不在 DeepSeek 任職,DeepSeek 官方截至目前也沒有回應任何媒體關于發布時間的問詢

但結合以下信號,"下周發布"的可信度相當高:

  1. 梁文鋒在內部溝通中確認了 4 月下旬發布——這是路透社、創知集等多家媒體獨立報道的

  2. Polymarket 預測市場給出 75% 概率在 4 月底前發布,90% 概率在 5 月中旬前

  3. DeepSeek 網頁端已經上線"快速模式"和"專家模式",產品層面的預熱動作很明顯

  4. DeepSeek 正在烏蘭察布規劃建設大型數據中心,為后續算力需求做準備

  5. DeepGEMM 在 4 月 16 日推送了重大更新——新增 Mega MoE(融合 MoE 大核)、FP8xFP4 GEMM、FP4 Indexer 等核心組件,而這些正是 V4 傳聞架構里的關鍵原語,開源動作和發布節奏高度吻合

所以雖然 Yifan Zhang 的推文帶有"非官方"性質,但綜合各方信息來看,這基本就是最后的預熱了

三項架構組件解讀

Yifan Zhang 在跟帖中提到了 V4 的三項核心架構組件,每一項都對應 LLM 優化里的一條重要方向:

1. 稀疏 MQA(Sparse Multi-Query Attention)

在多查詢注意力(MQA)的基礎上引入稀疏性。簡單說就是:不是每個 token 都去看所有的上下文,只看最相關的部分。

這對百萬級上下文窗口來說至關重要。傳統注意力機制在處理超長上下文時,算力和顯存開銷會呈二次方增長。稀疏 MQA 把這個復雜度壓到了接近線性(O(N) 到 O(N log N)),使得百萬 token 的上下文處理在實際工程中變得可行。

據傳 V4 還搭配了一個叫Lightning Indexer的組件,可以在幾百頁的長文檔中實現 20ms 以內的檢索速度,且不損失連貫性

2. 融合 MoE 大核(Fused MoE Mega Kernel)

MoE(Mixture-of-Experts)架構本身 DeepSeek 從 V2 就開始用了,V3 進一步打磨。但 MoE 有個工程痛點:路由判斷和專家矩陣乘法是兩步操作,中間有大量 kernel 啟動和顯存搬運的開銷

Fused MoE Mega Kernel 把這兩步融合進同一個 GPU kernel,直接砍掉了中間的開銷。這對推理延遲的優化是非常直接的——從架構層面減少了大量不必要的數據搬運

這也是 DeepSeek 一貫的風格:在工程層面把每一個 cycle 都榨干

3. Hyper-Connections(流形約束超連接)

這是三個里面最有學術含量的一項。傳統 Transformer 用的是殘差連接(Residual Connection),就是簡單地把輸入加到輸出上。Hyper-Connections 是對殘差連接的泛化,用多條可學習的加權通路替代單一的殘差加法

但早期版本的 Hyper-Connections 有一個致命問題:信號放大會失控,在超大模型中放大倍數可以達到 3000 倍以上,導致訓練直接崩潰

DeepSeek 的解決方案叫mHC(Manifold-Constrained Hyper-Connections):用Sinkhorn-Knopp 算法把連接矩陣投影到一個特定的數學流形上,讓信號放大嚴格控制在 2 倍以內

? 論文:arXiv:2512.24880

這項技術的代價只有約 6.7% 的額外計算開銷,但換來的是:萬億參數級別的超深超寬模型可以穩定訓練

這是 V4 能做到萬億參數的關鍵基礎設施

DeepSeek V4 已知信息匯總

綜合各方報道,V4 目前已知的信息:

特性

參數規模

約 1 萬億(萬億級 MoE),每個 token 激活約 32-37B 參數

上下文窗口

百萬級(約 100 萬 token)

訓練芯片

首次深度適配華為昇騰 950PR 等國產芯片,全棧國產算力

開源協議

Apache 2.0,可商用

API 定價

傳聞每百萬 token 約 $0.30,是 GPT 旗艦模型的 1/10

產品版本

V4 旗艦版、V4 Lite(輕量版)、V4 Vision(多模態版)

核心架構

Sparse MQA + Fused MoE Mega Kernel + mHC


幾個值得關注的點

1. 全棧國產算力,這是最大的信號

V4 如果真的完全跑在華為昇騰芯片上,那意味著 DeepSeek 從 CUDA 遷移到了 CANN 框架,實現全鏈路國產化

這對整個中國 AI 產業的意義遠超一個模型發布本身 —— 它證明了在芯片封鎖的條件下,國產算力生態是跑得通的

2. 定價繼續卷

每百萬 token $0.30,延續了 DeepSeek 一貫的"價格屠夫"風格

V3 時期就已經是業內最便宜的了,V4 在萬億參數的情況下還能維持這個價位,MoE 的稀疏激活功不可沒

3. 算力基建正式入場

DeepSeek 之前一直是"輕資產"打法,主要靠算法效率取勝

但 3 月底那次長達 12 小時的宕機暴露了算力瓶頸。這次在烏蘭察布規劃數據中心、首次啟動外部融資(路透社 4 月 17 日報道,估值約 100 億美元),說明 DeepSeek 已經意識到:光有好算法不夠,算力基礎設施也得自己掌握

4. 之前"狼來了"過兩次

實話實說,V4 之前已經有過兩輪"即將發布"的傳聞(2 月和 3 月),結果都跳票了

但綜合 Yifan Zhang 的爆料、梁文鋒的內部確認、產品端的預熱動作、以及預測市場的賠率,這次的信號密度確實是最高的

總結

如果 V4 真的在下周發布,它將是:

  • 國產 AI 模型首個萬億參數級開源模型

  • 首個全面適配國產算力的旗艦大模型

  • 百萬級上下文窗口 + 極致性價比的組合

DeepSeek 從 V2 開始就一直在給行業制造驚喜,V3 更是直接把開源大模型的天花板拉到了跟閉源模型掰手腕的水平。V4 如果能兌現這些技術承諾,那真的可以說是"2026 年國產 AI 的破局之作"

拭目以待,下周分曉

制作不易,如果這篇文章覺得對你有用,可否點個關注。給我個三連擊:點贊、轉發和在看。若可以再給我加個,謝謝你看我的文章,我們下篇再見!

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
32歲美國歌手在巴西空難中遇難,原定10月來中國成都、廣州、上海等8座城市巡演,成名曲為《生活仍要繼續》;6名遇難者身份曝光

32歲美國歌手在巴西空難中遇難,原定10月來中國成都、廣州、上海等8座城市巡演,成名曲為《生活仍要繼續》;6名遇難者身份曝光

大象新聞
2026-06-15 10:45:03
沒做成李嘉誠兒媳,梁洛施轉身成了甘肅蘭州兒媳

沒做成李嘉誠兒媳,梁洛施轉身成了甘肅蘭州兒媳

觀察鑒娛
2026-06-15 10:28:38
35頁PPT瘋傳:洛陽女子1女談3男,每天卡時間,都已談婚論嫁

35頁PPT瘋傳:洛陽女子1女談3男,每天卡時間,都已談婚論嫁

烈史
2026-05-30 13:23:41
紅棗還敢隨便吃嗎?提醒:以后吃紅棗時,一定要多注意了!

紅棗還敢隨便吃嗎?提醒:以后吃紅棗時,一定要多注意了!

今日養生之道
2026-06-12 15:57:18
圣嬰睜眼:曾餓死千萬人的1877慘劇即將重演?

圣嬰睜眼:曾餓死千萬人的1877慘劇即將重演?

自說自話的總裁
2026-06-16 15:33:15
阿根廷3-0阿爾及利亞!可怕的不是贏球 是梅西賽后這番話,很實在

阿根廷3-0阿爾及利亞!可怕的不是贏球 是梅西賽后這番話,很實在

云隱南山
2026-06-17 17:26:22
強制補水三分鐘!世界杯最煩人的新規終于惹眾怒

強制補水三分鐘!世界杯最煩人的新規終于惹眾怒

王稱吃吃喝喝
2026-06-17 07:39:31
貝克漢姆留名星光大道,15歲貝小七美成芭比娃娃!

貝克漢姆留名星光大道,15歲貝小七美成芭比娃娃!

ChicMyGeek
2026-06-14 11:03:06
湖南農村學霸高考只考239,班主任不相信查監控,看到真相他哭了

湖南農村學霸高考只考239,班主任不相信查監控,看到真相他哭了

二十一號故事鋪
2024-09-28 06:30:02
她是毛新宇前妻,服務員出身北大畢業,結婚3年無子女 今定居北京

她是毛新宇前妻,服務員出身北大畢業,結婚3年無子女 今定居北京

洲洲影視娛評
2026-06-17 19:06:04
郭家三兄弟大合照爆出大瓜

郭家三兄弟大合照爆出大瓜

蜻蜓世音
2025-03-04 15:14:22
SpaceX回吐大部分漲幅,最新上漲0.5%

SpaceX回吐大部分漲幅,最新上漲0.5%

每日經濟新聞
2026-06-17 21:57:05
我在英國吃了半個月白人飯,回國才恍然大悟:中國人的胃早養刁了

我在英國吃了半個月白人飯,回國才恍然大悟:中國人的胃早養刁了

老特有話說
2026-06-06 20:54:44
阿爾及利亞隊長曼迪:梅西決定了比賽走勢,他是歷史最佳球員

阿爾及利亞隊長曼迪:梅西決定了比賽走勢,他是歷史最佳球員

懂球帝
2026-06-17 12:26:12
視頻丨紅旗-16F實彈打靶!陸軍首次具備中遠程防空反導能力

視頻丨紅旗-16F實彈打靶!陸軍首次具備中遠程防空反導能力

環球網資訊
2026-06-16 09:27:04
“小面事件”發酵!網友稱出餐流程和煮方便面毫無差別,賣到30元

“小面事件”發酵!網友稱出餐流程和煮方便面毫無差別,賣到30元

火山詩話
2026-06-15 05:16:55
中年女人動情后,才會有下面的反應,別不信

中年女人動情后,才會有下面的反應,別不信

蓮子說情感
2026-05-08 10:39:16
靠“三級片”出名,艷壓邱淑貞,得罪導演被打斷肋骨,如今怎樣了

靠“三級片”出名,艷壓邱淑貞,得罪導演被打斷肋骨,如今怎樣了

小椰的奶奶
2026-06-18 02:47:20
六小齡童《美猴王》要來了,預測票房150億,《哪吒2》全冠不保

六小齡童《美猴王》要來了,預測票房150億,《哪吒2》全冠不保

影視高原說
2026-06-17 17:26:08
同學聚會,發現一個扎心的現實:年過40的女同學中,1/3沒有工作,1/3做著低薪但沒前途工作,剩下的1/3基本都在體制內

同學聚會,發現一個扎心的現實:年過40的女同學中,1/3沒有工作,1/3做著低薪但沒前途工作,剩下的1/3基本都在體制內

品讀時刻
2026-06-13 09:03:28
2026-06-18 03:23:00
Ai學習的老章 incentive-icons
Ai學習的老章
Ai學習的老章
3435文章數 11165關注度
往期回顧 全部

科技要聞

馬斯克好友長文:他最可怕的,是這套方法論

頭條要聞

荷蘭政府對中國進行無理指責 中使館發聲

頭條要聞

荷蘭政府對中國進行無理指責 中使館發聲

體育要聞

梅西帽子戲法:紀錄厚重,球王輕盈

娛樂要聞

陳紅一反常態保持沉默

財經要聞

拉加德警告:AI可能引爆下一場金融危機

汽車要聞

23.99萬起 比亞迪大唐帶2+2+3大七座掀桌子 這才是中國大家庭夢中情車!

態度原創

時尚
本地
數碼
藝術
軍事航空

1分鐘1萬塊:我在飯圈,交易人性

本地新聞

世界杯黑馬佛得角:河北人開超市,溫州人當老板

數碼要聞

GuliKit推出Switch 2便攜底座 可連電視亦可桌面充電 售價29.99美元

藝術要聞

235米!曼谷地標“金字塔”動工,BIG操刀

軍事要聞

美被指拒絕以色列看美伊諒解備忘錄

無障礙瀏覽 進入關懷版