網易首頁 > 網易號 > 正文 申請入駐

剛剛,DeepSeek開始頻繁更新:Tile Kernels、DeepEP V2

0
分享至



機器之心編輯部

就在剛剛,DeepSeek 的 GitHub 開始了頻繁更新,上線開源了一個新的代碼庫Tile Kernels,同時并對 DeepEP 代碼庫進行了更新,上線了DeepEP V2。距離上次 DeepSeek 悄悄更新 Mega MoE、FP4 Indexer 還不到一周。

Tile Kernels



鏈接:https://github.com/deepseek-ai/TileKernels

據介紹,Tile Kernels 是為 LLM 操作優化的 GPU kernels,是用 TileLang 構建的。而 TileLang 是一種用于在 Python 中表達高性能 GPU kernels 的領域特定語言,具備易遷移、敏捷開發和自動優化等特性。

Tile Kernels 的性能非常強悍,正如 DeepSeek 寫的那樣:「本項目中的大多數 kernels 在計算強度和內存帶寬方面都已接近硬件性能上限。其中部分已經在內部訓練和推理場景中投入使用。不過,它們尚不代表最佳實踐,我們也在持續改進代碼質量和文檔。」

代碼庫的介紹信息不多,然而字里行間「劇透」了 DeepSeek 下一代模型底層的架構創新路線。

下面是 Tile Kernels 的一些具體特性:

  • 門控機制:用于 MoE 路由的 Top-k 專家選擇與打分
  • MoE 路由:Token 到專家的映射,融合的擴展 / 歸約以及權重歸一化
  • 量化(Quantization):支持 per-token、per-block、per-channel 的 FP8/FP4/E5M6 轉換,并融合 SwiGLU + quantization 操作
  • 轉置:批量轉置操作
  • Engram:Engram gating kernels,融合 RMSNorm、前向 / 反向傳播以及權重梯度歸約
  • Manifold HyperConnection:超連接 kernels,包含 Sinkhorn 歸一化以及 mix 的拆分與應用
  • Modeling:高層 torch.autograd.Function 封裝,將底層 kernels 組合為可訓練層(engram gate、mHC pipeline)

EPv2:更快的 EP、并支持 Engram/PP/CP



EPv2 地址:https://github.com/deepseek-ai/DeepEP/pull/605

在今天更早的時候,DeepSeek 還發布了最新版本的EPv2,實現了更快的專家并行(EP),并支持 Engram / 流水線并行(PP)、上下文并行(CP)。

隨著硬件、網絡和模型架構的演進,DeepSeek 此前的 DeepEP V1 積累了過多的歷史包袱和性能問題。

本次更新對專家并行(Expert Parallelism)進行了徹底重構 —— 與 V1 相比,僅需幾分之一的 SM 資源即可實現極致性能,同時支持更大規模的 Scale-up(單機擴展)和 Scale-out(跨機擴展)。

此外,DeepSeek 還在本次更新中推出了實驗性的 0 SM 系列方案,包括 0 SM Engram、0 SM 流水線并行(PP)以及 0 SM 上下文并行(CP)的 All-gather 算子。此外,后端已從 NVSHMEM 切換為更加輕量化的 NCCL Gin 后端。

下面是 DeepEP V2 版本的一些新特性:

  • 全時即時編譯 (Fully JIT)
  • NCCL Gin 后端:
  • 僅包含頭文件(Header-only),極致輕量。
  • 能夠復用現有的 NCCL 通信器。
  • EPv2:
  • 將高吞吐與低延遲 API 統一為單一接口,并采用全新的 GEMM 布局。
  • 支持更大規模的擴展領域(最高支持 EP2048)。
  • 引入分析化的 SM 和 QP 計數計算 —— 無需再進行自動調優(Auto-tuning)。
  • 持續支持混合模式(Hybrid)與直接模式(Direct)。
  • 針對類 V3 的舊版訓練任務,SM 占用從 24 個降至 4-6 個,同時保持同等甚至更優的性能。
  • 0 SM Engram(配合 RDMA)
  • 0 SM PP(配合 RDMA)
  • 0 SM CP(配合 Copy Engine)

性能表現

遵循 DeepSeek-V3 的配置,在新版本下,在每批次 8K token、7168 隱層維度、Top-8 專家、FP8 分發以及 BF16 結合的設置下進行了測試,結果如下:



說明:結果顯示的是邏輯帶寬。例如在 EP 8 x 2 的情況下,90 GB/s 的帶寬實際上包含了本地顯卡(local rank)間的流量。

與 V1 相比,V2 實現了高達 1.3 倍的峰值性能,同時節省了多達 4 倍的 SM 資源占用。

最后,勸一下 DeepSeek,趕快發 V4 吧,都等急了。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
中國肺癌發病率世界第一!提醒:罪魁禍首已揪出,7種食物要少吃

中國肺癌發病率世界第一!提醒:罪魁禍首已揪出,7種食物要少吃

健康之光
2026-03-23 20:10:05
4月22日俄烏最新:中將親自帶隊沖鋒

4月22日俄烏最新:中將親自帶隊沖鋒

西樓飲月
2026-04-22 18:37:19
外媒:韓飛行員開戰機空中拍照致撞機

外媒:韓飛行員開戰機空中拍照致撞機

參考消息
2026-04-23 13:10:21
香農芯創:第一季度凈利潤同比增長7835%

香農芯創:第一季度凈利潤同比增長7835%

財聯社
2026-04-23 19:40:09
捷克軍機訪臺申請被拒

捷克軍機訪臺申請被拒

陸棄
2026-04-22 09:10:45
谷歌向左、李飛飛往右,阿里世界模型「快樂生蠔」殺出第三條路

谷歌向左、李飛飛往右,阿里世界模型「快樂生蠔」殺出第三條路

機器之心Pro
2026-04-20 10:26:40
巴薩確認亞馬爾賽季報銷,保守治療以期趕上世界杯

巴薩確認亞馬爾賽季報銷,保守治療以期趕上世界杯

體壇周報
2026-04-23 20:16:21
55歲"紙片人"魯豫,與小19歲男友同居后變樣,如今她令人大跌眼鏡

55歲"紙片人"魯豫,與小19歲男友同居后變樣,如今她令人大跌眼鏡

觀察鑒娛
2026-04-17 09:43:01
中國軍事崛起全靠葉利欽?他到底為我國做了什么,竟值一噸大勛章

中國軍事崛起全靠葉利欽?他到底為我國做了什么,竟值一噸大勛章

朝子亥
2026-04-23 19:20:03
143億美元!日本拿下戰后最大武器出口訂單,中國周邊將迎劇變

143億美元!日本拿下戰后最大武器出口訂單,中國周邊將迎劇變

趣文說娛
2026-04-22 20:05:31
匈奴女人有一特點,讓中原男子避之不及,就算再漂亮也不敢娶回家

匈奴女人有一特點,讓中原男子避之不及,就算再漂亮也不敢娶回家

新一說史
2026-04-22 02:07:50
老兵被拒上廁所后續,拒絕網友捐款,訴求仍未解決,老兵疑被威脅

老兵被拒上廁所后續,拒絕網友捐款,訴求仍未解決,老兵疑被威脅

米果說識
2026-04-23 14:40:56
一口價18.48萬上市,真越野的四驅進口SUV!

一口價18.48萬上市,真越野的四驅進口SUV!

米粒說車唯一呀
2026-04-23 14:50:59
女子被扇耳光后續:保安先動手 他不是學校保安 黑料被扒不是善茬

女子被扇耳光后續:保安先動手 他不是學校保安 黑料被扒不是善茬

小鋭有話說
2026-04-23 10:54:05
“見過最廉價的兜底”,一份山姆燒雞,讓低認知母子淪為全網笑柄

“見過最廉價的兜底”,一份山姆燒雞,讓低認知母子淪為全網笑柄

妍妍教育日記
2026-04-15 09:30:09
烏度卡才是第一杜黑?

烏度卡才是第一杜黑?

靜易墨
2026-04-23 21:01:12
31分逆轉背后:亨德森的三年蛻變實驗

31分逆轉背后:亨德森的三年蛻變實驗

賽場名場面
2026-04-23 21:27:04
全面壓制!美日菲七國軍演拉開帷幕,中國雙航母戰斗群沖向南海!

全面壓制!美日菲七國軍演拉開帷幕,中國雙航母戰斗群沖向南海!

阿龍聊軍事
2026-04-22 15:02:44
阿森納爭冠軍差?先贏1-0再說

阿森納爭冠軍差?先贏1-0再說

籃壇第一線
2026-04-22 21:15:35
原來我們錯怪高市早苗了

原來我們錯怪高市早苗了

深度報
2026-04-22 22:24:39
2026-04-23 21:47:00
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
12839文章數 142634關注度
往期回顧 全部

科技要聞

馬斯克喊出"史上最大產品",但量產難預測

頭條要聞

男子被境外虛擬貨幣黑平臺騙30萬 躺平不上班滿頭白發

頭條要聞

男子被境外虛擬貨幣黑平臺騙30萬 躺平不上班滿頭白發

體育要聞

萊斯特城降入英甲,一場虧麻了的豪賭

娛樂要聞

王大陸因涉黑討債被判 女友也一同獲刑

財經要聞

關于AI算力鏈"瓶頸" 這是高盛的最新看法

汽車要聞

令人驚艷的奇瑞車 風云A9可不只是樣子貨

態度原創

游戲
旅游
親子
本地
公開課

PS輸麻了?幫對手狂賺數億美元 再也不需死守獨占

旅游要聞

博羅鐵爐巷:煙火日常里的綿延文脈

親子要聞

我宣布:我再也不怕喝牛奶了!

本地新聞

SAGA GIRLS 2026女團選秀

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版