![]()
機器之心編輯部
就在剛剛,DeepSeek 的 GitHub 開始了頻繁更新,上線開源了一個新的代碼庫Tile Kernels,同時并對 DeepEP 代碼庫進行了更新,上線了DeepEP V2。距離上次 DeepSeek 悄悄更新 Mega MoE、FP4 Indexer 還不到一周。
Tile Kernels
![]()
鏈接:https://github.com/deepseek-ai/TileKernels
據介紹,Tile Kernels 是為 LLM 操作優化的 GPU kernels,是用 TileLang 構建的。而 TileLang 是一種用于在 Python 中表達高性能 GPU kernels 的領域特定語言,具備易遷移、敏捷開發和自動優化等特性。
Tile Kernels 的性能非常強悍,正如 DeepSeek 寫的那樣:「本項目中的大多數 kernels 在計算強度和內存帶寬方面都已接近硬件性能上限。其中部分已經在內部訓練和推理場景中投入使用。不過,它們尚不代表最佳實踐,我們也在持續改進代碼質量和文檔。」
代碼庫的介紹信息不多,然而字里行間「劇透」了 DeepSeek 下一代模型底層的架構創新路線。
下面是 Tile Kernels 的一些具體特性:
- 門控機制:用于 MoE 路由的 Top-k 專家選擇與打分
- MoE 路由:Token 到專家的映射,融合的擴展 / 歸約以及權重歸一化
- 量化(Quantization):支持 per-token、per-block、per-channel 的 FP8/FP4/E5M6 轉換,并融合 SwiGLU + quantization 操作
- 轉置:批量轉置操作
- Engram:Engram gating kernels,融合 RMSNorm、前向 / 反向傳播以及權重梯度歸約
- Manifold HyperConnection:超連接 kernels,包含 Sinkhorn 歸一化以及 mix 的拆分與應用
- Modeling:高層 torch.autograd.Function 封裝,將底層 kernels 組合為可訓練層(engram gate、mHC pipeline)
EPv2:更快的 EP、并支持 Engram/PP/CP
![]()
EPv2 地址:https://github.com/deepseek-ai/DeepEP/pull/605
在今天更早的時候,DeepSeek 還發布了最新版本的EPv2,實現了更快的專家并行(EP),并支持 Engram / 流水線并行(PP)、上下文并行(CP)。
隨著硬件、網絡和模型架構的演進,DeepSeek 此前的 DeepEP V1 積累了過多的歷史包袱和性能問題。
本次更新對專家并行(Expert Parallelism)進行了徹底重構 —— 與 V1 相比,僅需幾分之一的 SM 資源即可實現極致性能,同時支持更大規模的 Scale-up(單機擴展)和 Scale-out(跨機擴展)。
此外,DeepSeek 還在本次更新中推出了實驗性的 0 SM 系列方案,包括 0 SM Engram、0 SM 流水線并行(PP)以及 0 SM 上下文并行(CP)的 All-gather 算子。此外,后端已從 NVSHMEM 切換為更加輕量化的 NCCL Gin 后端。
下面是 DeepEP V2 版本的一些新特性:
- 全時即時編譯 (Fully JIT)
- NCCL Gin 后端:
- 僅包含頭文件(Header-only),極致輕量。
- 能夠復用現有的 NCCL 通信器。
- EPv2:
- 將高吞吐與低延遲 API 統一為單一接口,并采用全新的 GEMM 布局。
- 支持更大規模的擴展領域(最高支持 EP2048)。
- 引入分析化的 SM 和 QP 計數計算 —— 無需再進行自動調優(Auto-tuning)。
- 持續支持混合模式(Hybrid)與直接模式(Direct)。
- 針對類 V3 的舊版訓練任務,SM 占用從 24 個降至 4-6 個,同時保持同等甚至更優的性能。
- 0 SM Engram(配合 RDMA)
- 0 SM PP(配合 RDMA)
- 0 SM CP(配合 Copy Engine)
性能表現
遵循 DeepSeek-V3 的配置,在新版本下,在每批次 8K token、7168 隱層維度、Top-8 專家、FP8 分發以及 BF16 結合的設置下進行了測試,結果如下:
![]()
說明:結果顯示的是邏輯帶寬。例如在 EP 8 x 2 的情況下,90 GB/s 的帶寬實際上包含了本地顯卡(local rank)間的流量。
與 V1 相比,V2 實現了高達 1.3 倍的峰值性能,同時節省了多達 4 倍的 SM 資源占用。
最后,勸一下 DeepSeek,趕快發 V4 吧,都等急了。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.