網易首頁

網易新聞
網易公開課
網易紅彩
網易嚴選
郵箱大師
網易云課堂

注冊免費郵箱

注冊VIP郵箱（特權郵箱，付費）
免費下載網易官方手機郵箱應用

移動端
網易公開課
網易嚴選
支付
郵箱

網易首頁 > 網易號 > 正文申請入駐

DeepSeek做大→Mega MoE，Tri Dao團隊加快→SonicMoE

2026-05-05 11:02:54　來源: 機器之心Pro

河北舉報

0

分享至

編輯｜Panda

「快！」

說到索尼克，不管是刺猬索尼克還是音速索尼克，大家的第一印象多半就是「快」，而「快」也是現在許多 AI 模型和應用優化的一大核心目標。

近日，由普林斯頓大學 Tri Dao（FlashAttention 的一作）和加州大學伯克利分校 Ion Stoica 領導的一個聯合研究團隊也做出了一個超快的索尼克：SonicMoE

一作 Wentao Guo 的推文，他目前正在普林斯頓大學就讀計算機科學博士

據介紹，SonicMoE 能在英偉達 Blackwell GPU 上以峰值吞吐量運行！并且運算性能超過了 DeepSeek 之前開源并引發巨大轟動的 DeepGEMM。

有趣的是，DeepSeek 前些天還在 DeepGEMM 庫中開源了新的技術 Mega MoE，即巨型 MoE—— 從名字也能看出來，這與 SonicMoE（音速 MoE）顯然是兩個不同的方向，我們也期待能看到「」與「」這兩個方向的更直接的對比。

下面我們就基于官方技術博客，簡單了解下 SonicMoE。

博客地址：https://tridao.me/blog/2026/sonicmoe-blackwell/
代碼庫：https://github.com/Dao-AILab/sonic-moe
論文地址：https://arxiv.org/abs/2512.14080

MoE 與它的隱患

要理解 SonicMoE 解決的是什么問題，先得認識一種正在主導前沿 AI 的架構設計 —— 混合專家模型（Mixture of Experts，MoE）。

細粒度 MoE 架構

想象一家醫院。面對每一位患者，醫院不會讓所有科室同時出動，而是先由全科醫生判斷，再分診給最合適的?？啤oE 架構的邏輯與此相似：模型內部有大量「專家」子網絡，每一個輸入的信息片段（即 token，可以理解為文字或詞語）只會被路由到其中一小部分專家處理，而不是流經所有參數。

這樣做的好處顯而易見：用相對較少的計算量，撐起了一個參數規模龐大的模型

2024 年發布的 Mixtral 8x22B，以及近期的 DeepSeek V3.2、Kimi K2.5、Qwen3 等明星模型，都是 MoE 架構的忠實擁躉。按照模型縮放法則，專家越「細粒度」（即每個專家越小、數量越多），模型在同等計算量下的表現往往越好。于是在短短兩年間，MoE 專家的粒度提升了整整 9 倍，每次激活的專家比例則降至原來的十二分之一。

然而，代價也隨之而來。

標準 MoE 實現前向傳播的工作流程。π 是存儲路由元數據的二進制掩碼。黃色框表示內核邊界。藍色框是 HBM 中的變量。紅色標簽表示在正向 / 反向傳播過程中緩存的激活值。紫色框是最終輸出。全局內存中每個變量旁邊的橙色框表示對應 Qwen3-235B-A22B-Thinking-2507 MoE 模型在處理 32k 個 token 時的張量大小比例。

標準 MoE 實現的反向激活梯度傳遞工作流程。

當專家越來越多、越來越「細」，訓練這樣的模型會遭遇兩堵越來越高的墻：

第一堵墻是顯存。在訓練神經網絡時，前向傳播的中間結果必須被保存下來，以便反向傳播時計算梯度。對于細粒度 MoE 來說，這些中間結果（激活值）的規模與專家粒度成正比 —— 專家越細，顯存占用越大，最終會逼近 GPU 顯存的物理極限。

第二堵墻是內存帶寬。GPU 的性能取決于兩個維度：算力（每秒能做多少次運算）和帶寬（每秒能搬多少數據）。當專家足夠細時，每個專家處理的數據量太少，GPU 的算力根本來不及被填滿，大量時間都花在了從內存「搬運」數據上。這正是所謂「內存瓶頸」。對于典型的 Qwen3 細粒度 MoE，其單位計算量的內存訪問強度比等參數量的普通模型高出 12 倍。

現有的開源訓練工具（如 ScatterMoE 和 MoMoE）對這兩個問題都存在明顯不足，尤其是隨著模型越來越細粒度，差距愈發顯著。而SonicMoE正是為此而生。

SonicMoE 的每一層激活記憶占用空間（左圖）即使在專家粒度（嵌入維度 / 專家中間維度）增加時也保持不變，并且與現有的 MoE 訓練核 ScatterMoE 和 MoMoE 相比，SonicMoE 可以實現 1.87-4.04 倍的相對加速。

核心創新：一次算法級的重新設計

SonicMoE 的關鍵洞察，乍聽簡單，卻需要深厚的系統級思維才能想到：問題的根源在于，現有 MoE 訓練框架在中間結果的存儲上過于「慷慨」—— 它們把太多臨時數據寫入了顯存，而這些數據本可以不存。

傳統方法在執行 MoE 的前向傳播和反向傳播時，會在每個計算階段之間將中間張量（即矩陣形式的中間數據）寫入 GPU 的高帶寬內存（HBM）。這就好比一個廚師每炒完一道中間步驟，就把食材裝盤放進冰箱，下一步再取出來繼續 —— 頻繁的存取本身就是大量時間的浪費。

SonicMoE 的前向計算工作流程以及與 PyTorch 中標準 MoE 實現的比較。這里還比較了兩種方法的激活內存和 IO 成本。

SonicMoE 的算法重設計從根本上改變了這一流程，核心有兩點：

第一，激活內存與專家粒度解耦

在訓練反向傳播中，SonicMoE 通過重新設計計算順序，完全避免了緩存任何與專家規模成比例的中間張量。

具體來說，它將原本需要緩存的「下投影輸出」等關鍵中間量，通過重排矩陣乘法的收縮順序來消除 —— 不再存儲中間結果，而是在需要時通過聰明的計算路徑直接推導出所需梯度。

這使得 SonicMoE 的每層激活內存占用，在專家粒度大幅增加時保持恒定，相當于一個相同激活參數量的稠密模型。

這一改進無需任何額外的矩陣重計算代價，正面回答了此前業界一直認為「魚和熊掌不可兼得」的問題。

第二，IO 感知的算子融合

SonicMoE 將原本分散成多個 GPU 核函數（kernel）的操作大量融合在一起。

例如，「Gather 融合」技術讓數據搬運操作在矩陣乘法計算核的執行過程中同步完成，而不是作為單獨步驟先把數據重排好再交給矩陣乘法 —— 這不僅省去了一次完整的內存讀寫，還利用了 GPU L2 緩存的局部性優勢，讓緩存命中率從約 66% 提升至約 75%，進一步降低了訪問慢速 HBM 的頻率。

此外，SwiGLU 激活函數的計算也被融入矩陣乘法的尾聲（epilogue）階段，在數據還駐留在寄存器時就地完成，無需額外的內存讀寫。

在最關鍵的反向傳播核函數（dH kernel）中，SonicMoE 還進一步利用 GPU 的異步執行特性，將數據搬運的等待時間與矩陣運算重疊起來。

SonicMoE 的 dH 工作流程圖的語義與標準 PyTorch MoE 多核實現等效，同時 SonicMoE 顯著降低了 IO 成本。

實測結果顯示，即便該核函數的 HBM 數據流量增加了 24%，張量核心（Tensor Core）的利用率僅下降約 10%—— 內存開銷幾乎被算力完全「吸收」。

可以利用最新的 NVIDIA 硬件特性來隱藏 SonicMoE 的 dH 內核中的 IO 延遲，并大幅減少整體運行時間。

軟件抽象層 QuACK：讓創新能跨代遷移

SonicMoE 還有一個容易被忽視的工程亮點：研究團隊開發了一套名為QuACK的統一軟件抽象層，將所有 MoE 矩陣乘法核函數統一為「主循環 + 可定制尾聲」的共同結構。

兩個使用 QuACK 實現的 SonicMoE 內核。左側：內核工作流程圖。中間：QuACK 尾聲混合類，其中每個內核重寫 epi_visit_subtile（dH 為 88 行代碼，上投影前向為 21 行代碼）。右側：SonicMoE 的簡化內核啟動調用。

這樣的設計意味著，當 GPU 從上一代 Hopper 架構（H100）升級到最新的 Blackwell 架構（B200/B300）時，硬件特有的優化只需要在極少數地方做局部修改，核心算法邏輯無需重寫。

Tri Dao 與 Ion Stoica 團隊之所以能快速將 SonicMoE 移植到英偉達最新旗艦 Blackwell GPU 并達到峰值吞吐，很大程度上正是受益于這一前瞻性的軟件架構。

實驗結果

研究團隊在英偉達最新 B300 GPU 上，以六個真實開源 MoE 模型配置為基準進行了全面測評，涵蓋從 7B 到 685B 參數的不同規模，包括 OLMoE、Qwen3-235B、DeepSeek V3.2 等當下最受關注的 MoE 架構。

B300 上 6 種真實 MoE 配置的前向（左）和后向（右）TFLOPS。從左到右依次為：OLMoE-1B-7B-0125、gpt-oss-20b、Kimi-Linear-48B-A3B-Base、Qwen3-Next-80B-A3B-Thinking、Qwen3-235B-A22B-Thinking-2507 和 DeepSeek-V3.2-Exp。Triton 官方示例不支持后向傳播，Qwen3-Next-80B 的前向傳播也不支持 K=10。

SonicMoE 與基線模型在 B300 上針對 7B OLMoE 規模 MoE（T=32768，d=2048，n=1024，E=64，K=8）的運行時分解情況。

結果相當顯著：

與同樣針對 Blackwell GPU 優化、由 DeepSeek 開發的 DeepGEMM 基準相比，SonicMoE 在前向傳播上平均高出54%，在反向傳播上平均高出35%—— 而 DeepGEMM 本身已是業界公認的高性能實現；
與 Triton 官方 MoE 示例相比，SonicMoE 前向傳播快21%
與目前學術界和工業界廣泛使用的 ScatterMoE、MoMoE 等訓練框架相比，SonicMoE 的速度優勢往往達到近兩倍甚至更高。

從核函數級別的運行時分析來看，SonicMoE 的加速主要來自兩個方面：其一，Gather 融合消除了獨立的數據搬運核函數，這是最主要的加速來源；其二，更快的分組矩陣乘法實現（得益于 Blackwell 獨有的 CLC 調度器和 2CTA MMA 技術）貢獻了額外約 10% 的提升。

在激活內存方面，當專家粒度從 Mixtral 時代提高到 Kimi K2.5 量級時，傳統方案的每層激活內存會線性膨脹，而 SonicMoE 的占用則保持穩定。這對于在有限顯存中訓練更細粒度的未來模型，意味著更大的操作空間。

結語

SonicMoE 很快，同時還有更深層的意義：當硬件的進步受制于物理規律逐漸放緩，軟件層面的創新正越來越多地扮演起「平權者」的角色。

SonicMoE 的論文標題是「硬件高效、軟件可擴展的細粒度 MoE 藍圖」—— 這個「藍圖」二字，或許正是研究團隊想傳遞的信號：這不只是一個工具，而是一種可以被復制和繼承的設計哲學。

SonicMoE 目前已在 GitHub 和 PyPI 開源，支持 H100 和最新 B200/B300 GPU，未來計劃擴展至專家并行、MXFP8/FP4 精度支持，以及下一代英偉達 Rubin GPU。

在內存和算力日益稀缺的今天，這種創新極具價值，畢竟這是在為整個 AI 生態節省真金白銀的成本。

你更看好 DeepSeek 的 Mega MoE 還是今天介紹的 SonicMoE？

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

時隔兩周中國AI大模型周調用量再超美國，騰訊Hy3 preview (free)位居榜首，DeepSeek-V4-Flash上榜環比增344%

每日經濟新聞 2026-05-04 10:04:06
82 跟貼 82
對話孫天澍：AI時代，企業家要從“管人”到“架構智能體”

經濟觀察報 2026-05-05 11:17:25
0 跟貼 0

中國機器人在美“出差”買票坐飛機：坐靠窗位，電池超標致航班延誤，現場表演逗樂乘客

紅星新聞 2026-05-04 15:44:20
1667 跟貼 1667

黃仁勛點名Anthropic達里奧，別一當CEO，就開「上帝視角」

機器之心Pro 2026-05-05 11:11:08
0 跟貼 0
00后小哥復刻Claude最強神話模型OpenMythos

量子位 2026-04-23 11:44:18
0 跟貼 0

“DeepSeek版Claude Code”，Github 2.3k星

量子位 2026-05-04 14:03:17
14 跟貼 14

PS5魔改運行Steam！《黑神話：悟空》表現逼近原生

游民星空 2026-05-05 12:11:35
0 跟貼 0
中國向聯合國發出警告：東京足可制造約5500枚核彈頭

大風新聞 2026-05-04 14:05:05
43849 跟貼 43849

算法能模擬情緒，卻算不出那一眼的萬水思緒

芒果媽媽 2026-05-04 02:34:44
0 跟貼 0
吳宜澤斯諾克世錦賽奪冠成首位00后斯諾克世錦賽冠軍

央視新聞客戶端 2026-05-05 05:39:09
860 跟貼 860
不要讓算法養成我們的粉色圍欄

小貓上樹 2026-05-02 21:15:53
0 跟貼 0
新傳考研名詞解釋：數據投毒

禿頭研究所新傳考研 2026-05-05 12:34:10
0 跟貼 0
超節點三大特點打破通信墻，具備大帶寬、低時延、內存統一編址

量子位 2026-02-05 16:43:10
0 跟貼 0
這就是最基礎的邏輯了，所以學校不教邏輯學

楊小楊愛看劇 2026-05-01 16:31:16
12549 跟貼 12549
明明是兩個不同的齒輪，轉起來卻能絲滑通過，這算法真絕了！

搞笑脫口秀 2026-05-03 15:51:12
2 跟貼 2
莫氏雞煲上線湯料包5分鐘售罄4000多份，累計賣出4萬多份，總銷售額破160萬元，記者實測：1分鐘搶到兩包

極目新聞 2026-05-04 09:46:46
8362 跟貼 8362
深度長文：數學，是人類的發現還是發明？

宇宙時空 2026-05-01 14:15:14
38 跟貼 38
媒體：大規模出軍但不護航海峽疏導背后美國另有盤算

看看新聞Knews 2026-05-04 20:00:09
609 跟貼 609
景區裝電梯無痛爬山被質疑過度開發

極目新聞 2026-05-02 17:18:12
3830 跟貼 3830
三角洲部隊內部組織架構！

浩然簡史 2026-05-04 19:53:21
0 跟貼 0
五一武漢樓市和天氣一樣火熱：看房的人太多，置業顧問都不夠用了

極目新聞 2026-05-04 22:49:39
207 跟貼 207
雙面膠中婆婆不讓麗鵑花錢的背后，實則是在維護自己的生存邏輯

佚名影視說 2026-05-02 19:21:13
13 跟貼 13
CVPR 2026 | 從視覺Token內在變化量出發，實現VLM無損加速1.87倍

機器之心Pro 2026-03-16 11:56:33
0 跟貼 0
車主稱60萬買林肯飛行家前機蓋頻繁異常開啟 4S店回應

紅星新聞 2026-05-05 08:34:16
716 跟貼 716
美國軍艦接連起火的背后邏輯

呂喆有話說 2026-05-02 17:31:54
3 跟貼 3
游客拍到一公園公廁滿地大小便，被工作人員圍堵要求刪視頻，兩次報警才脫身

蓬勃新聞 2026-05-02 19:27:43
3138 跟貼 3138
德國1965億歐元打造"歐洲最強軍" 萬噸護衛艦將成主力

澎湃新聞 2026-05-04 14:54:13
371 跟貼 371
高端極地探險郵輪暴發罕見疫情已致3人死亡！漢坦病毒是否人傳人？張文宏這樣說

第一財經資訊 2026-05-04 16:36:20
734 跟貼 734
“張雪機車”車隊：核心目標是沖擊年度總冠軍

央視新聞客戶端 2026-05-04 20:13:33
772 跟貼 772
三響北京車展金標大眾純電矩陣

李楠說道 2026-05-03 22:52:13
0 跟貼 0
國乒女團3-1戰勝波蘭隊晉級16強

央視新聞 2026-05-04 21:20:32
425 跟貼 425
數不清的小吃車從各處駛來將停車場變夜市形成一個壯觀夜市矩陣

星晨視頻 2026-05-03 15:53:19
0 跟貼 0
視線與彈道的動態修正 56式半自動弧形表尺的分劃邏輯與調校美學

武器知識 2026-05-01 23:20:21
0 跟貼 0
趙祥松｜從一個右轉彎，看見整個社會的運行邏輯

祥松談 2026-05-05 08:27:06
0 跟貼 0
長鷹八參數全解析：3000公里航程意味著什么？

鐵血江湖人 2026-05-05 07:42:20
0 跟貼 0
一張圖能講清的事，何必寫十頁PPT？

時光慢郵啊 2026-05-05 00:43:30
0 跟貼 0
深圳樓市，咨詢量爆了

南方都市報 2026-05-05 11:04:16
743 跟貼 743
188元"天價奶茶"引熱議店員：茶葉貴一天能賣十多杯

紅星新聞 2026-05-04 17:21:16
1037 跟貼 1037
一頭扎進雪里，不是莽，是精準算法

司偉祺 2026-05-03 14:14:03
1 跟貼 1
科學老師帶三年級學生組裝并發射火箭模型，檢驗課堂成果

星視頻 2026-05-03 10:46:21
0 跟貼 0

970萬維修資金，被套走500多萬——當業委會變成了"提款機"

970萬維修資金，被套走500多萬——當業委會變成了"提款機"

物業管理的那些事

2026-05-04 17:09:11

48小時跑遍三國，高市早苗回頭才發現：沒人愿意陪她跳這趟渾水

48小時跑遍三國，高市早苗回頭才發現：沒人愿意陪她跳這趟渾水

福祿表嫂

2026-05-05 08:52:32

歷史老師跌入“無人區”：某高中20人教研組，近一半無學生可教

歷史老師跌入“無人區”：某高中20人教研組，近一半無學生可教

聽心堂

2026-03-31 15:52:04

倫敦世乒賽：5月5日賽程公布！決出16強名單，國乒男團再登場

倫敦世乒賽：5月5日賽程公布！決出16強名單，國乒男團再登場

全言作品

2026-05-05 06:17:19

局勢徹底逆轉，穆杰塔巴沒吹牛！為了向中國供油，伊朗打算拼一把

局勢徹底逆轉，穆杰塔巴沒吹牛！為了向中國供油，伊朗打算拼一把

暮雨咋歇著

2026-05-05 12:07:49

戲混子又來嚯嚯懸疑劇了，吐字不清眼無神，還不如蹲地上的路人甲

戲混子又來嚯嚯懸疑劇了，吐字不清眼無神，還不如蹲地上的路人甲

日落于西

2026-05-05 05:00:47

游客在三門峽一動物園找到“兩塊錢的快樂”？園方回應：門票2元屬實，20多年未漲價，基本無其他收費項目

游客在三門峽一動物園找到“兩塊錢的快樂”？園方回應：門票2元屬實，20多年未漲價，基本無其他收費項目

極目新聞

2026-05-03 14:52:34

澤連斯基宣布烏方6日零時起實施?；?>
</a>
<h3>
<a href=

2026-05-05 06:46:16

鐵線礁上國旗插好，半夜登礁扔垃圾，背后是場不動聲色的軟刀子戰

鐵線礁上國旗插好，半夜登礁扔垃圾，背后是場不動聲色的軟刀子戰

健身狂人

2026-05-05 11:38:51

滬杭第二條高鐵砸670億開建！終于不用繞路了

滬杭第二條高鐵砸670億開建！終于不用繞路了

金哥說新能源車

2026-05-04 15:20:01

央視曝光中國車企暴雷，183億打水漂售樓部人去樓空

央視曝光中國車企暴雷，183億打水漂售樓部人去樓空

你的雷達站

2026-05-04 16:27:36

上海市金山區黨政“一把手”調整！章龍華，任福建省郵政管理局副局長！

上海市金山區黨政“一把手”調整！章龍華，任福建省郵政管理局副局長！

娛樂小可愛蛙

2026-05-05 07:20:12

五一假期全國鐵路累計發送旅客超1億人次

五一假期全國鐵路累計發送旅客超1億人次

界面新聞

2026-05-05 12:11:03

婚姻出軌調查：2位女性的真實自述

婚姻出軌調查：2位女性的真實自述

時光慢郵啊

2026-05-04 11:50:39

倫敦大冷門！香港名將0-3慘敗，連一局都沒贏，球迷：不敢相信

倫敦大冷門！香港名將0-3慘敗，連一局都沒贏，球迷：不敢相信

生活新鮮市

2026-05-05 11:34:20

感謝尚帕尼丟絕殺！華子致命失誤+蘭豆制勝球打鐵六狼上雙爆大冷

感謝尚帕尼丟絕殺！華子致命失誤+蘭豆制勝球打鐵六狼上雙爆大冷

顏小白的籃球夢

2026-05-05 12:24:04

石破茂說得很透徹，中國軍力再強也嚇不倒高市，日本還會走老路的

石破茂說得很透徹，中國軍力再強也嚇不倒高市，日本還會走老路的

田園小歸

2026-05-05 08:41:45

白人女性與黑人女性的體味差異，網友真實分享引發熱議

白人女性與黑人女性的體味差異，網友真實分享引發熱議

特約前排觀眾

2025-12-22 00:20:06

瀏陽爆炸絕非偶然！三次警告被無視，背后藏著不敢說的真相

瀏陽爆炸絕非偶然！三次警告被無視，背后藏著不敢說的真相

小李子體育

2026-05-05 03:56:44

廣東隊出發北京，杜鋒表情輕松像已有策略，焦泊喬隨隊破不和傳聞

廣東隊出發北京，杜鋒表情輕松像已有策略，焦泊喬隨隊破不和傳聞

只扣籃的教練

2026-05-05 10:50:02

機器之心Pro

專業的人工智能媒體

12908文章數 142640關注度

往期回顧全部

科技要聞

OpenAI/Anthropic同日被曝拉攏華爾街建合資公司

頭條要聞

媒體：霍爾木茲海峽徹底變天中東局勢被推至懸崖邊緣

頭條要聞

媒體：霍爾木茲海峽徹底變天中東局勢被推至懸崖邊緣

體育要聞

全世界都等著看他笑話，他帶國米拿下冠軍

娛樂要聞

英皇25周年演唱會張敬軒被救護車拉走

財經要聞

五一假期，中國年輕人的“首爾病”犯了

汽車要聞

同比大漲190% 方程豹4月銷量29138臺

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

教育

本地

手機

時尚

公開課

教育要聞

聽課猛如虎，做題二百五

本地新聞

用青花瓷的方式，打開西溪濕地

手機要聞

iOS 26.5將為iPhone與Android之間的RCS消息傳遞提供端到端加密

參觀了設計師花7年打磨的家，太開眼了！

公開課

李玫瑾：為什么性格比能力更重要？

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
七個無法存下錢的壞習慣
李彥宏：百度離破產30天

© 1997-2026 網易公司版權所有 About NetEase | 公司簡介 | 聯系方法 | 招聘信息 | 客戶服務 | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權投訴

無障礙瀏覽進入關懷版