![]()
機(jī)器之心編輯部
如果只看這場(chǎng) Meetup 的嘉賓名單,你大概會(huì)先想到海外芯片巨頭,或者某家國(guó)際 AI 基礎(chǔ)設(shè)施公司。
![]()
畢竟,SGLang、TileLang、Triton 、Mooncake…… 這些今天大模型推理?xiàng)?/strong>里最活躍、也最有存在感的開源項(xiàng)目,幾乎都有核心開發(fā)者來到現(xiàn)場(chǎng)。
但真正把這群人聚到一起的,竟然是摩爾線程。
這才是這件事最值得看的地方。它說明一件事:國(guó)產(chǎn) GPU 廠商開始不只是追著生態(tài)跑,而是打入了全球主流開源 AI 軟件棧,成為共建者
近日,摩爾線程舉辦「SGLang × MUSA Meetup」,分享了其與 SGLang 社區(qū)及 MUSA 生態(tài)協(xié)同推進(jìn)的最新進(jìn)展。
自上個(gè)月 DeepSeek V4 發(fā)布后,摩爾線程第一時(shí)間基于 SGLang 開源推理框架,成功完成了 DeepSeek V4 的完整運(yùn)行驗(yàn)證,并率先打通了從硬件架構(gòu)核心計(jì)算引擎承接、熱點(diǎn)算子支持,再到端到端部署驗(yàn)證的系統(tǒng)化適配鏈路。
另一項(xiàng)關(guān)鍵進(jìn)展是,摩爾線程 MUSA 后端已正式加入 SGLang 官方支持體系,相關(guān)代碼也已成功合入 SGLang 主線,獲得了這一全球頂級(jí)開源推理框架的「原生支持」。
![]()
這意味著不僅是 DeepSeek V4,從 Qwen、GLM、MiniMax 到 Wan,越來越多主流大模型的推理加速能力,都正在向國(guó)產(chǎn)算力生態(tài)原生開放。
擁抱開源推理框架
摩爾線程做了什么
在 AI 技術(shù)棧中,SGLang 是連接大模型與底層硬件的推理服務(wù)框架,是讓頂尖 AI 真正落地成 App 的關(guān)鍵一環(huán)。自 2025 年起,SGLang 開始走向通用硬件適配,陸續(xù)加入了對(duì) AMD、英特爾芯片的支持。
此次摩爾線程代碼合入 SGLang 主線,意味著摩爾線程已經(jīng)與國(guó)際主流芯片站在了同一陣列,正式躋身 SGLang 官方后端矩陣。
基于這一官方支持體系,開發(fā)者在使用 SGLang 運(yùn)行大語言模型及多模態(tài)推理任務(wù)時(shí),已經(jīng)可以直接調(diào)用摩爾線程全功能 GPU,完全無需再依賴任何第三方適配層。
為什么摩爾線程能做到這一步?摩爾線程 CTO 張鈺勃在這場(chǎng)技術(shù)分享上的致辭中給出了答案:立足「通用計(jì)算」,以 MUSA(Meta-computing Unified System Architecture)開放架構(gòu)擁抱開源生態(tài)。
他強(qiáng)調(diào),摩爾線程不走封閉路線,而是堅(jiān)持底層計(jì)算平臺(tái)的真正通用與高度統(tǒng)一。一方面,通用架構(gòu)能支撐從物理世界仿真、數(shù)字孿生到具身智能的未來技術(shù)演進(jìn),不為創(chuàng)新設(shè)限;另一方面,通過全產(chǎn)品線「統(tǒng)一」的指令集與架構(gòu)標(biāo)準(zhǔn),確保軟件生態(tài)能夠持續(xù)沉淀與積累。
針對(duì)開發(fā)者最為關(guān)心的「生態(tài)遷移」痛點(diǎn),張鈺勃直言:「摩爾線程秉持開放的態(tài)度,MUSA 在接口設(shè)計(jì)上最大程度復(fù)用了開發(fā)者熟悉的 GPU 編程習(xí)慣。我們不希望獨(dú)立創(chuàng)造一套封閉的生態(tài),而是以零學(xué)習(xí)成本,全面融入現(xiàn)有的繁榮生態(tài)。」
這種「零學(xué)習(xí)成本」的承諾,正真真切切地反映在摩爾線程與 SGLang 的工程落地中。
![]()
自今年 1 月起,摩爾線程向 SGLang 提交 issue,提供增加 MUSA 支持的完整路線圖和任務(wù)拆分,計(jì)劃涵蓋:在 runtime 部分對(duì) LLM 的支持,AOT Kernel 的支持,多模態(tài)生成的支持,Docker、CI、release 的支持等等。
現(xiàn)在,AI 開發(fā)者使用國(guó)產(chǎn) GPU 后,不需要再做復(fù)雜底層改造,就能直接用上全球目前最先進(jìn)、最高效的大模型調(diào)度框架。目前,SGLang 已支持通過源碼方式進(jìn)行安裝,并可按照文檔直接完成部署,能夠直接在摩爾線程 MTT S5000 智算卡上正常運(yùn)行,并支持了幾乎所有的基礎(chǔ)模型,無需任何二次代碼改造,顯著降低了開發(fā)者的算力遷移門檻
過去將代碼遷移到國(guó)產(chǎn) GPU 需要手動(dòng)搜索和修改大量的 torch.cuda 原語。針對(duì)這個(gè)問題,摩爾線程開發(fā)了torchada 適配層,實(shí)現(xiàn)了「一次 import,全包搞定」。開發(fā)者只需引入適配包,即可自動(dòng)將大模型的顯存管理、流處理等 CUDA 接口無縫橋接到 MUSA 平臺(tái)上,大幅降低了適配與維護(hù)成本。
同時(shí),針對(duì)無法直接遷移或性能不佳的算子,摩爾線程應(yīng)用開源的MATE(MUSA AI Tensor Engine)高性能算子庫(kù)進(jìn)行替換和加速,其提供了高性能 Attention 與 GEMM 算子,已對(duì)接 FlashAttention、FlashMLA、DeepGEMM 等主流接口。
![]()
在模型一側(cè),摩爾線程已支持 DeepSeek 模型,在最新的 DeepSeek V4 上,摩爾線程正在與社區(qū)協(xié)作,希望以 Jit Kernel 和 TileLang 的方式實(shí)現(xiàn)優(yōu)化。摩爾線程支持 Qwen3、Qwen3.5、Qwen VL 視覺模型,以及 MiniMax 的 M2.5、M2.7 和智譜 AI 的 GLM 4、5 系列等模型。
Diffusion 模型方面,摩爾線程也完成了對(duì)文生圖、文生視頻、圖生圖、圖生視頻的支持,覆蓋 Qwen-Image、Wan 等模型。
![]()
量化方面,摩爾線程 MTT S5000天然支持 FP8,部分 GGUF、INT4 量化支持也已提供,能夠讓更多、更大的模型在國(guó)產(chǎn) GPU 上更好地運(yùn)行。
在分布式支持上,摩爾線程的目標(biāo)是支持所有的分布式方法,基于 MCCL 為底座和自身 Custom Allreduce,已經(jīng)支持 TP/PP/DP/CP/EP,通過 Mooncake 的方式支持 PD 分離。
在短短幾個(gè)月內(nèi),摩爾線程取得了大量工程和生態(tài)成果。截至 5 月 12 日,其已向 SGLang 官方提交了47 個(gè)PR(合并入主線41 個(gè)),完成了從環(huán)境構(gòu)建到分布式推理的全鏈路打通,MUSA 已經(jīng)正式成為 SGLang 官方原生支持的后端之一。
未來,摩爾線程計(jì)劃對(duì)更多國(guó)產(chǎn)開源模型提供支持。通過深度的軟硬件協(xié)同優(yōu)化,國(guó)產(chǎn) GPU 在 SGLang 這一先進(jìn)推理框架上具備了生產(chǎn)力價(jià)值,跟上了當(dāng)前 DeepSeek、多模態(tài)長(zhǎng)文本等最前沿的 AI 技術(shù)演進(jìn)。
開源「全明星」見證
看見號(hào)召力
當(dāng)然,國(guó)產(chǎn)算力的適配與優(yōu)化,需要開源生態(tài)所有成員的貢獻(xiàn)。
前幾日「SGLang x MUSA Meetup」技術(shù)沙龍上,從 LLM 推理框架最炙手可熱的 SGLang,到底層算子編程語言 Triton 與 TileLang,再到分布式推理「卷王」項(xiàng)目 Mooncake,幾乎你能在 2026 年大模型推理技術(shù)棧上點(diǎn)到名的關(guān)鍵開源項(xiàng)目,都派出了核心維護(hù)者來到現(xiàn)場(chǎng)。
其中包括:
- SGLang 核心開發(fā)成員 Xiaoyu Zhang(BBuf),來自全球最活躍的開源 LLM 推理框架之一;
- 北京智源人工智能研究院 AI 編譯器研究員肖航,帶來基于 Triton/TileLang 的 FlagOS 生態(tài);
- TileLang Maintainer 唐正舉,DeepSeek V3.2 與 V4 核心算子背后的 DSL 項(xiàng)目核心成員;
- Mooncake Contributor 馬騰,分布式推理基礎(chǔ)設(shè)施 Mooncake 的核心開發(fā)者之一。
![]()
把這些名字放在一起看,會(huì)更有意思。SGLang 管推理框架,Triton 和 TileLang 往下深入到算子與編譯,Mooncake 則補(bǔ)上大規(guī)模分布式推理的基礎(chǔ)設(shè)施。它們并不是同一個(gè)項(xiàng)目,但幾乎拼出了當(dāng)前大模型推理?xiàng)W铌P(guān)鍵的一張地圖。
而這一次,地圖上的人都來了,且討論的重點(diǎn)之一,正是國(guó)產(chǎn) AI 算力。
SGLang 核心開發(fā)者 BBuf:推理框架的新底牌
SGLang 是當(dāng)前最流行的開源 LLM 推理框架之一,DeepSeek V3 的 EP 與 PD 分離方案就出自該社區(qū)。
BBuf 介紹了 SGLang 近期的關(guān)鍵進(jìn)展,包括支撐 DeepSeek-V4 等模型的 Prefill-Decode 分離架構(gòu)與分層緩存機(jī)制,以及 Zero?overhead Speculative Decoding 帶來的推測(cè)解碼效率提升。目前在算子層,原有的 sgl?kernel 包已逐步遷移至全新的 Jit?kernel 體系,基于 TVM?FFI 實(shí)現(xiàn)按需編譯,提升了開發(fā)與發(fā)版效率。同時(shí),SGLang 積極引入 Vibe Coding 實(shí)踐,利用 AI Agent 自動(dòng)完成了超 60 項(xiàng)性能分析與調(diào)優(yōu)任務(wù)。
2026 Q2 路線圖里,摩爾線程 MUSA 已經(jīng)與 GB200/GB300、AMD、TPU、Intel 一同列入官方硬件支持矩陣,未來雙方將深化原生算子支持,共同推動(dòng)頂級(jí)推理框架與國(guó)產(chǎn)算力底座的「原生」級(jí)融合。
智源 AI 編譯器研究員肖航:讓 Triton 在 MUSA 上跑通跑快
BAAI 智源研究院 AI 編譯器研究員肖航老師帶來了 FlagOS 生態(tài)的最新進(jìn)展。
FlagOS 基于 Triton 構(gòu)建,其核心是算子庫(kù) FlagGems 與統(tǒng)一編譯器 FlagTree,目標(biāo)是「一套算子,多家芯片」。目前,F(xiàn)lagGEMs 算子庫(kù)已涵蓋超 497 個(gè)算子,并依托 FlagTree 編譯器與 Triton-TLE 語言擴(kuò)展,實(shí)現(xiàn)了跨芯片的高性能算子生成。
在 FlagOS 上,通過融化、量化等方式,F(xiàn)usedMoE 和 FP8 GEMM 等算子性能加速了四倍;FlagTune 把調(diào)優(yōu)結(jié)果做成了可下載的社區(qū)資產(chǎn)。
在 MUSA 平臺(tái)上,F(xiàn)lagOS 與摩爾線程聯(lián)調(diào),通過環(huán)境變量啟用 MUSA 的 TMA 向量加速引擎。在 DeepSeek-V4 的 Day0 適配中,通過摩爾線程專用的張量加速引擎與 FlagOSTune 調(diào)優(yōu)方案,TTFT 時(shí)延降低 56.7%,吞吐量提升 65.7%。這種跨芯片的統(tǒng)一抽象與優(yōu)化機(jī)制,正為摩爾線程等國(guó)產(chǎn) GPU 構(gòu)建起更加豐富、高效的算力應(yīng)用生態(tài)。
TileLang 維護(hù)者唐正舉:Tile 抽象兼顧少代碼與高性能
唐正舉老師介紹道:作為 Tile 級(jí)領(lǐng)域特定編程語言(DSL),TileLang 在化解算子硬件依賴與性能調(diào)優(yōu)上具有核心優(yōu)勢(shì)。開發(fā)者能以極簡(jiǎn)代碼實(shí)現(xiàn)極致性能。
簡(jiǎn)單來說,約 50 行代碼,開發(fā)者能夠構(gòu)建出性能比肩 FlashAttention 專家級(jí)實(shí)現(xiàn)的 Kernel;在 Attention-Sinks 等算子上,加速比超過 20 倍。為了覆蓋不同層次的用戶,TileLang 設(shè)計(jì)了 Beginner、Developer、Expert 三種編程模式,從快速上手到深度調(diào)優(yōu)都有對(duì)應(yīng)的入口。
開源不到一年,TileLang 已積累超過 6000 顆 Star。此次與摩爾線程 MUSA 生態(tài)的深度聯(lián)調(diào),目標(biāo)是為其全功能 GPU 構(gòu)建一套完整的高性能算子庫(kù)。Tile-AI 社區(qū)接下來還將在分布式算子編程、自動(dòng)調(diào)度等方向持續(xù)推進(jìn)。
Mooncake 貢獻(xiàn)者馬騰:推理解耦時(shí)代的基礎(chǔ)
馬騰老師介紹了 Mooncake 與 SGLang 深度結(jié)合的技術(shù)路線。
傳輸引擎層面,Mooncake 充分利用零拷貝 RDMA 與多協(xié)議支持,在高吞吐與超低延遲之間找到平衡;KV Cache Store 則把 GPU 顯存、DRAM、SSD 等異構(gòu)存儲(chǔ)統(tǒng)一池化,讓長(zhǎng)上下文推理的成本大幅下降。
在彈性 EP 架構(gòu)中,Mooncake 支持故障節(jié)點(diǎn)的動(dòng)態(tài)摘除與 Expert 映射調(diào)整,集群容錯(cuò)能力顯著提升;在 RL 權(quán)重更新場(chǎng)景下,通過 P2P 傳輸,同步時(shí)間從 53 秒壓縮到了 7.2 秒。
目前,摩爾線程已作為 Mooncake 項(xiàng)目的核心 Maintainer 之一,深度參與多節(jié)點(diǎn)通信協(xié)議等關(guān)鍵特性的共建。從傳輸引擎到異構(gòu)存儲(chǔ)池化,再到彈性容錯(cuò),這一系列工程創(chuàng)新正在把 Mooncake 推向現(xiàn)代 AI 生產(chǎn)與部署軟件棧的核心位置。
結(jié)語
從單純的主動(dòng)推理框架適配,到與開源社區(qū)開發(fā)者共同推進(jìn)底層能力建設(shè),摩爾線程如今更像是在參與搭一張桌子,而不只是申請(qǐng)一張入場(chǎng)券。
這兩年,「大模型在國(guó)產(chǎn)卡上訓(xùn)練推理」的新聞層出不窮,但單點(diǎn)硬件適配的速度還遠(yuǎn)遠(yuǎn)跟不上 AI 技術(shù)演進(jìn)的步伐。真正稀缺的,從來不是跑通一個(gè) demo,而是建立一個(gè)能獲得大模型開源社區(qū)內(nèi)深度認(rèn)可、持續(xù)參與的穩(wěn)定研發(fā)生態(tài)
尤其是在 DeepSeek V4 的節(jié)點(diǎn)上,摩爾線程與社區(qū)的深度共建顯得尤為重要。
主流開源項(xiàng)目愿意把你寫進(jìn) Roadmap、寫進(jìn) CI 矩陣、寫進(jìn) Maintainer 名單。SGLang 官方支持列表里有 MUSA,F(xiàn)lagOS 與 TileLang 倉(cāng)庫(kù)里有 MUSA 的適配,Mooncake 的 Maintainer 團(tuán)隊(duì)里有摩爾的工程師。每一條單獨(dú)拎出來或許都不算大新聞,合在一起就是另一回事:全球最活躍的幾個(gè)開源推理項(xiàng)目,都已經(jīng)把摩爾線程視作生態(tài)共建的穩(wěn)定一極。
國(guó)產(chǎn) GPU 的故事,常常被簡(jiǎn)化成「對(duì)標(biāo)英偉達(dá)」,架構(gòu)、算力和制程是直觀的指標(biāo)。而隨著大模型真正跑起來,進(jìn)入生產(chǎn)部署環(huán)節(jié),我們可以看到:開源社區(qū)的活躍度和影響力,正在成為硬實(shí)力的證明。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.