具身智能、萬卡集群、開發(fā)者入口：摩爾線程MUSA卡位下一個算力十年

2026-05-21 14:36:30　來源: CSDN

北京舉報

分享至

5月18日，摩爾線程在北京舉辦主題為“詞元時代，萬物智能”的年度產(chǎn)品發(fā)布會。摩爾線程創(chuàng)始人、董事長兼CEO張建中在發(fā)布會上開門見山的表示：“我們已真正進入詞元時代。Token 不僅代表經(jīng)濟，更讓整個世界煥新，帶來萬物智能。過去IoT是Internet of Things，今天，它應該叫Intelligence of Things。”

單應用日均 Token 消耗突破 140 萬億，智能體應用已撐起算力需求的半壁江山，國內(nèi)頭部大模型的迭代周期壓縮至1——2個月——"算力荒"不再是預警，而是正在兌現(xiàn)的現(xiàn)實。但焦慮的另一面，是一個更深層的老問題：對于國產(chǎn)GPU而言，兼容 CUDA 幾乎是一個“老生常談”的問題，卻鮮有成熟替代路徑。

發(fā)布會上，摩爾線程全面展示了“云-邊-端”全棧智算矩陣。從萬卡級規(guī)模的夸娥智算集群，到自研“長江” SoC 驅(qū)動的智能終端 MTT AICUBE 和MTT AIBOOK；從數(shù)字世界智能體“小麥”，到加速物理AI落地的首個全棧具身智能仿真平臺 MT Lambda，再到持續(xù)進化的 MUSA 生態(tài)。

這一次，它沒有停留在硬件參數(shù)的比拼上。從對標 CUDA 12.8 的全棧兼容，到用 AI 驅(qū)動生態(tài)的自我進化，再到打通數(shù)字與物理世界的具身智能，摩爾線程正在證明一件事：國產(chǎn)GPU的下半場，芯片只是入場券，生態(tài)才是終局。

MUSA 5.1.0：用三年時間補上國產(chǎn) GPU 的生態(tài)短板

長期以來，“兼容 CUDA” 更像國產(chǎn) GPU 的宣傳話術。開發(fā)者真正痛點不是算力差幾個百分點，而是代碼跑不通、算子對不上、遷移成本高到不可接受。多數(shù)廠商只做到局部 API 適配，遠未達到工程可用的全鏈路兼容。

這正是 MUSA 5.1.0 試圖打破的僵局。張建中在現(xiàn)場說得很直白："MUSA的目標從來不是做一個CUDA的替代品，而是要讓CUDA開發(fā)者無縫遷移到國產(chǎn)平臺，真正實現(xiàn)即插即用。"

從"部分可用"到"全面對齊"

從技術參數(shù)看，MUSA 5.1.0 對標 CUDA12.8，交出的答卷是國產(chǎn) GPU 迄今最完整的一份：

驅(qū)動與運行時新增248個API，累計兼容 761 個核心接口，這意味著絕大多數(shù) CUDA 程序可無需修改，在 MUSA 架構上高效運行。；
BLAS、SPARSE、RAND、FFT等核心數(shù)學庫實現(xiàn)100%對齊，確保科學計算與AI訓練的精度與效率；
支持55類核心AI算子，muDNN 算子庫功能全面覆蓋 cuDNN，并額外擴展 230+API，滿足主流模型訓推需求。；
最關鍵的突破：PyTorch全部3194個算子實現(xiàn)100%兼容。這意味著全球數(shù)百萬 PyTorch 開發(fā)者幾乎無需修改代碼，就能把模型搬到 MUSA 上。

全棧軟件棧：不止兼容，更要自成體系

兼容只是起點。MUSA 同時構建了從底層驅(qū)動到上層應用的全棧軟件架構：包括驅(qū)動、運行時、編程模型與工具鏈、加速庫與框架、開發(fā)者套件等基礎軟件，也包含了集群的 AI 訓推套件與系統(tǒng)管理軟件。這種全棧設計避免了"頭痛醫(yī)頭"的碎片化補丁，實現(xiàn)了系統(tǒng)級的性能提升。

在編譯器層面，兩個突破值得關注：一是正式支持Fortran編譯器，直接解決了航空航天、氣象預報、石油勘探等傳統(tǒng) HPC 領域的代碼遷移難題——這些領域的存量代碼以 Fortran 為主，此前幾乎是國產(chǎn) GPU 的盲區(qū)；二是深度融合開源編譯生態(tài)，TileLang-MUSA 成功合入開源主線，升級支持 Triton 3.6 最新版本。

在大模型訓練與推理的熱點算子上，MUSA也拿出了實際的性能數(shù)據(jù)：FlashAttention3 等 Transformer 核心算子在 MUSA 上達到 95% 的極致效率，基于 TileLang 自動調(diào)優(yōu)的 Group GEMM 算子實現(xiàn)了 60% 的性能提升。

上周摩爾線程也公布正式合入 SGLang，這意味著"MUSA的代碼開始合入vLLM、SGLang這些主流開源框架的主線，它就不再是一個被動的兼容者，而是開始成為生態(tài)的共建者。

云邊端全域統(tǒng)一：一套架構，吃滿詞元時代的全部算力場景

與多數(shù)國產(chǎn) GPU 廠商 All-in 云端訓練不同，摩爾線程從成立之日起就押注"云-邊-端"全棧布局，本次發(fā)布會將這一戰(zhàn)略推到了極致。而 MUSA，正是貫穿三大場景的統(tǒng)一底層——一套架構、全域覆蓋，既解決了產(chǎn)業(yè)碎片化的問題，也讓算力的調(diào)度與協(xié)同有了統(tǒng)一的語言。

云端：萬卡集群的訓推一體化底座

云端是智算的主戰(zhàn)場。MUSA 架構支撐的夸娥（KUAE）智算集群已實現(xiàn)萬卡級規(guī)模的穩(wěn)定運行，多項關鍵指標進入國際主流水平：Dense 大模型訓練MFU達60%，MoE 大模型 MFU 達40%，有效訓練時長達 90%，訓練線性擴展效率達95%。

圍繞大模型全生命周期，摩爾線程基于 MUSA 推出了夸娥訓練套件，覆蓋預訓練、持續(xù)預訓練、長文本訓練、微調(diào)及強化學習全流程。值得特別關注的是對強化學習的專門優(yōu)化——套件兼容業(yè)界主流的 VeRL 訓推一體與Slime訓推分離框架，精準卡位大模型后訓練階段的算力需求。

推理端則展現(xiàn)了"發(fā)布即適配"的響應速度：DeepSeek、GLM、MiniMax、Kimi、Qwen 等國內(nèi)主流大模型已全面適配，語音、視覺理解及多模態(tài)模型同樣覆蓋。更具標志性的是，MUSA 正式成為 vLLM 官方后端，并合入 SGLang官方主線獲得原生支持——開發(fā)者無需額外適配，開箱即用。

邊端與終端：智能的"神經(jīng)末梢"，也是生態(tài)的入口

如果云端是大腦，邊端與終端就是神經(jīng)末梢。摩爾線程基于 MUSA 自研的"長江"智能 SoC 芯片，集成 CPU、GPU、NPU、VPU 等多個異構計算單元，算力達 50 TOPS，為端側(cè) AI 應用提供獨立的算力底座。

在家庭場景，搭載"長江" SoC 的 MTT AICUBE 智能家庭 AI 中樞整合了"智能體+AI PC+AI NAS "三大能力。內(nèi)置的"小麥"智能體預裝60余項技能，支持超36款APP的跨應用控制；全閃存 AI NAS 模塊提供本地安全存儲；同時具備完整的桌面 AI PC 能力，可流暢運行本地大模型。

在個人開發(fā)場景，升級后的 MTT AIBOOK 專為智能體開發(fā)者打造：搭載原生MTT AIOS 系統(tǒng)，支持 12 個以上智能體同時運行，提供 90+工具調(diào)用接口，并創(chuàng)新支持原生 Linux、虛擬化 Windows 及容器化 Android 多系統(tǒng)。一臺AIBOOK，即可覆蓋智能體的開發(fā)、調(diào)試與部署全流程。

面向工業(yè)邊緣，MTT E300 AI 模組支持混合精度計算，可在嚴苛環(huán)境下穩(wěn)定運行，瞄準工業(yè)質(zhì)檢、能源巡檢、智能汽車、低空經(jīng)濟等低延遲場景。

有人質(zhì)疑摩爾線程做 To C 產(chǎn)品是否分散精力。但換個角度看，AICUBE 和AIBOOK 不只是消費品，更是 MUSA 生態(tài)的"開發(fā)者入口"。用一臺價格親民的設備讓普通用戶和開發(fā)者接觸到 MUSA 架構、養(yǎng)成使用習慣，這種滲透方式遠比純技術推廣高效——當年 CUDA 生態(tài)的起點，不也是從一塊游戲顯卡開始的嗎？

用 AI 建生態(tài)，摩爾線程開辟GPU發(fā)展新路徑

全棧兼容是 MUSA 的基礎。但真正讓摩爾線程拉開身位的，是它對生態(tài)建設方式本身的重新定義。

傳統(tǒng) GPU 生態(tài)建設是一個"人力密集型"工程：廠商雇大量工程師，逐個遷移代碼、逐個開發(fā)算子、逐個適配框架，效率低、周期長。英偉達用了二十多年才建起 CUDA 的壁壘，國產(chǎn)廠商沿用同樣的路徑追趕，永遠只能跟在后面。

摩爾線程的解法是：讓 AI 來建設 AI 的生態(tài)。

本次發(fā)布會推出的兩個 AI 工具，正在改變生態(tài)建設的速度公式：

Automusify智能遷移工具——基于大模型技術，實現(xiàn)了對 Top 100 人工智能與 Top 100 科學計算加速倉庫的 100% 零干預自動遷移。開發(fā)者上傳CUDA 代碼，Automusify 自動完成代碼分析、語法轉(zhuǎn)換、性能調(diào)優(yōu)與驗證，全程無需人工參與。遷移后的精度與性能，與原代碼保持一致。
MUSACODE AI編程助手——通過大模型智能體協(xié)同，已成功開發(fā)并交付超10000 個 Kernel 算子，覆蓋絕大多數(shù)通用計算與 AI 計算場景。開發(fā)者無需學習 MUSA 語法，用自然語言描述需求，MUSACODE 自動生成高質(zhì)量Kernel 代碼并完成調(diào)優(yōu)。目前已原生集成在 VSCode 中，即裝即用。

張建中的判斷是："過去我們說'軟件定義硬件'，現(xiàn)在我們要說' AI 定義軟件'。MUSA 生態(tài)不是靠摩爾線程一家來建，而是靠所有開發(fā)者，加上 AI 的力量，共建一個自進化的生態(tài)。"

這句話的潛臺詞是：生態(tài)建設的游戲規(guī)則正在被改寫。當 AI 能自動遷移代碼、自動生成算子、自動完成性能調(diào)優(yōu)時，"誰先積累了二十多年開發(fā)者"這個護城河，也許沒有想象中那么不可逾越。

在開源與開放上，摩爾線程在 GitHub 上開放了所有加速庫與工具鏈的源代碼，并發(fā)起了 PES 開發(fā)者聯(lián)盟，聯(lián)合中國移動、智源研究院、智譜 AI 等上下游伙伴，共同推進產(chǎn)業(yè)落地。

押注具身智能：摩爾線程提前卡位下一個算力主航道

大模型技術逐漸成熟之后，具身智能被公認為 AI 產(chǎn)業(yè)的下一個風口。但這條路有三道幾乎繞不過去的坎：數(shù)據(jù)稀缺、真機訓練成本高、場景難以泛化。

摩爾線程基于 MUSA 架構打造的MT Lambda全棧具身智能仿真平臺，試圖一站式解決這些問題。

MT Lambda 構建了從底層算力、核心引擎到上層框架的完整技術棧：底層基于 MUSA 全功能 GPU，渲染、物理、AI 計算在同一芯片完成，數(shù)據(jù)"零拷貝"，仿真效率大幅提升；中間層融合了自研的 AlphaCore 物理引擎、渲染引擎與 AI 引擎；上層則提供 MT Lambda-Lab 策略開發(fā)與訓練平臺，以及 MT Lambda-Sim 高保真仿真平臺。

發(fā)布會現(xiàn)場，摩爾線程現(xiàn)場演示了其機器狗，直觀展示了平臺在策略開發(fā)與動作訓練上的效果。同時，摩爾線程宣布了一系列生態(tài)合作落地：

與光輪智能聯(lián)合打造國產(chǎn)合成數(shù)據(jù)解決方案，依托千卡夸娥集群每天可生成10萬幀高保真合成數(shù)據(jù)；與智源研究院合作，基于千卡夸娥集群完整訓練出RoboBrain 具身大腦模型；與光線云聯(lián)合打造 RaysTwins 具身仿真平臺，實現(xiàn)任務資產(chǎn)一鍵導入、智能體算力調(diào)度、訓練推理加速的全鏈路閉環(huán)。

上市后的摩爾線程，到底想成為什么？

2025 年成功登陸科創(chuàng)板之后，摩爾線程的戰(zhàn)略節(jié)奏明顯加快。從官宣 AI 訓推一體智算卡 MTT S5000，到本次推出全棧智算矩陣，摩爾線程正在從一家 “GPU 芯片公司” 快速轉(zhuǎn)型為一家 “全棧智算解決方案提供商”。

這種轉(zhuǎn)型背后，是摩爾線程對行業(yè)趨勢的深刻判斷：未來的算力競爭，不再是單一芯片的競爭，而是全棧能力的競爭。隨著 Agentic AI 和具身智能的興起，算力需求正在從云端向邊端和終端擴散，單一的云端 GPU 廠商無法滿足全場景的算力需求。只有打通云邊端，提供從硬件到軟件、從訓練到部署的一站式解決方案，才能在未來的競爭中占據(jù)主動。

同時，摩爾線程也在刻意與“英偉達替代者” 的標簽劃清界限。張建中在發(fā)布會上多次強調(diào)，MUSA的目標不是復制CUDA，而是打造一個更適合AI時代的開放生態(tài)。與英偉達封閉的生態(tài)模式不同，MUSA 堅持開源與開放的原則，在 GitHub 上開放了所有加速庫與工具鏈的源代碼，并發(fā)起了 PES 開發(fā)者聯(lián)盟，聯(lián)合上下游伙伴共同建設生態(tài)。

當然，我們也要清醒地看到，MUSA 生態(tài)與 CUDA 之間仍然存在不小的差距。雖然在核心 API 和算子層面已經(jīng)實現(xiàn)了全面兼容，但在行業(yè)應用的深度和廣度上，還有很長的路要走。同時，高端 GPU 的硬件性能與英偉達的最新產(chǎn)品相比，仍然存在一定的差距。

但不可否認的是，摩爾線程已經(jīng)找到了一條適合國產(chǎn) GPU 的發(fā)展道路：用全棧布局覆蓋所有算力場景，用 AI 加速生態(tài)建設，用開放吸引開發(fā)者。這種 “全棧 + 自進化 + 開放” 的模式，為國產(chǎn) GPU 的突圍提供了一個全新的思路。

發(fā)布會尾聲，張建中說：“詞元時代的到來，為國產(chǎn)算力提供了前所未有的歷史機遇。過去我們是追趕者，現(xiàn)在我們有機會成為并行者，甚至在某些領域成為引領者。”

言外之意是：AI 算力的格局正在改寫。芯片之爭只是上半場，生態(tài)之爭才是終局。誰能把云、邊、端打通，把訓練、推理、仿真打通，把開發(fā)者、企業(yè)、硬件伙伴團結(jié)在一起，誰就能握住下一代算力的主動權。

MUSA 的故事剛剛開始。但對國產(chǎn)算力而言，一個更自主、更開放、更面向未來的選項，已經(jīng)站在了舞臺中央。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.