具身智能、萬卡集群：摩爾線程MUSA卡位下一個算力十年

2026-05-21 13:14:53　來源: CSDN

北京舉報

分享至

5月18日，摩爾線程在北京舉辦主題為“詞元時代，萬物智能”的年度產(chǎn)品發(fā)布會。摩爾線程創(chuàng)始人、董事長兼CEO張建中在發(fā)布會上開門見山的表示：“我們已真正進(jìn)入詞元時代。Token不僅代表經(jīng)濟(jì)，更讓整個世界煥新，帶來萬物智能。過去IoT是Internet of Things，今天，它應(yīng)該叫Intelligence of Things。”

單應(yīng)用日均Token消耗突破140萬億，智能體應(yīng)用已撐起算力需求的半壁江山，國內(nèi)頭部大模型的迭代周期壓縮至1——2個月——"算力荒"不再是預(yù)警，而是正在兌現(xiàn)的現(xiàn)實(shí)。但焦慮的另一面，是一個更深層的老問題：對于國產(chǎn)GPU而言，兼容CUDA幾乎是一個“老生常談”的問題，卻鮮有成熟替代路徑。

發(fā)布會上，摩爾線程全面展示了“云-邊-端”全棧智算矩陣。從萬卡級規(guī)模的夸娥智算集群，到自研“長江” SoC驅(qū)動的智能終端MTT AICUBE和MTT AIBOOK；從數(shù)字世界智能體“小麥”，到加速物理AI落地的首個全棧具身智能仿真平臺MT Lambda，再到持續(xù)進(jìn)化的MUSA生態(tài)。

這一次，它沒有停留在硬件參數(shù)的比拼上。從對標(biāo)CUDA 12.8的全棧兼容，到用AI驅(qū)動生態(tài)的自我進(jìn)化，再到打通數(shù)字與物理世界的具身智能，摩爾線程正在證明一件事：國產(chǎn)GPU的下半場，芯片只是入場券，生態(tài)才是終局。

MUSA 5.1.0：用三年時間補(bǔ)上國產(chǎn)GPU的生態(tài)短板

長期以來，“兼容CUDA”更像國產(chǎn)GPU的宣傳話術(shù)。開發(fā)者真正痛點(diǎn)不是算力差幾個百分點(diǎn)，而是代碼跑不通、算子對不上、遷移成本高到不可接受。多數(shù)廠商只做到局部API適配，遠(yuǎn)未達(dá)到工程可用的全鏈路兼容。

這正是MUSA 5.1.0試圖打破的僵局。張建中在現(xiàn)場說得很直白："MUSA的目標(biāo)從來不是做一個CUDA的替代品，而是要讓CUDA開發(fā)者無縫遷移到國產(chǎn)平臺，真正實(shí)現(xiàn)即插即用。"

從"部分可用"到"全面對齊"

從技術(shù)參數(shù)看，MUSA 5.1.0對標(biāo)CUDA12.8，交出的答卷是國產(chǎn)GPU迄今最完整的一份：

驅(qū)動與運(yùn)行時新增248個API，累計兼容761個核心接口，這意味著絕大多數(shù)CUDA程序可無需修改，在MUSA架構(gòu)上高效運(yùn)行。；
BLAS、SPARSE、RAND、FFT等核心數(shù)學(xué)庫實(shí)現(xiàn)100%對齊，確保科學(xué)計算與AI訓(xùn)練的精度與效率；
支持55類核心AI算子，muDNN算子庫功能全面覆蓋cuDNN，并額外擴(kuò)展230+API，滿足主流模型訓(xùn)推需求。；
最關(guān)鍵的突破：PyTorch全部3194個算子實(shí)現(xiàn)100%兼容。這意味著全球數(shù)百萬PyTorch開發(fā)者幾乎無需修改代碼，就能把模型搬到MUSA上。

全棧軟件棧：不止兼容，更要自成體系

兼容只是起點(diǎn)。MUSA同時構(gòu)建了從底層驅(qū)動到上層應(yīng)用的全棧軟件架構(gòu)：包括驅(qū)動、運(yùn)行時、編程模型與工具鏈、加速庫與框架、開發(fā)者套件等基礎(chǔ)軟件，也包含了集群的AI訓(xùn)推套件與系統(tǒng)管理軟件。這種全棧設(shè)計避免了"頭痛醫(yī)頭"的碎片化補(bǔ)丁，實(shí)現(xiàn)了系統(tǒng)級的性能提升。

在編譯器層面，兩個突破值得關(guān)注：一是正式支持Fortran編譯器，直接解決了航空航天、氣象預(yù)報、石油勘探等傳統(tǒng)HPC領(lǐng)域的代碼遷移難題——這些領(lǐng)域的存量代碼以Fortran為主，此前幾乎是國產(chǎn)GPU的盲區(qū)；二是深度融合開源編譯生態(tài)，TileLang-MUSA成功合入開源主線，升級支持Triton 3.6最新版本。

在大模型訓(xùn)練與推理的熱點(diǎn)算子上，MUSA也拿出了實(shí)際的性能數(shù)據(jù)：FlashAttention3等Transformer核心算子在MUSA上達(dá)到95%的極致效率，基于TileLang自動調(diào)優(yōu)的Group GEMM算子實(shí)現(xiàn)了60%的性能提升。

上周摩爾線程也公布正式合入SGLang，這意味著"MUSA的代碼開始合入vLLM、SGLang這些主流開源框架的主線，它就不再是一個被動的兼容者，而是開始成為生態(tài)的共建者。

云邊端全域統(tǒng)一：一套架構(gòu)，吃滿詞元時代的全部算力場景

與多數(shù)國產(chǎn)GPU廠商All-in云端訓(xùn)練不同，摩爾線程從成立之日起就押注"云-邊-端"全棧布局，本次發(fā)布會將這一戰(zhàn)略推到了極致。而MUSA，正是貫穿三大場景的統(tǒng)一底層——一套架構(gòu)、全域覆蓋，既解決了產(chǎn)業(yè)碎片化的問題，也讓算力的調(diào)度與協(xié)同有了統(tǒng)一的語言。

云端：萬卡集群的訓(xùn)推一體化底座

云端是智算的主戰(zhàn)場。MUSA架構(gòu)支撐的夸娥（KUAE）智算集群已實(shí)現(xiàn)萬卡級規(guī)模的穩(wěn)定運(yùn)行，多項關(guān)鍵指標(biāo)進(jìn)入國際主流水平：Dense大模型訓(xùn)練MFU達(dá)60%，MoE大模型MFU達(dá)40%，有效訓(xùn)練時長達(dá)90%，訓(xùn)練線性擴(kuò)展效率達(dá)95%。

圍繞大模型全生命周期，摩爾線程基于MUSA推出了夸娥訓(xùn)練套件，覆蓋預(yù)訓(xùn)練、持續(xù)預(yù)訓(xùn)練、長文本訓(xùn)練、微調(diào)及強(qiáng)化學(xué)習(xí)全流程。值得特別關(guān)注的是對強(qiáng)化學(xué)習(xí)的專門優(yōu)化——套件兼容業(yè)界主流的VeRL訓(xùn)推一體與Slime訓(xùn)推分離框架，精準(zhǔn)卡位大模型后訓(xùn)練階段的算力需求。

推理端則展現(xiàn)了"發(fā)布即適配"的響應(yīng)速度：DeepSeek、GLM、MiniMax、Kimi、Qwen等國內(nèi)主流大模型已全面適配，語音、視覺理解及多模態(tài)模型同樣覆蓋。更具標(biāo)志性的是，MUSA正式成為vLLM官方后端，并合入SGLang官方主線獲得原生支持——開發(fā)者無需額外適配，開箱即用。

邊端與終端：智能的"神經(jīng)末梢"，也是生態(tài)的入口

如果云端是大腦，邊端與終端就是神經(jīng)末梢。摩爾線程基于MUSA自研的"長江"智能SoC芯片，集成CPU、GPU、NPU、VPU等多個異構(gòu)計算單元，算力達(dá)50 TOPS，為端側(cè)AI應(yīng)用提供獨(dú)立的算力底座。

在家庭場景，搭載"長江" SoC的MTT AICUBE智能家庭AI中樞整合了"智能體+AI PC+AI NAS "三大能力。內(nèi)置的"小麥"智能體預(yù)裝60余項技能，支持超36款A(yù)PP的跨應(yīng)用控制；全閃存AI NAS模塊提供本地安全存儲；同時具備完整的桌面AI PC能力，可流暢運(yùn)行本地大模型。

在個人開發(fā)場景，升級后的MTT AIBOOK專為智能體開發(fā)者打造：搭載原生MTT AIOS系統(tǒng)，支持12個以上智能體同時運(yùn)行，提供90+工具調(diào)用接口，并創(chuàng)新支持原生Linux、虛擬化Windows及容器化Android多系統(tǒng)。一臺AIBOOK，即可覆蓋智能體的開發(fā)、調(diào)試與部署全流程。

面向工業(yè)邊緣，MTT E300 AI模組支持混合精度計算，可在嚴(yán)苛環(huán)境下穩(wěn)定運(yùn)行，瞄準(zhǔn)工業(yè)質(zhì)檢、能源巡檢、智能汽車、低空經(jīng)濟(jì)等低延遲場景。

有人質(zhì)疑摩爾線程做To C產(chǎn)品是否分散精力。但換個角度看，AICUBE和AIBOOK不只是消費(fèi)品，更是MUSA生態(tài)的"開發(fā)者入口"。用一臺價格親民的設(shè)備讓普通用戶和開發(fā)者接觸到MUSA架構(gòu)、養(yǎng)成使用習(xí)慣，這種滲透方式遠(yuǎn)比純技術(shù)推廣高效——當(dāng)年CUDA生態(tài)的起點(diǎn)，不也是從一塊游戲顯卡開始的嗎？

用AI建生態(tài)，摩爾線程開辟GPU發(fā)展新路徑

全棧兼容是MUSA的基礎(chǔ)。但真正讓摩爾線程拉開身位的，是它對生態(tài)建設(shè)方式本身的重新定義。

傳統(tǒng)GPU生態(tài)建設(shè)是一個"人力密集型"工程：廠商雇大量工程師，逐個遷移代碼、逐個開發(fā)算子、逐個適配框架，效率低、周期長。英偉達(dá)用了二十多年才建起CUDA的壁壘，國產(chǎn)廠商沿用同樣的路徑追趕，永遠(yuǎn)只能跟在后面。

摩爾線程的解法是：讓AI來建設(shè)AI的生態(tài)。

本次發(fā)布會推出的兩個AI工具，正在改變生態(tài)建設(shè)的速度公式：

Automusify智能遷移工具——基于大模型技術(shù)，實(shí)現(xiàn)了對Top 100人工智能與Top 100科學(xué)計算加速倉庫的100%零干預(yù)自動遷移。開發(fā)者上傳CUDA代碼，Automusify自動完成代碼分析、語法轉(zhuǎn)換、性能調(diào)優(yōu)與驗(yàn)證，全程無需人工參與。遷移后的精度與性能，與原代碼保持一致。

MUSACODE AI編程助手——通過大模型智能體協(xié)同，已成功開發(fā)并交付超10000個Kernel算子，覆蓋絕大多數(shù)通用計算與AI計算場景。開發(fā)者無需學(xué)習(xí)MUSA語法，用自然語言描述需求，MUSACODE自動生成高質(zhì)量Kernel代碼并完成調(diào)優(yōu)。目前已原生集成在VSCode中，即裝即用。

張建中的判斷是："過去我們說'軟件定義硬件'，現(xiàn)在我們要說' AI定義軟件'。MUSA生態(tài)不是靠摩爾線程一家來建，而是靠所有開發(fā)者，加上AI的力量，共建一個自進(jìn)化的生態(tài)。"

這句話的潛臺詞是：生態(tài)建設(shè)的游戲規(guī)則正在被改寫。當(dāng)AI能自動遷移代碼、自動生成算子、自動完成性能調(diào)優(yōu)時，"誰先積累了二十多年開發(fā)者"這個護(hù)城河，也許沒有想象中那么不可逾越。

在開源與開放上，摩爾線程在GitHub上開放了所有加速庫與工具鏈的源代碼，并發(fā)起了PES開發(fā)者聯(lián)盟，聯(lián)合中國移動、智源研究院、智譜AI等上下游伙伴，共同推進(jìn)產(chǎn)業(yè)落地。

押注具身智能：摩爾線程提前卡位下一個算力主航道

大模型技術(shù)逐漸成熟之后，具身智能被公認(rèn)為AI產(chǎn)業(yè)的下一個風(fēng)口。但這條路有三道幾乎繞不過去的坎：數(shù)據(jù)稀缺、真機(jī)訓(xùn)練成本高、場景難以泛化。

摩爾線程基于MUSA架構(gòu)打造的MT Lambda全棧具身智能仿真平臺，試圖一站式解決這些問題。

MT Lambda構(gòu)建了從底層算力、核心引擎到上層框架的完整技術(shù)棧：底層基于MUSA全功能GPU，渲染、物理、AI計算在同一芯片完成，數(shù)據(jù)"零拷貝"，仿真效率大幅提升；中間層融合了自研的AlphaCore物理引擎、渲染引擎與AI引擎；上層則提供MT Lambda-Lab策略開發(fā)與訓(xùn)練平臺，以及MT Lambda-Sim高保真仿真平臺。

發(fā)布會現(xiàn)場，摩爾線程現(xiàn)場演示了其機(jī)器狗，直觀展示了平臺在策略開發(fā)與動作訓(xùn)練上的效果。同時，摩爾線程宣布了一系列生態(tài)合作落地：

與光輪智能聯(lián)合打造國產(chǎn)合成數(shù)據(jù)解決方案，依托千卡夸娥集群每天可生成10萬幀高保真合成數(shù)據(jù)；與智源研究院合作，基于千卡夸娥集群完整訓(xùn)練出RoboBrain具身大腦模型；與光線云聯(lián)合打造RaysTwins具身仿真平臺，實(shí)現(xiàn)任務(wù)資產(chǎn)一鍵導(dǎo)入、智能體算力調(diào)度、訓(xùn)練推理加速的全鏈路閉環(huán)。

上市后的摩爾線程，到底想成為什么？

2025年成功登陸科創(chuàng)板之后，摩爾線程的戰(zhàn)略節(jié)奏明顯加快。從官宣AI訓(xùn)推一體智算卡MTTS5000，到本次推出全棧智算矩陣，摩爾線程正在從一家“GPU芯片公司”快速轉(zhuǎn)型為一家“全棧智算解決方案提供商”。

這種轉(zhuǎn)型背后，是摩爾線程對行業(yè)趨勢的深刻判斷：未來的算力競爭，不再是單一芯片的競爭，而是全棧能力的競爭。隨著Agentic AI和具身智能的興起，算力需求正在從云端向邊端和終端擴(kuò)散，單一的云端GPU廠商無法滿足全場景的算力需求。只有打通云邊端，提供從硬件到軟件、從訓(xùn)練到部署的一站式解決方案，才能在未來的競爭中占據(jù)主動。

同時，摩爾線程也在刻意與“英偉達(dá)替代者”的標(biāo)簽劃清界限。張建中在發(fā)布會上多次強(qiáng)調(diào)，MUSA的目標(biāo)不是復(fù)制CUDA，而是打造一個更適合AI時代的開放生態(tài)。與英偉達(dá)封閉的生態(tài)模式不同，MUSA堅持開源與開放的原則，在GitHub上開放了所有加速庫與工具鏈的源代碼，并發(fā)起了PES開發(fā)者聯(lián)盟，聯(lián)合上下游伙伴共同建設(shè)生態(tài)。

當(dāng)然，我們也要清醒地看到，MUSA生態(tài)與CUDA之間仍然存在不小的差距。雖然在核心API和算子層面已經(jīng)實(shí)現(xiàn)了全面兼容，但在行業(yè)應(yīng)用的深度和廣度上，還有很長的路要走。同時，高端GPU的硬件性能與英偉達(dá)的最新產(chǎn)品相比，仍然存在一定的差距。

但不可否認(rèn)的是，摩爾線程已經(jīng)找到了一條適合國產(chǎn)GPU的發(fā)展道路：用全棧布局覆蓋所有算力場景，用AI加速生態(tài)建設(shè)，用開放吸引開發(fā)者。這種“全棧+自進(jìn)化+開放”的模式，為國產(chǎn)GPU的突圍提供了一個全新的思路。

發(fā)布會尾聲，張建中說：“詞元時代的到來，為國產(chǎn)算力提供了前所未有的歷史機(jī)遇。過去我們是追趕者，現(xiàn)在我們有機(jī)會成為并行者，甚至在某些領(lǐng)域成為引領(lǐng)者。”

言外之意是：AI算力的格局正在改寫。芯片之爭只是上半場，生態(tài)之爭才是終局。誰能把云、邊、端打通，把訓(xùn)練、推理、仿真打通，把開發(fā)者、企業(yè)、硬件伙伴團(tuán)結(jié)在一起，誰就能握住下一代算力的主動權(quán)。

MUSA的故事剛剛開始。但對國產(chǎn)算力而言，一個更自主、更開放、更面向未來的選項，已經(jīng)站在了舞臺中央。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.