![]()
5月18日,摩爾線程在北京舉辦主題為“詞元時代,萬物智能”的年度產(chǎn)品發(fā)布會。摩爾線程創(chuàng)始人、董事長兼CEO張建中在發(fā)布會上開門見山的表示:“我們已真正進入詞元時代。Token 不僅代表經(jīng)濟,更讓整個世界煥新,帶來萬物智能。過去IoT是Internet of Things,今天,它應該叫Intelligence of Things。”
![]()
單應用日均 Token 消耗突破 140 萬億,智能體應用已撐起算力需求的半壁江山,國內(nèi)頭部大模型的迭代周期壓縮至1——2個月——"算力荒"不再是預警,而是正在兌現(xiàn)的現(xiàn)實。但焦慮的另一面,是一個更深層的老問題:對于國產(chǎn)GPU而言,兼容 CUDA 幾乎是一個“老生常談”的問題,卻鮮有成熟替代路徑。
發(fā)布會上,摩爾線程全面展示了“云-邊-端”全棧智算矩陣。從萬卡級規(guī)模的夸娥智算集群,到自研“長江” SoC 驅(qū)動的智能終端 MTT AICUBE 和MTT AIBOOK;從數(shù)字世界智能體“小麥”,到加速物理AI落地的首個全棧具身智能仿真平臺 MT Lambda,再到持續(xù)進化的 MUSA 生態(tài)。
這一次,它沒有停留在硬件參數(shù)的比拼上。從對標 CUDA 12.8 的全棧兼容,到用 AI 驅(qū)動生態(tài)的自我進化,再到打通數(shù)字與物理世界的具身智能,摩爾線程正在證明一件事:國產(chǎn)GPU的下半場,芯片只是入場券,生態(tài)才是終局。
MUSA 5.1.0:用三年時間補上國產(chǎn) GPU 的生態(tài)短板
長期以來,“兼容 CUDA” 更像國產(chǎn) GPU 的宣傳話術。開發(fā)者真正痛點不是算力差幾個百分點,而是代碼跑不通、算子對不上、遷移成本高到不可接受。多數(shù)廠商只做到局部 API 適配,遠未達到工程可用的全鏈路兼容。
這正是 MUSA 5.1.0 試圖打破的僵局。張建中在現(xiàn)場說得很直白:"MUSA的目標從來不是做一個CUDA的替代品,而是要讓CUDA開發(fā)者無縫遷移到國產(chǎn)平臺,真正實現(xiàn)即插即用。"
![]()
從"部分可用"到"全面對齊"
從技術參數(shù)看,MUSA 5.1.0 對標 CUDA12.8,交出的答卷是國產(chǎn) GPU 迄今最完整的一份:
驅(qū)動與運行時新增248個API,累計兼容 761 個核心接口,這意味著絕大多數(shù) CUDA 程序可無需修改,在 MUSA 架構上高效運行。;
BLAS、SPARSE、RAND、FFT等核心數(shù)學庫實現(xiàn)100%對齊,確保科學計算與AI訓練的精度與效率;
支持55類核心AI算子,muDNN 算子庫功能全面覆蓋 cuDNN,并額外擴展 230+API,滿足主流模型訓推需求。;
最關鍵的突破:PyTorch全部3194個算子實現(xiàn)100%兼容。 這意味著全球數(shù)百萬 PyTorch 開發(fā)者幾乎無需修改代碼,就能把模型搬到 MUSA 上。
全棧軟件棧:不止兼容,更要自成體系
兼容只是起點。MUSA 同時構建了從底層驅(qū)動到上層應用的全棧軟件架構:包括驅(qū)動、運行時、編程模型與工具鏈、加速庫與框架、開發(fā)者套件等基礎軟件,也包含了集群的 AI 訓推套件與系統(tǒng)管理軟件。這種全棧設計避免了"頭痛醫(yī)頭"的碎片化補丁,實現(xiàn)了系統(tǒng)級的性能提升。
在編譯器層面,兩個突破值得關注:一是正式支持Fortran編譯器,直接解決了航空航天、氣象預報、石油勘探等傳統(tǒng) HPC 領域的代碼遷移難題——這些領域的存量代碼以 Fortran 為主,此前幾乎是國產(chǎn) GPU 的盲區(qū);二是深度融合開源編譯生態(tài),TileLang-MUSA 成功合入開源主線,升級支持 Triton 3.6 最新版本。
在大模型訓練與推理的熱點算子上,MUSA也拿出了實際的性能數(shù)據(jù):FlashAttention3 等 Transformer 核心算子在 MUSA 上達到 95% 的極致效率,基于 TileLang 自動調(diào)優(yōu)的 Group GEMM 算子實現(xiàn)了 60% 的性能提升。
上周摩爾線程也公布正式合入 SGLang,這意味著"MUSA的代碼開始合入vLLM、SGLang這些主流開源框架的主線,它就不再是一個被動的兼容者,而是開始成為生態(tài)的共建者。
云邊端全域統(tǒng)一:一套架構,吃滿詞元時代的全部算力場景
與多數(shù)國產(chǎn) GPU 廠商 All-in 云端訓練不同,摩爾線程從成立之日起就押注"云-邊-端"全棧布局,本次發(fā)布會將這一戰(zhàn)略推到了極致。而 MUSA,正是貫穿三大場景的統(tǒng)一底層——一套架構、全域覆蓋,既解決了產(chǎn)業(yè)碎片化的問題,也讓算力的調(diào)度與協(xié)同有了統(tǒng)一的語言。
云端:萬卡集群的訓推一體化底座
云端是智算的主戰(zhàn)場。MUSA 架構支撐的夸娥(KUAE)智算集群已實現(xiàn)萬卡級規(guī)模的穩(wěn)定運行,多項關鍵指標進入國際主流水平:Dense 大模型訓練MFU達60%,MoE 大模型 MFU 達40%,有效訓練時長達 90%,訓練線性擴展效率達95%。
圍繞大模型全生命周期,摩爾線程基于 MUSA 推出了夸娥訓練套件,覆蓋預訓練、持續(xù)預訓練、長文本訓練、微調(diào)及強化學習全流程。值得特別關注的是對強化學習的專門優(yōu)化——套件兼容業(yè)界主流的 VeRL 訓推一體與Slime訓推分離框架,精準卡位大模型后訓練階段的算力需求。
推理端則展現(xiàn)了"發(fā)布即適配"的響應速度:DeepSeek、GLM、MiniMax、Kimi、Qwen 等國內(nèi)主流大模型已全面適配,語音、視覺理解及多模態(tài)模型同樣覆蓋。更具標志性的是,MUSA 正式成為 vLLM 官方后端,并合入 SGLang官方主線獲得原生支持——開發(fā)者無需額外適配,開箱即用。
邊端與終端:智能的"神經(jīng)末梢",也是生態(tài)的入口
如果云端是大腦,邊端與終端就是神經(jīng)末梢。摩爾線程基于 MUSA 自研的"長江"智能 SoC 芯片,集成 CPU、GPU、NPU、VPU 等多個異構計算單元,算力達 50 TOPS,為端側(cè) AI 應用提供獨立的算力底座。
![]()
在家庭場景,搭載"長江" SoC 的 MTT AICUBE 智能家庭 AI 中樞整合了"智能體+AI PC+AI NAS "三大能力。內(nèi)置的"小麥"智能體預裝60余項技能,支持超36款APP的跨應用控制;全閃存 AI NAS 模塊提供本地安全存儲;同時具備完整的桌面 AI PC 能力,可流暢運行本地大模型。
在個人開發(fā)場景,升級后的 MTT AIBOOK 專為智能體開發(fā)者打造:搭載原生MTT AIOS 系統(tǒng),支持 12 個以上智能體同時運行,提供 90+工具調(diào)用接口,并創(chuàng)新支持原生 Linux、虛擬化 Windows 及容器化 Android 多系統(tǒng)。一臺AIBOOK,即可覆蓋智能體的開發(fā)、調(diào)試與部署全流程。
面向工業(yè)邊緣,MTT E300 AI 模組支持混合精度計算,可在嚴苛環(huán)境下穩(wěn)定運行,瞄準工業(yè)質(zhì)檢、能源巡檢、智能汽車、低空經(jīng)濟等低延遲場景。
有人質(zhì)疑摩爾線程做 To C 產(chǎn)品是否分散精力。但換個角度看,AICUBE 和AIBOOK 不只是消費品,更是 MUSA 生態(tài)的"開發(fā)者入口"。用一臺價格親民的設備讓普通用戶和開發(fā)者接觸到 MUSA 架構、養(yǎng)成使用習慣,這種滲透方式遠比純技術推廣高效——當年 CUDA 生態(tài)的起點,不也是從一塊游戲顯卡開始的嗎?
![]()
![]()
用 AI 建生態(tài),摩爾線程開辟GPU發(fā)展新路徑
全棧兼容是 MUSA 的基礎。但真正讓摩爾線程拉開身位的,是它對生態(tài)建設方式本身的重新定義。
傳統(tǒng) GPU 生態(tài)建設是一個"人力密集型"工程:廠商雇大量工程師,逐個遷移代碼、逐個開發(fā)算子、逐個適配框架,效率低、周期長。英偉達用了二十多年才建起 CUDA 的壁壘,國產(chǎn)廠商沿用同樣的路徑追趕,永遠只能跟在后面。
摩爾線程的解法是:讓 AI 來建設 AI 的生態(tài)。
本次發(fā)布會推出的兩個 AI 工具,正在改變生態(tài)建設的速度公式:
Automusify智能遷移工具——基于大模型技術,實現(xiàn)了對 Top 100 人工智能與 Top 100 科學計算加速倉庫的 100% 零干預自動遷移。開發(fā)者上傳CUDA 代碼,Automusify 自動完成代碼分析、語法轉(zhuǎn)換、性能調(diào)優(yōu)與驗證,全程無需人工參與。遷移后的精度與性能,與原代碼保持一致。

MUSACODE AI編程助手——通過大模型智能體協(xié)同,已成功開發(fā)并交付超10000 個 Kernel 算子,覆蓋絕大多數(shù)通用計算與 AI 計算場景。開發(fā)者無需學習 MUSA 語法,用自然語言描述需求,MUSACODE 自動生成高質(zhì)量Kernel 代碼并完成調(diào)優(yōu)。目前已原生集成在 VSCode 中,即裝即用。
張建中的判斷是:"過去我們說'軟件定義硬件',現(xiàn)在我們要說' AI 定義軟件'。MUSA 生態(tài)不是靠摩爾線程一家來建,而是靠所有開發(fā)者,加上 AI 的力量,共建一個自進化的生態(tài)。"
這句話的潛臺詞是:生態(tài)建設的游戲規(guī)則正在被改寫。當 AI 能自動遷移代碼、自動生成算子、自動完成性能調(diào)優(yōu)時,"誰先積累了二十多年開發(fā)者"這個護城河,也許沒有想象中那么不可逾越。
在開源與開放上,摩爾線程在 GitHub 上開放了所有加速庫與工具鏈的源代碼,并發(fā)起了 PES 開發(fā)者聯(lián)盟,聯(lián)合中國移動、智源研究院、智譜 AI 等上下游伙伴,共同推進產(chǎn)業(yè)落地。
![]()
押注具身智能:摩爾線程提前卡位下一個算力主航道
大模型技術逐漸成熟之后,具身智能被公認為 AI 產(chǎn)業(yè)的下一個風口。但這條路有三道幾乎繞不過去的坎:數(shù)據(jù)稀缺、真機訓練成本高、場景難以泛化。
摩爾線程基于 MUSA 架構打造的MT Lambda全棧具身智能仿真平臺,試圖一站式解決這些問題。
![]()
MT Lambda 構建了從底層算力、核心引擎到上層框架的完整技術棧:底層基于 MUSA 全功能 GPU,渲染、物理、AI 計算在同一芯片完成,數(shù)據(jù)"零拷貝",仿真效率大幅提升;中間層融合了自研的 AlphaCore 物理引擎、渲染引擎與 AI 引擎;上層則提供 MT Lambda-Lab 策略開發(fā)與訓練平臺,以及 MT Lambda-Sim 高保真仿真平臺。
發(fā)布會現(xiàn)場,摩爾線程現(xiàn)場演示了其機器狗,直觀展示了平臺在策略開發(fā)與動作訓練上的效果。同時,摩爾線程宣布了一系列生態(tài)合作落地:
與光輪智能聯(lián)合打造國產(chǎn)合成數(shù)據(jù)解決方案,依托千卡夸娥集群每天可生成10萬幀高保真合成數(shù)據(jù);與智源研究院合作,基于千卡夸娥集群完整訓練出RoboBrain 具身大腦模型;與光線云聯(lián)合打造 RaysTwins 具身仿真平臺,實現(xiàn)任務資產(chǎn)一鍵導入、智能體算力調(diào)度、訓練推理加速的全鏈路閉環(huán)。
![]()
上市后的摩爾線程,到底想成為什么?
2025 年成功登陸科創(chuàng)板之后,摩爾線程的戰(zhàn)略節(jié)奏明顯加快。從官宣 AI 訓推一體智算卡 MTT S5000,到本次推出全棧智算矩陣,摩爾線程正在從一家 “GPU 芯片公司” 快速轉(zhuǎn)型為一家 “全棧智算解決方案提供商”。
![]()
這種轉(zhuǎn)型背后,是摩爾線程對行業(yè)趨勢的深刻判斷:未來的算力競爭,不再是單一芯片的競爭,而是全棧能力的競爭。隨著 Agentic AI 和具身智能的興起,算力需求正在從云端向邊端和終端擴散,單一的云端 GPU 廠商無法滿足全場景的算力需求。只有打通云邊端,提供從硬件到軟件、從訓練到部署的一站式解決方案,才能在未來的競爭中占據(jù)主動。
同時,摩爾線程也在刻意與“英偉達替代者” 的標簽劃清界限。張建中在發(fā)布會上多次強調(diào),MUSA的目標不是復制CUDA,而是打造一個更適合AI時代的開放生態(tài)。與英偉達封閉的生態(tài)模式不同,MUSA 堅持開源與開放的原則,在 GitHub 上開放了所有加速庫與工具鏈的源代碼,并發(fā)起了 PES 開發(fā)者聯(lián)盟,聯(lián)合上下游伙伴共同建設生態(tài)。
當然,我們也要清醒地看到,MUSA 生態(tài)與 CUDA 之間仍然存在不小的差距。雖然在核心 API 和算子層面已經(jīng)實現(xiàn)了全面兼容,但在行業(yè)應用的深度和廣度上,還有很長的路要走。同時,高端 GPU 的硬件性能與英偉達的最新產(chǎn)品相比,仍然存在一定的差距。
但不可否認的是,摩爾線程已經(jīng)找到了一條適合國產(chǎn) GPU 的發(fā)展道路:用全棧布局覆蓋所有算力場景,用 AI 加速生態(tài)建設,用開放吸引開發(fā)者。這種 “全棧 + 自進化 + 開放” 的模式,為國產(chǎn) GPU 的突圍提供了一個全新的思路。
發(fā)布會尾聲,張建中說:“詞元時代的到來,為國產(chǎn)算力提供了前所未有的歷史機遇。過去我們是追趕者,現(xiàn)在我們有機會成為并行者,甚至在某些領域成為引領者。”
言外之意是:AI 算力的格局正在改寫。芯片之爭只是上半場,生態(tài)之爭才是終局。誰能把云、邊、端打通,把訓練、推理、仿真打通,把開發(fā)者、企業(yè)、硬件伙伴團結(jié)在一起,誰就能握住下一代算力的主動權。
![]()
MUSA 的故事剛剛開始。但對國產(chǎn)算力而言,一個更自主、更開放、更面向未來的選項,已經(jīng)站在了舞臺中央。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.