5月18日,摩爾線程在北京舉辦主題為“詞元時代,萬物智能”的年度產(chǎn)品發(fā)布會。摩爾線程創(chuàng)始人、董事長兼CEO張建中在發(fā)布會上開門見山的表示:“我們已真正進(jìn)入詞元時代。Token不僅代表經(jīng)濟(jì),更讓整個世界煥新,帶來萬物智能。過去IoT是Internet of Things,今天,它應(yīng)該叫Intelligence of Things。”
![]()
單應(yīng)用日均Token消耗突破140萬億,智能體應(yīng)用已撐起算力需求的半壁江山,國內(nèi)頭部大模型的迭代周期壓縮至1——2個月——"算力荒"不再是預(yù)警,而是正在兌現(xiàn)的現(xiàn)實(shí)。但焦慮的另一面,是一個更深層的老問題:對于國產(chǎn)GPU而言,兼容CUDA幾乎是一個“老生常談”的問題,卻鮮有成熟替代路徑。
發(fā)布會上,摩爾線程全面展示了“云-邊-端”全棧智算矩陣。從萬卡級規(guī)模的夸娥智算集群,到自研“長江” SoC驅(qū)動的智能終端MTT AICUBE和MTT AIBOOK;從數(shù)字世界智能體“小麥”,到加速物理AI落地的首個全棧具身智能仿真平臺MT Lambda,再到持續(xù)進(jìn)化的MUSA生態(tài)。
這一次,它沒有停留在硬件參數(shù)的比拼上。從對標(biāo)CUDA 12.8的全棧兼容,到用AI驅(qū)動生態(tài)的自我進(jìn)化,再到打通數(shù)字與物理世界的具身智能,摩爾線程正在證明一件事:國產(chǎn)GPU的下半場,芯片只是入場券,生態(tài)才是終局。
MUSA 5.1.0:用三年時間補(bǔ)上國產(chǎn)GPU的生態(tài)短板
長期以來,“兼容CUDA”更像國產(chǎn)GPU的宣傳話術(shù)。開發(fā)者真正痛點(diǎn)不是算力差幾個百分點(diǎn),而是代碼跑不通、算子對不上、遷移成本高到不可接受。多數(shù)廠商只做到局部API適配,遠(yuǎn)未達(dá)到工程可用的全鏈路兼容。
這正是MUSA 5.1.0試圖打破的僵局。張建中在現(xiàn)場說得很直白:"MUSA的目標(biāo)從來不是做一個CUDA的替代品,而是要讓CUDA開發(fā)者無縫遷移到國產(chǎn)平臺,真正實(shí)現(xiàn)即插即用。"
![]()
從"部分可用"到"全面對齊"
從技術(shù)參數(shù)看,MUSA 5.1.0對標(biāo)CUDA12.8,交出的答卷是國產(chǎn)GPU迄今最完整的一份:
- 驅(qū)動與運(yùn)行時新增248個API,累計兼容761個核心接口,這意味著絕大多數(shù)CUDA程序可無需修改,在MUSA架構(gòu)上高效運(yùn)行。;
- BLAS、SPARSE、RAND、FFT等核心數(shù)學(xué)庫實(shí)現(xiàn)100%對齊,確保科學(xué)計算與AI訓(xùn)練的精度與效率;
- 支持55類核心AI算子,muDNN算子庫功能全面覆蓋cuDNN,并額外擴(kuò)展230+API,滿足主流模型訓(xùn)推需求。;
- 最關(guān)鍵的突破:PyTorch全部3194個算子實(shí)現(xiàn)100%兼容。 這意味著全球數(shù)百萬PyTorch開發(fā)者幾乎無需修改代碼,就能把模型搬到MUSA上。
全棧軟件棧:不止兼容,更要自成體系
兼容只是起點(diǎn)。MUSA同時構(gòu)建了從底層驅(qū)動到上層應(yīng)用的全棧軟件架構(gòu):包括驅(qū)動、運(yùn)行時、編程模型與工具鏈、加速庫與框架、開發(fā)者套件等基礎(chǔ)軟件,也包含了集群的AI訓(xùn)推套件與系統(tǒng)管理軟件。這種全棧設(shè)計避免了"頭痛醫(yī)頭"的碎片化補(bǔ)丁,實(shí)現(xiàn)了系統(tǒng)級的性能提升。
在編譯器層面,兩個突破值得關(guān)注:一是正式支持Fortran編譯器,直接解決了航空航天、氣象預(yù)報、石油勘探等傳統(tǒng)HPC領(lǐng)域的代碼遷移難題——這些領(lǐng)域的存量代碼以Fortran為主,此前幾乎是國產(chǎn)GPU的盲區(qū);二是深度融合開源編譯生態(tài),TileLang-MUSA成功合入開源主線,升級支持Triton 3.6最新版本。
在大模型訓(xùn)練與推理的熱點(diǎn)算子上,MUSA也拿出了實(shí)際的性能數(shù)據(jù):FlashAttention3等Transformer核心算子在MUSA上達(dá)到95%的極致效率,基于TileLang自動調(diào)優(yōu)的Group GEMM算子實(shí)現(xiàn)了60%的性能提升。
上周摩爾線程也公布正式合入SGLang,這意味著"MUSA的代碼開始合入vLLM、SGLang這些主流開源框架的主線,它就不再是一個被動的兼容者,而是開始成為生態(tài)的共建者。
云邊端全域統(tǒng)一:一套架構(gòu),吃滿詞元時代的全部算力場景
與多數(shù)國產(chǎn)GPU廠商All-in云端訓(xùn)練不同,摩爾線程從成立之日起就押注"云-邊-端"全棧布局,本次發(fā)布會將這一戰(zhàn)略推到了極致。而MUSA,正是貫穿三大場景的統(tǒng)一底層——一套架構(gòu)、全域覆蓋,既解決了產(chǎn)業(yè)碎片化的問題,也讓算力的調(diào)度與協(xié)同有了統(tǒng)一的語言。
云端:萬卡集群的訓(xùn)推一體化底座
云端是智算的主戰(zhàn)場。MUSA架構(gòu)支撐的夸娥(KUAE)智算集群已實(shí)現(xiàn)萬卡級規(guī)模的穩(wěn)定運(yùn)行,多項關(guān)鍵指標(biāo)進(jìn)入國際主流水平:Dense大模型訓(xùn)練MFU達(dá)60%,MoE大模型MFU達(dá)40%,有效訓(xùn)練時長達(dá)90%,訓(xùn)練線性擴(kuò)展效率達(dá)95%。
圍繞大模型全生命周期,摩爾線程基于MUSA推出了夸娥訓(xùn)練套件,覆蓋預(yù)訓(xùn)練、持續(xù)預(yù)訓(xùn)練、長文本訓(xùn)練、微調(diào)及強(qiáng)化學(xué)習(xí)全流程。值得特別關(guān)注的是對強(qiáng)化學(xué)習(xí)的專門優(yōu)化——套件兼容業(yè)界主流的VeRL訓(xùn)推一體與Slime訓(xùn)推分離框架,精準(zhǔn)卡位大模型后訓(xùn)練階段的算力需求。
推理端則展現(xiàn)了"發(fā)布即適配"的響應(yīng)速度:DeepSeek、GLM、MiniMax、Kimi、Qwen等國內(nèi)主流大模型已全面適配,語音、視覺理解及多模態(tài)模型同樣覆蓋。更具標(biāo)志性的是,MUSA正式成為vLLM官方后端,并合入SGLang官方主線獲得原生支持——開發(fā)者無需額外適配,開箱即用。
邊端與終端:智能的"神經(jīng)末梢",也是生態(tài)的入口
如果云端是大腦,邊端與終端就是神經(jīng)末梢。摩爾線程基于MUSA自研的"長江"智能SoC芯片,集成CPU、GPU、NPU、VPU等多個異構(gòu)計算單元,算力達(dá)50 TOPS,為端側(cè)AI應(yīng)用提供獨(dú)立的算力底座。
![]()
在家庭場景,搭載"長江" SoC的MTT AICUBE智能家庭AI中樞整合了"智能體+AI PC+AI NAS "三大能力。內(nèi)置的"小麥"智能體預(yù)裝60余項技能,支持超36款A(yù)PP的跨應(yīng)用控制;全閃存AI NAS模塊提供本地安全存儲;同時具備完整的桌面AI PC能力,可流暢運(yùn)行本地大模型。
在個人開發(fā)場景,升級后的MTT AIBOOK專為智能體開發(fā)者打造:搭載原生MTT AIOS系統(tǒng),支持12個以上智能體同時運(yùn)行,提供90+工具調(diào)用接口,并創(chuàng)新支持原生Linux、虛擬化Windows及容器化Android多系統(tǒng)。一臺AIBOOK,即可覆蓋智能體的開發(fā)、調(diào)試與部署全流程。
面向工業(yè)邊緣,MTT E300 AI模組支持混合精度計算,可在嚴(yán)苛環(huán)境下穩(wěn)定運(yùn)行,瞄準(zhǔn)工業(yè)質(zhì)檢、能源巡檢、智能汽車、低空經(jīng)濟(jì)等低延遲場景。
有人質(zhì)疑摩爾線程做To C產(chǎn)品是否分散精力。但換個角度看,AICUBE和AIBOOK不只是消費(fèi)品,更是MUSA生態(tài)的"開發(fā)者入口"。用一臺價格親民的設(shè)備讓普通用戶和開發(fā)者接觸到MUSA架構(gòu)、養(yǎng)成使用習(xí)慣,這種滲透方式遠(yuǎn)比純技術(shù)推廣高效——當(dāng)年CUDA生態(tài)的起點(diǎn),不也是從一塊游戲顯卡開始的嗎?
![]()
![]()
用AI建生態(tài),摩爾線程開辟GPU發(fā)展新路徑
全棧兼容是MUSA的基礎(chǔ)。但真正讓摩爾線程拉開身位的,是它對生態(tài)建設(shè)方式本身的重新定義。
傳統(tǒng)GPU生態(tài)建設(shè)是一個"人力密集型"工程:廠商雇大量工程師,逐個遷移代碼、逐個開發(fā)算子、逐個適配框架,效率低、周期長。英偉達(dá)用了二十多年才建起CUDA的壁壘,國產(chǎn)廠商沿用同樣的路徑追趕,永遠(yuǎn)只能跟在后面。
摩爾線程的解法是:讓AI來建設(shè)AI的生態(tài)。
本次發(fā)布會推出的兩個AI工具,正在改變生態(tài)建設(shè)的速度公式:
- Automusify智能遷移工具——基于大模型技術(shù),實(shí)現(xiàn)了對Top 100人工智能與Top 100科學(xué)計算加速倉庫的100%零干預(yù)自動遷移。開發(fā)者上傳CUDA代碼,Automusify自動完成代碼分析、語法轉(zhuǎn)換、性能調(diào)優(yōu)與驗(yàn)證,全程無需人工參與。遷移后的精度與性能,與原代碼保持一致。
![]()
- MUSACODE AI編程助手——通過大模型智能體協(xié)同,已成功開發(fā)并交付超10000個Kernel算子,覆蓋絕大多數(shù)通用計算與AI計算場景。開發(fā)者無需學(xué)習(xí)MUSA語法,用自然語言描述需求,MUSACODE自動生成高質(zhì)量Kernel代碼并完成調(diào)優(yōu)。目前已原生集成在VSCode中,即裝即用。
張建中的判斷是:"過去我們說'軟件定義硬件',現(xiàn)在我們要說' AI定義軟件'。MUSA生態(tài)不是靠摩爾線程一家來建,而是靠所有開發(fā)者,加上AI的力量,共建一個自進(jìn)化的生態(tài)。"
這句話的潛臺詞是:生態(tài)建設(shè)的游戲規(guī)則正在被改寫。當(dāng)AI能自動遷移代碼、自動生成算子、自動完成性能調(diào)優(yōu)時,"誰先積累了二十多年開發(fā)者"這個護(hù)城河,也許沒有想象中那么不可逾越。
在開源與開放上,摩爾線程在GitHub上開放了所有加速庫與工具鏈的源代碼,并發(fā)起了PES開發(fā)者聯(lián)盟,聯(lián)合中國移動、智源研究院、智譜AI等上下游伙伴,共同推進(jìn)產(chǎn)業(yè)落地。
![]()
押注具身智能:摩爾線程提前卡位下一個算力主航道
大模型技術(shù)逐漸成熟之后,具身智能被公認(rèn)為AI產(chǎn)業(yè)的下一個風(fēng)口。但這條路有三道幾乎繞不過去的坎:數(shù)據(jù)稀缺、真機(jī)訓(xùn)練成本高、場景難以泛化。
摩爾線程基于MUSA架構(gòu)打造的MT Lambda全棧具身智能仿真平臺,試圖一站式解決這些問題。
![]()
MT Lambda構(gòu)建了從底層算力、核心引擎到上層框架的完整技術(shù)棧:底層基于MUSA全功能GPU,渲染、物理、AI計算在同一芯片完成,數(shù)據(jù)"零拷貝",仿真效率大幅提升;中間層融合了自研的AlphaCore物理引擎、渲染引擎與AI引擎;上層則提供MT Lambda-Lab策略開發(fā)與訓(xùn)練平臺,以及MT Lambda-Sim高保真仿真平臺。
發(fā)布會現(xiàn)場,摩爾線程現(xiàn)場演示了其機(jī)器狗,直觀展示了平臺在策略開發(fā)與動作訓(xùn)練上的效果。同時,摩爾線程宣布了一系列生態(tài)合作落地:
與光輪智能聯(lián)合打造國產(chǎn)合成數(shù)據(jù)解決方案,依托千卡夸娥集群每天可生成10萬幀高保真合成數(shù)據(jù);與智源研究院合作,基于千卡夸娥集群完整訓(xùn)練出RoboBrain具身大腦模型;與光線云聯(lián)合打造RaysTwins具身仿真平臺,實(shí)現(xiàn)任務(wù)資產(chǎn)一鍵導(dǎo)入、智能體算力調(diào)度、訓(xùn)練推理加速的全鏈路閉環(huán)。
![]()
上市后的摩爾線程,到底想成為什么?
2025年成功登陸科創(chuàng)板之后,摩爾線程的戰(zhàn)略節(jié)奏明顯加快。從官宣AI訓(xùn)推一體智算卡MTTS5000,到本次推出全棧智算矩陣,摩爾線程正在從一家“GPU芯片公司”快速轉(zhuǎn)型為一家“全棧智算解決方案提供商”。
![]()
這種轉(zhuǎn)型背后,是摩爾線程對行業(yè)趨勢的深刻判斷:未來的算力競爭,不再是單一芯片的競爭,而是全棧能力的競爭。隨著Agentic AI和具身智能的興起,算力需求正在從云端向邊端和終端擴(kuò)散,單一的云端GPU廠商無法滿足全場景的算力需求。只有打通云邊端,提供從硬件到軟件、從訓(xùn)練到部署的一站式解決方案,才能在未來的競爭中占據(jù)主動。
同時,摩爾線程也在刻意與“英偉達(dá)替代者”的標(biāo)簽劃清界限。張建中在發(fā)布會上多次強(qiáng)調(diào),MUSA的目標(biāo)不是復(fù)制CUDA,而是打造一個更適合AI時代的開放生態(tài)。與英偉達(dá)封閉的生態(tài)模式不同,MUSA堅持開源與開放的原則,在GitHub上開放了所有加速庫與工具鏈的源代碼,并發(fā)起了PES開發(fā)者聯(lián)盟,聯(lián)合上下游伙伴共同建設(shè)生態(tài)。
當(dāng)然,我們也要清醒地看到,MUSA生態(tài)與CUDA之間仍然存在不小的差距。雖然在核心API和算子層面已經(jīng)實(shí)現(xiàn)了全面兼容,但在行業(yè)應(yīng)用的深度和廣度上,還有很長的路要走。同時,高端GPU的硬件性能與英偉達(dá)的最新產(chǎn)品相比,仍然存在一定的差距。
但不可否認(rèn)的是,摩爾線程已經(jīng)找到了一條適合國產(chǎn)GPU的發(fā)展道路:用全棧布局覆蓋所有算力場景,用AI加速生態(tài)建設(shè),用開放吸引開發(fā)者。這種“全棧+自進(jìn)化+開放”的模式,為國產(chǎn)GPU的突圍提供了一個全新的思路。
發(fā)布會尾聲,張建中說:“詞元時代的到來,為國產(chǎn)算力提供了前所未有的歷史機(jī)遇。過去我們是追趕者,現(xiàn)在我們有機(jī)會成為并行者,甚至在某些領(lǐng)域成為引領(lǐng)者。”
言外之意是:AI算力的格局正在改寫。芯片之爭只是上半場,生態(tài)之爭才是終局。誰能把云、邊、端打通,把訓(xùn)練、推理、仿真打通,把開發(fā)者、企業(yè)、硬件伙伴團(tuán)結(jié)在一起,誰就能握住下一代算力的主動權(quán)。
![]()
MUSA的故事剛剛開始。但對國產(chǎn)算力而言,一個更自主、更開放、更面向未來的選項,已經(jīng)站在了舞臺中央。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.