![]()
文:王智遠 | ID:Z201440
5月22號,華為昇騰開發者大會。
有一場演講我印象挺深。周斌,昇騰計算產品部部長,講了30分鐘,就一件事:昇騰軟件生態怎么讓開發者用得順手。
他列了十幾項改進,全沖著一個目標去的:讓開發者愿意用。
這個發現挺有意思的。外面人聊芯片競爭,永遠在比算力,好像誰的算力大誰就贏,他翻過來在講另一件事:芯片做出來了,用起來太疼了。
怎么個疼法?他開場放了一組數據,開發者社區攢了一年的反饋。我翻譯成人話,就三句:
一,底層鎖太死,我施展不開。 二,編程方式太別扭,效率上不去。 三,主流開源社區的東西搬不過來,學習成本太高。
這三句話,往深了想,說的是一個更底層的東西。
AI開發者這幫人,過去十幾年是在NVIDIA的CUDA生態里泡大的。寫代碼用PyTorch,寫算子用Triton,部署用CUDA。社區里的教程、代碼庫、最佳實踐,全圍著這一套轉。
十幾年,練成肌肉記憶了。
你讓一個在CUDA體系里寫了五六年代碼的工程師,突然切到昇騰上。他要面對的,是換一套思維方式、一套開發習慣、一套查資料的路徑,以前踩過的坑、攢過的經驗、寫過的代碼,全部清零。
這個成本太高了。高到大部分人第一反應就是:算了。
所以開發者抱怨那三件事,本質上是一件事:華為芯片可能不錯,可我用起來太累了,這道墻,是CUDA用十幾年時間,一行代碼一行代碼砌起來的。
墻在這,怎么解決?周斌給的答案挺出乎意料。他說:你別學了,你原來咋寫,現在還咋寫。
先說算子編程。
算子這東西,是AI模型里最底層的計算單元,你可以當成蓋房子的磚。以前在NVIDIA上寫算子,主流用兩個工具:Triton和PyTorch;切到昇騰上,這兩樣都得重新學,很多人就卡在這一步,不來了。
周斌說,現在Triton的接口100%兼容了。你手里現有的Triton代碼,不用改,直接跑。
目前已經支持了600多個Triton算子,300多個Taichi算子,DeepSeek、千問這些主流模型的關鍵算子,全包了。
PyTorch那邊也一樣。2300多個API和上游社區對齊了,覆蓋大語言模型、多模態、推薦系統等五個主流場景。說人話就是:你在PyTorch社區學的寫法、用的接口,搬過來就能用。
他在講這些改進的時候,反復用一個詞:一致。API體驗一致、精度一致、內存占用一致、計算出來的結果也一致。這個詞念叨了好多遍。
「一致」這倆字,才是整件事的關鍵。
華為做的,是一個「讓你感覺不到切換」的替代品;開發者搬過來之后,手感和原來一樣,不用重新適應。
這個思路,現場有一個很直觀的演示。
中山大學的沈明華教授,帶了一個叫Flash Attention NPU的開源庫,專門幫昇騰加速注意力計算的東西。
演示過程特別簡單,左邊是GPU跑的代碼,右邊是昇騰NPU。沈教授干了三件事:一鍵安裝這個庫,把代碼拷過來,改一行代碼的引用來源。
三秒跑完,精度啥的和GPU那邊的誤差,在正常范圍內,這個庫已經發到PyPI(就是Python那個裝包平臺)上了,GitHub上也開源了。一鍵安裝,改一行代碼,無感切換。
同樣的「降門檻」思路,也體現在更多細節上。
以前一個算子要交付,開發者得準備七個文件,現在簡化成一個。Docker容器鏡像也上線了,云端開發環境也上了,聽著不性感,對每天寫代碼的人來說,省的是實打實的時間。
周斌還提了一個更底層的變化:昇騰在全面擁抱Python生態。
他們給底層的編程工具加了Python接口,又把復雜的底層指令封裝成了Python模板庫,還推出了一個原生支持Python的張量編程工具。
這些名字不重要,重點是方向:
AI開發者現在基本都用Python,華為就把自己的底層能力全部包上一層Python的殼。你不用學華為的語言,華為來學你的。
光說「你的語言我都兼容」,不夠。如果華為自己的軟件架構還是鐵板一塊,開發者進來也動不了手腳。
所以,周斌講的第二件大事,是華為對自己動了刀子。
CANN,這是昇騰整個軟件棧的地基,所有的計算、通信、算子開發,全長在這上面。去年華為把它全部開源了。
50多個源碼包全部給你打開,不給你看一眼就算完,運行時、算子編譯、通信庫、算子庫,每一層的接口都給你亮出來。
開源的意義在哪?
以前在昇騰上搞開發,像在一個關著門的房間里干活,墻上開了幾個窗口,你就只能從窗口遞東西進去。現在墻全拆了。
你想動哪一層就動哪一層,組件也能自己升級,不用牽一發而動全身。
再往上看芯片。昇騰從910B到950,這一代有一個重要變化,950在架構上多了一種計算單元。
周斌說,華為做了一套混合編程能力,開發者可以在同一個算子里,根據不同階段的特點,靈活切兩種編程方式。
遇到規則的、連續的計算,用一種,發揮高吞吐的優勢。遇到不規則的、離散的邏輯控制,換另一種,發揮靈活性。
聽著挺技術,翻譯過來就一句話:以前一把錘子敲所有釘子,現在工具箱里有扳手也有螺絲刀,看情況選。
通信這邊也有大變,大規模訓練和推理的時候,多個芯片之間要互相「說話」,這個環節經常卡脖子。
周斌說,現在把跨芯片的通信編程改成了像讀寫本地內存一樣的方式,一行代碼直達底層,通信下發延遲優化了30倍。
他們還搞了一個計算和通信融合的模板庫,開發者拿來就能用。融合算子的開發周期縮短50%,性能還能再提30%。50%和30%,做過程序的都懂是啥概念。
軟件棧上層也在拆,MindSpeed,就是那個大模型訓練加速套件。
周斌原話說,把原來大而全的方案拆開重構了,組件獨立解耦。拆完之后,開發者額外要適配的代碼量,從過去的上萬行,降到了百行級別。
MindIE,推理服務那邊也升級了,兩個數字比較扎眼:容器出故障后,恢復時間壓到了一分鐘以內;長視頻推理場景下,用了注意力稀疏加速,端到端性能提升超過40%。
MindStudio,工具鏈那邊全面開放底層API接口,支持二次開發,能對接第三方生態。
模型量化這塊,就是把大模型里那些精度很高的參數壓縮成低精度的,省內存還跑得快,新模型進來,量化效率提升了50%以上。
還有一個東西值得說說,MindSpore,華為自己的AI框架,這次也出了兩個新組件。
打個比方:
你在廚房做飯,每個菜單獨炒,鍋用完洗了再炒下一個,效率很低;聰明的廚師會把幾個菜的步驟合在一起,同時開兩三個灶眼,邊炒這個邊煮那個。
AI模型跑起來也是這回事,很多計算步驟其實可以合并著做,省掉中間的等待。
華為搞了一個叫AKG的組件,專門干這個事;它能自動把模型里可以合并的計算找出來,融合到一起跑,在30多個主流模型上都跑過了,加速效果明顯。
第二個組件叫HyperParallel。
現在大模型訓練動不動就是幾千張卡一起算,這些卡怎么分工、怎么配合,是個很復雜的排布問題。
HyperParallel幫你把這個復雜度藏起來了,開發者加一行代碼就能用上,MoE類型的模型,就是把大模型拆成一堆小專家,誰擅長誰上,可以提速10%以上。
這一串名字你不用記,記住一件事就行:
華為把自己的軟件棧,從底到頂,一層一層拆開了。拆開不為別的,讓外面的人能把手伸進來。
還有一件事值得單獨說:華為這次的策略里,有一條是「我去你家」,不等你來。
周斌專門講了華為在主流開源社區的投入。
vLLM,目前最主流的大模型推理框架,昇騰是里面唯一的國產硬件廠商;SGLang,另一個主流推理引擎,昇騰也是主倉里唯一的國產非GPU類廠商,代碼直接合入主干。
VERL,大模型強化學習的主流框架,華為在里面累計貢獻超過一萬行代碼,拿到了多個maintainer席位。
強化學習這塊華為下的注不輕;除了VERL,他們還跟vo、slim等好幾個社區建了官方合作,設備支持、特性開發、模型適配都在做。
還貢獻了一個叫transferQ的組件。這玩意干啥的?
大模型訓練時,數據在不同節點之間搬來搬去,搬運效率直接影響整體速度。transferQ就是專門優化這個搬運過程的,端到端性能能提升7%到20%。
這個組件現在已經成了VERL和其他幾個社區的核心基礎設施。
就好比,不光去別人家幫忙干活,你還帶了自己的工具箱,用完之后工具箱留在人家那了,大家都在用。這個融入的程度,不是蹭個名字掛個logo能比的。
注意,這些社區是開發者每天都在用的家伙;華為選擇去那里貢獻代碼、搞持續集成、拿維護者的身份,沒另起爐灶讓大家過來。
除了大模型訓推這塊,在搜索推薦這種AI最常用的場景上,華為也把整條鏈路都打通了;從芯片底層的本事,到開源的算子庫,全都適配好。已經在好幾個頭部互聯網公司跑起來了,真在用了。
再加上和高校合作共建的擴展庫,覆蓋了深度學習、智能駕駛、廣告推薦什么的。
所有,這些動作指向同一個意思:華為在拆自己的圍墻。拆墻比砌墻難,但拆完了,外面的人才進得來。
做到這一步,大部分人覺得差不多了吧。兼容了、開源了、社區也去了,開發者該來了吧。
周斌又加了一層。
他說華為搞了一套叫CANBot的算子開發工具,基于AI Agent。這玩意能干嘛?你告訴它你要什么算子,它自己去寫。
單個算子,從生成到部署,一天之內搞定;傳統人工干這活,差五倍以上效率。
往深了想,這事挺讓人感慨的,前面聊的三個問題,全在琢磨「怎么讓開發者少學點」。到這一步,連「學」這件事本身都快被跳過了。
華為還干了一件配套的事,他們把4000多名昇騰工程師多年攢的開發經驗,提煉成了200多個skills技能包。這些skills已經上線開源社區,開發者兩條命令就能調。
你可以這么理解:
以前你去一家陌生工廠干活,所有坑都得自己踩一遍。現在這家工廠把老師傅的經驗整理成了操作手冊,塞進了Agent里。你不用找老師傅請教,Agent替你問了。
這個思路不只在算子開發上。周斌說了,MindStudio工具鏈也在全面Agent化。
把專家的調試調優經驗轉化成Agent的skills,再讓多個Agent協同干活。實測下來,端到端開發流程提速超過50%。
同一個演講里,華為還出了一份算子的「教材」和「考試卷」。
「教材」就是算子數據集,里面各類算子數據都有,先把數據洗干凈,再把解題思路捋好。大模型拿這東西去學,學出來的效果自然更對路。
「考試卷」就是評測集,分了不同難度等級,覆蓋22類典型算子,內置4000多個考點。
合在一起什么意思?數據給你了,怎么考你也知道了,誰想學都能來比劃比劃。
這一步才是整場演講里最該注意的信號。前面那些改進,不管兼容、開源還是進社區,說到底都是在降低「人學昇騰」的成本。到這一步,開始變成「讓AI學昇騰」了。
如果AI自己就能寫出合格的昇騰算子,那開發者要「學」的東西,又少了一大塊。
國產AI芯片這仗,打到今天,最大的檻早就不在算力上了,是開發者愿不愿意坐到你這張桌子前面來。
周斌的意思,說到底就一句話:
讓芯片去適應開發者,別讓開發者伺候芯片;這道理聽著簡單。做起來呢?要學別人的話、去別人的地盤干活、把自家的門檻一道一道削平,最后還得把壓箱底的經驗全交出去。
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.