亚洲中文字幕乱码亚洲-蜜桃成熟视频在线观看-免费中文字幕视频在线-中国五十路熟妇洗澡视频-亚洲av伊人啪啪c-国产精品成人一区二区-国产自拍视频一区在线观看-成人一区不卡二区三区四区-亚洲情精品中文字幕99在线

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

天下苦CUDA久矣,又一國產(chǎn)方案上桌了

0
分享至

允中 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI

國產(chǎn)算力基建跑了這么多年,大家最關心的邏輯一直沒變:芯片夠不夠多?

但對開發(fā)者來說,真正扎心的問題其實是:好不好使?

如果把AI開發(fā)比作做飯,現(xiàn)在的尷尬是——

國產(chǎn)鍋(硬件)雖然越來越多了,但大部分大廚還是只習慣用那套進口調料包(生態(tài))

這正是當下AI落地最真實的一幕。

模型層繁花似錦,底層卻隱憂重重。大家在參數(shù)規(guī)模上輪番刷新紀錄,回過頭來卻發(fā)現(xiàn),最難擺脫的還是那套已經(jīng)長進骨子里的開發(fā)流程。


△圖片由AI生成

算力只是敲門磚,真正的勝負手,是那段算法與硬件之間的“翻譯權”

說白了,如果拿不到這支“翻譯筆”,再強悍的國產(chǎn)硬件,也只能像是一座無法與外界溝通的孤島。

終于,那個讓開發(fā)者喊了無數(shù)次“天下苦CUDA久矣”的僵局,現(xiàn)在迎來了一個不一樣的國產(chǎn)答案

KernelCAT:計算加速專家級別的Agent

這幾年,AI領域的熱鬧幾乎是肉眼可見的。

模型在密集發(fā)布,應用數(shù)據(jù)持續(xù)走高,看上去一切都在加速向前。

但在工程現(xiàn)場,感受卻更復雜。

真正制約落地效率的,并不是模型能力本身,而是底層軟件生態(tài)的成熟度。

硬件選擇一多,問題反而集中暴露出來:遷移成本高,適配周期長,性能釋放不穩(wěn)定。很多模型即便具備條件切換算力平臺,最終也會被算子支持和工具鏈完整度擋在門外。

這讓一個事實變得越來越清晰——突破口不在堆更多算力,而在打通算法到硬件之間那段最容易被忽視的工程鏈路,把芯片的理論性能真正轉化為可用性能。

其中最關鍵的一環(huán),正是高性能算子的開發(fā)

算子(Kernel),是連接AI算法與計算芯片的“翻譯官”:它將算法轉化為硬件可執(zhí)行的指令,決定了AI模型的推理速度、能耗與兼容性。

算子開發(fā)可以被理解為內(nèi)核級別的編程工作,目前行業(yè)仍停留在“手工作坊”時代——開發(fā)過程極度依賴頂尖工程師的經(jīng)驗與反復試錯,周期動輒數(shù)月,性能調優(yōu)如同在迷霧中摸索。

若把開發(fā)大模型應用比作“在精裝修的樣板間里擺放家具”,那么編寫底層算子的難度,無異于“在深海中戴著沉重的手銬,徒手組裝一塊精密機械表”。

但如果,讓AI來開發(fā)算子呢?

傳統(tǒng)大模型或知識增強型Agent在此類任務面前往往力不從心。因為它們擅長模式匹配,卻難以理解復雜計算任務中的物理約束、內(nèi)存布局與并行調度邏輯。

唯有超越經(jīng)驗式推理,深入建模問題本質,才能實現(xiàn)真正的“智能級”優(yōu)化。

正是在這一“地獄級”技術挑戰(zhàn)下,KernelCAT應運而生。


△終端版

具體來看,KernelCAT是一款本地運行的AI Agent,它不僅是深耕算子開發(fā)和模型遷移的“計算加速專家”,也能夠勝任日常通用的全棧開發(fā)任務,提供了CLI終端命令行版與簡潔桌面版兩種形態(tài)供開發(fā)者使用。

不同于僅聚焦特定任務的工具型Agent,KernelCAT具備扎實的通用編程能力——不僅能理解、生成和優(yōu)化內(nèi)核級別代碼,也能處理常規(guī)軟件工程任務,如環(huán)境配置、依賴管理、錯誤診斷與腳本編寫,從而在復雜場景中實現(xiàn)端到端自主閉環(huán)。


△桌面版

為國產(chǎn)芯片生態(tài)寫高性能算子

在算子開發(fā)中,有一類問題很像“調參”——面對幾十上百種參數(shù)或策略組合,工程師需要找出讓算子跑得最快的那一組配置。

傳統(tǒng)做法靠經(jīng)驗試錯,費時費力,而且還容易踩坑。

KernelCAT的思路是——引入運籌優(yōu)化,把“找最優(yōu)參數(shù)”這件事交給算法,讓算法去探索調優(yōu)空間并收斂到最佳方案

以昇騰芯片上的FlashAttentionScore算子為例,KernelCAT在昇騰官方示例代碼上,可以自動對該算子的分塊參數(shù)調優(yōu)問題進行運籌學建模,并使用數(shù)學優(yōu)化算法求解,在十幾輪迭代后就鎖定了最優(yōu)配置,在多種輸入尺寸下延遲降低最高可達22%,吞吐量提升最高近30%,而且整個過程無需人工干預。

這正是KernelCAT的獨特之處:它不僅具備大模型的智能,能夠理解代碼、生成方案;還擁有運籌優(yōu)化算法的嚴謹,能夠系統(tǒng)搜索并收斂到最優(yōu)解。

智能與算法的結合,讓算子調優(yōu)既靈活,又有交付保障。

在對KernelCAT的另一場測試中,該團隊選取了7個不同規(guī)模的向量加法任務,測試目標明確——

即在華為昇騰平臺上,直接對比華為開源算子、“黑盒”封裝的商業(yè)化算子與KernelCAT自研算子實現(xiàn)的執(zhí)行效率。

結果同樣令人振奮,在這個案例的7個測試規(guī)模中,KernelCAT給出的算子版本性能均取得領先優(yōu)勢,且任務完成僅用時10分鐘

這意味著,即便面對經(jīng)過商業(yè)級調優(yōu)的閉源實現(xiàn),KernelCAT所采用的優(yōu)化方式仍具備一定競爭力。



這不僅是數(shù)值層面的勝利,更是國產(chǎn)AI Agent在算子領域完成的一次自證。

沒有堅不可破的生態(tài),包括CUDA

全球范圍內(nèi),目前超過90%的重要AI訓練任務運行于英偉達GPU之上,推理占比亦達80%以上;其開發(fā)者生態(tài)覆蓋超590萬用戶,算子庫規(guī)模逾400個,深度嵌入90%頂級AI學術論文的實現(xiàn)流程。

黃仁勛曾言:

  • 我們創(chuàng)立英偉達,是為了加速軟件,芯片設計反而是次要的。

這句話揭示了一個關鍵真相:在現(xiàn)代計算體系中,軟件才是真正的護城河。

英偉達的持續(xù)領先,源于其從底層算法出發(fā)、貫通架構與編程模型的全棧掌控能力。

參考AMD的歷史經(jīng)驗,即使在架構與制程上具備充足的競爭力,缺乏成熟的生態(tài)系統(tǒng)也仍然難以撼動英偉達的地位。

這類案例清晰地表明,模型性能并不簡單等價于算力規(guī)模的堆疊,而是取決于算法設計、算子實現(xiàn)與硬件特性的協(xié)同程度。當算子足夠成熟,硬件潛力才能被真正釋放。

沿著這條思路,KernelCAT團隊圍繞模型在本土算力平臺上的高效遷移,進行了系統(tǒng)性的工程探索。

DeepSeek-OCR-2模型在華為昇騰910B2 NPU上的部署為例,KernelCAT展示了一種全新的工作范式:

  • 對抗“版本地獄”:KernelCAT對任務目標和限制條件有著深度理解,基于DeepSeek-OCR-2官方的CUDA實現(xiàn),通過精準的依賴識別和補丁注入,解決了vLLM、torch和torch_npu的各個依賴庫間版本互鎖的三角矛盾,硬生生從零搭建起了一套穩(wěn)定的生產(chǎn)環(huán)境,結合基礎Docker鏡像即可實現(xiàn)模型的開箱即用。
  • 準確修補:它敏銳地識別出原版vLLM的MOE層依賴CUDA專有的操作,和vllm-ascend提供的Ascend原生MOE實現(xiàn),并果斷通過插件包進行調用替換,讓模型在國產(chǎn)芯片上“說上了母語”。
  • 實現(xiàn)35倍加速:在引入vllm-ascend原生MOE實現(xiàn)補丁后,vLLM在高并發(fā)下的吞吐量飆升至550.45toks/s,相比Transformers方案實現(xiàn)了35倍加速,且在繼續(xù)優(yōu)化中。
  • 無需人工大量介入:在這種復雜任務目標下,KernelCAT可以自己規(guī)劃和完成任務,無需研發(fā)提供大量提示詞指導模型工作。

這意味著,原本需要頂尖工程師團隊花費數(shù)周才能完成進行的適配工作,現(xiàn)在可以縮短至小時級(包含模型下載、環(huán)境構建的時間)。

與此同時,它讓國產(chǎn)芯片從“能跑”到“飛起”,實現(xiàn)了35倍的加速

也就是說,KernelCAT讓國產(chǎn)芯片不再是被“封印”的算力廢鐵,而是可以通過深度工程優(yōu)化,承載頂級多模態(tài)模型推理任務的性能引擎。



“天下苦CUDA久矣”——這句話曾是無奈的自嘲,如今正成為行動的號角。

KernelCAT所代表的,不只是一個AI Agent新范式的出現(xiàn),更是一種底層能力建設方式的轉向:

從依賴既有生態(tài),到構建能夠自我演進的計算基礎。

KernelCAT正限時免費內(nèi)測中,歡迎體驗:
https://kernelcat.cn/

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
張敬軒風波升級,露頭就舉報,網(wǎng)友強烈抵制:替他站臺的一起封殺

張敬軒風波升級,露頭就舉報,網(wǎng)友強烈抵制:替他站臺的一起封殺

小娛樂悠悠
2026-04-20 09:00:20
白酒突然大跌60%,真要涼了嗎?

白酒突然大跌60%,真要涼了嗎?

三農(nóng)老歷
2026-04-19 12:21:47
石破茂曾談中日現(xiàn)狀:不是"打得過打不過",是"能不能活下去"

石破茂曾談中日現(xiàn)狀:不是"打得過打不過",是"能不能活下去"

共工之錨
2026-04-19 22:10:51
女大學生吐槽“普信男”視頻火了,卻因長相被嘲:你也照照鏡子吧

女大學生吐槽“普信男”視頻火了,卻因長相被嘲:你也照照鏡子吧

世界圈
2026-04-12 00:10:16
35分慘敗!太陽創(chuàng)隊史恥辱,格林17分斷崖掉線,硬剛裁判討公道

35分慘敗!太陽創(chuàng)隊史恥辱,格林17分斷崖掉線,硬剛裁判討公道

籃球看比賽
2026-04-20 10:49:19
伊朗這回開竅了!他們不炸軍營,不炸核設施,專門炸這幾個大工廠

伊朗這回開竅了!他們不炸軍營,不炸核設施,專門炸這幾個大工廠

鑒史錄
2026-04-07 00:10:03
11年前優(yōu)衣庫男女主現(xiàn)狀曝光,他們還在一起生了兩個孩子

11年前優(yōu)衣庫男女主現(xiàn)狀曝光,他們還在一起生了兩個孩子

半糖甜而不膩
2026-04-06 12:09:15
盧布列夫再次血濺賽場,敬業(yè)精神令人佩服

盧布列夫再次血濺賽場,敬業(yè)精神令人佩服

網(wǎng)球之家
2026-04-19 22:42:55
600年都不倒!天安門這4根重達2萬多公斤的華表,有何特殊含義?

600年都不倒!天安門這4根重達2萬多公斤的華表,有何特殊含義?

墨印齋
2026-04-14 00:57:55
研究表明:男性嫖娼率6.4%,女性出軌率15%,且越有錢越開放!

研究表明:男性嫖娼率6.4%,女性出軌率15%,且越有錢越開放!

黯泉
2026-04-01 17:28:39
貝森特通告全球,將對中國二級制裁,話音剛落,中國被曝美債余額

貝森特通告全球,將對中國二級制裁,話音剛落,中國被曝美債余額

浮光驚掠影
2026-04-19 10:01:06
你們都是什么時候對男女之事開竅的?網(wǎng)友:果然還是攔不住有心人

你們都是什么時候對男女之事開竅的?網(wǎng)友:果然還是攔不住有心人

夜深愛雜談
2026-02-21 21:37:02
“臺球皇帝”贊美趙心童:他具備一切實力,希望他打破衛(wèi)冕魔咒

“臺球皇帝”贊美趙心童:他具備一切實力,希望他打破衛(wèi)冕魔咒

里芃芃體育
2026-04-20 03:00:03
初戀開大酒店,我調任市委書記后去她的大酒店吃飯,被她百般嘲笑

初戀開大酒店,我調任市委書記后去她的大酒店吃飯,被她百般嘲笑

喬生桂
2025-07-10 15:37:39
中東大消息!剛剛,直線拉升

中東大消息!剛剛,直線拉升

中國基金報
2026-04-20 07:38:31
落后9分還嘴硬!皇馬拒為巴薩列隊:絕不可能!

落后9分還嘴硬!皇馬拒為巴薩列隊:絕不可能!

茅塞盾開本尊
2026-04-19 12:30:42
最多再打3場?肖華一句話引爆全網(wǎng),41歲詹皇生涯進入倒計時

最多再打3場?肖華一句話引爆全網(wǎng),41歲詹皇生涯進入倒計時

茅塞盾開本尊
2026-04-19 19:24:28
美國要被笑死,停火后才發(fā)現(xiàn),伊朗空軍大部分飛機都好好的

美國要被笑死,停火后才發(fā)現(xiàn),伊朗空軍大部分飛機都好好的

古史青云啊
2026-04-20 09:52:07
申花首次從蓉城挖人補強!如今他卻意外被束之高閣,只出場1次

申花首次從蓉城挖人補強!如今他卻意外被束之高閣,只出場1次

張麗說足球
2026-04-20 10:04:08
美國敢抓馬杜羅、敢炸哈梅內(nèi)伊,為什么偏偏不敢動金正恩?

美國敢抓馬杜羅、敢炸哈梅內(nèi)伊,為什么偏偏不敢動金正恩?

賤議你讀史
2026-04-12 21:40:28
2026-04-20 11:43:00
量子位 incentive-icons
量子位
追蹤人工智能動態(tài)
12497文章數(shù) 176456關注度
往期回顧 全部

科技要聞

藍色起源一級火箭完美回收 客戶衛(wèi)星未入軌

頭條要聞

男子收到陌生賬號轉賬8萬余元 3天后奢侈品牌商家找來

頭條要聞

男子收到陌生賬號轉賬8萬余元 3天后奢侈品牌商家找來

體育要聞

七大獎項候選官宣!文班或全票DPOY

娛樂要聞

鹿晗生日上熱搜,被關曉彤撕下體面

財經(jīng)要聞

月之暗面IPO迷局

汽車要聞

外觀非常驚艷 全新一代寶馬6系有望回歸

態(tài)度原創(chuàng)

游戲
藝術
本地
教育
親子

光榮特庫摩《仁王3》大更新官宣!DLC也有新進展

藝術要聞

王羲之《換鵝帖》尚在人間,驚艷無比!

本地新聞

12噸巧克力有難,全網(wǎng)化身超級偵探添亂

教育要聞

我發(fā)現(xiàn)一個殘酷真相:孩子長大后,最怨恨的不是管太嚴的父母……

親子要聞

普通家庭養(yǎng)娃補鈣,90% 家長都補錯了!

無障礙瀏覽 進入關懷版