國產算力基建進入下半場,重心正從芯片的「數量增長」轉向「效率提升」。國產芯片數量持續增長,但生態建設依舊落后,這正是當下 AI 落地最真實的一幕。
模型不斷刷新參數,底層卻在艱難轉場。
比起輪番刷新的參數規模記錄,更難轉變的是開發者所使用的那套固化的流程。算力只是門檻,而真正的較量在于算法與硬件的協同效率。
![]()
![]()
KernelCAT:計算加速專家級別的 Agent
幾乎每個人都能感受到 AI 領域的加速感,模型密集發布,應用數據持續走高。但在真實的工程現場,感受卻更復雜:真正制約落地效率的不是模型能力本身,而是底層軟件生態的成熟度。
硬件選擇變多,問題反而集中暴露出來:遷移成本高,適配周期長,性能釋放不穩定。很多模型即便具備條件切換算力平臺,最終也會被算子支持和工具鏈完整度擋在門外。
這讓一個事實變得越來越清晰。突破口不是堆更多算力,而是打通算法到硬件之間那段最容易被忽視的工程鏈路,把芯片的理論性能真正轉化為可用性能。
其中最關鍵的一環正是高性能算子的開發。
算子(Kernel)的作用是連接 AI 算法與計算芯片,它將算法轉化為硬件可執行的指令,決定了 AI 模型的推理速度、能耗與兼容性。
算子開發屬于內核級的編程工程,但行業現狀卻仍高度依賴個人經驗。它極度依賴頂尖專家的直覺與肌肉記憶,性能調優往往像是在迷霧里盲測,周期漫長。
但如果,讓 AI 來開發算子呢?
傳統大模型或知識增強型 Agent 在此類任務面前往往力不從心。因為它們擅長模式匹配,卻難以理解復雜計算任務中的物理約束、內存布局與并行調度邏輯。唯有超越經驗式推理,深入建模問題本質,才能實現真正的「智能級」優化。
正是在這種嚴峻的技術挑戰下,KernelCAT 應運而生。
![]()
KernelCAT 終端版 Agent
KernelCAT 是一款本地運行的 AI Agent。它不僅是深耕算子開發和模型遷移的「計算加速專家」,也能夠勝任日常通用的全棧開發任務,提供了 CLI 終端命令行版與簡潔桌面版兩種形態供開發者使用。
不同于僅聚焦特定任務的工具型 Agent,KernelCAT 具備扎實的通用編程能力。
它不僅能理解、生成和優化內核級別代碼,也能處理常規軟件工程任務,如環境配置、依賴管理、錯誤診斷與腳本編寫,從而在復雜場景中實現端到端自主閉環。
![]()
KernelCAT 桌面版 Agent
![]()
為國產芯片生態寫高性能算子
在算子開發中,有一類問題很像「調參」。面對幾十上百種參數或策略組合,工程師需要找出讓算子跑得最快的那一組配置。
傳統做法靠經驗試錯費時費力且容易踩坑。KernelCAT 的思路是:引入運籌優化,把「找最優參數」這件事交給算法,讓算法去探索調優空間并收斂到最佳方案。
以昇騰芯片上的 FlashAttentionScore 算子為例,KernelCAT 可以依據昇騰官方的示例代碼自動對該算子的分塊參數調優問題進行運籌學建模,并使用數學優化算法求解。十幾輪迭代后就能鎖定最優配置,在多種輸入尺寸下延遲降低最高可達 22%,吞吐量提升最高近 30%,整個過程無需人工干預。
這正是 KernelCAT 的獨特之處。它不僅具備大模型的智能,能夠理解代碼、生成方案,還擁有運籌優化算法的嚴謹,能夠系統搜索并收斂到最優解。
智能與算法的結合讓算子調優既靈活,又有交付保障。
在對 KernelCAT 的另一場測試中,該團隊選取了 7 個不同規模的向量加法任務,測試目標明確,即在華為昇騰平臺上,直接對比華為開源算子、「黑盒」封裝的商業化算子與 KernelCAT 自研算子實現的執行效率。
結果同樣令人振奮。在這個案例的 7 個測試規模中,KernelCAT 給出的算子版本性能均取得領先優勢,且任務完成僅用時 10 分鐘。這意味著,即便面對經過商業級調優的閉源實現,KernelCAT 所采用的優化方式仍具備一定競爭力。
這不僅是數值層面的勝利,更是國產 AI Agent 在算子領域完成的一次自證。
![]()
![]()
沒有堅不可破的生態,包括 CUDA
全球范圍內,目前超過 90% 的重要 AI 訓練任務運行于英偉達 GPU 之上,推理占比亦達 80% 以上;其開發者生態覆蓋超 590 萬用戶,算子庫規模逾 400 個,深度嵌入 90% 頂級 AI 學術論文的實現流程。
黃仁勛曾言:「我們創立英偉達,是為了加速軟件,芯片設計反而是次要的。」
在現代計算體系中,軟件才是真正的護城河。英偉達的持續領先,源于其從底層算法出發、貫通架構與編程模型的全棧掌控能力。
參考 AMD 的歷史經驗,即使在架構與制程上具備充足的競爭力,缺乏成熟的生態系統也仍然難以撼動英偉達的地位。
這類案例清晰地表明,模型性能并不簡單等價于算力規模的堆疊,而是取決于算法設計、算子實現與硬件特性的協同程度。當算子足夠成熟,硬件潛力才能被真正釋放。
沿著這條思路,KernelCAT 團隊圍繞模型在本土算力平臺上的高效遷移,進行了系統性的工程探索。以 DeepSeek-OCR-2 模型在華為昇騰 910B2 NPU 上的部署為例,KernelCAT 展示了一種全新的工作范式:
對抗「版本地獄」:KernelCAT 對任務目標和限制條件有著深度理解,基于 DeepSeek-OCR-2 官方的 CUDA 實現,通過精準的依賴識別和補丁注入,解決了 vLLM、torch 和 torch_npu 的各個依賴庫間版本互鎖的三角矛盾,硬生生從零搭建起了一套穩定的生產環境,結合基礎 Docker 鏡像即可實現模型的開箱即用。
準確修補:它敏銳地識別出原版 vLLM 的 MOE 層依賴 CUDA 專有的操作,和 vllm-ascend 提供的 Ascend 原生 MOE 實現,并果斷通過插件包進行調用替換,讓模型在國產芯片上「說上了母語」。
實現 35 倍加速:在引入 vllm-ascend 原生 MOE 實現補丁后,vLLM 在高并發下的吞吐量飆升至 550.45toks/s,相比 Transformers 方案實現了 35 倍加速,且在繼續優化中。
無需人工大量介入:在這種復雜任務目標下,KernelCAT 可以自己規劃和完成任務,無需研發提供大量提示詞指導模型工作。
有了 KernelCAT,原本需要頂尖工程師團隊花費數周才能完成進行的適配工作,現在可以縮短至小時級(包含模型下載、環境構建的時間)。
與此同時,它讓國產芯片實現了 35 倍的加速。也就是說,KernelCAT 讓國產芯片可以通過深度工程優化,承載頂級多模態模型推理任務的性能引擎。
KernelCAT 所代表的不只是一個 AI Agent 新范式的出現,更是一種底層能力建設方式的轉向:從依賴既有生態,到構建能夠自我演進的計算基礎。
KernelCAT 正限時免費內測中,歡迎體驗。
點擊原文鏈接即可跳轉產品主頁。
![]()
![]()
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.