網易首頁 > 網易號 > 正文 申請入駐

“客戶測950,不到一周下單了”,DeepSeek V4 逼出昇騰真功夫

0
分享至


作者 | 褚杏娟

“客戶測了我們的 950,不到一個禮拜就說可以下單了。”昇騰計算業務副總裁張良透露,近期昇騰銷量比以前要好,客戶認可度也提高很多。

現在互聯網公司、大模型初創公司都有在完全基于昇騰做模型訓推。

推理看重性價比,沒有那么高的穩定性要求,客戶覺得用得快捷就好;而訓練,客戶則要求經過長時間的可靠性驗證。張良向 InfoQ 表示,“客戶要求的是成熟、穩定、且經過長時間驗證的大規模集群系統,硬件和軟件要一起驗證!

今年,大量客戶開始基于昇騰做訓練了。這里指的是訓練大模型、超大參數模型。越來越多模型,包括一些國內領先的模型,都在基于昇騰進行訓練。這個變化體現了昇騰產品成熟度的提升,確實經受住了考驗。

DeepSeek V4 是對華為的一次考驗

DeepSeek V4 是華為面臨的一次大考,也驗證了昇騰超節點全系列產品的能力。

從結果看,昇騰超節點全系列產品均支持 DeepSeek V4 。其 950 系列芯片可以同時兼顧低時延和高吞吐的兩種應用場景:在 950 DT 系列上,DeepSeek V4 Flash 模型實現了低于 10 毫秒的低時延推理,Pro 模型則實現了約 20 毫秒的低時延推理;在 Atlas A3 系列上,DeepSeek V4 Flash 實現了約 30 毫秒的高吞吐性能表現。

這次,DeepSeek V4 在模型結構上發生了明顯變化,比如引入混合注意力機制,結合滑窗、稀疏、壓縮等多種 Attention 優化算法,以支持 1M 級長上下文推理;同時,模型繼續采用 MoE 結構,對專家路由、多卡通信、KV Cache 管理和端到端推理效率提出了更高要求。


為此,CANN 針對 DeepSeek V4 中的 mHC、Hybrid Attention、Compressor、MoE 等模塊進行了原生適配。其中,mHC 用于擴展傳統殘差連接,對此 CANN 提供了多種實現方式,包括基于 Ascend C、PyTorch 以及 TileLang 的實現路徑。

比如,針對混合注意力機制,CANN 提供了 Sparse Attention Shared KV 融合算子,支持多種注意力計算,同時開發了不同倍率 KV Cache 壓縮的 Compressor 算子,以及支持 KV Cache 更新的相關算子。此外,CANN 還增強了 Lightning Indexer 能力,用于高效篩選 Top-K 稀疏 KV,支撐長上下文下的稀疏注意力計算。

由于混合注意力機制依賴關系更復雜,在 prefill 階段,CANN 通過 All Gather 或 Send/Receive 等通信能力,在卡間交換必要 Token,保證 CP 并行下的注意力計算正確執行。

而在 MoE 方面,CANN 加強了 MoE Gating TopK 功能,以支持 DeepSeek V4 中的 hash routing 和 scaled softmax。

上述也只是昇騰努力優化的一部分,在 AI 算力日益重要的當下,昇騰團隊過去一年都在“卷”。

“一卡難求”下,先建基礎設施

“所有工作沒有基礎設施是不行的。現在大家都在說‘一卡難求’,包括我自己也是一卡難求。雖然我們生產卡,但我想用卡也很難。”張良說道。

去年以來,昇騰對芯片體系進行了一輪大幅調整。

今天的大模型推理和 Agent 場景,對編程靈活性、細粒度訪存能力、Cache line 設計等均提出更高的要求;同時,AI 產業的發展也需要更開放的生態支持。

針對這些問題,昇騰在新一輪產品和軟件棧演進中進行了系統性補齊:一方面重新優化算力配比,提升芯片在不同計算負載下的適配能力;另一方面引入 SIMT 能力,增強編程靈活性;同時強化細粒度訪存能力,使芯片能夠更好適應大模型訓練、推理以及復雜 Agent 工作負載中的數據訪問需求。

低精度計算能力也是此次調整的重要方向。隨著 DeepSeek 等模型在 FP8 等低精度格式上的探索,大模型產業對更高 Token 產出效率的需求快速提升。在此背景下,昇騰加速推進 FP8、FP4 能力落地。

張良表示,團隊“拼盡全力”將 FP8、FP4 提前做出來,這使得 Token 產出能力相比此前實現翻倍提升。

當前 AI 產業正在進入新的算力周期。Agent 應用帶來的高頻推理、多輪調用和長鏈路任務執行,使 Token 消耗快速增長,也讓算力效率成為客戶關注的核心指標。張良認為,面對這一變化,芯片廠商不僅要提升峰值算力,更要圍繞真實業務場景優化計算效率、訪存能力、編程體驗和生態開放能力。

“只有痛下決心真正改掉以前的不足,才能把業務做得越來越好。”張良說道,下一波 AI 機會究竟來自哪里仍不確定,但芯片和軟件生態必須提前準備好。昇騰此次調整,正是為了補齊過去架構中的短板,并為未來可能出現的新一輪 AI 應用浪潮打下基礎。

軟件棧升級,拒絕仿 CUDA

在完成硬件架構調整后,昇騰軟件棧也迎來一輪重要升級。此次升級的一個重點是將原本高度耦合的軟件體系拆分為更清晰的結構模塊。

過去,CANN 的很多能力像“麻花團”一樣交織在一起,外部開發者很難理解和調用。現在,昇騰通過架構解耦,將不同能力模塊化、結構化地拆開,讓每一塊能力都能被開發者看見、調用,并推動相關代碼開源。


張良介紹道,這次解耦工作量很大,接近于“把軟件重寫一遍、把架構重新設計一遍”。昇騰原計劃用一年半時間完成,但最終在 4 個月內完成核心改造。近期開發者試用后,普遍認為相比過去更容易上手。

除了架構層面的解耦,昇騰還推出了新的編程方式 PyPTO。該方式面向 Python 開發者,未來將與業界主流的基于 Python 的 Triton 編程方式保持一致,以降低開發者遷移和適配門檻。

張良表示,AI 開發正在越來越多地圍繞 Python 展開,昇騰必須融入這一主流編程體系。昇騰從去年開始推進相關工作,并在今年正式將 PyPTO 做出來。

不過,Python 編程雖然快速、靈活,適合驗證功能和提升開發效率,但在追求極致性能時仍存在不足。尤其是在大模型推理場景中,Token 吞吐直接影響產品性價比。同樣硬件、同樣算力條件下,如果 Token 吞吐低于競爭對手,就意味著單位成本競爭力不足。因此,昇騰在支持 Python 開發方式的同時,也繼續保留并強化基于 C 語言的底層優化能力。

其思路是:Python 負責靈活和便捷,C 語言負責性能和吞吐優化。通過這兩條路徑并行,既尊重開發者對主流編程方式的偏好,也保障底層性能調優能力。

昇騰認為,開源開放的核心不是簡單“放代碼”,而是讓開發者能夠真正理解、使用和擴展底層能力。張良表示,昇騰自身不可能超過幾萬名開發者的智慧,外部開發者的創新方式和使用需求,也遠遠超過單一廠商內部能夠預判的范圍。因此,提升開發者使用便利性,是生態建設的根本。

對于底層軟件和算子開發而言,讓開發者真正持續投入并不容易。數據顯示,今年以來昇騰算子開發者數量增長較快,已達到約 1.3 萬人;社區月活開發者約 2000 人,這已經是相當不錯的成績。

如果說英偉達的生態護城河是 CUDA,那昇騰對應的就是 CANN,F在,比較熟悉的模型,大約 6 個小時就可以從 CUDA 遷移到 CANN,比如千問 3.6;模型架構比較新、變化比較大,可能需要花一兩周時間遷完。整個遷移是較為絲滑的。

實際上,在建設生態期間,國內 AI 計算生態發展面臨不同路徑選擇,其中一條看似簡單的路線就是做一套與英偉達 CUDA 高度相似的體系,也就是所謂“仿 CUDA”。張良特別強調,昇騰堅決拒絕走這條捷徑。

“如果只是做一個‘CUDA 2 號’,雖然短期適配成本較低,基于這一體系做出的新特性、新功能,最終是建立在他人的生態上,而不是在建設真正自主的 AI 計算生態!睆埩颊f道。

按照其思路,從虛擬指令級、運行時能力,到編譯器、硬件協同,都要自主構建。這樣才能確保底層能力真正掌握在自己手中,而不是長期依附在既有國外生態之上。

不過,張良也強調,堅持自主路線并不意味著脫離業界生態,F實中,大量開發者主要使用的是更上層的開發框架和工具,而不是直接操作底層指令和運行時。因此,昇騰需要一方面堅持底層自主,另一方面也要兼容業界主流開發習慣,支持國內外開發者已有的軟件棧和工具鏈。

其生態建設思路可以概括為三點:第一,底層關鍵能力必須自主掌握;第二,上層要兼容主流開發方式,尊重開發者習慣;第三,要逐步將自主 NPU 的關鍵特性和功能組件引入主流開源社區,讓圍繞中國 AI 硬件的能力在社區中沉淀下來。

但這一過程并不容易。目前 AI 軟件生態中大量關鍵開源項目由海外社區主導。以 OpenAI 主導的 Triton 為例,推動其支持昇騰硬件并不容易,對方首先會考慮“敏感”問題。

張良透露,過去,昇騰開發者和華為內部團隊所做的很多適配工作,往往只能以插件形式存在。相關代碼提交到主流社區時,社區并不一定接受,而是要求昇騰自行維護插件。同時,這些社區在發布新版本前,也很少會基于中國軟件和硬件進行驗證。這導致昇騰生態長期處在被動適配狀態。

為改變這一局面,昇騰投入大量時間和精力與海外開源社區溝通,通過現場交流和技術論證,推動相關插件和能力逐步進入主流項目。目前,部分社區已經開始接受昇騰相關能力,后續版本發布時也能夠逐步支持昇騰硬件。類似工作不僅發生在 Triton,也發生在 PyTorch 等多個開源項目中。

這正是做生態最難的地方:不是簡單寫一套適配代碼,而是要讓主流社區認可、接受,并在版本演進中持續支持。

結束語

“做這一切,都取決于一個基礎:你愿不愿意持續投入,愿不愿意把自己壓到極致,在很短時間內把能力補起來,這是關鍵。再往下說,就是你愿不愿意砸錢,或者說有沒有能力長期、持續地投入!睆埩颊f道。

張良也坦言,昇騰團隊過去幾年既抓住過機會,也走過彎路,甚至有些問題曾被階段性的市場紅利掩蓋。

在他看來,今天 Agent 的快速興起,又一次把產業推向新的階段。Agent 應用對時延、多輪推理、長序列處理以及系統綜合能力提出了更高要求,也可能進一步帶來“算力荒”。這對昇騰來說既是機會,也是挑戰。

“Agent 這么紅火,我們當然很開心,它可能帶來新的算力需求。但更重要的是,我們要從中識別出真正的問題,看到不同場景對產品改進提出的新要求,比如編程編譯速度的問題。只有把這些問題識別出來,才能繼續投入、繼續改進。能不能做到這一點,非常關鍵!

張良強調,昇騰不滿足于某一輪機會,而是要在每一輪產業變化中,持續暴露問題、修正問題、補齊能力。

“在我個人看來,我的產品永遠不完美,還要繼續努力。面向未來,我們還有很多事要做。”他說道。

聲明:本文為 AI 前線整理,不代表平臺觀點,未經許可禁止轉載。

會議推薦

世界模型的下一個突破在哪?Agent 從 Demo 到工程化還差什么?安全與可信這道坎怎么過?研發體系不重構,還能撐多久?

AICon 上海站 2026,4 大核心專題等你來:世界模型與多模態智能突破、Agent 架構與工程化實踐、Agent 安全與可信治理、企業級研發體系重構。14 個專題全面開放征稿。

誠摯邀請你登臺分享實戰經驗。AICon 2026,期待與你同行。

今日薦文


你也「在看」嗎?

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
吳宜澤載譽歸國 深夜低調抵西安 獲粉絲接機+送花 奪冠后首秀確定

吳宜澤載譽歸國 深夜低調抵西安 獲粉絲接機+送花 奪冠后首秀確定

我愛英超
2026-05-07 08:26:52
以色列代表聯合國質問,中國大使早已離席,空留椅子成國際笑柄

以色列代表聯合國質問,中國大使早已離席,空留椅子成國際笑柄

盛夏微涼
2026-05-07 07:41:44
悲催!陜西女子發帖問丈夫股票估值,大方承認“準備離婚分財產”

悲催!陜西女子發帖問丈夫股票估值,大方承認“準備離婚分財產”

火山詩話
2026-05-06 14:34:56
總比分6-5進決賽!凱恩成焦點,孔帕尼說句公道話力挺3人批評1人

總比分6-5進決賽!凱恩成焦點,孔帕尼說句公道話力挺3人批評1人

林子說事
2026-05-07 06:31:01
先把說話噴口水的毛病改改!大齡寶媽被服務員當成奶奶,反被群嘲

先把說話噴口水的毛病改改!大齡寶媽被服務員當成奶奶,反被群嘲

妍妍教育日記
2026-05-07 09:25:08
29歲趙心童近況曝光!與女友林可馨相戀4年,如今感情穩定很幸福

29歲趙心童近況曝光!與女友林可馨相戀4年,如今感情穩定很幸福

代軍哥哥談娛樂
2026-05-06 11:48:54
全球手機銷量排行出爐,第一名居然不是 iPhone 17 Pro!

全球手機銷量排行出爐,第一名居然不是 iPhone 17 Pro!

XCiOS俱樂部
2026-05-06 19:41:29
剛剛,馬斯克官宣xAI解散,22萬張GPU算力租給Anthropic

剛剛,馬斯克官宣xAI解散,22萬張GPU算力租給Anthropic

機器之心Pro
2026-05-07 10:25:42
一屋子專業演員,愣是演不過一個跨界戲子,我想說爛不是沒理由的

一屋子專業演員,愣是演不過一個跨界戲子,我想說爛不是沒理由的

一娛三分地
2026-05-05 16:47:40
伊朗必。簽槭裁础皠倮摗敝皇亲云燮廴说幕糜X

伊朗必敗:為什么“勝利論”只是自欺欺人的幻覺

民間胡扯老哥
2026-05-05 06:46:18
險些大打出手!皇馬再起沖突,巴爾韋德與楚阿梅尼爆發激烈爭吵!

險些大打出手!皇馬再起沖突,巴爾韋德與楚阿梅尼爆發激烈爭吵!

體壇關鍵幀
2026-05-07 12:09:09
如果你不開心,就去看東北人的評論區,能讓你笑出腹!

如果你不開心,就去看東北人的評論區,能讓你笑出腹!

夜深愛雜談
2026-04-14 15:18:00
大批“宇航員”排隊打卡內蒙烏蘭哈達火山,景區:內部環境似火星地表,牧民提供“宇航服”出租服務,休眠火山很安全

大批“宇航員”排隊打卡內蒙烏蘭哈達火山,景區:內部環境似火星地表,牧民提供“宇航服”出租服務,休眠火山很安全

極目新聞
2026-05-04 16:07:52
大雨淋濕了我的眼:分不清是雨是淚,那就當是天空在替我哭

大雨淋濕了我的眼:分不清是雨是淚,那就當是天空在替我哭

疾跑的小蝸牛
2026-05-06 20:53:18
回國才敢說:越南,竟是最被我們低估的鄰居,你真的了解它嗎?

回國才敢說:越南,竟是最被我們低估的鄰居,你真的了解它嗎?

老特有話說
2026-05-05 15:08:12
虧損超1.5億!《寒戰1994》票房崩塌,我感慨:這塊金字招牌砸了

虧損超1.5億!《寒戰1994》票房崩塌,我感慨:這塊金字招牌砸了

靠譜電影君
2026-05-05 10:40:44
新加坡總理哭了,無人同情!當初對中國有多狂妄,現在就多狼狽!

新加坡總理哭了,無人同情!當初對中國有多狂妄,現在就多狼狽!

混沌錄
2026-05-06 23:33:12
中國正式砍斷美式長臂,美媒集體破防:我們的制裁體系真要碎了!

中國正式砍斷美式長臂,美媒集體破防:我們的制裁體系真要碎了!

史智文道
2026-05-06 14:29:45
世乒賽奪冠概率出爐,法國居首,國乒沖12連冠遇強敵

世乒賽奪冠概率出爐,法國居首,國乒沖12連冠遇強敵

林子說事
2026-05-07 10:58:43
可怕!開放性脫臼!比我們想象的還要嚴重啊!

可怕!開放性脫臼!比我們想象的還要嚴重!

柚子說球
2026-05-06 23:15:23
2026-05-07 12:39:00
AI前線 incentive-icons
AI前線
面向AI愛好者、開發者和科學家,提供AI領域技術資訊。
1476文章數 149關注度
往期回顧 全部

科技要聞

凌晨突發!馬斯克租22萬塊GPU給“死敵”

頭條要聞

北京三位女大學生青海自駕游2死1傷 傷者一審獲刑4年

頭條要聞

北京三位女大學生青海自駕游2死1傷 傷者一審獲刑4年

體育要聞

阿森納巴黎會師歐冠決賽!5月31日開戰

娛樂要聞

小S阿雅重返大S母校,翻看大S畢業照

財經要聞

特朗普:美伊“很有可能”達成協議

汽車要聞

理想為什么不做轎車,有了解釋……

態度原創

手機
數碼
房產
本地
公開課

手機要聞

iPhone Air 2曝光:搭載4800萬像素雙攝,明年春季問世

數碼要聞

三星筆記本版Exynos 2800芯片曝光:1.4nm十核CPU

房產要聞

五一海南樓市,太淡了!

本地新聞

用青花瓷的方式,打開西溪濕地

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版