4月24日這天,科技圈發生了兩件大事,而且幾乎是同一時間甩出來的。
上午DeepSeek發布了V4系列模型的預覽版并同步開源。
下午華為緊跟著宣布:昇騰超節點全系列產品全面支持DeepSeek V4。
這不是一次普通的商業合作官宣,而是國產AI兩條最粗的腿終于綁在了一起,準備開始跑了。
先說硬核數字。華為這次拿出的Atlas 350加速卡,搭載的是昇騰950PR處理器,單卡算力達到了英偉達H20的2.87倍。
![]()
H20是什么?就是美國專門給中國市場定制的閹割版芯片,算力只有H100的三成。華為這塊新卡的HBM容量做到了112GB,比H20多出16%,多模態生成速度快了60%,最關鍵的是——它是目前國內唯一支持FP4低精度推理的產品,FP4精度算力做到了1.56P。
此前在AI推理這個環節中國人只能跟在英偉達后面跑,現在這塊卡在某些指標上已經能正面硬剛了。
但硬件堆料只是故事的一半。真正讓我覺得這事兒不簡單的,是軟件和硬件的咬合深度。DeepSeek V4這次搞了兩個版本:Pro版1.6萬億參數、49B激活,Flash版284B參數、13B激活,兩個都原生支持百萬token的超長上下文。
![]()
關鍵支持是什么?DeepSeek在官宣文章里直接說了,細粒度專家并行方案同時在英偉達GPU和華為昇騰NPU上完成了驗證。
要知道,國產大模型以前對英偉達的依賴幾乎是寫在基因里的,CUDA生態就像空氣一樣無處不在卻又難以替代。現在DeepSeek從V4這一代開始,設計階段就把華為的CANN生態納入了深度適配,用的是華為的融合算子和多流并行技術來降計算開銷、提推理性能。這意味著什么?意味著英偉達的CUDA不再是唯一能跑萬億參數大模型的基礎設施了。
更狠的是價簽。
![]()
DeepSeek明確表示,等下半年昇騰950超節點批量上市部署后,V4 Pro的價格會大幅下調。能降價的前提是什么?是國產算力成本已經降下來了。過去AI推理貴得離譜,很大一部分原因是芯片被卡著、溢價被人攥著。
現在昇騰的出貨量已經上來了,2025年華為昇騰一家就賣了81.2萬張加速卡,占國產總出貨量的49.2%,國產芯片整體拿下了中國市場的41%份額。價格屠夫的刀,只有拿在自己手里才砍得下去。
這兩個時間點也很有意思。美國商務部長盧特尼克前兩天剛在國會聽證會上承認,H200芯片自年初放行以來中國沒買一塊。中國這邊反手就甩出了DeepSeek V4加昇騰超節點的全套國產方案。不是巧合,是產業鏈的集體轉身。
深圳剛點亮了全國首個萬卡昇騰910C超節點智算集群,總算力規模達到14000P。從模型到芯片到集群再到應用,一條完整的國產AI算力鏈條正在成形。
當然了,也不能上頭就吹。
![]()
英偉達的B200旗艦卡在很多指標上依然領先,CUDA這十幾年的生態積累也不是一兩年就能全面趕超的,CANN還需要更多開發者、更多框架的原生支持才能真正叫板。昇騰在高端制程上依然受制于制造環節。
但DeepSeek V4和昇騰超節點這次的同頻發布,透出了一個清晰的信號:中國AI產業最核心的兩個環節:算法和算力已經從各自為戰走向了精密咬合。這種咬合才是最讓對手心里發毛的,因為生態這東西一旦形成,靠制裁是打不斷的。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.