![]()
作者|Hayward
原創首發|藍字計劃
英偉達CEO黃仁勛的噩夢成真了。
4月17 日,黃仁勛在一個采訪中罕見發飆:
主持人問他,如果美國“賣芯片給中國,中國算力增強了,不就是幫對手變強嗎?”
但老黃卻憤怒地說:“芯片又不是濃縮鈾!賣給中國怎么了?“
“如果DeepSeek這種中國頂尖大模型,以后首發跑在華為芯片上,對美國來說就是可怕的結果!”
七天之后,老黃一語成箴。
4月24日,在DeepSeek V3/R1爆火了一年多之后,在眾人的翹首期盼之下,DeepSeek終于掏出了一個大版本號更新的新模型。
但比起DeepSeek V4的性能提升,更引人注目的是另一件事:
相比英偉達,DeepSeek這次選擇和華為走到了一起。
第二個華為?
按照官方的說法,這次DeepSeek V4和華為方堪稱“深度融合”,而這種融合,就體現在芯模協同的芯片+模型層面。
DeepSeek在V4開發過程中,專門花了幾個月時間與華為(以及寒武紀)密切合作,重寫了模型底層代碼的部分模塊,從原本更依賴CUDA的技術路徑,開始向華為CANN生態做深度適配。
這打破了行業慣例——以往大模型通常優先給英偉達/AMD提供早期訪問權限進行優化,而DeepSeek這次把優先期給了國產芯片,確保V4在華為昇騰950系列芯片上高效運行。
幾乎與此同時,華為計算官方明確表示,昇騰超節點系列產品已全面支持DeepSeek-V4。
![]()
通過雙方芯模技術緊密協同,實現了在昇騰硬件上的低時延推理。例如在8K輸入場景下,昇騰950超節點可實現V4-Pro TPOT約20ms、V4-Flash TPOT約10ms的單token解碼時延,非常出色。
正是基于這個消息,這次DeepSeek V4的發布,除了滿足吃瓜群眾等來“下一個DeepSeek R1”的樸素愿望外,還被視為中國AI產業鏈“從依賴到自主”的重要一步。
之所以會被賦予如此重大的意義,看看過去一年里關于DeepSeek的討論都離不開英偉達就知道了。
V3也好,R1也好,無論成本再低,性能再好,但都繞不開一個現實:
買得到什么卡、能不能穩定供貨、美國什么時候再加一道禁令、CUDA生態能不能繼續用,始終都在有形無形地掐著國產大模型的脖子。
而在今天,至少在推理端,中國大模型已經開始突破重圍。
一個中國最頂尖的大模型,至少在推理服務上,已經不必完全依賴英偉達的卡。
過去美國一邊卡中國的高端AI芯片,一邊又想讓英偉達繼續賣H20這種“特供殘血卡”的歷史,也一去不復返了。
性能沖擊國產頂尖
當然,DeepSeek V4能讓人興奮,除了華為,還在于它確實非常能打。
從目前公開信息看,DeepSeek V4的成績,確實把DeepSeek又送回了國內大模型的最前排。
先看基礎能力。
DeepSeek官方稱,V4-Pro在世界知識、數學、STEM、代碼等方向上,已經超過當前開源模型,并接近全球頂級閉源模型水平;V4-Flash的推理能力也接近V4-Pro,在簡單Agent任務上表現接近旗艦版。
![]()
![]()
另一方面,針對當前行業大熱的Agent能力,DeepSeek V4也迎來了“史詩級”加強。
官方明確強調V4面向Agent能力做了專門優化,已經接入Claude Code、OpenClaw、OpenCode等主流AI Agent工具,并且正在驅動DeepSeek自己內部的agentic coding。
然后還有上下文能力,DeepSeek V4支持100萬token上下文,并且是所有模型的默認能力,實現近7.8倍提升。
有了這樣強大的上下文能力,新模型就能輕松支持超長上下文場景,如長文檔分析、復雜Agent任務,還是為未來的AI工具實用性落地、Agent工具接入做準備。
只不過,在價格方方面,這次可能就不再是DeepSeek的優勢了。
官方價格表顯示,V4-Flash每百萬輸入token是0.14美元,每百萬輸出token是0.28美元;V4-Pro每百萬輸入token是1.74美元,每百萬輸出token是3.48美元。
緩存命中時,輸入價格還能進一步降到0.028美元和0.145美元。
相比DeepSeek過去那種“便宜到讓同行懷疑人生”的打法,V4-Pro明顯貴了不少;但也從另一方面說明,DeepSeek不是單純靠低價沖市場了,他們也有信心,抬高價格后依然有大把人買單。
無論是從能力還是價格定位來看,DeepSeek V4顯然有著改寫市場秩序的野心。
只不過,距離 DeepSeek V4 的完全勝利,可惜還差一步。
模型訓練,還是難題
DeepSeek V4跑在華為昇騰上,當然是一個標志性事件。
可它目前最確定的部分,還是推理和適配;對于真正能鼓舞士氣的“用昇騰芯片訓練出DeepSeek V4” ,卻還沒有一個明確的答案。
根據路透社的報道,DeepSeek V4適配了華為芯片技術,華為也稱昇騰超節點產品線支持V4系列模型;但DeepSeek并沒有披露訓練這款最新模型使用了哪些處理器。
此前Reuters曾援引美國官員稱,DeepSeek最新模型使用Nvidia Blackwell訓練。到目前為止,V4的訓練硬件仍沒有明確答案。
另一方面,這次頻繁路面的華為昇騰950系列芯片被定位為推理專用芯片,FP8/FP4等低精度算力強勁,單卡性能在某些場景下據稱可達英偉達H20的2.87倍左右,真正能用來訓練的,實際上是今年下半年才實現量產的950DT。
所以,DeepSeek V4只能算是部分擺脫了英偉達CUDA生態的依賴,距離“全鏈路國產”,還有一些距離。
不過好在,這次昇騰官方披露了一個值得注意的細節:CANN已基于A3 64卡超節點,完成DeepSeek V4-Flash模型續訓練(CPT)的0-day適配支持,實測模型吞吐量最高達到1100 tokens/p/s。
![]()
這個細節的價值在于,盡管V4-Flash只是輕量版本,但DeepSeek V4已經可以在國產算力上跑通續訓練流程。
這意味著,國產算力在大模型鏈路里的角色,正在從推理部署繼續往訓練側推進:先跑通推理,再完成續訓練適配,最后攻克最難的完整預訓練。
說不定到了今年下半年,昇騰950DT可以實現大規模出貨,我們就真的可以看到“訓練—推理”全鏈路跑在國產算力上的國產大模型了。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.