網易首頁 > 網易號 > 正文申請入駐

DeepSeek-V4發布，黃仁勛的擔憂成真了

2026-04-24 19:12:49　來源: 鏡相工作室

北京舉報

分享至

文丨彭杰克

編輯丨程述白

“如果頂尖的AI模型被優化在華為芯片上運行，對美國而言將是‘可怕的后果’。”

這是英偉達CEO黃仁勛近期在一檔播客節目中發出的警告。讓他發出警告的對象，是即將發布新模型的中國AI公司DeepSeek。

讓黃仁勛警惕的，并不是某個具體的模型能力，而是另一件事——綜合多家權威媒體報道： DeepSeek-V4 模型在設計之初便優先圍繞華為昇騰AI體系進行適配。

一旦成功繞過英偉達的CUDA體系，DeepSeek將不再只是英偉達生態里的一個“租戶”，被迫接受高昂的“算力租金”和隨時可能斷供的供應鏈風險，而是成為能自主定義算力效率、掌握技術棧主導權的“規則制定者”。

黃仁勛的這種擔憂在今天（4月24日）成為了半個現實。

沉寂近五個月后，DeepSeek帶著V4重新回到市場中心，在其定價說明中，有一行幾乎被忽略的灰色小字：受限于高端算力，目前Pro的服務吞吐十分有限，預計下半年昇騰950超節點批量上市后，Pro的價格會大幅下調。

這一細節至少說明，國產算力已經在DeepSeek的整體體系中占據了重要位置，甚至在關鍵路徑上開始影響其成本結構與定價邏輯。

這并不意味著既有格局被打破。從技術報告來看，DeepSeek當前最成熟、最穩定的實現仍然建立在CUDA體系之上，核心算子與工程優化依舊集中在英偉達生態內。這也意味著，在短期內，CUDA仍然是行業默認的“最優路徑”。

只是，DeepSeek-V4也證明了，CUDA構建的城墻，已經不再堅不可摧。

DeepSeek-V4都做了什么

DeepSeek-V4實際上就干了一件事：用極致的工程效率，把“頂級大模型”的門檻打了下來。它沒有單純堆砌參數，而是通過一套組合拳，讓高性能AI變得既好用又便宜。

具體來看，首先是參數規模：旗艦版本DeepSeek-v4-pro總參數達1.6萬億，但每次推理僅激活490億參數；輕量版本DeepSeek-v4-flash則控制在2840億參數、130億激活規模。

● 同一時期國內主流大模型參數對比。制圖：鏡相工作室

兩個版本背后的邏輯一致：通過MoE（混合專家）架構，在不顯著增加實際算力負擔的前提下擴展模型容量。通過工程優化，讓模型在推理時只調用最相關的部分，從而實現低成本下的頂級性能。這種結構換算力的思路在V2時期已初見成效，在V4中被進一步放大。

在上下文能力上，DeepSeek直接將100萬tokens作為“所有官方服務的標配”。相當于你用它的App、網站或API，默認就能一次性上傳一整本《紅樓夢》、整個項目的代碼庫或一份完整的年度報告，讓AI從頭到尾讀完并處理。

在行業中，長期存在上下文越長，成本越高的矛盾。傳統的AI模型為了理解長文本，它需要記住每個字，并且計算每個字和全文中其他所有字的關聯。相當于為了一句話，就需要翻閱并重讀整本字典，效率極低，成本也高。

而V4沒有硬扛這個數學難題，而是用DSA稀疏注意力（DeepSeek Sparse Attention）的新機制，通過“打包摘要”和“只抓重點”，大幅降低了處理和記憶長文的計算量與成本。百萬字的長文在AI的“工作內存”（顯存）里，就變成了幾百個高度濃縮的要點，體積和負擔驟減。

如果這一機制能夠在真實場景中穩定運行，那么長上下文能力將從高端模型的附加項，逐漸轉向應用層的基礎配置。

再來看能力層面的變化：

Agent能力方面，V4-Pro已進入開源模型的第一梯隊。在Agentic Coding評測中，其表現達到當前開源最優水平，并在內部直接作為工程團隊的編碼工具使用。評測反饋中一個頗具參考價值的細節是，其輸出質量已經接近美國AI企業Anthropic高端模型的常規非思考模式，但在更復雜的思考模式上仍有差距。

推理能力方面，在數學、STEM以及競賽級代碼任務中，V4-Pro的表現超過現有公開評測中的開源模型，并逐步逼近頂級閉源產品。

世界知識方面，V4-Pro大幅領先其他開源模型，和谷歌的頂尖閉源模型Gemini-Pro-3.1存在差距。

這些能力并非孤立存在，而是圍繞具體應用場景展開。V4針對Claude Code、OpenClaw、CodeBuddy等主流Agent工具進行了適配，在代碼生成與文檔處理等任務中優化表現。可以看出，它的目標并不是成為最全面的模型，而是更直接地嵌入開發流程，承擔實際生產任務。

系統層面則藏著DeepSeek能夠便宜下來的“秘密”。

技術報告顯示，DeepSeek在系統底層做了一套“細粒度專家并行（EP） ”方案，簡單理解，就是優化了AI模型在芯片上的“調度算法”，讓計算和通信能像流水線一樣重疊進行。

這套方案已在英偉達GPU與華為昇騰NPU兩套體系上完成驗證，推理速度提升了約1.5到2倍。這意味著同樣的芯片，能處理更多的用戶請求，單位成本自然就降了。

不過，從開源實現來看，當前最成熟的版本仍基于CUDA。也就是說，核心優化具備跨平臺能力，但工程上的最優路徑依然集中在既有的英偉達體系之中，這種狀態為后續的遷移與擴展保留了空間。

定價依舊是DeepSeek最讓同行牙癢癢的地方。在緩存命中條件下，Pro版本輸入價格為1元/百萬token，Flash版本低至0.2元；Pro版本輸出價格24元/百萬tokens，Flash版本輸出價格2元/百萬tokens，都顯著低于其他模型水平。

在DeepSeek-V4定價表格下方，一行小字值得關注：受限于高端算力，目前Pro的服務吞吐十分有限，預計下半年昇騰950超節點批量上市后，Pro的價格會大幅下調。

當價格調整開始“錨定”某一類算力集群的部署進度時，背后往往意味著該類算力已經在整體體系中占據了相當權重，至少在關鍵路徑上具備決定性影響。

對于DeepSeek而言，這更像是一種間接披露——其推理或服務體系，正在越來越多地建立在國產算力之上，而算力供給的變化，已經能夠直接傳導到定價層。

同時，這一邏輯還隱含著另一層變化——模型價格不再只是取決于算法效率，而是開始由算力結構決定。隨著昇騰超節點進入規模化階段，單位算力成本下降所帶來的，不只是利潤空間的釋放，更是價格體系的重塑能力。也正是在這一意義上，DeepSeek的低價策略，正在從工程優化驅動，逐步過渡到算力體系驅動。

沉默下的野心和無奈

從內外部環境看，讓新模型優先適配國產芯片，是DeepSeek有意推進的事。它想做的不只是多找幾家可用的AI芯片供應商，更是在嘗試觸碰更底層的東西——通過擺脫英偉達的束縛，走出由上游芯片廠商定義規則、模型公司被動適配的關系，進而反過來重塑上游。這是DeepSeek真正的野心。

理解這一點，要先理解梁文鋒。從更早的時間點來看，DeepSeek對算力的重視帶有一種近乎偏執的前瞻性。2015年，甚至更早的2012年，他們就關注到算力儲備，至生成式AI爆發前夜，已囤積了大量英偉達A100芯片，后來成為了“大廠外唯一一家儲備萬張A100芯片的公司”。

梁文鋒在接受暗涌采訪時說：“對研究員來說，對算力的渴求是永無止境的。做了小規模實驗后，總想做更大規模的實驗。”這種渴求背后對應著一個現實的問題，大模型公司的核心生產資料不僅是代碼，更是算力本身；誰能夠掌控算力，誰才有資格穩定地研發、生產模型。

所以DeepSeek后來做的，不只是爭取更多算力，而是在試圖降低對單一算力體系的依賴。其選擇國產AI芯片，本質上是在建立一套可控的、可持續的生產體系。

而這種抉擇，幾乎貫穿了其過去多年模型研發的始終。簡單說，它在做兩件事：一是繞開英偉達設定好的部分“規則”，二是在嘗試給自己造一個跨不同芯片都能工作的“萬能轉換頭”。

第一步發生在模型架構層。2024年5月發布的V2，用MoE架構大幅降低了模型對算力的消耗。它像是把一個龐大的專家團隊拆分成許多小組，每次只調動最合適的一小部分人干活，而不是讓所有人同時上陣。結果是，總參數規模雖然很大，但每次真正參與計算的只是一小部分。

到了R1和V3階段，DeepSeek向底層“施工現場”下探。我們可以把CUDA理解成英偉達給開發者制定的一套通用施工規范，絕大多數模型都按照這套規范搭房子。而DeepSeek開始嘗試繞開其中部分標準流程，直接接觸更接近硬件的PTX（英偉達為編程其GPU而引入的一種并行線程執行架構的中間語言）指令，自己調配鋼筋、水泥和施工順序。

這樣做很難，因為越靠近底層，越需要對硬件細節有極深理解。但好處也明顯，同樣一塊GPU能榨出更多性能，甚至在硬件條件不占優時，用工程優化彌補部分差距，從而降低對高端GPU的依賴程度。

前兩步還是在英偉達體系內做更高難度的優化，去年9月V3.2-Exp的嘗試，開始有了另一層意味。他們對主流算子庫做了調整，引入了TileLang——一個“萬能轉換頭”。

過去開發算子（模型運轉最底層的計算單元），很像給不同國家的電器配插頭，每換一種GPU，都要重新改寫一遍代碼，成本高、周期長，而且高度依賴CUDA。DeepSeek的方案是，先用一種更高層、更通用的語言把計算邏輯寫出來，再把它翻譯成適配不同GPU的代碼。

TileLang就是這樣一種嘗試。開發者可以先用更接近Python（AI研發的世界語）的方式快速寫出算子原型，再通過編譯器映射到底層執行，并結合具體硬件做優化。這樣一來，過去一塊GPU寫一套代碼的方式，就開始變成先寫通用邏輯，再做局部適配。華為部分芯片也在推進對TileLang的適配，意義正在這里。

從架構創新，到規則繞行，再到算子庫改寫、國產芯片大規模適配，DeepSeek的野心越來越大，走的路也越來越崎嶇。

從V2到V4，中間橫跨15個月，期間經歷長時間沉寂。外界看到的是發布頻率偏低，看不見的是大量系統工程投入。這類軟硬件協同創新，本來就比單純做模型參數迭代難得多，因為動的不只是模型，還有底層技術棧。這也解釋了，為什么R1之后DeepSeek人才會成為大廠爭奪目標——行業意識到了這種工程路線的價值。

但技術理想主義之外，DeepSeek還有現實考慮。作為一家堅持開源路線的模型公司，DeepSeek天然缺乏類似OpenAI那樣的閉環商業能力，也沒有谷歌或亞馬遜那樣可以內部消化模型成本的云計算體系，更沒有騰訊、阿里、字節等大廠那樣完備的商業生態，開源意味著更強的影響力和更快的擴散速度，但也意味著更薄的利潤空間和更高的成本敏感度。

這也是為什么DeepSeek在V2模型階段就選擇用極致的成本打穿市場，直接掀起一場“價格戰”，本質還是通過工程能力換取商業空間。但這種優勢建立在一個前提上，那就是算力成本必須可控。一旦GPU價格上漲或供給收緊，成本優勢就會迅速被侵蝕。因此，對于一家開源公司來說，擺脫對單一算力生態的依賴，不只是技術選擇，更是商業生存的要求。

與此同時，同業競爭進一步放大了這種壓力。過去一年，大模型高頻迭代，主流廠商幾乎以周為單位發布新模型，再加上多位核心人才流入其他模型廠商或大廠，DeepSeek不得不承認，如果繼續在既有路徑上與同業競爭，很可能陷入節奏與資源的雙重劣勢。

在這樣的背景下，DeepSeek選擇將萬億級參數的自研模型優先適配國產芯片，甚至有意延后向英偉達、AMD提供訪問權限，給國產芯片留足軟硬件適配、調優的時間，是一種改變游戲規則的嘗試。相比在英偉達CUDA體系內與同業正面競爭，DeepSeek更有可能通過軟硬件協同的方式，重新定義自身優勢邊界。這也是DeepSeek最擅長的，通過工程與架構創新，重寫競爭邊界。

這意味著，它不再只是一個使用算力的公司，而是在嘗試參與定義算力，乃至反過來、自下而上重塑這套生態。

● DeepSeek正通過實現國產芯片軟硬件協同挑戰英偉達的封鎖地位。圖源：AI生成。

撕裂英偉達CUDA生態

這是黃仁勛第二次因為DeepSeek而感到緊張。

第一次發生在R1模型發布之時。DeepSeek直接沖擊了行業對算力堆疊的路徑依賴，也在短期內引發了市場對英偉達需求預期的波動。據報道，去年1月R1模型發布后，經過幾天市場情緒的發酵，英偉達迎來了股價大跌，在短短三天內蒸發了6000億美元。

彼時，黃仁勛“挽尊”說，DeepSeek及其開源推理模型所帶來的能量“令人無比興奮”，但投資人“判斷錯誤”，誤以為這對英偉達及人工智能（AI）產業是不利的。它不僅不會終結AI計算需求，反而會擴大并加速市場對更高效AI模型的追求，從而推動整個行業的發展。

但現在，黃仁勛不再避諱對DeepSeek使用華為芯片的焦慮。

要理解這一點，必須回到英偉達真正的護城河——CUDA所構建的軟件生態。

CUDA不僅是一個編程工具，更像是AI時代的“操作系統”；全球數百萬開發者圍繞它構建了加速庫、框架與模型代碼，一整套開發范式由此形成。正因為如此，遷移成本極高，一旦離開CUDA，大量底層代碼需要重寫，工程與測試成本動輒達到千萬級別。這才是英偉達長期占據主導地位的核心原因。

目前，國內芯片廠商在試圖填補這一生態空白。例如華為推出的CANN體系，在設計上直接對標CUDA，通過兼容部分CUDA API和自動轉換算子，降低開發者遷移門檻。同時支持主流框架，并推動自研框架的落地。這種路徑先通過兼容降低切換成本，再逐步建立自身生態。

雖然當前性能損耗與工程復雜度仍然存在，但大模型廠商也在努力。幾乎所有主流模型廠商，在發布新模型后，都會同步適配多種國產AI芯片，包括昇騰、昆侖芯、寒武紀等。

不過，在相當長一段時間里，這種適配更多停留在兼容層，大多數模型仍然圍繞CUDA體系開發，并沒有擺脫英偉達生態的引力。

DeepSeek的不同之處在于，它并沒有完全依賴這種兼容路徑，不是簡單地遷移，而是在一定程度上重新搭建一套體系，劍指最龐雜的生態層。

雖然短期內DeepSeek很難對英偉達形成實質性沖擊，但真正值得關注的是中長期的邊際變化。DeepSeek的特殊性在于，它不僅是一個模型廠商，還是一個擁有廣泛開發者基礎的開源項目。

根據OpenRouter統計，截至4月13日的一周，全球大語言模型token（詞元）消耗量榜單中，DeepSeek-V3.2模型消耗量1.28萬億，排名全球第二，僅次于Anthropic旗下的Claude Sonnet 4.6模型，但前者的輸出價格只有后者的約1/12、輸入價格只有1/40。

這意味著，一旦其模型在非CUDA體系上運行成熟，其所帶來的不僅是技術驗證，更可能是開發者行為的改變。對于開發者而言，是否遷移，并不完全取決于底層架構使用習慣，還取決于模型是否足夠好、成本是否足夠低。

這也正是開源路徑的魅力所在。與閉源模型不同，DeepSeek的技術路線、算子實現以及工程經驗，都可以被其他模型廠商和硬件廠商復用。一旦這種路徑被證明可行，其擴散速度可能遠快于單一公司的技術突破。

因此，與其說DeepSeek正在沖擊英偉達，不如說它正在打開一道裂縫。這道裂縫短期內不會動搖英偉達的主導地位，但如果越來越多的模型廠商開始在訓練階段嘗試非CUDA、非英偉達路徑、如果越來越多的開發者開始適應新的工具鏈，那么英偉達長期建立的軟件壁壘，可能會慢慢垮塌。

當然，這一過程仍然充滿不確定性。但可以確定的是，隨著國產模型和芯片的探索，AI時代的競爭，正在從誰的A100更多、更高端，逐步轉向誰能構建更完整的軟硬件體系。

封面來源：AI生成

參考資料

繼續閱讀：

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.