![]()
出品 | 妙投APP
作者 | 董必政
編輯 | 丁萍
頭圖 | AI制圖
DeepSeek-V4終于來了。
4月24日,全新系列模型DeepSeek-V4預覽版本正式上線,并同步開源。
DeepSeek-V4開創了一種全新的注意力機制,在token維度進行壓縮,結合DSA稀疏注意力(DeepSeek Sparse Attention),實現了全球領先的長上下文能力,并且相比于傳統方法大幅降低了對計算和顯存的需求。
可別小瞧了,DeepSeek-V4大幅降低了對計算和顯存的需求。
妙投認為,這將直接削弱英偉達GPU的優勢。值得注意的是,DeepSeek-V4還優先適配國產芯片廠商。
換句話說,別高估英偉達的護城河,也千萬別低估DeepSeek正在掀起的這場架構革命。關鍵不在“誰替代誰”,而在AI產業鏈的利潤分配、部署路徑和投資邏輯,可能正在變。
一、戴著“鐐銬”起舞
過去兩年,AI大模型主要看的是訓練,拼的是算力。
在一定程度上,AI基礎大模型的競爭,本質就是GPU算力基礎設施的競爭。誰能買到更多高端GPU,誰能堆出更大的集群,誰就更有機會做出更強的基礎模型。
然而,由于美國通過出口管制,禁止英偉達H100/H200等頂級芯片對華銷售。此外,臺積電先進制程等已經被美國卡死了,國產GPU卡與英偉達卡仍有一定的差距。
“國內GPU廠商都是戴著“鐐銬”與英偉達同臺競技的”,一位GPU企業人士曾向妙投形容。
有意思的是,就是在這樣的逆風局下,這兩年中美大模型的差距開始逐步縮小,甚至接近拉平。
2023年底,中美的頂級模型在各大維度的差距還在20%-30%之間徘徊。4月14日,斯坦福大學HAI實驗室發布2026年度《AI指數報告》,這份長達423頁的行業權威報告顯示,中美大模型性能差距已收窄至2.7%,基本實現技術追平。
妙投認為,如果把中美AI大模型性能差距看作結果,那么英偉達GPU并非決定性因素。
這一方面,歸結于國產芯片崛起及中國電力基礎設施的完備。
黃仁勛在最近訪談中表示,“AI本質上是并行計算問題,中國完全可以通過堆疊更多芯片來彌補單顆芯片的制程差距,中國有那么多能源,如果愿意,完全可以把更多芯片組合在一起,即使制程落后幾個納米。”
實際上,不少國內GPU廠商已實現了萬卡集群,以彌補單卡算力的短板。比如:摩爾的夸娥萬卡集群、沐曦的曦源一號SADA萬卡集群。
另一方面,則歸結于DeepSeek為代表的大模型企業脫穎而出。
DeepSeek用軟件上的前瞻性設計,主動去適配和賦能國產硬件,為國產芯片鋪平道路。
比如:DeepSeek-V3驗證了FP8在大規模模型訓練的可用性,在不增加額外開銷的情況下擴大了模型訓練規模且不影響模型訓練質量。
打個比方,過去,要完成一個復雜的AI計算任務,需要幾臺巨大、精密且昂貴的德國進口機床(代表英偉達的高精度GPU)。而現在,DeepSeek通過改變任務的加工流程(即改變數據格式),使得這個任務可以被幾十臺小巧、簡單且便宜的國產機床(代表國產GPU的計算單元)組成的流水線高效完成。
即便如此,英偉達GPU仍讓海外大模型在訓練上更勝一籌。
但從產業演進看,大模型訓練只是第一階段。大模型做出來之后,真正決定商業化速度和產業滲透深度的,是推理。尤其是,Openclaw、Hermes為代表的Agent爆火之后。
二、英偉達贏了訓練,但推理才剛開始
訓練和推理是兩種不同的模式。
Claw類Agent爆發,長上下文記憶能力就是核心導火索。
以前的AI只會聊天、轉頭就忘,魚的記憶;而Claw能記住一切、持續干活、越用越懂你,記憶讓它從 “玩具” 變成 “工具”。
當上下文越來越長、Agent記憶越來越深、工具調用越來越頻繁的時候,GPU的顯存會被KV cache(記憶緩存)撐爆,大模型的推理質量就會下降。
因此,推理爆發的第一個瓶頸,不是算力不夠,是”記憶"和"計算"搶同一塊顯存。
對國產GPU而言,算力(峰值 TFLOPS)不是最大瓶頸,是顯存。而英偉達GPU在顯存技術上擁有領先其他廠商1-2年的代際優勢。
英偉達的主流數據中心GPU(如A100、H100)的單卡顯存容量通常標配為80GB,而最新一代Rubin GPU搭載8顆36GB的HBM4內存顆粒(總容量 288GB),顯存總帶寬提升13 TB/s。
國產芯片受限于先進制程,顯存容量和帶寬都更低,仍需突圍。比如:昇騰910B的顯存容量為64GB。
按照此前梁文鋒發布的論文,這次DeepSeek-V4應采用了獨特的Engram架構,而Engram恰好解決的是顯存容量瓶頸。
DeepSeek-V4的做法是,把模型里那些“死記硬背”的靜態知識抽出來,塞進一個巨大的內存表里;推理時,CPU負責“查字典”(檢索知識),GPU只負責“想邏輯”(計算推理)。
這兩者是完全重疊執行的。當GPU在算上一個詞的邏輯時,CPU已經把下一個詞所需的知識搬到了門口。由于延遲被這種并行架構徹底掩蓋,AI單位時間內的產出效率呈幾何級數提升,GPU顯存不再被KV cache撐爆。
比如:一個需要80GB顯存才能跑的長上下文推理任務,在Engram架構下,可能只需要8GB顯存就能跑。
這意味著國產GPU在顯存受限的情況下,也能完成同樣的任務,而英偉達引以為傲的HBM顯存稀缺性面臨崩塌。同時,CPU也將迎來爆發。
此外,更值得關注的是,DeepSeek-V4即將發布,這次沒有按行業慣例給英偉達早期測試權限,把提前適配的機會全部留給了華為和寒武紀。目標是從CUDA生態整體遷移到華為CANN框架。
雖然英偉達的CUDA生態短期不會被取代,但已經出現了裂縫。這也意味著DeepSeek無論在開源生態還是國產自主上依然有著其強力的生態位。
據媒體報道,為應對基于該模型云服務上線需求,阿里巴巴、字節跳動和騰訊等科技巨頭已提前下單華為新一代AI芯片,訂單規模達數十萬顆。
可以預見的是,這次即將發布的DeepSeek-V4,也將給AI投資帶來新的預期。
三、新的投資預期
從投資角度看,妙投認為DeepSeek-V4將直接利好兩大方向:國產算力及AI應用。
1.國產算力
如果DeepSeek-V4確認是完全基于國產算力訓練出來的,那這將是國產芯片史上的“DeepSeek時刻”。這證明了即便沒有H100,我們也能跑出世界一流的大模型。
這帶來的邊際變化是大超預期的。這個預期,不亞于Google憑借自研的TPU芯片訓練出Gemini。要知道,Google已成為巴菲特的伯克希爾持倉標的。
此前,市場對國產算力的預期大多停留在“自主可控”的宏大敘事邏輯上,而V4將把邏輯推向“好用且必需”的商業邏輯。
這次受益的最大方,便是國產GPU廠商。華為、寒武紀已經明牌了。其他國產GPU廠商也將積極適配DeepSeek大模型。從確定性來看,以華為、寒武紀為代表的國產芯片、國產服務器及相關配套廠商的受益確定性最高。
展望2026年,寒武紀、壁仞科技、天數智芯等5家已上市AI芯公司Wind一致預期收入同比增長約120%到約257億人民幣。
此外,從彈性上來看,沐曦股份預期2026年將扭虧為盈,有望成為繼寒武紀之后另一家盈利的GPU廠商,從而實現商業閉環。
因此,國產算力將為AI投資繼續關注的重點。
2.AI應用
除了適配國產算力的推理需求,DeepSeek-V4可能通過創新架構(mHC和Engram技術)進一步降低訓練和推理成本,加速中國AI價值鏈創新周期。
同時,DeepSeek有望幫助全球大語言模型和AI應用企業加速商業化進程,從而緩解日益沉重的資本開支壓力。
隨著Engram架構落地,GPU顯存需求降低90%,推理的硬件成本會大幅壓縮。這對終端部署(邊緣AI推理)是重大利好。
此外,今年1月以來,A股AI應用板塊表現低迷,核心痛點是“大模型吞噬軟件”的恐懼。AI應用已經進入了“殺邏輯”的階段。
但DeepSeekV4的發布可能改善這個情緒。對于國內A股的應用公司來說,大模型更像是一種廉價的基礎設施,有利于優化成本。
妙投認為,與核心數據綁定較為緊密的AI應用企業、相關云服務廠商,也將有望迎來邊際改善。
小結
英偉達依舊是訓練大模型最強的基礎設施,這一點沒有懸念。短期內,它在高端訓練GPU、CUDA生態和集群能力上的優勢,依然很難被替代。
不可忽視,英偉達的優勢正在逐步被DeepSeek“曲線救國”式地瓦解。
DeepSeek-V4率先適配國產芯片以及創新正在試圖證明,AI推理不一定只能靠最貴的GPU繼續往前推,系統級優化、軟硬協同和本地化部署,同樣可以打開一條新路。而國產算力又能往前再走一步。
不要高估了英偉達,也不要低估了DeepSeek和國產算力。
本文來自虎嗅,原文鏈接:https://www.huxiu.com/article/4852245.html?f=wyxwapp
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.