1.6 萬億參數的超大模型。
居然在國產芯片上成功跑了起來。
DeepSeek V4 剛發布就打響價格閃電戰。
背后還藏著行業不為人知的硬核硬仗。
![]()
直接回擊外界說 DeepSeek 迭代慢的質疑。
這次 V4 參數規模直接達到 1.6T。
是 V3 版本的整整兩倍。
穩居開源模型里的最高梯隊。
完全有實力和頭部 AI 廠商正面叫板。
更亮眼的是實現了國產算力深度適配。
DeepSeek 把華為昇騰、英偉達寫入技術報告。
在昇騰 NPU 實現 1.5 到 1.73 倍推理加速。
也成為全球首個萬億參數模型。
能在國產算力底座完成訓練與推理。
千芯科技董事長陳巍這樣評價。
整個適配過程如同爬雪山、過草地。
巨大的適配工作量擺在面前。
讓團隊沒法全力投入性能優化。
但市場已經給出了正向反饋。
發布當天寒武紀、摩爾線程等。
國產芯片企業股價上漲 2% 至 7%。
還官宣全量適配 DeepSeek V4。
V4 發布同時甩出重磅價格炸彈。
Pro 版 API 限時給到 2.5 折優惠。
福利時效一直延續到 2026 年 5 月。
緩存命中輸入低至 0.025 元。
未命中 3 元,輸出定價 6 元。
相比原價直接大幅下調。
價格幾乎和 Flash 版處在同一水平。
官方透露下半年昇騰 950 批量上市。
后續模型價格還會繼續下調。
當下行業普遍在上調 Token 定價。
只有 DeepSeek 選擇逆勢降價。
是算力儲備充足,還是用戶熱度不足?
上線前兩天 API 和網頁對話都很穩定。
全程沒有出現服務器擁堵情況。
市場整體反響也相對冷靜。
這背后暗藏的行業信號很值得琢磨。
V4 在架構上有著亮眼創新。
采用 CSA+HCA 混合注意力機制。
把 Token 壓縮做到了極致水平。
推理 FLOPs 僅為 V3.2 的 27%。
KV 緩存更是直接降到 10%。
業內專家指出 V4 用了混合精度。
FP4+FP8 的搭配模式。
相比通用 FP32 犧牲了部分準確率。
1.6 萬億超大參數加持下。
模型輸出穩定性也迎來不小考驗。
實測給 V4 做技術報告翻譯解讀。
完整翻譯流程用了 20 分鐘。
短板更明顯體現在編程能力上。
技術報告里 Coding 測試集多處空白。
沒有和月之暗面、智譜主流模型對標。
DeepSeek 解釋對方 API 繁忙無法查詢。
也折射出 AI 行業殘酷的競爭現狀。
頭部玩家把 Coding 當作戰略制高點。
API 調用量一路暴漲居高不下。
編程能力直接影響 MaaS 業務收入。
也左右著大客戶的付費合作意愿。
補齊 Coding 短板成了必闖的關卡。
V4 的意義早已不局限于模型本身。
更證明了國產大模型自主可控可以落地。
適配國產算力也付出了不小代價。
用低精度混合精度降低顯存壓力。
強化稀疏注意力減少芯片通信損耗。
優化 MoE 策略提升整體運行穩定性。
甚至放棄部分極端基準刷分成績。
胡延平教授給出專業解讀。
超大模型訓練對集群要求極高。
每一張芯片都要維持最佳運行狀態。
任何一個環節出現不穩就容易失敗。
動輒一兩個月的訓練任務。
隨時都有崩盤重來的風險。
DeepSeek 走出了全棧遷移的第一步。
背后依靠整個產業鏈的協同配合。
芯片良率、性能、基建部署都要跟上。
是整個行業同步成長、水漲船高的過程。
V4 暫時平息了外界的技術質疑。
人才、資本、行業競爭缺一不可。
過去五個月已經有 10 名核心人員離職。
代碼核心負責人郭達雅。
被同行以億元年薪高薪挖走。
他深度參與 V3、Coder 等關鍵模型研發。
骨干人才不斷流失。
不僅打亂研發迭代節奏。
還可能動搖整體技術發展路線。
市場還傳出 DeepSeek 融資消息。
整體估值達到 200 億美元。
阿里、騰訊都被列為潛在投資方。
胡延平分析,模型升級需要巨額投入。
Token 工廠時代本身就是燒錢賽道。
更深層的難題依舊亟待破解。
如何把模型優勢轉化為持續收入?
如何建立不依賴個人的成熟技術體系?
如何平衡技術探索與商業交付落地?
讓 DeepSeek 留在行業最強玩家序列。
但國產大模型的真正決戰,才剛剛開始。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.