![]()
機器之心編輯部
終于,全球 AI 圈等待了幾個月的 DeepSeek V4,它終于來了!
今天上午,DeepSeek API 文檔上線,讓我們看到了新版本的「廬山真面目」。
此次,DeepSeek V4 按大小會有兩個版本,分別是DeepSeek-V4-Flash 和 DeepSeek-V4-Pro。上下文長度大家此前已經知道了,是 100 萬 tokens。同時,輸出長度最大為 384K tokens。
![]()
就在剛剛,DeepSeek 官方正式宣布上線并開源「DeepSeek-V4 預覽版」
- 開源鏈接:https://huggingface.co/collections/deepseek-ai/deepseek-v4
根據官方的介紹,此次 DeepSeek-V4 在 Agent 能力、世界知識和推理性能上均實現國內與開源領域的領先。
![]()
兩個版本,V4-Pro 與 V4-Flash 的最大上下文長度均為 1M,且同時支持「非思考模式」與「思考模式」,其中思考模式支持 reasoning_effort 參數設置思考強度(high/max)。對于復雜的 Agent 場景建議使用思考模式,并設置強度為 「max」。
![]()
DeepSeek-V4 發布同時,也公布了其詳細的技術報告。
![]()
- 技術報告鏈接:https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf
該系列包括 DeepSeek-V4-Pro(1.6T 參數,49B 激活)和 DeepSeek-V4-Flash(284B 參數,13B 激活),兩者均支持一百萬令牌的上下文長度,旨在提升超長上下文場景下的性能。該系列的關鍵創新包括:
1.混合注意力架構:結合了 壓縮稀疏注意力(CSA) 和 高度壓縮注意力(HCA),這一新方法顯著減少了計算復雜度,提升了長上下文處理的效率,特別適用于涉及數百萬令牌的任務。
2.流形約束超連接(mHC):增強了傳統殘差連接,提高了信號在層之間傳播的穩定性。
3.Muon 優化器:設計用于加速收斂和提高訓練穩定性,Muon 優化器顯著提升了訓練過程中的模型性能。
4.訓練和后訓練管道:該模型在大量數據集(DeepSeek-V4-Flash 使用 32T 令牌,DeepSeek-V4-Pro 使用 33T 令牌)上進行了預訓練,隨后通過專門的訓練和策略蒸餾進一步優化,確保它們在推理、編程和世界知識任務中表現出色。
5.長上下文效率:這些模型在推理 FLOPs 和 KV 緩存大小 上都實現了顯著減少,使得處理一百萬令牌成為可能。例如,DeepSeek-V4-Pro 在與前代模型 DeepSeek-V3 的對比中,FLOPs 降低了 73%,KV 緩存大小減少了 90%。
6.評估結果:DeepSeek-V4-Pro-Max 版本在推理和知識任務上設定了新基準,超越了之前的開源模型,并接近一些專有模型的水平。DeepSeek-V4-Flash-Max 在更多高效的參數規模下,提供了相當的推理性能。
總的來說,DeepSeek-V4 系列在大規模語言模型的效率上邁出了重要一步,能夠有效處理超長序列,從而為復雜的長時間跨度任務開辟了新的可能性。
在另一邊,大家一直在關心 DeepSeek V4 是否使用國產算力,結果也終于揭曉。之前就有報道 DeepSeek V4 新模型,將采用華為技術公司設計的最新芯片,也是真的。
我們發現,昇騰 CANN 將在今晚 7 點直播 DeepSeek V4在昇騰平臺的首發
![]()
值得一提的是,寒武紀在軟硬一體生態中,已經完成基于 vLLM 推理框架完成對 285B DeepSeek-V4-flash 和 1.6T DeepSeek-V4-pro 的Day 0 適配,適配代碼已開源到 GitHub 社區。
DeepSeek 官方在發布推文最后說道:「不誘于譽,不恐于誹,率道而行,端然正己。」出自《荀子?非十二子》,是一種超然,任東西南北風的態度。
剩下的,就是大家親自體驗到 DeepSeek-V4 了!
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.