網易首頁 > 網易號 > 正文申請入駐

DeepSeek-V4雖遲但到！百萬上下文成標配華為昇騰和英偉達均被寫進其技術報告

2026-04-24 15:42:07　來源: 財聯社

上海舉報

分享至

財聯社4月24日訊（記者付靜）今日上午深度求索官宣，全新系列模型DeepSeek-V4的預覽版本正式上線并同步開源，API服務也已同步更新。據稱，DeepSeek-V4擁有百萬字超長上下文，在Agent能力、世界知識和推理性能上均實現了國內與開源領域的領先，深度求索官方稱“邁入百萬上下文普惠時代”。

DeepSeek可謂2025年科技圈的“頂流”，今年初曾有消息傳出DeepSeek-V4將在今年春節前后發布，一時間業內討論度升溫，大模型行業競爭也空前激烈，新產品扎堆上線、C端營銷玩法豐富、新概念層出不窮、技術譜系加速擴展。不過時至今日，DeepSeek-V4才終于亮相。

“每家廠商看它其實都有壓力。”一位長期與幾家國產模型廠商、互聯網大廠合作的AI產業鏈人士向財聯社記者如此形容DeepSeek。

財聯社記者此前多方采訪獲悉，通過接入DeepSeek并將其與多款國產大模型進行協同應用，國內不少垂類平臺、場景實現了成本與效率的兼顧。因此DeepSeek的下一代旗艦模型也受到用戶期待，其中，DeepSeek-V4的上下文長度、Agent能力、推理成本、AI編程能力、多模態能力、模型參數維度等均是行業關注重點。

DeepSeek時刻再到來

深度求索方面介紹，DeepSeek-V4模型按大小分為DeepSeek-V4-Pro、DeepSeek-V4-Flash兩個版本，上下文長度均為1M（一百萬）。“從現在開始，1M上下文將是DeepSeek所有官方服務的標配。”

DeepSeek-V4-Pro的最大亮點在于Agent能力大幅提高。在Agentic Coding評測中，V4-Pro已達到當前開源模型最佳水平，目前DeepSeek-V4已成為公司內部員工使用的Agentic Coding模型，據評測反饋使用體驗優于Sonnet 4.5，交付質量接近Opus 4.6非思考模式，但仍與Opus 4.6思考模式存在一定差距。

同時，DeepSeek-V4-Pro在世界知識測評中，大幅領先其他開源模型，僅稍遜于閉源模型Gemini-Pro-3.1。推理性能方面，其在數學、STEM、競賽型代碼的測評中超越了當前所有已公開評測的開源模型，取得了比肩世界頂級閉源模型的優異成績。

相比之下，DeepSeek-V4-Flash則被稱為是“更快捷高效的經濟之選”，模型參數和激活更小。

值得關注的是DeepSeek-V4的結構創新。

據稱，DeepSeek-V4開創了一種全新的注意力機制，在token維度進行壓縮，結合DSA稀疏注意力（DeepSeek Sparse Attention），實現長上下文能力，并且相比于傳統方法大幅降低了對計算和顯存的需求。

財聯社記者還注意到，深度求索罕見地將華為昇騰和英偉達共同寫進DeepSeek-V4技術報告：“我們在英偉達GPU和華為昇騰NPU平臺上驗證了細粒度EP（專家并行）方案。”

DeepSeek表示，受限于高端算力，目前DeepSeek-V4-Pro的服務吞吐十分有限，預計下半年昇騰950超節點批量上市后，Pro的價格會大幅下調。

DeepSeek-V4的亮點還在于Agent能力，其針對Claude Code 、OpenClaw、OpenCode、CodeBuddy等主流Agent進行了適配和優化，在代碼任務、文檔生成任務等方面表現均有提升。

財聯社記者注意到，自今年1月以來，前述的DeepSeek-V4部分技術創新點已經被“劇透”。

2月11日，DeepSeek的App端和網頁端已經悄然開始灰度測試一項重大升級。財聯社記者實測了解到，模型上下文窗口長度直接增至1M token。DeepSeek稱，“一次性讀完《三體》三部曲沒問題，70萬個中文字符以內隨便發。”此外，版本模型知識庫截止時間更新至2025年5月。

2月11日灰度測試版DeepSeek的回復

在此之前，DeepSeek還罕見地連發兩篇論文，公司創始人梁文鋒均署名參與。

其中，第一篇論文公開的mHC（Manifold-Constrained Hyper-Connections，流形約束超連接），解決了大規模模型訓練中的穩定性問題；第二篇論文提出了名為Engram（條件記憶）的全新模塊，其顛覆性在于實現了適配超長上下文場景的“存算分離”。DeepSeek實測數據顯示，即使掛載了100B（千億）參數的Engram表到CPU內存，相比于純GPU推理，吞吐量的下降不到3%。

野村證券在一份研報中預測，V4在技術路徑上將融合mHC和Engram，其技術突破將有效打破“芯片墻”與“內存墻”的桎梏。

據了解，DeepSeek的V系列是通用大模型的主線迭代版本，擅長百科、寫作、代碼生成等常規任務，響應速度快。2024年初、年中、年末，DeepSeek-V1、V2、V3分別上線。DeepSeek的R系列則側重推理增強，擅長數學、物理、邏輯謎題等需要分步思考的任務，會展示詳細的“思維鏈”。去年1月22日，DeepSeek-R1相關論文發布。

從DeepSeek迭代進展看，去年V系列先后完成小版本升級（版本號DeepSeek-V3-0324）、發布DeepSeek-V3.1、更新至DeepSeek-V3.1-Terminus版本、發布DeepSeek-V3.2-Exp模型（實驗性版本）、發布正式版DeepSeek-V3.2和DeepSeek-V3.2-Speciale等動作。

值得一提的是，目前DeepSeek仍未上線多模態能力，專注于純文本和語音交互。

此前，財聯社記者與灰度測試版DeepSeek對話，其表示，自身還不具備“原生”的多模態理解能力。財聯社記者進一步詢問當前版本號，其回應：“關于我目前的具體版本，情況有些特殊：這次更新后，我并沒有一個像V4或R1那樣具體的版本號。”

2月14日灰度測試版DeepSeek的回復

AI產品經理張亮告訴財聯社記者，“未來要實現AGI，AI大模型一定是多模態融合的方向，這是一個共識。多模態于DeepSeek而言可能是繞不過去的一個能力，未來不僅僅是要理解文本，還能理解圖片、視頻甚至物理事件。”

行業將迎新一輪“洗牌”？

深度求索官方在DeepSeek-V4官宣文稿的最后，提到一句出自《荀子·非十二子》的“不誘于譽，不恐于誹，率道而行，端然正己。”

過去幾個月，業內不斷傳出DeepSeek-V4“跳票”、公司人才流失嚴重、對外尋求融資、去CUDA化等消息。《財經》雜志今日上午發布的獨家消息稱，DeepSeek計劃融資18億美元，投資方為阿里和騰訊。

一向較為低調的深度求索似乎用上述16個字做出了回應，背后深意值得品味。

那么，DeepSeek-V4的問世，是否可能引發行業的新一輪洗牌？

在張亮看來，會不會引發新一輪洗牌，重點還是看DeepSeek-V4整個范式、代際上是否有重大提升。他提到，參考去年備受矚目的DeepSeek-R1，思維鏈和推理成本大幅下降就是明顯的兩點提升。

不過IDC中國研究總監盧言霞則告訴財聯社記者，這款?被寄予厚望的新品“談不上會對市場格局帶來大的洗牌，因為DeepSeek已經是數一數二了。”

此前，盧言霞表示，面對DeepSeek-V4，幾家大廠“一定會有壓力”。原因在于，DeepSeek是開源模型，而當前行業企業用戶傾向于私有化部署，一般會選擇開源模型。“所以如果DeepSeek繼續保持技術領先優勢，那它有望成為事實上的Top1大模型。”

財聯社記者也從業內獲悉，隨著模型上限不斷接近、模型更迭更加頻繁，各廠商如何結合自身優勢，借勢模型能力的提升鞏固生態占位，或將是下半場競爭的核心。

回顧2025年初，憑借著開源和低成本的優勢，DeepSeek曾打破了原有市場格局，科技巨頭和頭部初創模型廠商紛紛感受到壓力。

2026年則更像是中國AI模型產品“大年”。

2月，或是由于業內傳言DeepSeek-V4即將發布消息，國內幾家科技巨頭趁著春節再度打響流量入口戰。從成效來看，各廠商的營銷投入推動了AI應用普及，豆包、元寶、千問與DeepSeek均躋身“月活躍用戶（MAU）億級俱樂部”。

同時，在產品層面，字節跳動視頻生成模型Seedance 2.0、圖像模型Seedream 5.0 Lite引發廣泛關注，2月14日豆包大模型2.0正式發布。除夕夜，阿里還開源了新一代千問Qwen3.5模型。

幾乎同一時間，幾家模型廠商也拋出重磅炸彈，Kimi K2.5、GLM-5、MiniMax M2.5等模型密集發布。

而在本月，包括Qwen3.6-Plus、Xiaomi MiMo-V2.5、Hy3 preview在內的多款模型也發布。

技術譜系加速擴展

財聯社記者觀察到，自ChatGPT引爆此輪人工智能浪潮以來，產業創新迭代令人應接不暇，各頭部廠商均在持續刷新各方向SOTA（state-of-the-art，當前最高水平）、加速推動技術譜系擴展，特別是上下文、Agent能力等方面在近期受到關注。

上下文（Context）方面，從行業進展看，谷歌Gemini系列于2024年最早支持百萬級超長上下文，今年2月發布的Claude Opus 4.6剛剛實現此能力。

2月初，騰訊首席AI科學家姚順雨執掌AI之后的第一項公開署名研究發布，同樣聚焦上下文。其團隊指出，“要讓大模型學會從上下文中學習，遠比我們想象的要難。并且，即便抹平了上下文帶來的信息差，模型也未必能解決問題，這說明模型在上下文利用上，依然存在顯著的能力短板。”

Agent方面，開源AI智能體OpenClaw“龍蝦”成為現象級產品，即便并非是一款適合普通消費者的產品，但也推動了智能體的普及。

“3月開始‘龍蝦’爆火，4月很快就回歸了理性，熱度有所下降，不過產品的演化速度其實一點都沒有降低。我們的初步結論就是，‘龍蝦’所帶來的智能體的技術革命是不可逆轉的。”英特爾中國區技術部總經理高宇對財聯社記者表示。

Skills方面同樣熱度不低。

Agent Skills由元數據（簡要描述）、可配置腳本、執行模板和詳細說明等構成，支持復雜工作流的打包與復用，關鍵優勢在于可控性，通過結構化能力模塊與思維鏈編排機制，使大模型具備可控、可復用、可持續優化的研究執行能力，已應用于不少垂類場景，眾多廠商正在打造AI Skill生態，涉及智能搜索、視頻快剪、游戲輔助、安全護欄等多個場景。

此前，財聯社記者從金融科技服務商進門方面了解到，其AI產品“進寶”的“投研大腦”能力就類似于Agent Skills。“從行業進化角度看，Skills將推動AI應用從通用聊天走向領域專家；通過將特定工作流程固化為可復用的模塊，解決了通用模型懂道理卻不會按你的規矩干活的核心痛點；讓行業競爭壁壘從比拼基礎模型大小，轉向比拼高質量、專業化Skills生態的構建。”該公司CTO姜銳鋒介紹。

DeepSeek在多領域“出圈”

當前，2025年科技圈“頂流”DeepSeek的能力已在多領域“出圈”。

DeepSeek-V3上線后，隨后DeepSeek-R1在去年春節前夕橫空出世，引發全球關注，英偉達市值單日蒸發5930億美元。從隨后各廠商擁抱“頂流”的進展看，去年春節期間由科技公司打頭陣，三大運營商、阿里、騰訊、字節、百度等旗下云平臺、應用端產品等率先接入DeepSeek-R1/V3，隨后各地政府、央國企等也均在加速適配DeepSeek。

站在垂類應用視角，“不管是從歸納總結還是生成最終的回復上，DeepSeek對于投研行業的適配度還是很高的。”姜銳鋒介紹，其公司的AI產品方案更多地是多模型協同完成，包括用DeepSeek完成語義路由的能力，匹配最能解決用戶問題的投研思維鏈，用Kimi k2.5處理投研工具的調用，讓豆包模型對工具返回結果做裁剪，最終由DeepSeek來匯總輸出。這不僅解決了單一模型的能力問題，更通過分工隱含地兼顧了成本與效率。

野村證券研報此前也指出，預計mHC和Engram的結合將讓DeepSeek-V4更適合醫療、法律、金融等知識密集型領域的行業大模型訓練。

在軟件領域，去年上半年，財聯社記者在調研某A股軟件公司時注意到其辦公室內部墻壁上張貼的業務建議中提到，所有工作的目標和內容都關聯到DeepSeek，所有工作的過程和方法都充分運用DeepSeek。

圖片來源：財聯社記者/攝

騰訊元寶去年12月發布的《元寶×DeepSeek年度報告》稱，自去年2月接入DeepSeek以來，元寶持續更新DeepSeek的最新模型，用戶規模逐步擴大，報告發布當天使用量達到新高，較年初增長超過100倍。目前，元寶在國內原生AI應用中處于前三的位置。

硬件方面，一體機這一品類也因為DeepSeek走紅。據媒體不完全統計，截至去年2月底，就有超60家企業宣布基于DeepSeek推出一體機。市面上常見的一體機分為推理、訓推兩種，內置DeepSeek-R1 32B、70B、滿血版671B等不同尺寸模型。

去年年中，OPPO方面透露，旗下人工智能助手“小布助手”系全球接入DeepSeek設備量最大的手機智能助理。

站在開發者視角，張亮向財聯社記者提到這一群體對DeepSeek-V4的期待：開發者比較關注新模型在參數維度上是否更加全面。

他介紹，千問在開發者群體中的應用范圍非常廣，是因為模型參數涉獵的范圍非常廣。“哪怕是一個非常低配的GPU，也能夠去找到對應參數的小模型去部署。但是DeepSeek是缺乏這樣的小模型參數的，對于中小企業、開發者不太友好。”

此前，DeepSeek憑借開源策略和極致性價比，在全球建立了扎實口碑。而對于DeepSeek-V4，野村證券分析，其核心價值在于通過底層架構創新推動AI應用商業化落地，賦能本土算力硬件與AI應用雙向發展。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.