網易首頁 > 網易號 > 正文申請入駐

沒想到！DeepSeek V4里，竟還藏著一個中國萬億開源模型

2026-04-24 19:28:37　來源: 新智元

北京舉報

分享至

新智元報道

編輯：好困

【新智元導讀】DeepSeek V4，1.6萬億參數，Codeforces人類第23，KV緩存砍到1/10。同一周Kimi K2.6萬億MoE開源，也在推國產芯片混合推理。中國AI的底座和芯片，同時動了。

DeepSeek V4，炸了！

1.6萬億參數，百萬token上下文KV緩存砍到前代的十分之一，Codeforces評分3206直接超過GPT-5.4，在人類選手中排第23。

開源權重、API、近60頁技術報告一起扔出來，社區已經開始拆了。

但我們翻完技術報告準備收工的時候，突然反應過來一件事。

這周一，Kimi K2.6剛剛開源。萬億參數MoE模型，支持300個子Agent協同，OpenRouter調用量直接沖到全球第一。

等等。

同一周，兩個萬億參數中國開源模型先后落地？真的不是約好的嗎？

頂尖玩家總在同一個山口相遇

回看過去15個月，DeepSeek和Kimi的瞄準的技術方向和發布時機，對齊到讓人懷疑是約好的。

2025年1月，DeepSeek-R1推理模型和Kimi K1.5多模態思考模型同日上線，相隔僅兩小時。OpenAI 的Paper 也指出他們兩家是最早復現o1思維鏈的團隊。

2025年2月，兩家前后腳發論文，都在改造Transformer注意力機制。DeepSeek的NSA做原生稀疏注意力，Kimi的MoBA做混合塊注意力，

2025年4月，Kimi推出 Kimina-Prover Preview數學推理專項模型沒多久，DeepSeek-Prover-V2 也發布，都走了「自驗證」路線來證明數學定理。

2026年初，DeepSeek用mHC流形約束超連接來改造深度學習網絡中的「殘差連接」。到了3月，Kimi放出新技術「注意力殘差」，直接將Transformer的核心原理「注意力」應用到「殘差連接」上，引發Karpathy、馬斯克等大神稱贊。

2026年4月，萬億開源模型 Kimi K2.6和DeepSeek V4同周上線。

你用我驗過的注意力機制

我用你驗過的優化器

多次「相遇」的表面之下，是一個更微妙的現象，兩家公司的技術在互相加持。

Kimi K2的注意力機制采用了DeepSeek首創的MLA（Multi-head Latent Attention）。

傳統多頭注意力需要為每個注意力頭單獨存儲Key和Value，上下文越長KV緩存越大。

MLA的做法是把Q/K/V壓縮到一個低秩的latent向量中，推理時只需緩存這個壓縮向量再解壓，KV緩存量大幅縮減。

在這套注意力機制上，K2擴展到了萬億參數的MoE模型。

反過來，DeepSeek V4采用了Muon優化器。

主流的AdamW對每個參數獨立做自適應縮放，Muon則對整個梯度矩陣做Newton-Schulz正交化，讓更新方向在矩陣空間中更均勻。

Muon最初由Keller Jordan等人提出，但只在小模型上驗證過。

2025年初，Kimi團隊的Moonlight論文中首次把Muon擴展到大規模訓練，實驗顯示相同算力下Muon的計算效率約為AdamW的兩倍。

2025年中，在萬一參數的K2模型上，進一步開發出MuonClip，加入QK-clip來控制注意力logits的數值范圍，實現了15.5萬億token預訓練全程零loss spike。

V4技術報告里引用 Kimi 的Muon優化器論文，寫得很明確，對大部分參數使用Muon優化器，帶來更快的收斂和更好的訓練穩定性。

底層技術上的同頻還不止于此，至少還有三條線在平行推進。

KV緩存。

Kimi的Mooncake把KV緩存做了分離式存儲和調度，DeepSeek V4設計了異構KV緩存結構，把壓縮KV和滑動窗口KV分開管理并支持磁盤級存儲。都在解決同一個工程瓶頸。

長上下文。

Kimi 2024年做了百萬上下文的模型實驗，是國內最早把「長文本」從技術概念變成用戶記憶點的公司，但當時成本還沒降下來。

長上下文真正的難點從來都在成本端，讀得越長，賬單越難看，延遲越難控，KV緩存越堆越高。讀得起、讀得穩、讀完還能干活，才是產品化門檻。

DeepSeek V4這次接過了這根棒，設計了CSA（壓縮稀疏注意力，每4個token的KV合并后再做top-k選擇）和HCA（重壓縮注意力，壓縮率128倍但保持全局稠密計算）交替堆疊，推理算力降到V3.2的27%，KV緩存只剩十分之一。

注意力架構的下一步。

DeepSeek押稀疏注意力，核心假設是長序列中大部分KV條目對當前query貢獻極小，可以安全跳過。

Kimi下一代模型探索線性注意力，核心假設是注意力計算本身可以被重新表述為線性形式，把復雜度從序列長度的平方降到線性。

一個在篩選哪些token值得看，一個在改寫「看」這個動作本身的計算規則。

殊途同歸，都在往Transformer最要命的成本結構里動刀。

老黃的PPT里，兩個都是中國的

2026年初的CES大會上，黃仁勛展示Rubin NVL72性能的slide里，訓練基準用的是DeepSeek，推理吞吐和token成本基準用的是Kimi K2-Thinking。

同一張PPT，兩個中國開源模型。

Meta的Muse Spark官方Blog里也出現了類似的畫面。

在代碼困惑度對比圖中，用來對標的外部模型，就是Llama 4 Maverick、DeepSeek-V3.1 Base和Kimi-K2 Base。

衡量模型在未見過的代碼庫上的理解能力，越低越好

老外「套殼」的首選模型

2026年3月19日，估值500億美元的AI編程工具Cursor發布「自研」模型Composer 2。

結果還不到一天，就被開發者在API日志中扒出了模型ID「kimi-k2p5-rl-0317-s515-fast」。

也就是說，Composer 2的底座就是Kimi K2.5。

Cursor創始人承認「沒在博客里提到Kimi基座是我們的疏忽」，并表示「基于困惑度評估，Kimi K2.5是我們測試過的最強基座模型」。

無獨有偶，日本樂天同月發布的Rakuten AI 3.0，底座也被社區發現是DeepSeek V3。

開發者端的數據也印證了這個趨勢。

今天的OpenRouter調用量排行榜上，Kimi K2.6以297B tokens排名第一，DeepSeek V3.2以204B tokens排名第四。

前五名里兩個中國模型，中間夾著Claude。

同一個方向，同一張桌子

而在芯片這條暗線上，兩家也在同一個方向推進。

V4技術報告明確寫到，細粒度專家并行方案同時在NVIDIA GPU和華為Ascend NPU上完成了驗證。Kimi新論文《Prefill-as-a-Service》則引入分離式架構，推進國產芯片的混合推理方案。

值得一提的是，梁文鋒和楊植麟都先后參加了總理座談會，都是中國AI領域被點名的代表。

兩家公司都在2023年起步，兩年多時間成長為中國AI創業公司中最受關注的兩家，也是業內公認人才密度最高的團隊。

競爭是表面，加速是結果

如果只有一家，可以說是個例。

但同一周兩個萬億參數開源模型同時落地，背后的技術還在互相滲透，被GTC和Meta選為性能基準，被Cursor和Rakuten拿去當底座。

當某些閉源模型之間還在互相猜忌的時候，這兩家已經在論文里互相引用、在代碼里互相復用了。

這大概就是開源最硬的復利。

參考資料：

https://github.com/MoonshotAI/Kimi-K2/blob/main/tech_report.pdf

https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf

https://openrouter.ai/rankings?view=day

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

新智元

AI產業主平臺領航智能+時代

15069文章數 66806關注度

往期回顧全部

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

家居

本地

游戲

時尚

公開課

家居要聞

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
七個無法存下錢的壞習慣
李彥宏：百度離破產30天

手機 / 數碼

房產 / 家居

沒想到！DeepSeek V4里，竟還藏著一個中國萬億開源模型

漲價浪潮下，DeepSeek推動AI“價格戰”

金店電子稱旁現拇指大小遙控器 商家可遠程遙控改重量

金店電子稱旁現拇指大小遙控器 商家可遠程遙控改重量

森林狼3比1掘金：逆境中殺出了多孫穆？！

《八千里路云和月》大結局意難平

DeepSeek V4背后，梁文鋒的轉身

預售19.38萬元起 哈弗猛龍PLUS七座版亮相

態度原創

自然肌理 溫潤美學

云游中國｜逛世界風箏都 留學生探秘中國傳統文化

微軟更新Xbox品牌標識 回歸經典黑綠配色致敬初代

IU的臉，真的有自己的時間線

金店電子稱旁現拇指大小遙控器商家可遠程遙控改重量

金店電子稱旁現拇指大小遙控器商家可遠程遙控改重量

預售19.38萬元起哈弗猛龍PLUS七座版亮相

自然肌理溫潤美學

云游中國｜逛世界風箏都留學生探秘中國傳統文化

微軟更新Xbox品牌標識回歸經典黑綠配色致敬初代