網易首頁 > 網易號 > 正文 申請入駐

沒想到!DeepSeek V4里,竟還藏著一個中國萬億開源模型

0
分享至


新智元報道

編輯:好困

【新智元導讀】DeepSeek V4,1.6萬億參數,Codeforces人類第23,KV緩存砍到1/10。同一周Kimi K2.6萬億MoE開源,也在推國產芯片混合推理。中國AI的底座和芯片,同時動了。

DeepSeek V4,炸了!

1.6萬億參數,百萬token上下文KV緩存砍到前代的十分之一,Codeforces評分3206直接超過GPT-5.4,在人類選手中排第23。

開源權重、API、近60頁技術報告一起扔出來,社區已經開始拆了。



但我們翻完技術報告準備收工的時候,突然反應過來一件事。

這周一,Kimi K2.6剛剛開源。萬億參數MoE模型,支持300個子Agent協同,OpenRouter調用量直接沖到全球第一。


等等。

同一周,兩個萬億參數中國開源模型先后落地?真的不是約好的嗎?

頂尖玩家總在同一個山口相遇

回看過去15個月,DeepSeek和Kimi的瞄準的技術方向和發布時機,對齊到讓人懷疑是約好的。

2025年1月,DeepSeek-R1推理模型和Kimi K1.5多模態思考模型同日上線,相隔僅兩小時。OpenAI 的Paper 也指出他們兩家是最早復現o1思維鏈的團隊。

2025年2月,兩家前后腳發論文,都在改造Transformer注意力機制。DeepSeek的NSA做原生稀疏注意力,Kimi的MoBA做混合塊注意力,

2025年4月,Kimi推出 Kimina-Prover Preview數學推理專項模型沒多久,DeepSeek-Prover-V2 也發布,都走了「自驗證」路線來證明數學定理。

2026年初,DeepSeek用mHC流形約束超連接來改造深度學習網絡中的「殘差連接」。到了3月,Kimi放出新技術「注意力殘差」,直接將Transformer的核心原理「注意力」應用到「殘差連接」上,引發Karpathy、馬斯克等大神稱贊。

2026年4月,萬億開源模型 Kimi K2.6和DeepSeek V4同周上線。

你用我驗過的注意力機制

我用你驗過的優化器

多次「相遇」的表面之下,是一個更微妙的現象,兩家公司的技術在互相加持。

Kimi K2的注意力機制采用了DeepSeek首創的MLA(Multi-head Latent Attention)。

傳統多頭注意力需要為每個注意力頭單獨存儲Key和Value,上下文越長KV緩存越大。

MLA的做法是把Q/K/V壓縮到一個低秩的latent向量中,推理時只需緩存這個壓縮向量再解壓,KV緩存量大幅縮減。

在這套注意力機制上,K2擴展到了萬億參數的MoE模型。


反過來,DeepSeek V4采用了Muon優化器。

主流的AdamW對每個參數獨立做自適應縮放,Muon則對整個梯度矩陣做Newton-Schulz正交化,讓更新方向在矩陣空間中更均勻。

Muon最初由Keller Jordan等人提出,但只在小模型上驗證過。

2025年初,Kimi團隊的Moonlight論文中首次把Muon擴展到大規模訓練,實驗顯示相同算力下Muon的計算效率約為AdamW的兩倍。

2025年中,在萬一參數的K2模型上,進一步開發出MuonClip,加入QK-clip來控制注意力logits的數值范圍,實現了15.5萬億token預訓練全程零loss spike。


V4技術報告里引用 Kimi 的Muon優化器論文,寫得很明確,對大部分參數使用Muon優化器,帶來更快的收斂和更好的訓練穩定性。


底層技術上的同頻還不止于此,至少還有三條線在平行推進。

KV緩存

Kimi的Mooncake把KV緩存做了分離式存儲和調度,DeepSeek V4設計了異構KV緩存結構,把壓縮KV和滑動窗口KV分開管理并支持磁盤級存儲。都在解決同一個工程瓶頸。

長上下文

Kimi 2024年做了百萬上下文的模型實驗,是國內最早把「長文本」從技術概念變成用戶記憶點的公司,但當時成本還沒降下來。

長上下文真正的難點從來都在成本端,讀得越長,賬單越難看,延遲越難控,KV緩存越堆越高。讀得起、讀得穩、讀完還能干活,才是產品化門檻。

DeepSeek V4這次接過了這根棒,設計了CSA(壓縮稀疏注意力,每4個token的KV合并后再做top-k選擇)和HCA(重壓縮注意力,壓縮率128倍但保持全局稠密計算)交替堆疊,推理算力降到V3.2的27%,KV緩存只剩十分之一。



注意力架構的下一步

DeepSeek押稀疏注意力,核心假設是長序列中大部分KV條目對當前query貢獻極小,可以安全跳過。

Kimi下一代模型探索線性注意力,核心假設是注意力計算本身可以被重新表述為線性形式,把復雜度從序列長度的平方降到線性。

一個在篩選哪些token值得看,一個在改寫「看」這個動作本身的計算規則。

殊途同歸,都在往Transformer最要命的成本結構里動刀。

老黃的PPT里,兩個都是中國的

2026年初的CES大會上,黃仁勛展示Rubin NVL72性能的slide里,訓練基準用的是DeepSeek,推理吞吐和token成本基準用的是Kimi K2-Thinking。

同一張PPT,兩個中國開源模型。


Meta的Muse Spark官方Blog里也出現了類似的畫面。

在代碼困惑度對比圖中,用來對標的外部模型,就是Llama 4 Maverick、DeepSeek-V3.1 Base和Kimi-K2 Base。


衡量模型在未見過的代碼庫上的理解能力,越低越好

老外「套殼」的首選模型

2026年3月19日,估值500億美元的AI編程工具Cursor發布「自研」模型Composer 2。

結果還不到一天,就被開發者在API日志中扒出了模型ID「kimi-k2p5-rl-0317-s515-fast」。

也就是說,Composer 2的底座就是Kimi K2.5。

Cursor創始人承認「沒在博客里提到Kimi基座是我們的疏忽」,并表示「基于困惑度評估,Kimi K2.5是我們測試過的最強基座模型」。



無獨有偶,日本樂天同月發布的Rakuten AI 3.0,底座也被社區發現是DeepSeek V3。


開發者端的數據也印證了這個趨勢。

今天的OpenRouter調用量排行榜上,Kimi K2.6以297B tokens排名第一,DeepSeek V3.2以204B tokens排名第四。

前五名里兩個中國模型,中間夾著Claude。


同一個方向,同一張桌子

而在芯片這條暗線上,兩家也在同一個方向推進。

V4技術報告明確寫到,細粒度專家并行方案同時在NVIDIA GPU和華為Ascend NPU上完成了驗證。Kimi新論文《Prefill-as-a-Service》則引入分離式架構,推進國產芯片的混合推理方案。



值得一提的是,梁文鋒和楊植麟都先后參加了總理座談會,都是中國AI領域被點名的代表。

兩家公司都在2023年起步,兩年多時間成長為中國AI創業公司中最受關注的兩家,也是業內公認人才密度最高的團隊。



競爭是表面,加速是結果

如果只有一家,可以說是個例。

但同一周兩個萬億參數開源模型同時落地,背后的技術還在互相滲透,被GTC和Meta選為性能基準,被Cursor和Rakuten拿去當底座。


當某些閉源模型之間還在互相猜忌的時候,這兩家已經在論文里互相引用、在代碼里互相復用了。

這大概就是開源最硬的復利。

參考資料:

https://github.com/MoonshotAI/Kimi-K2/blob/main/tech_report.pdf

https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf

https://openrouter.ai/rankings?view=day

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
CBA季后賽八強預測!廣東將2-1廣州,遼寧、青島、稠州有望晉級!

CBA季后賽八強預測!廣東將2-1廣州,遼寧、青島、稠州有望晉級!

軍武英雄
2026-04-25 19:30:20
四年暴跌120億,微信是怎么“殺死”口香糖行業的?

四年暴跌120億,微信是怎么“殺死”口香糖行業的?

流蘇晚晴
2026-04-19 20:34:47
非常炸裂:以色列列出全球黑名單,明確警告各國:反以,就是反猶

非常炸裂:以色列列出全球黑名單,明確警告各國:反以,就是反猶

吃貨的分享
2026-04-26 15:46:55
醫保局聯合財政部出新規!醫保賬戶調整,退休后每月還能返錢嗎?

醫保局聯合財政部出新規!醫保賬戶調整,退休后每月還能返錢嗎?

復轉這些年
2026-04-25 18:23:41
43+4,被打蒙了,1.3秒徹底爆發,氣死了!第一次見

43+4,被打蒙了,1.3秒徹底爆發,氣死了!第一次見

體育新角度
2026-04-26 15:40:51
悲催!畢業后拼到的浙江體制工作,被媽媽毀了,孩子現去新疆發展

悲催!畢業后拼到的浙江體制工作,被媽媽毀了,孩子現去新疆發展

火山詩話
2026-04-25 09:47:37
中國第一造反大省,古近代大小造反從未缺席!為何那么民風彪悍?

中國第一造反大省,古近代大小造反從未缺席!為何那么民風彪悍?

軒逸阿II
2026-04-26 05:21:49
埃澤世界波刷爆英超紀錄,阿森納1-0雙殺紐卡,重返領頭羊寶座

埃澤世界波刷爆英超紀錄,阿森納1-0雙殺紐卡,重返領頭羊寶座

釘釘陌上花開
2026-04-26 06:08:17
性感陰濕男,正在統治內娛

性感陰濕男,正在統治內娛

最人物
2026-04-25 14:56:19
女星陶昕然發長文回應被《乘風2026》淘汰,稱“想翻紅沒錯”:紅意味著選擇權,可我也知道這個世界不缺紅的方式,我會愛惜羽毛

女星陶昕然發長文回應被《乘風2026》淘汰,稱“想翻紅沒錯”:紅意味著選擇權,可我也知道這個世界不缺紅的方式,我會愛惜羽毛

魯中晨報
2026-04-25 16:08:13
114:98!聯盟首個2:2誕生,二當家季后賽首個3雙,天王山之戰來了

114:98!聯盟首個2:2誕生,二當家季后賽首個3雙,天王山之戰來了

林子說事
2026-04-26 15:58:23
G3裁判報告:漏吹斯馬特進線+詹姆斯出界 火箭本該不打加時贏球?

G3裁判報告:漏吹斯馬特進線+詹姆斯出界 火箭本該不打加時贏球?

羅說NBA
2026-04-26 05:02:11
驚天內幕!1984年中美黑鷹交易只交付24架,真相竟是戰略失誤!

驚天內幕!1984年中美黑鷹交易只交付24架,真相竟是戰略失誤!

人生錄
2026-04-25 15:13:17
突發!白宮晚宴槍聲響起,特朗普緊急撤離,槍手“愛情表白”后已死亡

突發!白宮晚宴槍聲響起,特朗普緊急撤離,槍手“愛情表白”后已死亡

藍鉆故事
2026-04-26 10:14:29
特朗普、穆杰塔巴、佩澤希齊揚,同日表態

特朗普、穆杰塔巴、佩澤希齊揚,同日表態

極目新聞
2026-04-26 07:59:00
38歲梅西怒了!賽后直接離場:4次妙傳全被吐餅 2場球荒主場3連平

38歲梅西怒了!賽后直接離場:4次妙傳全被吐餅 2場球荒主場3連平

風過鄉
2026-04-26 11:01:38
太可怕了!繼注射藥物、熱巴事件后,王陽再揭娛樂圈最臟的一面

太可怕了!繼注射藥物、熱巴事件后,王陽再揭娛樂圈最臟的一面

橙星文娛
2026-04-17 13:19:56
1.9秒一單狂破世界紀錄!安徽小縣城憑三樣小吃,火遍整個長三角

1.9秒一單狂破世界紀錄!安徽小縣城憑三樣小吃,火遍整個長三角

青眼財經
2026-04-25 23:05:36
他曾是亞洲第一美男,紅遍中國后卻突然退圈,活成想要的樣子

他曾是亞洲第一美男,紅遍中國后卻突然退圈,活成想要的樣子

楓塵余往逝
2026-04-25 17:13:00
心臟為什么不得癌癥?Science:心跳的機械力抑制心臟中癌細胞增殖,帶來癌癥治療新思路

心臟為什么不得癌癥?Science:心跳的機械力抑制心臟中癌細胞增殖,帶來癌癥治療新思路

生物世界
2026-04-24 12:16:33
2026-04-26 17:24:49
新智元 incentive-icons
新智元
AI產業主平臺領航智能+時代
15069文章數 66806關注度
往期回顧 全部

科技要聞

漲價浪潮下,DeepSeek推動AI“價格戰”

頭條要聞

金店電子稱旁現拇指大小遙控器 商家可遠程遙控改重量

頭條要聞

金店電子稱旁現拇指大小遙控器 商家可遠程遙控改重量

體育要聞

森林狼3比1掘金:逆境中殺出了多孫穆?!

娛樂要聞

《八千里路云和月》大結局意難平

財經要聞

DeepSeek V4背后,梁文鋒的轉身

汽車要聞

預售19.38萬元起 哈弗猛龍PLUS七座版亮相

態度原創

家居
本地
游戲
時尚
公開課

家居要聞

自然肌理 溫潤美學

本地新聞

云游中國|逛世界風箏都 留學生探秘中國傳統文化

微軟更新Xbox品牌標識 回歸經典黑綠配色致敬初代

IU的臉,真的有自己的時間線

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版