網易首頁

網易新聞
網易公開課
網易紅彩
網易嚴選
郵箱大師
網易云課堂

注冊免費郵箱

注冊VIP郵箱（特權郵箱，付費）
免費下載網易官方手機郵箱應用

移動端
網易公開課
網易嚴選
支付
郵箱

網易首頁 > 網易號 > 正文申請入駐

翻完DeepSeek報告，我們發現了中國AI的默契

2026-04-26 13:21:55　來源: 機器之心Pro

河北舉報

0

分享至

編輯｜冷貓、+0

這兩天，全球頂級大模型接連更新，重磅消息一個接一個。

中國這邊也迎來熱鬧非凡的一周，從周一開始，Qwen、Kimi、小米、騰訊相繼發布最新模型。周五，千呼萬喚的 DeepSeek 終于發布 V4 雙版本，引發了國內 AI 圈的一波海嘯。

其中，中國邁入萬億參數俱樂部并已開源的模型有 DeepSeek 和 Kimi 兩家，小米也預告了將會開源最新的萬億模型。

翻完 DeepSeek V4 近 60 頁的技術報告，我們發現這兩個已開源萬億模型之間的默契，比任何單打獨斗都可怕。

再往前溯源的話，我們發現 DeepSeek 和 Kimi 已經是第 N 次「偶遇」了。這可能源于梁文鋒和楊植麟對 Scaling Law 的共同信仰和對 AGI 的競逐。

多次偶遇背后的一場「合謀」

從 DeepSeek-R1 和 Kimi K1.5 僅隔兩小時發布，DeepSeek-NSA 與 Kimi MoBA 論文同期發表、Kimi 數學推理模型 Kimina-Prover 啟發 DeepSeek-Prover V2，到如今的 Kimi K2.6 與 DeepSeek-V4 在同一周發布，齊頭并進。

這兩家公司不是在互相廝殺，而是在用一種近乎「開源共享」的方式，一起進步。

引用車圈的一句話說，「好的設計總是心有靈犀」。

從 Kimi K2 采用 DeepSeek V3 的 MLA 注意力機制，到 DeepSeek V4 引入了 Kimi 大規模驗證的 Muon 優化器，可以說，技術上的聯動，成為了行業的一個亮點。

MLA 注意力機制：DeepSeek 創新，Kimi 復用

首先要提到的是，DeepSeek 在 V3 中首創了 MLA 注意力機制，這個設計通過低秩壓縮技術有效減少了顯存占用，從而讓長上下文推理變得可能。這個創新很快被行業廣泛認可，Kimi K2 在自己的注意力機制中也采用了 MLA 注意力機制。

二階優化器：Kimi 大規模驗證，DeepSeek 跟進

除了注意力機制，另一個備受關注的突破是優化器技術。2025年2月，Kimi 發表《Muon is Scalable for LLM Training》論文，在 480 億參數的 Moonlight 系列模型上驗證了 Muon 優化器的效果，用來取代已經用了 10年的行業標準技術 Adam。2025 年 7 月，在萬億參數 Kimi K2 中，二階優化器 Muon 被首次大規模應用，展示了其在大規模語言模型訓練中的優勢。

如今，DeepSeek V4 也跟進用 Muon 優化器技術，實現訓練效率的穩定性。兩家公司將底層的優化技術相互吸納，打破了技術壁壘，展現出前所未有的深度合作。

殘差連接：兩種不同的解決方案

說到殘差連接，DeepSeek 和 Kimi 也各有突破。

DeepSeek 在 V4 中引入了 mHC 殘差連接，目標也是提高信息傳遞的效率。通過改變多頭注意力的拼接方式，mHC 提高了梯度流動的效率，實測訓練效率提高了約 30%。

Kimi 提出的 Attention Residuals（注意力殘差）優化了信息流的傳遞效率，提升了模型的表現。這一創新得到了廣泛的認可，Andrej Karpathy 點評稱「我們對《Attention is All You Need》的理解還不夠」，OpenAI 推理之父 Jerry Tworek 點評稱「我們應該重新思考一切，深度學習的2.0時代正在到來」，馬斯克也在社交媒體上為此點贊，稱是「令人印象深刻的研究」。

這兩種方案各有特色，展現了兩家公司在同一技術問題上不同的思路。

長上下文推理：兩種技術路線的探索

長上下文推理是 AI 模型的一大挑戰，Kimi 和 DeepSeek 在這一點上的思路也各不相同。Kimi 在 2024 年實現了百萬 Token 上下文的能力，盡管這一能力非常強大，但成本問題依然很大，超長上下文的計算開銷呈現出線性增長，普通開發者很難承受。

到了 2026 年，DeepSeek 和 Kimi 分別提出了兩種解決方案：

DeepSeek選擇了稀疏注意力，通過讓模型只關注輸入中的關鍵部分，降低計算量，從而讓百萬上下文的成本變得更可接受。這種方法雖然能夠精準聚焦關鍵信息，但設計和調優難度較大。
Kimi則推出了線性注意力架構，改變了注意力機制的計算方式，使得計算復雜度從 O(n2) 降到 O(n)，從理論上大幅降低了長上下文的計算成本。

這兩種方案同樣各有優勢，稀疏注意力強調精準性，線性注意力則追求高效性。更重要的是，Kimi 和 DeepSeek 同時在這兩條技術路線上都在發力，為未來的長上下文推理提供了多種選擇。

從「兩個公司」到「一套基礎設施」

DeepSeek 和 Kimi 的「偶遇」故事不只是技術圈的熱鬧，也是關乎中國 AI 產業格局的一件大事。

GPT-4 的參數量至今未正式公布（外界估計在 1.8T 左右），Claude 3.5 Opus 同樣閉源。而中國的這兩家創業公司，不僅做出了同等規模的模型，還選擇了全部開源。這意味著任何開發者、任何研究機構、任何企業，都可以免費獲取這些模型進行二次開發和部署。

直接的結果是：企業私有化部署的成本砍到了原來的1/10。中小企業終于能在自己的服務器上跑萬億參數級別的模型了，這事兒放在一年前，想都不敢想。

生態這塊也在悄悄成形，在 OpenRouter 平臺上，兩者的 API 調用量穩居中國前兩名；在應用層，Kimi 被海外爆款編程工具「套殼」接入，而 DeepSeek 則被日本樂天集團直接包裝成了 Rakuten AI 3.0。

就連硅谷的巨頭們，也不得不正視這股來自東方的力量。

在 Meta 最新模型 Muse Spark 發布的官方技術博客中，Llama 4 被直接拿來與 DeepSeek-V3.1 以及 Kimi-K2 進行性能對比：

而在黃仁勛的CES主題演講上，黃仁勛更是將 DeepSeek 和 Kimi K2-Thinking 模型赫然放上大屏幕，作為展示其下一代 Blackwell 與 Rubin 芯片強大性能的 Benchmark 標桿：

與此同時，兩家公司都在國產芯片適配上做出了實質性投入。

DeepSeek V4 首次深度適配華為昇騰芯片，推理環節將運行在國產硬件上；Kimi 的 Prefill-as-a-Service 方案則提出了跨數據中心異構硬件推理框架，允許用不同類型的國產芯片分別承擔 Prefill 和 Decode 階段，實測吞吐量提升 54%，首 token 延遲降低 64%。這為國產芯片進入大模型推理鏈條打開了一個現實的切入口。

黃仁勛在播客節目中說了一句意味深長的話：「芯片又不是鈾濃縮，阻擋不了中國芯片的進步，他們依舊可以通過國產芯片來開發模型。」

他可能沒想到，DeepSeek 和 Kimi 正在用實際行動讓這一天來得這么早，這么快。

結語：兩個廣東人，撐起中國 AI 的半邊天

技術的高度，最終取決于人的格局。

2023 年同年起步，用最短時間雙雙叩開百億美金十角獸大門——DeepSeek 與 Kimi，始終保持著業內人數最精簡、但人才密度最頂尖的配置。兩位同樣來自廣東的創始人，楊植麟與梁文鋒，既是技術的狂熱信徒，也是被寄予厚望的中國 AI 國家隊。

在總理主持召開的經濟形勢專家和企業家座談會上，兩人時隔一年分別建言獻策，成為了中國 AI 發展史上的一個有力注腳。他們都是技術范式的引領者：DeepSeek 向世界證明了「思維鏈」的威力，而 Kimi 則在國內引領了「智能體」的落地狂潮。

在追逐 AGI 的這場馬拉松里，沒有哪一家公司可以閉門造車地跑完全程。DeepSeek 與 Kimi 之間，有競爭，也有共鳴——Muon 與 MLA 的技術互通，底層機制上惺惺相惜的探索，恰恰說明：中國 AI 真正的底氣，從來不是某一家公司的單打獨斗，而是這種在「偶遇」中碰撞出的技術火花，以及在開源生態里悄然生長的互利共生。

雙峰并峙，終將頂峰相見。屬于中國大模型的萬億級航海時代，才剛剛拉開序幕。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

黃仁勛GTC直言：現在是OpenClaw的時代，SaaS都將變AgaaS

機器之心Pro 2026-03-17 17:22:21
0 跟貼 0
黃仁勛：AGI時代已經到來，“龍蝦開公司”不是夢！

財聯社 2026-03-26 23:15:59
0 跟貼 0

【數智周報】月之暗面新模型Kimi K2.6發布并開源；Deepseek官網公布deepseek-v4接口文檔；中國軟件產業規模有望突破20萬億元大關

鈦媒體APP 2026-04-25 14:36:24
0 跟貼 0

黃仁勛罕見發飆，盧特尼克也承認了，中國一子不出，美國也很無奈

張學昆看世界 2026-04-26 17:03:55
1 跟貼 1
DeepSeek V4報告太詳盡了！484天換代之路全公開

量子位 2026-04-25 11:22:59
26 跟貼 26

刷Token走火入魔！Meta員工寫外掛作弊沖榜，1個月燒掉200萬美元

新智元 2026-04-26 09:05:40
34 跟貼 34

搞了半天，中國并沒有買英偉達的H200芯片

夢想總會變成真 2026-04-25 20:24:27
0 跟貼 0
在OpenAI把Chronicle做成訂閱功能48小時后，一群00后把它開源了

機器之心Pro 2026-04-26 13:23:34
2 跟貼 2

清華聯手千問重塑歸一化范式，讓 Transformer 回歸「深度」學習

機器之心Pro 2026-02-10 18:50:12
0 跟貼 0
英偉達 CEO 黃仁勛：AI 不會消滅軟件工程師，它只會更快實現想法！

知了3C 2026-04-22 21:35:32
0 跟貼 0
黃仁勛：沒有對流和傳導，也能把數據中心建在太空

機器之心Pro 2026-03-17 19:00:19
0 跟貼 0
CVPR 2026 | 20步也能穩住畫質，這個擴散加速方法不一樣

機器之心Pro 2026-04-10 18:40:17
0 跟貼 0
GPT Image 2爆火全球，團隊超半數華人工程師！黃仁勛關于華人AI人才占一半的含金量還在上升

大白聊IT 2026-04-24 12:09:12
0 跟貼 0
最前線｜2025年全年營收超64億，?？禉C器人表示將繼續推進AI融合與具身智能布局

36氪 2026-04-25 19:24:09
0 跟貼 0
GPT image-2爆火后，設計師的天塌了嗎？

虎嗅APP 2026-04-26 21:02:07
0 跟貼 0
AI最瘋狂的一周，該知道的8大共識都在這了

智東西 2026-04-26 21:57:35
0 跟貼 0
第87屆教裝展直擊丨海亮科技以AI解鎖未來教育

芥末堆看教育 2026-04-26 20:57:19
0 跟貼 0
DeepSeek過于樸素了

虎嗅APP 2026-04-25 17:32:05
129 跟貼 129
不開一槍，中國如何把日本逼到墻角

半壁胭脂色 2026-04-26 06:14:01
4 跟貼 4
解放軍戰艦出動，不到24小時，日本發來抗議，要求重啟談判

一飲山河 2026-04-24 16:51:51
0 跟貼 0
中國堅守承諾拒購H200芯片，美國態度急轉，特朗普言論落空

米老鼠的世界 2026-04-26 18:31:22
0 跟貼 0
楊植麟離“追光的月亮”還有多少個Token？

鈦媒體APP 2026-04-26 19:29:22
0 跟貼 0
歐盟剛出手，中國48小時反擊

一個幻想者 2026-04-26 04:52:16
1 跟貼 1
伊朗能收我也能，印尼眼紅伊朗欲在馬六甲收費，中國已備好底牌

一飲山河 2026-04-26 17:34:52
1 跟貼 1
黃仁勛全世界穿皮衣，唯獨在中國換上了大花襖

雷科技 2026-01-27 17:19:30
19 跟貼 19
臺媒曝中國硬碰美日菲，南海大演習震撼登場

磨自明 2026-04-25 00:01:14
0 跟貼 0
四航母編隊即將現身？繼遼寧艦南下后，官方證實四川艦駛入南海！

像風走了八萬里不問歸期 2026-04-25 11:17:16
0 跟貼 0
中國歷史上的二十位明君，看看誰才是你心中的第一明君！

超話看世界 2026-04-26 17:58:32
1 跟貼 1
美國富豪非洲打獵被5頭大象踩死

看看新聞Knews 2026-04-25 19:38:18
4699 跟貼 4699
樊振東的這次美國之行，原來藏著這么多細節，每一張合影都有故事

小尹體育 2026-04-26 10:03:13
1 跟貼 1
中國最美的十大湖泊

雪蓮073 2026-04-26 09:08:45
1 跟貼 1
鬼吹燈之精絕古城：驚悚來襲，胡八一化身摸金校尉，揭開詛咒之謎

只須君映剪輯 2026-04-26 09:02:17
0 跟貼 0
黃仁勛：搶你飯碗的是你的AI?同事

沛然資本論 2026-04-23 13:09:16
0 跟貼 0
科技圈3大肝帝！最后一個連睡覺都在干活

雷科技 2026-02-03 20:54:35
0 跟貼 0
中國三大海軍編隊，將美日菲等7國軍演海軍包了餃子！

勝研集 2026-04-26 22:14:03
0 跟貼 0
“月薪1.6萬招人放羊”老板再發聲：多人通過初選，但擔心條件艱苦留不住人；稱就算降薪也要交社保

極目新聞 2026-04-25 16:12:24
2405 跟貼 2405
全球媒體聚焦丨美國博主：我在中國圓了美好生活之夢

國際在線 2026-04-26 19:28:35
50 跟貼 50
華人再破硅谷天花板！AI黑馬新任CTO，中科大80后

量子位 2026-04-25 11:47:08
34 跟貼 34
視覺模型既懂語義，又能還原細節，南洋理工&商湯提出棱鏡假說

機器之心Pro 2026-01-13 18:26:48
0 跟貼 0
黃仁勛：AI時代聰明被重新定義

每日經濟新聞 2026-02-27 14:49:44
0 跟貼 0

7499元，新機官宣：4月24日，全渠道首銷！

7499元，新機官宣：4月24日，全渠道首銷！

科技堡壘

2026-04-24 09:54:10

亨德利：艾倫這種打法拿不了冠軍！艾倫回懟：他的固執付出了代價

亨德利：艾倫這種打法拿不了冠軍！艾倫回懟：他的固執付出了代價

求球不落諦

2026-04-26 11:10:51

擴散周知！5月1日嚴查煙草，家里有人抽煙的快看看！

擴散周知！5月1日嚴查煙草，家里有人抽煙的快看看！

王姐懶人家常菜

2026-04-26 15:32:03

廣東隊將會賺得盆滿缽滿！

體育哲人

2026-04-26 08:30:08

19歲小伙連吃幾天小龍蝦，劇烈頭痛、行走困難！確診為“橫紋肌溶解癥”

19歲小伙連吃幾天小龍蝦，劇烈頭痛、行走困難！確診為“橫紋肌溶解癥”

環球網資訊

2026-04-26 07:43:11

八部門重磅新規落地！禁止支付與信貸捆綁，白條、月付等面臨重大調整，用戶終于不用擔心“被動開通貸款”

八部門重磅新規落地！禁止支付與信貸捆綁，白條、月付等面臨重大調整，用戶終于不用擔心“被動開通貸款”

每日經濟新聞

2026-04-26 16:29:02

中甲大洗牌！廣州豹閃電雙殺亞泰，南通支云不敗金身火得發燙！

中甲大洗牌！廣州豹閃電雙殺亞泰，南通支云不敗金身火得發燙！

阿晞體育

2026-04-26 22:37:15

浪姐二公淘汰爆了熱搜！齊思昀表情被審判！謝娜手肘硬撞示意

浪姐二公淘汰爆了熱搜！齊思昀表情被審判！謝娜手肘硬撞示意

一盅情懷

2026-04-26 19:31:01

“把孩子當力工培養呢？”一份中學生高碳水午餐，讓家長被群嘲

“把孩子當力工培養呢？”一份中學生高碳水午餐，讓家長被群嘲

妍妍教育日記

2026-04-21 09:05:03

1995年，在香港高檔餐廳里，34歲的洪晃與63歲的父親洪君彥的合影

1995年，在香港高檔餐廳里，34歲的洪晃與63歲的父親洪君彥的合影

娛樂洞察點點

2026-04-25 21:55:38

此論調不可?。赫麄€北約打不過俄羅斯？把德國逼下場會讓俄軍絕望

此論調不可?。赫麄€北約打不過俄羅斯？把德國逼下場會讓俄軍絕望

寰球經緯所

2026-04-24 15:00:27

睡遍好萊塢的種馬影帝：性欲成癮每天與情人交歡，私生子多達25人

睡遍好萊塢的種馬影帝：性欲成癮每天與情人交歡，私生子多達25人

錢小刀娛樂

2026-04-15 21:30:57

為啥納指創新高了，納指基金卻沒新高？

為啥納指創新高了，納指基金卻沒新高？

平點金基

2026-04-26 18:19:26

“明天下雨，面試能改天嗎”：角色定位不清，是成年人最大的災難

“明天下雨，面試能改天嗎”：角色定位不清，是成年人最大的災難

精讀君

2026-04-24 09:00:18

0-1！李金羽太難了！鐵人3連敗+4輪不勝，新鵬城贏球緊咬申花泰山

0-1！李金羽太難了！鐵人3連敗+4輪不勝，新鵬城贏球緊咬申花泰山

阿晞體育

2026-04-26 22:42:18

CBA官宣最具進步球員獎：徐昕換隊爆發當選 5數據創生涯新高

CBA官宣最具進步球員獎：徐昕換隊爆發當選 5數據創生涯新高

醉臥浮生

2026-04-26 19:06:40

僅播4集就口碑大爆，評分高達9.5，這才是黑馬古裝劇該有的樣子

僅播4集就口碑大爆，評分高達9.5，這才是黑馬古裝劇該有的樣子

糊咖娛樂

2026-04-25 16:58:09

挪威人午餐只吃一片三明治？跟拍同事飯盒一個月，我驚了！

挪威人午餐只吃一片三明治？跟拍同事飯盒一個月，我驚了！

老好人的憤怒

2026-03-24 23:24:57

大便要排隊，強奸卻隨時：一名日本女戰俘的1944年日記

大便要排隊，強奸卻隨時：一名日本女戰俘的1944年日記

英子談

2026-04-26 15:56:57

中超大黑馬8場不?。号琶?，鄭智又搞砸了：5場不勝太差勁

中超大黑馬8場不?。号琶?，鄭智又搞砸了：5場不勝太差勁

足球狗說

2026-04-26 20:56:31

機器之心Pro

專業的人工智能媒體

12855文章數 142636關注度

往期回顧全部

科技要聞

漲價浪潮下，DeepSeek推動AI“價格戰”

頭條要聞

以色列政壇重大變局內塔尼亞胡迎來勁敵

頭條要聞

以色列政壇重大變局內塔尼亞胡迎來勁敵

體育要聞

森林狼3比1掘金：逆境中殺出了多孫穆？！

娛樂要聞

僅次《指環王》的美劇，有第二季

財經要聞

事關新就業群體，中辦、國辦發文

汽車要聞

預售19.38萬元起哈弗猛龍PLUS七座版亮相

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

教育

本地

旅游

手機

軍事航空

教育要聞

加速社會與數字斷連：為了“上岸”身不由己

本地新聞

云游中國｜逛世界風箏都留學生探秘中國傳統文化

旅游要聞

東阿文旅煥新升級：東阿阿膠城牽手開心麻花開啟文旅融合新征程

手機要聞

鴻蒙6，玻璃，光，和我

軍事要聞

伊朗總統：不會在壓力、威脅下進行談判

© 1997-2026 網易公司版權所有 About NetEase | 公司簡介 | 聯系方法 | 招聘信息 | 客戶服務 | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權投訴

無障礙瀏覽進入關懷版