網易首頁 > 網易號 > 正文 申請入駐

DeepSeek MODEL1橫空出世,R系列將被放棄還是新生?

0
分享至

一行代碼泄漏的新架構標識,正悄然揭示這家中國AI獨角獸在輕量化與專用化賽道上的戰略轉向。

01

開源社區的狂歡

2026年1月20日,DeepSeek-R1發布一周年之際,一位開發者在DeepSeek官方GitHub倉庫更新的FlashMLA代碼中發現了一個神秘標識——“MODEL1”。這個隱藏在114份文件、數十處代碼注釋中的名字,迅速點燃了全球AI社區的好奇心。



恰逢Hugging Face發布《“DeepSeek時刻”一周年》博客,盛贊R1對全球開源生態的重塑作用1,MODEL1的現身仿佛一場精心編排的周年獻禮。

它究竟是V4的雛形、R2的前奏,還是DeepSeek第三條技術路線的起點?更關鍵的是:曾以推理能力驚艷世界的R系列,會被放棄嗎?

02

時代的技術競賽

根據對代碼庫的詳細分析,MODEL1展現出與當前旗艦模型DeepSeek-V3.2(代碼中標識為V32)完全不同的技術路徑。在總計114個文件中,MODEL1被提及28至31次,且被置于與V3.2平行的獨立分支中,這明確表明它并非現有模型的簡單迭代,而是一個全新的架構序列。

架構層面的標準化回歸是MODEL1最顯著的特征之一。



DeepSeek V3系列曾采用獨特的576維非對稱MLA設計(128維RoPE + 448維Latent),而MODEL1則將head_dim參數重新設定為512維。這一“回歸標準”的動作并非技術倒退,而是DeepSeek可能已經找到了無需依賴非標維度也能實現高壓縮率的新方法。

代碼中提及的Engram機制或許就是關鍵所在,這種機制被認為是DeepSeek在分布式存儲或KV壓縮上的新突破。通過更完美的GPU Tensor Core計算特性對齊,MODEL1在換取更高計算通用性的同時,可能實現了更優的性能表現。

對下一代硬件的深度適配是MODEL1的另一大亮點。代碼庫中出現了大量針對英偉達最新Blackwell架構(SM100)的專門優化,包括SM100接口和B200顯卡的專用內核實現。



特別值得注意的是,SM100的Head128實現僅支持MODEL1,而不支持V3.2,這被解讀為DeepSeek為適配新一代硬件專門優化了新架構。測試數據顯示,在尚未完全優化的狀態下,MODEL1的稀疏算子在B200上已能達到350 TFlops的算力利用率,顯示出其技術前瞻性。

計算效率的顯著提升通過引入“Token-level Sparse MLA”機制得以實現。代碼中出現了test_flash_mla_sparse_decoding.py測試腳本和FP8 KV Cache混合精度支持。這意味著DeepSeek正在將MLA機制從“全量計算”進化為“Token級稀疏計算”,允許模型在處理超長上下文時動態忽略不重要的Token,從而在顯存占用和推理速度上實現數量級優化。

此外,MODEL1每個token的KVCache大小為584字節,相比V3.2的592字節有所減少,在32K長度序列中可節省約256KB內存,這對于邊緣設備部署具有重要意義。

03

戰略迷霧

V4、R2,還是第三條路線?

MODEL1引發的最大懸念是其產品定位。目前線索指向三種可能:

猜想1:旗艦全能模型V4

此前傳聞DeepSeek將于2月發布V4,且編程能力“超過現有頂級模型”1。MODEL1對長序列(16K+)的優化、對文檔與代碼場景的適配,符合V系列“全能專家”定位。

猜想2:新一代推理專家R2

其稀疏計算、FP8解碼、低內存特性完美契合R系列“高效率解題專家”基因。開發者社區認為它可能是“針對大規模推理優化的R1繼任者”,甚至實現“雙RTX 4090運行1M上下文”。

猜想3:架構層通用底座,支持V與R雙線迭代

最可能的情形是:MODEL1并非具體產品,而是新一代基礎架構,可同時衍生V系列(重知識廣度)和R系列(重推理深度)——類似“芯片級創新”,上層可靈活封裝不同能力。

04

R系列的價值重估

在MODEL1引發廣泛關注的同時,業界對R系列未來命運的擔憂不無道理。



DeepSeek-R1在后訓練階段大規模使用強化學習技術,在僅有很少標注數據的情況下極大提升了模型的推理能力。與傳統的監督微調不同,R1開創了一種純粹的強化學習方法,通過基于規則的獎勵系統引導模型進行邏輯推理。

這種“推理即訓練”的自我進化機制,突破了自GPT大模型以來的人類輸入瓶頸,在數學、代碼、自然語言推理等任務上達到了與OpenAI o1正式版接近的性能。

2025年12月,DeepSeek同時發布了DeepSeek-V3.2和DeepSeek-V3.2-Speciale兩款模型,前者被形容為“話少活好”的助手,主打高性價比與日常使用;后者則像“偏科”的科研天才,專攻高難度數學問題求解和學術研究邏輯驗證。



這種產品分化策略表明,DeepSeek早已認識到不同應用場景對模型能力的差異化需求。R系列作為專門優化的推理模型,與通用對話模型V系列形成了良好的互補關系。

同時,成本控制的突破性是R系列的另一重要價值。

據DeepSeek技術報告,DeepSeek-V3的訓練成本僅為557.6萬美元,遠低于OpenAI的GPT-4(1-2億美元)和谷歌的Gemini(2億美元)。R1不僅繼承了這種成本控制能力,還通過模型蒸餾技術將推理能力壓縮到小至15億參數的小模型中。

令人驚訝的是,R1的15億參數蒸餾模型在數學基準測試中能夠優于更大的專有模型,在AIME上獲得28.9%的分數,在MATH上獲得83.9%的分數。這種“四兩撥千斤”的技術路線,正是DeepSeek能夠在算力受限環境下實現突破的關鍵。

05

從單一產品到生態矩陣的構建

自2025年2月起,華為云、阿里云、百度智能云、字節火山引擎、騰訊云等國內主要云廠商紛紛宣布上線DeepSeek模型。緊隨其后的是各大國產芯片廠商,包括沐曦、天數智芯、摩爾線程、壁仞科技等十數家企業宣布完成了對DeepSeek模型的適配和上線。

由于DeepSeek打破了對高算力的約束限制,國產芯片的利用率得到極大提升。在應用層,金融、醫療、制造、通訊等各行各業都在積極接入DeepSeek模型,希望借助其能力升級自身服務。

從代碼結構看,MODEL1并非V3.2的簡單縮小版,而是不同的架構選擇。V3.2追求最大性能和精度,MODEL1則可能追求效率和可部署性。社區對MODEL1的身份有多種猜測:一種觀點認為它可能是一個追求極致效率的輕量級模型,更適合邊緣設備部署;另一種分析則指向它可能是一個“長序列專家”,專門為處理超長文檔或代碼項目而生。

更深入的代碼解讀發現,MODEL1支持動態稀疏推理和額外的緩存區,這些設計可能旨在提升復雜任務(如智能體應用)的調度能力。

綜合以上分析,我們可以得出一個明確的結論:R系列不會被放棄,而是會在DeepSeek的技術演進中扮演新的角色。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
四川女籃再奪WCBA總冠軍!時隔一年冠軍為何能歸蜀?

四川女籃再奪WCBA總冠軍!時隔一年冠軍為何能歸蜀?

封面新聞
2026-04-25 23:40:04
整整70艘驅逐艦,配備4700發垂發導彈,追美國海軍,進入關鍵時刻

整整70艘驅逐艦,配備4700發垂發導彈,追美國海軍,進入關鍵時刻

愛吃醋的貓咪
2026-04-25 23:03:26
收官戰最大驚喜 新疆棄子轟最高分!曾是碾壓同級的青年王?

收官戰最大驚喜 新疆棄子轟最高分!曾是碾壓同級的青年王?

你看球呢
2026-04-25 17:46:01
調查發現:每天吃一根香蕉,就等于給血脂添負擔?真相來了

調查發現:每天吃一根香蕉,就等于給血脂添負擔?真相來了

今日養生之道
2026-04-17 12:48:36
王志文:當你不能給別人好處,人心即惡;當你帶來好處,人心即善

王志文:當你不能給別人好處,人心即惡;當你帶來好處,人心即善

杏花煙雨江南的碧園
2026-04-22 13:15:03
2003年舊照曝光!陳小春張柏芝同游曼谷,泳池邊氛圍感拉滿

2003年舊照曝光!陳小春張柏芝同游曼谷,泳池邊氛圍感拉滿

草莓解說體育
2026-04-26 00:57:15
iPhone用戶還在信的三個謠言,你中招了嗎?

iPhone用戶還在信的三個謠言,你中招了嗎?

野生運營
2026-04-24 10:03:05
甘肅天水一佳人好漂亮, 身高168cm,體重48kg 美的讓人移不開眼

甘肅天水一佳人好漂亮, 身高168cm,體重48kg 美的讓人移不開眼

鄉野小珥
2026-04-08 00:48:57
2.0T!林肯新車上市,23.78萬起!

2.0T!林肯新車上市,23.78萬起!

手機評測室
2026-04-25 11:50:35
DeepSeek再放大招,國產大模型坐不住了

DeepSeek再放大招,國產大模型坐不住了

鈦媒體APP
2026-04-25 16:01:39
卡洛斯·布澤爾之子卡梅隆·布澤爾宣布參加2026年NBA選秀

卡洛斯·布澤爾之子卡梅隆·布澤爾宣布參加2026年NBA選秀

北青網-北京青年報
2026-04-25 14:13:07
江青騎馬照罕見,這份魏碑更驚艷!卻撕開“大師”泛濫的遮羞布

江青騎馬照罕見,這份魏碑更驚艷!卻撕開“大師”泛濫的遮羞布

書畫相約
2026-04-17 08:56:18
步槍+沖鋒槍將近20000支!整編第74師的戰斗兵這么多嗎?

步槍+沖鋒槍將近20000支!整編第74師的戰斗兵這么多嗎?

戰風
2026-04-24 19:27:05
油價破9、金價翻4倍,大宗商品集體漲價,老百姓錢袋子要縮水

油價破9、金價翻4倍,大宗商品集體漲價,老百姓錢袋子要縮水

花寒弦絮
2026-04-26 00:46:49
《尋秦記》虧損后,古天樂不甘心,聯手5大影帝,再救港片一把

《尋秦記》虧損后,古天樂不甘心,聯手5大影帝,再救港片一把

八斗小先生
2026-04-24 12:05:35
造成毛岸英犧牲的罪魁禍首,讓毛主席痛恨得罪人,他們下場如何?

造成毛岸英犧牲的罪魁禍首,讓毛主席痛恨得罪人,他們下場如何?

風笛悠揚聲
2025-12-04 10:08:06
俄羅斯人想不明白:為什么強大的中國,幾千年都不要西伯利亞?

俄羅斯人想不明白:為什么強大的中國,幾千年都不要西伯利亞?

賤議你讀史
2026-03-26 00:07:41
帕利尼亞:金斯基的撲救和進球同樣重要;今天的意義遠超三分

帕利尼亞:金斯基的撲救和進球同樣重要;今天的意義遠超三分

懂球帝
2026-04-26 02:07:09
馬正勇已任四川省人民政府黨組成員

馬正勇已任四川省人民政府黨組成員

封面新聞
2026-04-25 12:58:04
倆6歲小孩趁電梯沒人脫褲子模仿成人,監控拍下熟練動作看的我氣炸!!

倆6歲小孩趁電梯沒人脫褲子模仿成人,監控拍下熟練動作看的我氣炸!!

浪花媽媽
2025-08-13 23:14:04
2026-04-26 03:19:00
電腦報少年派 incentive-icons
電腦報少年派
最新鮮的互聯網產業資訊
3922文章數 1602關注度
往期回顧 全部

科技要聞

DeepSeek V4發布!黃仁勛預言的"災難"降臨

頭條要聞

媒體:美軍在中東罕見高密度集結 伊朗開始調整戰術

頭條要聞

媒體:美軍在中東罕見高密度集結 伊朗開始調整戰術

體育要聞

那一刻開始,兩支球隊的命運悄然改變了

娛樂要聞

《我們的爸爸2》第一季完美爸爸翻車了

財經要聞

90%訂單消失,中東旺季沒了

汽車要聞

2026款樂道L90亮相北京車展 樂道L80正式官宣

態度原創

手機
房產
本地
藝術
數碼

手機要聞

iPhone Ultra機模上手:11mm厚、無長焦,蘋果第一折就這?

房產要聞

新一輪教育大爆發來了!海口,開始瘋狂建學校!

本地新聞

云游中國|逛世界風箏都 留學生探秘中國傳統文化

藝術要聞

最適合作為抖音總部的大樓,它在福建莆田!

數碼要聞

聯發科亮相2026北京車展:主動式智能體座艙解決方案

無障礙瀏覽 進入關懷版