網易首頁 > 網易號 > 正文 申請入駐

新發代碼藏彩蛋!114個文件泄密 DeepSeek新模型為“MODEL1”?

0
分享至

作者|子川

來源|AI先鋒官

作為明星產品,必須得用放大鏡看!

正值DeepSeek-R1 發布一周年之際,DeepSeek 在 GitHub 上悄悄更新了一波代碼。

結果,眼尖的開發者在 DeepSeek 核心的推理優化庫FlashMLA中,發現了一個此前從未公開過的神秘代號:“MODEL1”。


目前,行業內普遍猜測,這極有可能就是DeepSeek即將發布的下一代旗艦模型。

而這次曝光的“MODEL1”,到底是什么來頭?

首先,我們要知道它是怎么被發現的。

這次泄露的源頭,來自DeepSeek的一個開源項目——FlashMLA。

可能大家對FlashMLA不太熟悉,這里給大家簡單介紹一下。

這是DeepSeek自研工具,專門為英偉達GPU做深度優化。

正是有了它,DeepSeek才能在模型架構層面減少內存占用,把GPU硬件的性能榨干到極致,從而實現了“低成本高性能”。

而在最近更新的代碼中,開發者們發現在橫跨114個文件中,有28處都明確提到了“MODEL1”這個新標識符。

在代碼邏輯里,“MODEL1”是與“V32”(也就是DeepSeek-V3.2)并列存在的。


這意味著,它絕不是V3版本的簡單修補,而是一個采用了全新架構的獨立模型。

根據技術大神的深度分析,“MODEL1”的核心變化主要體現在“回歸標準”和“極致效率”上。

以前的V3模型,為了追求極致性能,采用了一種比較特殊的576維設計,而“MODEL1”則切換回了512維的標準配置。

這樣做的好處非常明顯:它能更好地適配英偉達下一代Blackwell(SM100)芯片。

不僅如此,“MODEL1”還引入了更高級的“稀疏化”技術。

在代碼中,出現了大量針對FP8(8位浮點數)數據格式的解碼支持,以及鍵值(KV)緩存的優化。

它能在處理極長內容時,智能地跳過不重要的計算步驟,同時利用FP8格式把記憶內容進行高保真壓縮。

這直接帶來的結果就是:內存占用大幅降低,計算效率成倍提升。

這意味著,可以用更便宜的顯卡,就能跑得動更強的模型。

那么,這個“MODEL1”到底是傳說中的V4,還是推理模型R2?

目前行業內主要有兩種看法。

一種觀點認為,它是DeepSeek V4。

按照 DeepSeek 的命名慣例,在 V3.2 之后的旗艦級架構跨越,邏輯上即為 V4。

并且此前就有外媒報道,DeepSeek計劃在2月(春節前后)發布新一代旗艦模型V4,且內部測試顯示其編程能力已經超越了市場上的頂級模型。

另一種觀點則認為,它是DeepSeek R2。

最近一個月,DeepSeek團隊連續發布了兩篇重磅技術論文,介紹了一種名為“優化殘差連接(mHC)”的新訓練方法,以及一種模仿生物大腦的“AI記憶模塊(Engram)”。

如果“MODEL1”整合了這些最新的黑科技,讓AI擁有了類似人類的記憶機制,那它極有可能就是備受期待的“推理之王”R2。

不論是V4還是R2,至少有一點可以確定,DeepSeek的新模型快發布了!

結合目前模型文件結構來看,“MODEL1”很可能已接近訓練完成或推理部署階段,正等待最終的權重凍結和測試驗證。

這意味著,新模型的上線時間越來越近了。

那個曾在全球掀起波瀾的“DeepSeek時刻”還會在今年重現嗎?我們拭目以待!

掃碼邀請進群,我們帶你一起來玩轉ChatGPT、GPT-4、文心一言、通義千問、訊飛星火等AI大模型,順便學一些AI搞錢技能。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
北京奔馳C 260 L經典版上市 售價29.99萬元

北京奔馳C 260 L經典版上市 售價29.99萬元

車質網
2026-05-09 09:13:08
德云社弟子大洗牌!3人自斷后路,岳云鵬邊緣,燒餅一哥地位穩了

德云社弟子大洗牌!3人自斷后路,岳云鵬邊緣,燒餅一哥地位穩了

白面書誏
2026-05-08 15:52:08
刷到泰康那個銷冠的案子,我后背一陣發涼……

刷到泰康那個銷冠的案子,我后背一陣發涼……

荊楚寰宇文樞
2026-05-08 23:29:14
擬進一步使用的山東省管干部李合亮,新職明確

擬進一步使用的山東省管干部李合亮,新職明確

阿天愛旅行
2026-05-09 17:14:14
終身告別胰島素?央視點贊糖尿病新療法,干細胞開啟“根治”時代

終身告別胰島素?央視點贊糖尿病新療法,干細胞開啟“根治”時代

科學認識論
2026-05-08 16:00:31
王曉晨變得越來越妖艷了,珍珠吊帶搭配白色西服盡顯辣媽風采!

王曉晨變得越來越妖艷了,珍珠吊帶搭配白色西服盡顯辣媽風采!

說不盡的人心
2026-05-08 10:23:54
GDP墊底的區,卻拿著上海最硬的底牌

GDP墊底的區,卻拿著上海最硬的底牌

城市研究室
2026-05-08 14:56:57
林詩棟3-0勝張禹珍,外國解說評價并調侃王皓

林詩棟3-0勝張禹珍,外國解說評價并調侃王皓

老汆古裝影視解說
2026-05-09 14:35:39
加息是死,不加息也是死

加息是死,不加息也是死

大何日拱一卒
2026-05-08 22:24:51
比亞迪、特斯拉、廣汽埃安、小鵬、理想、蔚來、極氪,否認被約談

比亞迪、特斯拉、廣汽埃安、小鵬、理想、蔚來、極氪,否認被約談

每日經濟新聞
2026-05-09 15:14:43
前國手張繼科直播表示:我這沒濕巾,你們拿毛巾蘸水擦一下就行

前國手張繼科直播表示:我這沒濕巾,你們拿毛巾蘸水擦一下就行

鳳幻洋
2026-05-09 15:49:48
央視:鄺兆鐳昨日未加入U17國足合練,今日出戰日本存疑

央視:鄺兆鐳昨日未加入U17國足合練,今日出戰日本存疑

懂球帝
2026-05-09 14:37:04
央國企干部提拔的幾個黃金年齡

央國企干部提拔的幾個黃金年齡

職場資深秘書
2026-05-09 15:49:23
張蘭飛灣灣為箖箖慶生,一句話透露孫子現狀,小S卻發文談大S和狗

張蘭飛灣灣為箖箖慶生,一句話透露孫子現狀,小S卻發文談大S和狗

凡知
2026-05-09 16:44:42
女人私生活亂不亂,不要去看臉,就看這兩處,準確率99%

女人私生活亂不亂,不要去看臉,就看這兩處,準確率99%

荷蘭豆愛健康
2026-05-09 15:26:05
“中美局勢”或許發生大反轉了!而最先超過美國的,其實不是經濟

“中美局勢”或許發生大反轉了!而最先超過美國的,其實不是經濟

點燃好奇心
2026-05-09 03:28:05
男子用2條毒蛇泡酒,12年后打開本想品嘗美酒,誰知出現驚人現象

男子用2條毒蛇泡酒,12年后打開本想品嘗美酒,誰知出現驚人現象

詭譎怪談
2025-04-01 17:37:59
又被搶先一步?外交部官宣,一國總統將要訪華,特朗普還得再等等

又被搶先一步?外交部官宣,一國總統將要訪華,特朗普還得再等等

知法而形
2026-05-09 11:40:54
男人搞定50歲女人最好方法,喂飽了她兩個需求,她就會主動依你

男人搞定50歲女人最好方法,喂飽了她兩個需求,她就會主動依你

心理觀察局
2026-05-04 08:20:08
贛江控股集團有限公司副總經理姜小陽接受審查調查

贛江控股集團有限公司副總經理姜小陽接受審查調查

界面新聞
2026-05-09 14:34:57
2026-05-09 19:00:49
AI先鋒官 incentive-icons
AI先鋒官
AIGC大模型及應用精選與評測
503文章數 74關注度
往期回顧 全部

科技要聞

美國政府強力下場 蘋果英特爾達成代工協議

頭條要聞

國防部證實:中方建造的"麒麟"級潛艇首艇交付巴基斯坦

頭條要聞

國防部證實:中方建造的"麒麟"級潛艇首艇交付巴基斯坦

體育要聞

成立128年后,這支升班馬首奪頂級聯賽冠軍

娛樂要聞

50歲趙薇臉頰凹陷滄桑得認不出!

財經要聞

存儲芯片上演造富潮

汽車要聞

軸距加長/智駕拉滿 阿維塔07L定位大五座SUV

態度原創

本地
旅游
時尚
房產
公開課

本地新聞

用蘇繡的方式,打開江西婺源

旅游要聞

別跑空!洛陽這些博物館恢復周一例行閉館

今年春夏最火的3個穿搭思路,普通人可以直接照搬嗎?

房產要聞

低價甩賣!?谶@個地標商業,無人接盤!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版