網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

DeepSeek還有多少個(gè)“郭達(dá)雅”？扒完27篇論文，我們發(fā)現(xiàn)了一群“多邊形戰(zhàn)士”｜甲子光年

2026-05-18 21:01:48　來源: 甲子光年

北京舉報(bào)

分享至

79位跨方向骨干、87%的初代留存率，和一套讓年輕人圍繞問題自由組隊(duì)的機(jī)制。

作者｜周悅

編輯｜王博

過去一年，圍繞DeepSeek的人才流動(dòng)消息一直沒有停。從早期羅福莉離職，到初代大模型作者王炳宣、多模態(tài)骨干阮翀、R1核心作者郭達(dá)雅，相繼跳槽。

核心作者接連被挖，DeepSeek的技術(shù)壁壘會(huì)不會(huì)松動(dòng)？

我們決定換一種方式來看這個(gè)問題。

我們用Codex和Python，梳理了DeepSeek近兩年發(fā)布的27篇核心論文和技術(shù)報(bào)告，逐篇拆解署名作者。對(duì)DeepSeek V2、V3、V3.2、V4這類可拆分角色的大型技術(shù)報(bào)告，只保留Research & Engineering名單；其余論文使用原始署名名單。最終，得到一份包含328人的研發(fā)作者池。

「甲子光年」發(fā)現(xiàn)，DeepSeek的研發(fā)團(tuán)隊(duì)和內(nèi)部架構(gòu)有以下特點(diǎn)：

沒有部門墻。328位研發(fā)作者中有168人形成了穩(wěn)定、重復(fù)的合作關(guān)系，累計(jì)產(chǎn)生了319條合作連接。

“兵團(tuán)+小組”高效突破。1個(gè)基模大兵團(tuán)與系統(tǒng)效率、數(shù)學(xué)與推理、多模態(tài)、緩存與系統(tǒng)、垂類數(shù)學(xué)、OCR視覺等6支精銳特種小隊(duì)高效配合。

頂級(jí)高校背景研究者云集。DeepSeek Top25研發(fā)作者，近四成來自北京大學(xué)。

研發(fā)不設(shè)限。DeepSeek超半數(shù)研發(fā)作者在跨界，橫跨3個(gè)及以上方向的有79人。研究員會(huì)根據(jù)興趣和問題動(dòng)態(tài)集結(jié)。

論文更關(guān)注底層問題。怎么更好利用算力，處理長上下文時(shí)如何降低緩存成本，模型變大之后怎么訓(xùn)練得穩(wěn)。

DeepSeek核心論文共著關(guān)系網(wǎng)絡(luò)，圖中每個(gè)節(jié)點(diǎn)代表一位研究作者，連線代表共同署名關(guān)系，「甲子光年」制圖

扒完DeepSeek的27篇論文后，「甲子光年」認(rèn)為，DeepSeek的思路可以概括為：不堆卡，不打榜；先驗(yàn)證，再集成；死磕系統(tǒng)效率，突破算力限制。值得一提的是，這27篇論文里幾乎沒有圍繞benchmark刷分的工作，全都在解決具體的工程瓶頸。

1.被挖走的那幾位，到底排第幾

DeepSeek的27篇論文，主要覆蓋7個(gè)技術(shù)方向：基座模型、系統(tǒng)/效率、數(shù)學(xué)/證明、多模態(tài)、代碼、OCR、推理/強(qiáng)化學(xué)習(xí)。

我們考察兩個(gè)維度：參與論文的數(shù)量，以及覆蓋技術(shù)方向的廣度。需要說明的是，這兩個(gè)指標(biāo)都來自論文署名統(tǒng)計(jì)，不代表貢獻(xiàn)大小或組織層級(jí)。我們把同時(shí)覆蓋3個(gè)及以上技術(shù)方向的研發(fā)作者，稱為“多邊形戰(zhàn)士”。

這個(gè)數(shù)字是多少？79人。

再看那些傳聞中被重金爭搶的名字，在網(wǎng)絡(luò)里排在哪。

阮翀確實(shí)是Top 1——覆蓋18篇論文、6個(gè)方向，從MoE架構(gòu)到數(shù)學(xué)證明到多模態(tài)，幾乎無處不在。

他本碩均畢業(yè)于北京大學(xué)，早年從事NLP研發(fā)，2023年加入DeepSeek，參與了DeepSeek-VL、V3和R1等工作，是VL2的通訊作者，今年1月，他加入元戎啟行并擔(dān)任首席科學(xué)家。

郭達(dá)雅參與11篇論文，覆蓋4個(gè)方向，在高頻研發(fā)作者中并列第12位。王炳宣參與10篇論文，覆蓋5個(gè)方向，并列第17位。

他們的確是核心人員，離開當(dāng)然是損失。但關(guān)鍵問題是：DeepSeek還有多少個(gè)“郭達(dá)雅”“王炳宣”？

像他們這樣參與10篇以上論文的研發(fā)作者有24位。即便離開了三位，后面還有21位參與強(qiáng)度相當(dāng)?shù)娜恕?/p>

如果把DeepSeek看成一支球隊(duì)，雖然被挖走的是幾位核心球員。但這支球隊(duì)的人才密度，比想象中更厚。

Top25高頻研發(fā)作者，統(tǒng)計(jì)口徑為研發(fā)作者池，參與論文數(shù)和方向數(shù)不代表貢獻(xiàn)排序，「甲子光年」制圖

更值得關(guān)注的是“跨界”這件事。328位研發(fā)作者中，只在1個(gè)方向出現(xiàn)過的有158人。剩下170人，至少跨過兩個(gè)方向。其中，橫跨3個(gè)及以上方向的，有79人。

舉個(gè)最極端的例子，李宇琨參與14篇論文，橫跨全部7個(gè)方向，從初代DeepSeek LLM一路到最新V4，谷歌學(xué)術(shù)引用量超過兩萬。他是DeepSeek的“首位員工”，2023年從字節(jié)跳動(dòng)搜索團(tuán)隊(duì)離職后加入，負(fù)責(zé)預(yù)訓(xùn)練數(shù)據(jù)的相關(guān)工作。

這印證了一個(gè)常被外界忽略的事實(shí)，在AI行業(yè)，人才一直是多向流動(dòng)的，DeepSeek也在從別處挖人。

DeepSeek研發(fā)作者覆蓋技術(shù)方向數(shù)分布，覆蓋方向數(shù)按7個(gè)技術(shù)方向計(jì)算，「甲子光年」制圖

2.多邊形戰(zhàn)士怎么長出來？

外界總在討論DeepSeek還有沒有天才。

每個(gè)AI公司都有明星。DeepSeek不同的地方，是能讓一批很年輕的人，迅速在多個(gè)技術(shù)方向之間組隊(duì)、探索、獲得資源，較少受到約束和限制。

辛華劍在DeepSeek實(shí)習(xí)期間，主導(dǎo)開發(fā)了專注于數(shù)學(xué)證明DeepSeek-Prover系列模型，他也是DeepSeek-Prover-V1.5論文的一作。他曾告訴「甲子光年」，Prover在內(nèi)部最初只是一個(gè)獨(dú)立探索項(xiàng)目，初衷是驗(yàn)證能否通過形式化系統(tǒng)構(gòu)造出更嚴(yán)格的推理數(shù)據(jù)。

大多數(shù)大廠會(huì)先設(shè)部門、定KPI、分預(yù)算，再啟動(dòng)項(xiàng)目。DeepSeek的順序是反過來的：先有人覺得一個(gè)問題值得做，再圍繞這個(gè)問題找人和資源。

在論文合作網(wǎng)絡(luò)里，這種“組隊(duì)”方式留下的痕跡很清楚。按署名關(guān)系聚類，能看到4個(gè)相對(duì)集中的小組：基模大兵團(tuán)、系統(tǒng)效率、數(shù)學(xué)與推理、多模態(tài)，以及3個(gè)更小的協(xié)作簇。需要說明的是，這些“組”不對(duì)應(yīng)DeepSeek真實(shí)部門，只反映誰更常和誰合作。

DeepSeek研發(fā)作者合作網(wǎng)絡(luò)分布，合作小組按穩(wěn)定共著關(guān)系識(shí)別，「甲子光年」制圖

有趣的是，這個(gè)結(jié)構(gòu)和梁文鋒描述的組織方式高度吻合。

梁文鋒說過：“我們一般不前置分工，而是自然分工。每個(gè)人有自己獨(dú)特的成長經(jīng)歷，都是自帶想法的，不需要push他。當(dāng)一個(gè)idea顯示出潛力，我們也會(huì)自上而下地去調(diào)配資源。”

晚點(diǎn)LatePost報(bào)道過，DeepSeek的組織層級(jí)很薄，研究團(tuán)隊(duì)大體只有梁文鋒和研究員兩個(gè)層級(jí)。“有時(shí)開始一個(gè)新方向，就是因?yàn)橛腥鍌€(gè)人都覺得一個(gè)idea不錯(cuò)，然后就一起做了。”梁文鋒更接近一個(gè)導(dǎo)師：組織研發(fā)、協(xié)調(diào)資源，在共同成果上署名為通訊作者。

這套組織方式還有一個(gè)在AI行業(yè)里極為罕見的特征：不加班。平日多數(shù)成員6到7點(diǎn)離開公司，不打卡，沒有明確績效考核。梁文鋒的邏輯是：“一個(gè)人每天能高質(zhì)量工作的時(shí)間很難超過6到8小時(shí)。加班疲勞下的昏庸判斷反而會(huì)浪費(fèi)寶貴的算力資源，得不償失。”

「甲子光年」梳理發(fā)現(xiàn)，DeepSeek論文作者中，多為2023年前后畢業(yè)的清華、北大、中科大等高校本碩博生。排名前25的高頻研發(fā)作者里，近4成畢業(yè)于北大。

但這不應(yīng)該被理解成簡單的“名校人海戰(zhàn)術(shù)”。「甲子光年」了解到，不少AIlab的招聘取向都在變化，在校博士比大廠老兵更受青睞。

一位AI公司董事長曾告訴「甲子光年」，自從ChatGPT出來后，他開始擠出午飯的時(shí)間，面試有潛力的在讀博士生，再小的項(xiàng)目都會(huì)問上至少1小時(shí)，從基礎(chǔ)公式推導(dǎo)到工程細(xì)節(jié)把控，篩出真正的創(chuàng)新者。他提到，大多數(shù)人都是在2023年才開始轉(zhuǎn)向GPT相關(guān)的架構(gòu)研究，相當(dāng)于站在同一個(gè)起跑線上。“這一時(shí)間點(diǎn)后畢業(yè)的博士，還未被行業(yè)慣性束縛，常帶來意想不到的突破。”

梁文鋒自己也說過：做出DeepSeek V2的，“都是一些Top高校的應(yīng)屆畢業(yè)生、沒畢業(yè)的博四博五實(shí)習(xí)生，還有一些畢業(yè)才幾年的年輕人。”

那DeepSeek團(tuán)隊(duì)穩(wěn)定性如何？我們交叉比對(duì)從論文署名：初代模型論文（2024年1月）的86位作者中，到V4（2026年4月）仍然出現(xiàn)在署名里的有75人。兩年半過去，初代團(tuán)隊(duì)近九成仍在。

V4的Research & Engineering名單，269名研發(fā)工程作者中，論文標(biāo)注已離職者為10人，占比約3.7%。而據(jù)Z Finance報(bào)道，截至今年4月，過去一年，約有60—70名字節(jié)Seed成員流向各大模型公司。

這些數(shù)字不等同于DeepSeek真實(shí)流失率，但說明核心研發(fā)網(wǎng)絡(luò)并沒有因?yàn)閹孜幻餍浅鲎叨⒓堋?/p>

3.兩年27篇論文，死磕系統(tǒng)效率

只看外界聲量，V3、V4這些基座模型報(bào)告最引人注目。

但論文主題分布給出的結(jié)果有點(diǎn)反直覺：27篇中數(shù)量最多的，不是基座模型，而是系統(tǒng)/效率類論文（7篇），超過基座模型（5篇）和數(shù)學(xué)（5篇）。

這7篇分別是：DeepSeekMoE、ESFT、NSA、Insights into V3、mHC、Conditional Memory和DualPath。沒有一篇是在刷benchmark，全都在解決同一類問題：怎么用更少的算力做更多的事。

DeepSeek近兩年27篇論文時(shí)間線，橫軸表示每篇論文或技術(shù)報(bào)告的去重作者數(shù)，顏色表示技術(shù)方向，「甲子光年」制圖

逐一拆解這些論文，會(huì)看到三類底層問題：

第一類，怎么更好利用算力。ESFT關(guān)注的是如何更經(jīng)濟(jì)地完成模型微調(diào)，Insights into V3則復(fù)盤如何在大規(guī)模集群訓(xùn)練中提高硬件利用率和穩(wěn)定性。

第二類，處理長上下文時(shí)降低緩存成本。當(dāng)模型需要處理更長文本，或者執(zhí)行復(fù)雜Agent任務(wù)時(shí)，注意力計(jì)算和KV Cache（模型保存歷史上下文的中間記憶）會(huì)迅速變貴。NSA、Conditional Memory和DualPath都在試圖壓縮模型“記住歷史”的成本。

第三類，模型變大之后怎么訓(xùn)練得穩(wěn)。DeepSeekMoE探索的是參數(shù)規(guī)模變大時(shí)，只激活更少的專家網(wǎng)絡(luò)；mHC則試圖增強(qiáng)深層網(wǎng)絡(luò)中的信號(hào)傳播，降低超大規(guī)模模型訓(xùn)練時(shí)的不穩(wěn)定性。

梁文鋒曾拋出過一個(gè)假設(shè)：“能不能用現(xiàn)存的一部分算力，就實(shí)現(xiàn)現(xiàn)在所有的智能？”這7篇系統(tǒng)相關(guān)論文，可以看作DeepSeek團(tuán)隊(duì)一直在回答這個(gè)問題。

還有一個(gè)細(xì)節(jié)值得注意，27篇論文的作者規(guī)模，呈現(xiàn)“大小搭配”的節(jié)奏。基座模型報(bào)告動(dòng)輒200到300人的全員參與，系統(tǒng)、數(shù)學(xué)、多模態(tài)方向的論文通常只有6到20人。

前者像大兵團(tuán)作戰(zhàn)，后者像特種小隊(duì)的單點(diǎn)突破，先用小團(tuán)隊(duì)低成本驗(yàn)證，跑通了再集成進(jìn)下一代旗艦。

4.從R1到V4，攢出底牌

如果把DeepSeek的研發(fā)看成一場長跑，V4不是突然出現(xiàn)的爆發(fā)，更像是幾條技術(shù)路線在兩年后集中收束。

DeepSeek技術(shù)模塊演進(jìn)，圖中展示的是論文中可追溯的技術(shù)路線和模塊關(guān)系，不等同于嚴(yán)格代碼復(fù)用率，「甲子光年」制圖

第一條主線是參數(shù)效率。從V2引入MoE（稀疏混合專家架構(gòu)），到V3延續(xù)并強(qiáng)化多Token預(yù)測策略，再到V4在MoE框架上繼續(xù)壓低激活參數(shù)和推理成本。一路都在往“激活更少參數(shù)、完成同樣任務(wù)”的方向走。

第二條主線是長上下文效率。模型處理的歷史越長，需要保存的中間記憶越多，成本越高。

用一個(gè)比喻來理解，傳統(tǒng)大模型像把整本書攤開，每回答一個(gè)問題都要從頭翻一遍。DeepSeek從V2開始就在想，能不能把近處內(nèi)容保留原文、遠(yuǎn)處內(nèi)容做成目錄、更遠(yuǎn)處內(nèi)容壓成章節(jié)摘要？

這個(gè)想法從V2的MLA（多頭潛在注意力），到V3.2的NSA（原生稀疏注意力），一直演化到V4的Hybrid Attention（混合注意力系統(tǒng)）。

V4技術(shù)報(bào)告顯示，在100萬Token的長上下文場景下，V4-Pro的單Token推理計(jì)算量約為V3.2的27%，KV Cache占用約為其10%。

第三條主線是后訓(xùn)練整合。R1證明了大規(guī)模強(qiáng)化學(xué)習(xí)可以顯著激發(fā)模型推理能力。到了V4，思路延伸為在數(shù)學(xué)、代碼等領(lǐng)域分別練強(qiáng)，再統(tǒng)一“畢業(yè)”——通過同策略蒸餾（OPD）將能力合并進(jìn)統(tǒng)一模型，減少混訓(xùn)時(shí)的相互干擾。

此外，Prover系列服務(wù)于數(shù)學(xué)與形式化推理，OCR路線為視覺輸入壓縮提供低成本方案，mHC與Muon是更底層的訓(xùn)練穩(wěn)定性優(yōu)化。每個(gè)關(guān)鍵模塊先在小規(guī)模論文里反復(fù)試驗(yàn)，隨后進(jìn)入旗艦，最后沉淀成整個(gè)團(tuán)隊(duì)的工程實(shí)踐。

「甲子光年」看來，V4的重點(diǎn)不是更大或更強(qiáng)，而是讓模型不僅能想得更深，也能在更長、更復(fù)雜的任務(wù)中，以更低成本持續(xù)運(yùn)行。

DeepSeek的思路可以概括為：不堆卡，不打榜；先驗(yàn)證，再集成；死磕系統(tǒng)效率，突破算力限制。27篇論文里幾乎沒有圍繞benchmark刷分的工作，全都在解決具體的工程瓶頸。

梁文鋒說過：“如果目標(biāo)是做應(yīng)用，沿用Llama結(jié)構(gòu)短平快上產(chǎn)品也合理。但我們目的地是AGI，需要研究新的模型結(jié)構(gòu)，在有限資源下實(shí)現(xiàn)更強(qiáng)的模型能力。”

值得注意的是，DeepSeek甚至把底層算子庫從主流的CUDA和Triton換成了北大團(tuán)隊(duì)開源的TileLang，V3.1的數(shù)據(jù)壓縮格式也是針對(duì)下一代國產(chǎn)芯片設(shè)計(jì)的。在追求極致效率的同時(shí)，他們還在做一件更長遠(yuǎn)的事：基于國產(chǎn)生態(tài)來做大模型。

5.挖走人，帶不走體系

人才流動(dòng)不會(huì)停止。在AI行業(yè)，頂尖研發(fā)作者被高薪爭搶幾乎是常態(tài)。DeepSeek也不會(huì)例外。

但如果用挖人來判斷一家公司的穩(wěn)定性，這個(gè)框架本身就有問題——尤其當(dāng)這家公司的競爭力，根本不依附于幾個(gè)明星個(gè)體。

大眾總愛看天才的故事，但27篇論文的數(shù)據(jù)講了一個(gè)更難被概括的故事。數(shù)據(jù)呈現(xiàn)的DeepSeek是：79位多邊形戰(zhàn)士、24位參與10篇以上論文的骨干、兩年半前的初代成員87%仍選擇留下來。

更重要的是，這張網(wǎng)絡(luò)里有25位跨界樞紐，把研發(fā)串聯(lián)在一起，沒有固定部門墻，研究員根據(jù)興趣和問題動(dòng)態(tài)集結(jié)。

而那兩年積累下來的技術(shù)路線——從MoE到MLA到GRPO到mHC——每個(gè)模塊都經(jīng)過前序論文的反復(fù)驗(yàn)證，早已內(nèi)化在整個(gè)團(tuán)隊(duì)的工程實(shí)踐里。

梁文鋒說過：“我們把價(jià)值沉淀在團(tuán)隊(duì)上，同事在過程中得到成長，積累很多know-how，形成可以創(chuàng)新的組織和文化，就是我們的護(hù)城河。”

這可能才是500億美元估值背后，最值得被重新定價(jià)的東西。

彩蛋：開放我們“數(shù)據(jù)偵探工具包”

這篇稿件背后也是一場用Agent工具研究AI公司的實(shí)驗(yàn)。完全沒有代碼基礎(chǔ)的我們，竟然依靠AI做到了“零手搓”，除了手敲正文。

過去兩周，我們跑通了一套由Codex輔助的數(shù)據(jù)工作流，爬取并清洗上萬條數(shù)據(jù)，計(jì)算復(fù)雜的聚類網(wǎng)絡(luò)，制作所有圖表。

簡單說：人類負(fù)責(zé)發(fā)現(xiàn)問題、定義統(tǒng)計(jì)口徑，Agent負(fù)責(zé)把臟活干完，能用token解決的事，絕不動(dòng)手。

我們決定把這套方法開放，如果你對(duì)文章背后的數(shù)據(jù)、腳本和工程方法論感興趣，請(qǐng)關(guān)注公眾號(hào)「甲子光年」，在公眾號(hào)后臺(tái)私信回復(fù)“DeepSeek”，即可獲得下載鏈接，內(nèi)含：

1.DeepSeek論文數(shù)據(jù)集：包含27篇技術(shù)報(bào)告的元數(shù)據(jù)、作者清洗字典、多棲骨干統(tǒng)計(jì)、共著網(wǎng)絡(luò)節(jié)點(diǎn)與邊表等幾十張CSV/JSON 數(shù)據(jù)表；

2.15個(gè)核心Python腳本：覆蓋了從數(shù)據(jù)清洗、口徑拆分到聚類分析、圖表生成的全流程。你可以隨時(shí)修改參數(shù)、調(diào)整權(quán)重，甚至重新驗(yàn)證我們的推演邏輯；

3.零基礎(chǔ)指南：這兩周，我們是如何指揮 Agent抓數(shù)據(jù)、寫代碼、踩坑、修Bug、反復(fù)改圖的？我們把它整理成了一份事無巨細(xì)的實(shí)戰(zhàn)指南。

非常期待大家和我們交流使用心得！

（封面圖來源：AI生成）

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.