![]()
![]()
79位跨方向骨干、87%的初代留存率,和一套讓年輕人圍繞問題自由組隊(duì)的機(jī)制。
作者|周悅
編輯|王博
過去一年,圍繞DeepSeek的人才流動(dòng)消息一直沒有停。從早期羅福莉離職,到初代大模型作者王炳宣、多模態(tài)骨干阮翀、R1核心作者郭達(dá)雅,相繼跳槽。
核心作者接連被挖,DeepSeek的技術(shù)壁壘會(huì)不會(huì)松動(dòng)?
我們決定換一種方式來看這個(gè)問題。
我們用Codex和Python,梳理了DeepSeek近兩年發(fā)布的27篇核心論文和技術(shù)報(bào)告,逐篇拆解署名作者。對(duì)DeepSeek V2、V3、V3.2、V4這類可拆分角色的大型技術(shù)報(bào)告,只保留Research & Engineering名單;其余論文使用原始署名名單。最終,得到一份包含328人的研發(fā)作者池。
「甲子光年」發(fā)現(xiàn),DeepSeek的研發(fā)團(tuán)隊(duì)和內(nèi)部架構(gòu)有以下特點(diǎn):
沒有部門墻。328位研發(fā)作者中有168人形成了穩(wěn)定、重復(fù)的合作關(guān)系,累計(jì)產(chǎn)生了319條合作連接。
“兵團(tuán)+小組”高效突破。1個(gè)基模大兵團(tuán)與系統(tǒng)效率、數(shù)學(xué)與推理、多模態(tài)、緩存與系統(tǒng)、垂類數(shù)學(xué)、OCR視覺等6支精銳特種小隊(duì)高效配合。
頂級(jí)高校背景研究者云集。DeepSeek Top25研發(fā)作者,近四成來自北京大學(xué)。
研發(fā)不設(shè)限。DeepSeek超半數(shù)研發(fā)作者在跨界,橫跨3個(gè)及以上方向的有79人。研究員會(huì)根據(jù)興趣和問題動(dòng)態(tài)集結(jié)。
論文更關(guān)注底層問題。怎么更好利用算力,處理長上下文時(shí)如何降低緩存成本,模型變大之后怎么訓(xùn)練得穩(wěn)。
![]()
DeepSeek核心論文共著關(guān)系網(wǎng)絡(luò),圖中每個(gè)節(jié)點(diǎn)代表一位研究作者,連線代表共同署名關(guān)系,「甲子光年」制圖
扒完DeepSeek的27篇論文后,「甲子光年」認(rèn)為,DeepSeek的思路可以概括為:不堆卡,不打榜;先驗(yàn)證,再集成;死磕系統(tǒng)效率,突破算力限制。值得一提的是,這27篇論文里幾乎沒有圍繞benchmark刷分的工作,全都在解決具體的工程瓶頸。
1.被挖走的那幾位,到底排第幾
DeepSeek的27篇論文,主要覆蓋7個(gè)技術(shù)方向:基座模型、系統(tǒng)/效率、數(shù)學(xué)/證明、多模態(tài)、代碼、OCR、推理/強(qiáng)化學(xué)習(xí)。
我們考察兩個(gè)維度:參與論文的數(shù)量,以及覆蓋技術(shù)方向的廣度。需要說明的是,這兩個(gè)指標(biāo)都來自論文署名統(tǒng)計(jì),不代表貢獻(xiàn)大小或組織層級(jí)。我們把同時(shí)覆蓋3個(gè)及以上技術(shù)方向的研發(fā)作者,稱為“多邊形戰(zhàn)士”。
這個(gè)數(shù)字是多少?79人。
再看那些傳聞中被重金爭搶的名字,在網(wǎng)絡(luò)里排在哪。
阮翀確實(shí)是Top 1——覆蓋18篇論文、6個(gè)方向,從MoE架構(gòu)到數(shù)學(xué)證明到多模態(tài),幾乎無處不在。
他本碩均畢業(yè)于北京大學(xué),早年從事NLP研發(fā),2023年加入DeepSeek,參與了DeepSeek-VL、V3和R1等工作,是VL2的通訊作者,今年1月,他加入元戎啟行并擔(dān)任首席科學(xué)家。
郭達(dá)雅參與11篇論文,覆蓋4個(gè)方向,在高頻研發(fā)作者中并列第12位。王炳宣參與10篇論文,覆蓋5個(gè)方向,并列第17位。
他們的確是核心人員,離開當(dāng)然是損失。但關(guān)鍵問題是:DeepSeek還有多少個(gè)“郭達(dá)雅”“王炳宣”?
像他們這樣參與10篇以上論文的研發(fā)作者有24位。即便離開了三位,后面還有21位參與強(qiáng)度相當(dāng)?shù)娜恕?/p>
如果把DeepSeek看成一支球隊(duì),雖然被挖走的是幾位核心球員。但這支球隊(duì)的人才密度,比想象中更厚。
![]()
Top25高頻研發(fā)作者,統(tǒng)計(jì)口徑為研發(fā)作者池,參與論文數(shù)和方向數(shù)不代表貢獻(xiàn)排序,「甲子光年」制圖
更值得關(guān)注的是“跨界”這件事。328位研發(fā)作者中,只在1個(gè)方向出現(xiàn)過的有158人。剩下170人,至少跨過兩個(gè)方向。其中,橫跨3個(gè)及以上方向的,有79人。
舉個(gè)最極端的例子,李宇琨參與14篇論文,橫跨全部7個(gè)方向,從初代DeepSeek LLM一路到最新V4,谷歌學(xué)術(shù)引用量超過兩萬。他是DeepSeek的“首位員工”,2023年從字節(jié)跳動(dòng)搜索團(tuán)隊(duì)離職后加入,負(fù)責(zé)預(yù)訓(xùn)練數(shù)據(jù)的相關(guān)工作。
這印證了一個(gè)常被外界忽略的事實(shí),在AI行業(yè),人才一直是多向流動(dòng)的,DeepSeek也在從別處挖人。
![]()
DeepSeek研發(fā)作者覆蓋技術(shù)方向數(shù)分布,覆蓋方向數(shù)按7個(gè)技術(shù)方向計(jì)算,「甲子光年」制圖
2.多邊形戰(zhàn)士怎么長出來?
外界總在討論DeepSeek還有沒有天才。
每個(gè)AI公司都有明星。DeepSeek不同的地方,是能讓一批很年輕的人,迅速在多個(gè)技術(shù)方向之間組隊(duì)、探索、獲得資源,較少受到約束和限制。
辛華劍在DeepSeek實(shí)習(xí)期間,主導(dǎo)開發(fā)了專注于數(shù)學(xué)證明DeepSeek-Prover系列模型,他也是DeepSeek-Prover-V1.5論文的一作。他曾告訴「甲子光年」,Prover在內(nèi)部最初只是一個(gè)獨(dú)立探索項(xiàng)目,初衷是驗(yàn)證能否通過形式化系統(tǒng)構(gòu)造出更嚴(yán)格的推理數(shù)據(jù)。
大多數(shù)大廠會(huì)先設(shè)部門、定KPI、分預(yù)算,再啟動(dòng)項(xiàng)目。DeepSeek的順序是反過來的:先有人覺得一個(gè)問題值得做,再圍繞這個(gè)問題找人和資源。
在論文合作網(wǎng)絡(luò)里,這種“組隊(duì)”方式留下的痕跡很清楚。按署名關(guān)系聚類,能看到4個(gè)相對(duì)集中的小組:基模大兵團(tuán)、系統(tǒng)效率、數(shù)學(xué)與推理、多模態(tài),以及3個(gè)更小的協(xié)作簇。需要說明的是,這些“組”不對(duì)應(yīng)DeepSeek真實(shí)部門,只反映誰更常和誰合作。
![]()
DeepSeek研發(fā)作者合作網(wǎng)絡(luò)分布,合作小組按穩(wěn)定共著關(guān)系識(shí)別,「甲子光年」制圖
有趣的是,這個(gè)結(jié)構(gòu)和梁文鋒描述的組織方式高度吻合。
梁文鋒說過:“我們一般不前置分工,而是自然分工。每個(gè)人有自己獨(dú)特的成長經(jīng)歷,都是自帶想法的,不需要push他。當(dāng)一個(gè)idea顯示出潛力,我們也會(huì)自上而下地去調(diào)配資源。”
晚點(diǎn)LatePost報(bào)道過,DeepSeek的組織層級(jí)很薄,研究團(tuán)隊(duì)大體只有梁文鋒和研究員兩個(gè)層級(jí)。“有時(shí)開始一個(gè)新方向,就是因?yàn)橛腥鍌€(gè)人都覺得一個(gè)idea不錯(cuò),然后就一起做了。”梁文鋒更接近一個(gè)導(dǎo)師:組織研發(fā)、協(xié)調(diào)資源,在共同成果上署名為通訊作者。
這套組織方式還有一個(gè)在AI行業(yè)里極為罕見的特征:不加班。平日多數(shù)成員6到7點(diǎn)離開公司,不打卡,沒有明確績效考核。梁文鋒的邏輯是:“一個(gè)人每天能高質(zhì)量工作的時(shí)間很難超過6到8小時(shí)。加班疲勞下的昏庸判斷反而會(huì)浪費(fèi)寶貴的算力資源,得不償失。”
「甲子光年」梳理發(fā)現(xiàn),DeepSeek論文作者中,多為2023年前后畢業(yè)的清華、北大、中科大等高校本碩博生。排名前25的高頻研發(fā)作者里,近4成畢業(yè)于北大。
但這不應(yīng)該被理解成簡單的“名校人海戰(zhàn)術(shù)”。「甲子光年」了解到,不少AIlab的招聘取向都在變化,在校博士比大廠老兵更受青睞。
一位AI公司董事長曾告訴「甲子光年」,自從ChatGPT出來后,他開始擠出午飯的時(shí)間,面試有潛力的在讀博士生,再小的項(xiàng)目都會(huì)問上至少1小時(shí),從基礎(chǔ)公式推導(dǎo)到工程細(xì)節(jié)把控,篩出真正的創(chuàng)新者。他提到,大多數(shù)人都是在2023年才開始轉(zhuǎn)向GPT相關(guān)的架構(gòu)研究,相當(dāng)于站在同一個(gè)起跑線上。“這一時(shí)間點(diǎn)后畢業(yè)的博士,還未被行業(yè)慣性束縛,常帶來意想不到的突破。”
梁文鋒自己也說過:做出DeepSeek V2的,“都是一些Top高校的應(yīng)屆畢業(yè)生、沒畢業(yè)的博四博五實(shí)習(xí)生,還有一些畢業(yè)才幾年的年輕人。”
那DeepSeek團(tuán)隊(duì)穩(wěn)定性如何?我們交叉比對(duì)從論文署名:初代模型論文(2024年1月)的86位作者中,到V4(2026年4月)仍然出現(xiàn)在署名里的有75人。兩年半過去,初代團(tuán)隊(duì)近九成仍在。
V4的Research & Engineering名單,269名研發(fā)工程作者中,論文標(biāo)注已離職者為10人,占比約3.7%。而據(jù)Z Finance報(bào)道,截至今年4月,過去一年,約有60—70名字節(jié)Seed成員流向各大模型公司。
這些數(shù)字不等同于DeepSeek真實(shí)流失率,但說明核心研發(fā)網(wǎng)絡(luò)并沒有因?yàn)閹孜幻餍浅鲎叨⒓堋?/p>
3.兩年27篇論文,死磕系統(tǒng)效率
只看外界聲量,V3、V4這些基座模型報(bào)告最引人注目。
但論文主題分布給出的結(jié)果有點(diǎn)反直覺:27篇中數(shù)量最多的,不是基座模型,而是系統(tǒng)/效率類論文(7篇),超過基座模型(5篇)和數(shù)學(xué)(5篇)。
這7篇分別是:DeepSeekMoE、ESFT、NSA、Insights into V3、mHC、Conditional Memory和DualPath。沒有一篇是在刷benchmark,全都在解決同一類問題:怎么用更少的算力做更多的事。
![]()
DeepSeek近兩年27篇論文時(shí)間線,橫軸表示每篇論文或技術(shù)報(bào)告的去重作者數(shù),顏色表示技術(shù)方向,「甲子光年」制圖
逐一拆解這些論文,會(huì)看到三類底層問題:
第一類,怎么更好利用算力。ESFT關(guān)注的是如何更經(jīng)濟(jì)地完成模型微調(diào),Insights into V3則復(fù)盤如何在大規(guī)模集群訓(xùn)練中提高硬件利用率和穩(wěn)定性。
第二類,處理長上下文時(shí)降低緩存成本。當(dāng)模型需要處理更長文本,或者執(zhí)行復(fù)雜Agent任務(wù)時(shí),注意力計(jì)算和KV Cache(模型保存歷史上下文的中間記憶)會(huì)迅速變貴。NSA、Conditional Memory和DualPath都在試圖壓縮模型“記住歷史”的成本。
第三類,模型變大之后怎么訓(xùn)練得穩(wěn)。DeepSeekMoE探索的是參數(shù)規(guī)模變大時(shí),只激活更少的專家網(wǎng)絡(luò);mHC則試圖增強(qiáng)深層網(wǎng)絡(luò)中的信號(hào)傳播,降低超大規(guī)模模型訓(xùn)練時(shí)的不穩(wěn)定性。
梁文鋒曾拋出過一個(gè)假設(shè):“能不能用現(xiàn)存的一部分算力,就實(shí)現(xiàn)現(xiàn)在所有的智能?”這7篇系統(tǒng)相關(guān)論文,可以看作DeepSeek團(tuán)隊(duì)一直在回答這個(gè)問題。
還有一個(gè)細(xì)節(jié)值得注意,27篇論文的作者規(guī)模,呈現(xiàn)“大小搭配”的節(jié)奏。基座模型報(bào)告動(dòng)輒200到300人的全員參與,系統(tǒng)、數(shù)學(xué)、多模態(tài)方向的論文通常只有6到20人。
前者像大兵團(tuán)作戰(zhàn),后者像特種小隊(duì)的單點(diǎn)突破,先用小團(tuán)隊(duì)低成本驗(yàn)證,跑通了再集成進(jìn)下一代旗艦。
4.從R1到V4,攢出底牌
如果把DeepSeek的研發(fā)看成一場長跑,V4不是突然出現(xiàn)的爆發(fā),更像是幾條技術(shù)路線在兩年后集中收束。
![]()
DeepSeek技術(shù)模塊演進(jìn),圖中展示的是論文中可追溯的技術(shù)路線和模塊關(guān)系,不等同于嚴(yán)格代碼復(fù)用率,「甲子光年」制圖
第一條主線是參數(shù)效率。從V2引入MoE(稀疏混合專家架構(gòu)),到V3延續(xù)并強(qiáng)化多Token預(yù)測策略,再到V4在MoE框架上繼續(xù)壓低激活參數(shù)和推理成本。一路都在往“激活更少參數(shù)、完成同樣任務(wù)”的方向走。
第二條主線是長上下文效率。模型處理的歷史越長,需要保存的中間記憶越多,成本越高。
用一個(gè)比喻來理解,傳統(tǒng)大模型像把整本書攤開,每回答一個(gè)問題都要從頭翻一遍。DeepSeek從V2開始就在想,能不能把近處內(nèi)容保留原文、遠(yuǎn)處內(nèi)容做成目錄、更遠(yuǎn)處內(nèi)容壓成章節(jié)摘要?
這個(gè)想法從V2的MLA(多頭潛在注意力),到V3.2的NSA(原生稀疏注意力),一直演化到V4的Hybrid Attention(混合注意力系統(tǒng))。
V4技術(shù)報(bào)告顯示,在100萬Token的長上下文場景下,V4-Pro的單Token推理計(jì)算量約為V3.2的27%,KV Cache占用約為其10%。
第三條主線是后訓(xùn)練整合。R1證明了大規(guī)模強(qiáng)化學(xué)習(xí)可以顯著激發(fā)模型推理能力。到了V4,思路延伸為在數(shù)學(xué)、代碼等領(lǐng)域分別練強(qiáng),再統(tǒng)一“畢業(yè)”——通過同策略蒸餾(OPD)將能力合并進(jìn)統(tǒng)一模型,減少混訓(xùn)時(shí)的相互干擾。
此外,Prover系列服務(wù)于數(shù)學(xué)與形式化推理,OCR路線為視覺輸入壓縮提供低成本方案,mHC與Muon是更底層的訓(xùn)練穩(wěn)定性優(yōu)化。每個(gè)關(guān)鍵模塊先在小規(guī)模論文里反復(fù)試驗(yàn),隨后進(jìn)入旗艦,最后沉淀成整個(gè)團(tuán)隊(duì)的工程實(shí)踐。
「甲子光年」看來,V4的重點(diǎn)不是更大或更強(qiáng),而是讓模型不僅能想得更深,也能在更長、更復(fù)雜的任務(wù)中,以更低成本持續(xù)運(yùn)行。
DeepSeek的思路可以概括為:不堆卡,不打榜;先驗(yàn)證,再集成;死磕系統(tǒng)效率,突破算力限制。27篇論文里幾乎沒有圍繞benchmark刷分的工作,全都在解決具體的工程瓶頸。
梁文鋒說過:“如果目標(biāo)是做應(yīng)用,沿用Llama結(jié)構(gòu)短平快上產(chǎn)品也合理。但我們目的地是AGI,需要研究新的模型結(jié)構(gòu),在有限資源下實(shí)現(xiàn)更強(qiáng)的模型能力。”
值得注意的是,DeepSeek甚至把底層算子庫從主流的CUDA和Triton換成了北大團(tuán)隊(duì)開源的TileLang,V3.1的數(shù)據(jù)壓縮格式也是針對(duì)下一代國產(chǎn)芯片設(shè)計(jì)的。在追求極致效率的同時(shí),他們還在做一件更長遠(yuǎn)的事:基于國產(chǎn)生態(tài)來做大模型。
5.挖走人,帶不走體系
人才流動(dòng)不會(huì)停止。在AI行業(yè),頂尖研發(fā)作者被高薪爭搶幾乎是常態(tài)。DeepSeek也不會(huì)例外。
但如果用挖人來判斷一家公司的穩(wěn)定性,這個(gè)框架本身就有問題——尤其當(dāng)這家公司的競爭力,根本不依附于幾個(gè)明星個(gè)體。
大眾總愛看天才的故事,但27篇論文的數(shù)據(jù)講了一個(gè)更難被概括的故事。數(shù)據(jù)呈現(xiàn)的DeepSeek是:79位多邊形戰(zhàn)士、24位參與10篇以上論文的骨干、兩年半前的初代成員87%仍選擇留下來。
更重要的是,這張網(wǎng)絡(luò)里有25位跨界樞紐,把研發(fā)串聯(lián)在一起,沒有固定部門墻,研究員根據(jù)興趣和問題動(dòng)態(tài)集結(jié)。
而那兩年積累下來的技術(shù)路線——從MoE到MLA到GRPO到mHC——每個(gè)模塊都經(jīng)過前序論文的反復(fù)驗(yàn)證,早已內(nèi)化在整個(gè)團(tuán)隊(duì)的工程實(shí)踐里。
梁文鋒說過:“我們把價(jià)值沉淀在團(tuán)隊(duì)上,同事在過程中得到成長,積累很多know-how,形成可以創(chuàng)新的組織和文化,就是我們的護(hù)城河。”
這可能才是500億美元估值背后,最值得被重新定價(jià)的東西。
彩蛋:開放我們“數(shù)據(jù)偵探工具包”
這篇稿件背后也是一場用Agent工具研究AI公司的實(shí)驗(yàn)。完全沒有代碼基礎(chǔ)的我們,竟然依靠AI做到了“零手搓”,除了手敲正文。
過去兩周,我們跑通了一套由Codex輔助的數(shù)據(jù)工作流,爬取并清洗上萬條數(shù)據(jù),計(jì)算復(fù)雜的聚類網(wǎng)絡(luò),制作所有圖表。
簡單說:人類負(fù)責(zé)發(fā)現(xiàn)問題、定義統(tǒng)計(jì)口徑,Agent負(fù)責(zé)把臟活干完,能用token解決的事,絕不動(dòng)手。
我們決定把這套方法開放,如果你對(duì)文章背后的數(shù)據(jù)、腳本和工程方法論感興趣,請(qǐng)關(guān)注公眾號(hào)「甲子光年」,在公眾號(hào)后臺(tái)私信回復(fù)“DeepSeek”,即可獲得下載鏈接,內(nèi)含:
1.DeepSeek論文數(shù)據(jù)集:包含27篇技術(shù)報(bào)告的元數(shù)據(jù)、作者清洗字典、多棲骨干統(tǒng)計(jì)、共著網(wǎng)絡(luò)節(jié)點(diǎn)與邊表等幾十張CSV/JSON 數(shù)據(jù)表;
2.15個(gè)核心Python腳本:覆蓋了從數(shù)據(jù)清洗、口徑拆分到聚類分析、圖表生成的全流程。你可以隨時(shí)修改參數(shù)、調(diào)整權(quán)重,甚至重新驗(yàn)證我們的推演邏輯;
3.零基礎(chǔ)指南:這兩周,我們是如何指揮 Agent抓數(shù)據(jù)、寫代碼、踩坑、修Bug、反復(fù)改圖的?我們把它整理成了一份事無巨細(xì)的實(shí)戰(zhàn)指南。
非常期待大家和我們交流使用心得!
(封面圖來源:AI生成)
![]()
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.