![]()
機器之心編輯部
最近,DeepSeek 開啟了瘋狂招人,崗位涉及算法、研發、產品、運維、數據工程師以及職能等多個部門。
與此同時,DeepSeek V4 正式版將于本月中旬上線。在此前的 DeepSeek V4 論文作者列表中,我們發現了清華大學 2021 級博士生、2025 年研究生特等獎學金獲得者顧煜賢(Yuxian Gu)的名字
![]()
就我們所知,顧煜賢已經正式加入了 DeepSeek
顧煜賢還曾獲得 2025 年度蘋果博士獎學金以及螞蟻 In-Tech 獎學金。
![]()
「硬件資源受限時,算法創新就成為突破計算瓶頸的關鍵。」清華人顧煜賢表示。他是清華大學計算機系畢業年級博士生,本科同樣畢業于清華大學。
個人主頁顯示,顧煜賢在清華大學交互式人工智能課題組(Conversational AI, CoAI)學習,師從黃民烈教授。
![]()
個人主頁地址:https://t1101675.github.io/
他的研究主要關注如何在大語言模型的全生命周期中提升效率,覆蓋預訓練、下游適配和推理等關鍵階段,最近主要從三個方向展開相關研究:
- 預訓練數據篩選:致力于構建理論和算法,優化大語言模型訓練中的數據選擇過程,從而訓練出更強大、更高效的模型。代表性工作包括 PDS、Instruction Pre-training 和 Learning Law。
- 模型壓縮中的知識蒸餾:設計新的方法,將大模型的知識有效遷移到更小、更易部署的模型中。該方向的代表性成果包括 MiniLLM 和 MiniPLM。
- 高效模型架構:探索并設計新的模型架構,在降低計算成本的同時提升模型性能,相關工作包括 Jet-Nemotron。
在 Google Scholar 主頁,顧煜賢的論文引用量已近 5000,超過 1000 的論文有兩篇,分別是《Pre-trained models: Past, present and future》和《MiniLLM: Knowledge distillation of large language models》。
![]()
顧煜賢作為一作,多次在 NeurIPS、ICLR、ACL 等國際 AI 學術頂會上發表論文。
![]()
機器之心在去年報道過「Jet-Nemotron」,一種全新的混合架構語言模型新系列,在達到 SOTA 全注意力模型精度的同時,還具備卓越的效率。
Jet-Nemotron 的核心創新主要體現在以下兩點:
- 后神經架構搜索 (Post Neural Architecture Search,PostNAS):一種高效的后訓練架構探索與自適應 pipeline,可適用于任意預訓練的 Transformer 模型。
- JetBlock:一種新型的線性注意力模塊,其性能顯著優于 Mamba2 等先前的設計。
![]()
論文地址:https://arxiv.org/pdf/2508.15884
當時,2B 版本的 Jet-Nemotron 性能就能趕超 Qwen3、Qwen2.5、Gemma3 和 Llama3.2 等最 SOTA 開源全注意力語言模型,同時實現了顯著的效率提升。在 H100 GPU 上,其生成吞吐量實現了高達 53.6 倍的加速(上下文長度為 256K,最大 batch size)。
在 MMLU 和 MMLU-Pro 基準上,Jet-Nemotron 的準確率也超過了一些 MoE 全注意力模型,如 DeepSeek-V3-Small 和 Moonlight,盡管這些模型的參數規模更大。
在更早的 2024 年,顧煜賢及其合作者提出了一種將大語言模型蒸餾為更小語言模型的知識蒸餾方法,首先利用反向 Kullback-Leibler 散度(KLD)替代標準知識蒸餾方法中的正向 KLD 目標,隨后推導出一種有效的優化方法來學習這一目標。
他們將得到的學生模型命名為 「MiniLLM」。在指令跟隨場景下的大量實驗表明,相比基線方法,MiniLLM 能生成更精準的回答,整體質量更高,同時具有更低的曝光偏差、更好的校準能力,以及更強的長文本生成性能。
谷歌、阿里、英偉達等領先的開源社區和產業平臺已采用這一方法。
![]()
論文地址:https://arxiv.org/pdf/2306.08543
我們也期待顧煜賢在人生的下一段「DeepSeek」中,帶來更多新的成果。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.