網易首頁 > 網易號 > 正文申請入駐

40 天不睡、5 人死磕！DeepMind主管爆Gemini大戰(zhàn)DeepSeek慘烈內幕，聊普通程序員的轉型之路

2026-06-16 16:42:40　來源: AI科技大本營

北京舉報

分享至

Jeff Dean 親自發(fā)獎金背后，藏著大廠最真實的程序員晉升潛規(guī)則。

編譯 | 王啟隆

出品丨AI 科技大本營（ID：rgznai100）

Google DeepMind 的 Gemini 預訓練主管 Vlad Feinberg，最近在一檔播客里聊了聊他的日常。

在大眾的想象中，頂尖實驗室的研究員每天都在推導顛覆性的算法。但 Vlad 說，他職業(yè)生涯最重要的一筆獎金，是谷歌傳奇人物 Jeff Dean 親手發(fā)給他的——當時他剛入職 Google Brain，沒有像當年同樣在谷歌的Transformer 作者們一樣，去寫那些能發(fā)到頂級會議上的第一作者論文，而是默默干了幾天最臟的活：調整編譯器和超參數，解決顯存溢出，把一個叫 SFT 的微調任務塞進了一堆老舊的 TPU 卡里，這才讓第一代 Bard 勉強跑通。

這種“干臟活”的工程體驗，才是這輪大模型競爭最真實的樣子。Gemini 2.0 出來的時候，外界都在贊嘆它作為一個 MoE 模型有多神奇。但 Vlad 透露，背后其實只有 5 個人在頂著。

算力卡隨時會掛，數據索引隨時會斷，為了不白白浪費幾百萬美元的算力費，他們只能在硅谷和巴黎兩個大區(qū)之間 24 小時倒班，不眠不休地死磕了 40 天。甚至在 DeepSeek-V3 爆紅、華爾街日報制作表格拉踩谷歌已經落后時，Vlad 也是哭笑不得——媒體為了制造爆款新聞，在表格里故意刪掉了（elided）排名其實高居第一的 Gemini 2.0 Flash Thinking。

對于甚囂塵上的“程序員要失業(yè)”的恐慌，這位主管給出了一個很干脆的觀點：AI 永遠無法被“吊銷律師執(zhí)照”，因為它不具備主體資格，無法承擔法律責任，所以人類永遠要為它的產出簽字并背書。

他的組里有一個叫 Nate Lintz 的普通工程師，之前在搜索部門寫后端基礎架構，就是靠著在業(yè)務里幫大模型落地，解決最具體的推理開銷，最終內部轉崗到 DeepMind 成了技術支柱。

如果你也想去，Vlad 在他的博客里放了一個“硬核作業(yè)”（手寫一個 Transformer 并手算 Scaling Laws 錄成視頻發(fā)給他），做完了他直接面你。以下是這次談話里，他聊到的幾個極其真實的行業(yè)細節(jié)：

法律大模型可以背下所有判例，但它不能代表你出庭，因為它無法被“吊銷執(zhí)照”。職業(yè)的底層邏輯是責任和信任的分配。因為 AI 無法承擔法律后果，代碼的終點永遠需要一個具體的人來簽字、背書并承擔責任。這才是程序員不會被替代的終極底線。
寫再牛逼的學術論文，都不如幫團隊省下幾張卡的顯存。很多眼高手低的程序員在 AI 時代迷失在理論和框架中。但在研發(fā)一線，最容易拿獎金的能力，是那些不體面的“重體力活”——優(yōu)化編譯器、調試超參、在有限的芯片里榨出最后一絲算力。這種扎實的工程能力，才是跨越周期的硬通貨。
寫搜索基礎架構的普通碼農，也是能一步步逆襲進 DeepMind 的。團隊核心成員 Nate Lintz 曾只是一個寫后端搜索的普通工程師，他沒有高大上的 AI 背景，但通過在組內幫產品落地 LLM，默默解決大模型在搜索業(yè)務里最頭疼的推理和算力開銷，在實戰(zhàn)中摸清了底層架構，最終順理成章地轉崗進入 DeepMind 并主導了核心推理設計。
華爾街日報為了拉踩谷歌，在對比 DeepSeek 時故意在表格里刪掉了排名第一的 Gemini 模型。當媒體為了制造“中國開源超越美國大廠”的新聞而興奮時，他們有意隱去了當時在 LMSYS 榜單上高居榜首的 Gemini 2.0 Flash Thinking。真實的技術對決背后沒有神話，只有 5 個工程師在硅谷和巴黎 24 小時倒班、死磕 40 天的硬撐。

領取地址：https://s.csdn.cn/4nPsOp

為您在長篇對話中挑選并加粗了部分核心觀點與關鍵句。整體排版和文字內容未作任何修改，僅通過適度的加粗來幫助視線快速定位，提升長文的快速瀏覽與閱讀體驗：

你沒法把研究和落地分成兩種人

主持人：你寫過一篇題為《如何進入前沿實驗室工作》的文章。現在前沿實驗室最需要的，到底是什么樣的能力？也許我們可以先聊聊，這類工作的整體輪廓是什么。

Vlad：現在前沿實驗室需要的能力，其實覆蓋范圍非常廣。大語言模型這種東西，和研究、和產品之間的關系，比過去的機器學習要緊密得多，所以它會牽動很多完全不同的方向。我寫那篇文章，并不是想開一份面面俱到的清單，而是想提出幾個比較具體、可操作的方向，說明實驗室會在哪些能力上有很強的需求。

我重點寫的是內核開發(fā)和底層工程，也就是怎樣在真實運行環(huán)境中提升大語言模型的執(zhí)行效率。我看到這類能力，在幾乎所有前沿實驗室，以及實驗室內部很多項目里，需求都非常強。所以這是一個特別值得單獨點出來的方向。更具體一點說，每當我們做研究項目，需要修改神經網絡架構，或者重新思考服務方式，比如怎樣把鍵值緩存做得更好，類似這樣的事情，整個技術棧上的人都必須有能力把這些新方法高效地實現出來。

而所有這些變化的核心循環(huán)，本質上都是在制造能夠在大規(guī)模場景下運行的軟件系統(tǒng)：它要有高吞吐、低延遲。這其實是一類非常基礎的工作，和傳統(tǒng)后端工程的思維是緊密相連的。所以我覺得，這對很多人來說都是一個非常開放、非常值得專攻的方向。

主持人：我有些朋友在 OpenAI 和 Anthropic 工作，他們跟我說，那邊會區(qū)分偏應用的組織 and 偏研究的組織。我想知道 Google DeepMind 里是不是也有類似區(qū)分？如果有的話，你能不能講講這兩者的差別？

Vlad：我們內部確實有不同的重點方向。比如在 Google DeepMind，就有團隊專門研究怎樣用 Gemini 這樣的語言模型，更好地改進搜索結果。從某種意義上講，這可以算是語言模型的一種應用化方向。

但我其實不太愿意把這種區(qū)分畫得特別死，因為把模型整合進真實產品，本身就需要很多非常硬核的研究工作。就拿我剛才說的那個例子來說，為了讓模型真正服務搜索，你得投入大量精力，確保模型回答的是事實，能引用來源，能給出非常精確、非常有依據的答案。

你還得評估這些來源本身的質量，確保它不是諷刺、不是玩笑、不是不可靠的信息。我覺得這恰恰說明，即便是在非常面向產品、非常“應用化”的人工智能方向里，你其實仍然是在做研究。

當然，另一方面，也確實存在那種更經典意義上的語言模型研究團隊，比如做預訓練、做后訓練。這些在 Google DeepMind 內部依然是比較獨立的團隊，目標就是打造業(yè)內最先進的模型。

也就是更純粹意義上的研究。不過我還是要補一句：我們做的“純研究”之所以有意義，前提是它最后能被真正實現出來。所以我們既要負責把模型交付出來，確保訓練穩(wěn)定推進，某種程度上像訓練任務的運維工程師一樣，盯著整個訓練過程別出問題；同時我們也要負責提出訓練這些模型的方法配方。

這兩個角色根本分不開，必須同時承擔。所以我覺得，你當然可以把研究和應用看成一條連續(xù)的光譜，但在今天這個時代，不管你站在哪一側，最后都得能在這條光譜上自由切換。

主持人：我注意到還有另一條光譜，就是軟件工程師到純人工智能研究員。你怎么看這條光譜？軟件工程和人工智能研究之間，到底差別在哪？

Vlad：如果從我自己的經歷出發(fā)，我會說，我們做的很多事情，以及我們提出的很多新方法，它們真正的基礎其實是基礎設施層面的投入。

我可以稍后更詳細講講我團隊在做什么，但先拿“蒸餾”舉個例子。所謂蒸餾，本質上是一種知識遷移方式。你可以把它理解成：教師模型先在底層數據上提煉出某種統(tǒng)計信息，再把這些信息傳給學生模型，讓學生模型比完全沒見過這些額外信息時表現得更好。

但如果你說的是一個超大語言模型，而且處理的是數萬億級別的詞元，這背后對應的計算投入就是極其驚人的，可能是數百萬、數千萬美元的算力成本。

這就意味著，你必須認真思考怎么把整個系統(tǒng)優(yōu)化到極致。因為你做的每一個操作，都會被放大到極其巨大的規(guī)模：每一秒都重要，每一個字節(jié)的存儲都重要。

而這里面很大一部分工作，說到底就是非常傳統(tǒng)的軟件工程。尤其是蒸餾基礎設施，到現在大概已經經歷了三到四代演化。每一代里，我們都會退后一步，重新審視當前在蒸餾研究中到底用了哪些方法，再從整體上想：我們的基礎設施該怎樣擴展，才能支持更廣泛的研究。

而且確實有幾個很明確的節(jié)點：你一旦重新思考蒸餾系統(tǒng)的設計方式，蒸餾方法的研究速度就會明顯加快。

所以這其實是一種非常典型的投入：你可能花四個月時間重寫蒸餾基礎設施，最后換來的，是對蒸餾縮放規(guī)律的全新認識，而這種認識又會反過來轉化成非常強的模型表現。

所以它真的要求你跨越整個技術棧去工作。我?guī)缀鯚o法想象，如果沒有這些蒸餾基礎設施層面的投入，我們能做出 Flash 3.0 那樣的結果。歸根到底，這些東西一開始都來自一份非常老派的設計文檔：你得想清楚，生成教師統(tǒng)計信息時，什么樣的抽象才是對的；這些信息該存進什么樣的存儲系統(tǒng)；在這種規(guī)模下，跨多個數據中心讀寫數據時，底層該如何支撐。

這些其實都是非常經典的分布式系統(tǒng)問題，不是嗎？

研究不是一條直線，它更像在霧里走圖

主持人：對，我也是這個意思。聽起來在現在這種計算規(guī)模下，確實有很多軟件工程、后端基礎設施類的問題。但我還是覺得，在那條光譜上的某個位置，應該會出現一個真正的躍遷——需要一些全新的能力。比如說，你把一個普通后端工程師直接丟去改模型架構，這顯然和做基礎設施又不是一個量級的跳躍。

你怎么看這個區(qū)別？

Vlad：對，我覺得確實有這樣一個分界點。研究這件事，本質上是一種高風險、高回報的活動。我們常會說一個詞，叫“研究品味”，也就是一種高層次的直覺：在一個項目里，你面對很多不同的里程碑和可能路徑時，到底應該沿著哪條路往前走。

從某種意義上說，軟件工程項目也可以被看成類似的一張有向圖：你有一堆中間產物要完成，最終才能到達目標。

但軟件工程里的這張圖，整體上更接近確定性的。你先搭一個服務，再搭另一個服務，再搭第三個服務；先把存儲層搞定，再處理上層功能。你大體可以穩(wěn)定地一路往前推進。

研究就不是這樣。研究里的這張圖是帶隨機性的。因為其中一些節(jié)點——比如某個研究想法，或者到達最終目標所必需的某個環(huán)節(jié)——并不保證能成功。

我覺得這要求一種思維方式上的轉變。而這種轉變需要時間去學，也需要一些專門培養(yǎng)出來的能力。這就是很多人在博士階段逐漸建立起來的那種東西。

如果要我用一句比較簡潔的話來概括，我會想到 Jacob Steinhardt 教授的一篇非常出色的文章。我很喜歡用他的框架來理解自己做的研究：研究是一種馬爾可夫決策過程。

所謂馬爾可夫決策過程，指的是：在一個研究項目里，不同里程碑之間存在一張帶有隨機性的依賴圖。你可能必須先拿到某種結果，或者先證明某種結論，才能到達后面的目標。

類似地，在一個機器學習研究項目里，你可能得先把某種特征方案跑通，之后才有機會獲得某種圖像識別準確率，圖上的節(jié)點 and 路徑都會不斷展開。

這是一種高度不確定的探索活動：某些方法可能有效，也可能無效；而一種方法一旦有效，又會為你打開一組新的可能性。

在軟件工程里，你也許可以把所有通往目標的路徑都列出來，然后問：最短路徑是什么？

但研究里，這種方法并不最優(yōu)。因為一旦圖上的邊不再可靠，有些節(jié)點甚至你還根本不知道——也許它們是隱藏的——那你處理問題的方式就必須改變。

具體來說，你必須同時考慮不同研究方向的成功率和時間投入，還得事先對這些概率做出估計。

而這和給一個軟件項目寫設計方案，是完全不同的一種思維活動。你得培養(yǎng)出一種直覺：在你還沒真正做一件事之前，先判斷它成功的可能性有多大。

很多人把這種能力和“研究品味”聯系起來，我覺得這是對的。因為你如果想真正穿行于這種研究過程里，這種判斷力就是必須建立起來的核心能力。

主持人：聽起來你的意思是，研究里有更多的不確定性。我還是想更具體一點去理解這種工作的性質。如果你把一個后端工程師扔進一個做研究的團隊里，具體會在哪些地方出現明顯短板？

Vlad：我第一個想到的，就是你是否具備足夠的研究背景，足夠理解自己所處的研究版圖。

研究工作很大程度上要求你有一種很謙遜的心態(tài)：你得承認，在你之前，這個方向已經有了大量投入；而在你真正了解這個主題上全人類目前最前沿的積累之前，你大概率不可能繼續(xù)把這個前沿往前推。

所以，在某個具體方向上建立扎實的已有工作認識，并真正做好相關文獻梳理，可能就是很多人最先會卡住的地方。你得有能力沿著一個主題的引用脈絡一路追下去，知道該讀什么、怎么讀。

因為你根本沒時間把所有論文都讀完，所以你必須培養(yǎng)一種判斷力：哪些論文最值得讀？在不閱讀全文的情況下，怎么判斷一篇論文到底值不值得投入時間？

這是我最先想到的一項必須建立起來的能力。

而且，光是要看懂這些研究級論文，你本身就得具備機器學習和計算機科學背景。再進一步，還要看論文屬于哪個領域、講什么內容；有些論文背后需要的數學基礎和課程訓練都很重，沒有這些前置知識，你根本不可能真正理解它的方法。

這件事非常重要，因為如果你不了解現有的方法論是什么，你幾乎不可能在它的基礎上做出改進。

比如我前面提到，我們團隊做蒸餾。如果你想推進大語言模型蒸餾方向上的理解，你首先得很好地理解我們到底想用大語言模型去做什么。

我簡單概括一下：大語言模型研究，尤其在預訓練階段，核心就是縮放規(guī)律。

什么叫縮放規(guī)律？很多人會特別關注它是不是冪律、指數是多少，但真正重要的其實不是函數形式本身。真正重要的是：對于一套擴大語言模型的方法，當你不斷往一次預訓練里投入更多計算量時，你必須能夠預測，這個語言模型最終的測試損失會落在什么位置。

為什么這個問題重要？為什么我們要預測模型的泛化誤差？

在傳統(tǒng)機器學習世界里，比如說我們做圖像識別，打 ImageNet，你的測試損失就是那一千個類別上的分類錯誤率。你提出一個網絡結構，比如 VGG 或 ResNet，訓練一下，再看它的分類錯誤率是多少，這就能估計這個模型在這類任務上的表現。

我們還可以通過驗證集來估計方法好不好。每當出現一個新的網絡結構想法，我們訓練一下，做一系列驗證實驗，得到交叉驗證誤差，而這個誤差本身就是對最終測試誤差的估計。于是你就可以通過這個流程不斷迭代不同想法。

但大語言模型不是這樣。因為每一次真正做預訓練，你投入的計算量都會比之前任何一次都更大。

所以從某種意義上說，它像是一個“一次性”的 ImageNet 問題。你永遠沒有機會先完整地看一遍真正的 ImageNet，再慢慢調。你只能先在 MNIST 上練，再到 CIFAR 上練，然后試圖根據這些經驗，設計一種辦法，希望它第一次上 ImageNet 就能直接奏效。

如果你真這么做——我相信很多人都試過，我自己當年學這些東西的時候也一樣——你會發(fā)現，它在 MNIST 上很好，在 CIFAR 上可能也不錯，但一到 ImageNet 就突然崩掉。

你會慢慢意識到，很多東西并不會隨著規(guī)模自然泛化。

所以，我們在大語言模型里做的大量工作，其實是在設計“配方”。所謂配方，就是一個函數：輸入是你愿意投入多少計算量，輸出是一整套語言模型訓練流程。

如果你能把這套配方和一種預測規(guī)則結合起來，而且這個預測規(guī)則能夠準確預測最終效果，那你就可以據此做決策，去改進你的訓練配方。

我剛剛這一大段，其實是在給大語言模型研究的基本面貌提供背景。但這種理解之所以存在，是建立在大量早期語言模型縮放研究之上的，比如 Kaplan 的論文，比如 Chinchilla。

自從那兩篇論文之后，又有很多工作開始研究：除了參數量和訓練詞元數，究竟還有什么因素會影響預測準確性，比如不同詞元的獨特數量等等。

但我會說，這兩篇論文對大語言模型來說都是基礎性文獻；而它們本身又建立在更長的一條縮放研究脈絡之上，可以一直追溯到最早期的 GPT。Google 這邊也通過 PaLM 系列論文積累了大量這方面的研究。

這些工作共同塑造了我前面描述的那種視角。而這種視角，基本上只有你自己親自沿著那條文獻線索走過一遍，才會真正建立起來。

主持人：假設你要給自己的團隊選人，而你判斷一個人是否適合幫助你推進前沿的標準，是他對前沿本身的理解，包括對已有文獻的掌握，而這又要求很多前置能力。我記得你在文章里把其中一部分叫作“數學成熟度”。

Vlad：對。我覺得，一旦你具備了數學成熟度，理解這些論文、讀懂這些論文，其實并不難。

我剛才提到的那些論文，現在基本都已經算是入門門檻了，所以如果是候選人，我默認他們應該熟悉這些內容。

但更一般地說，關鍵能力在于：你能不能鉆進這種級別的論文里，把它真正讀懂；你能不能把論文里的研究想法自己實現出來。這是一項非常重要的能力。

我們會看到各種各樣的想法，它們未必都能直接應用到我們的領域。但如果你能深入理解它們，你就可以在這些想法上繼續(xù)迭代，并把它們改造到我們的應用場景里。

所以當我們評估一個人是否能處理這些機器學習論文中的數學概念時，這大概就是最關鍵的能力信號。它說明你能拿起一篇陌生論文，判斷其中哪些想法可以遷移到 Google 的實際環(huán)境里。

真正值錢的能力，常常在系統(tǒng)最底層

主持人：這肯定不是一份窮盡清單，但我還是很好奇：還有哪些領域，是人們可以去深入鉆研、而且對前沿人工智能研究確實重要的？你提到了蒸餾，也提到了內核。聽起來內核幾乎在哪都很有用，但除了這些之外，還有沒有什么你會順手列出來的方向？

Vlad：我覺得一個非常有力量的方向，其實是編程語言研究。

因為如果我們能在編程語言層面創(chuàng)造出更好的抽象，就能極大促進內核開發(fā)。我覺得 ThunderKittens 就是一個很好的例子。它提供了一種抽象方式，讓你寫內核的時候，只需要圍繞四個函數工作，而不是去面對一大團隨意拼起來的 C 代碼。這樣一來，你在開發(fā)那些能夠充分利用硬件的算法時，速度就會快得多。

這時候重點已經不只是編程語言研究本身，而是你是否對這種抽象充滿興趣，并愿意和那些關注底層硬件的人一起工作，比如去嘗試 CuTe 這類領域專用語言。

這類方向里有很多都是圍繞特定硬件設計的專用語言。

除了編程語言和縮放規(guī)律相關文獻之外，我還會想到強化學習文獻。

特別是自從“基于人類反饋的強化學習”出現之后，我們已經看到像 PPO 這樣的深度強化學習算法，確實可以進入生產系統(tǒng)。曾經有一段時間，這件事到底成不成立，其實還是有爭議的；但現在幾乎已經形成共識：這些算法確實會被應用在真實的生產環(huán)境里。

而想理解它背后的理論，你通常得從強化學習的基礎一路往上學，再走到今天非常豐富的各種價值型方法和策略梯度方法。

這是另一個我覺得文獻脈絡極其豐富、非常值得慢慢爬進去的方向。

再往“后端工程師”一點的方向說，除了內核本身之外，我覺得分布式系統(tǒng)和優(yōu)化之間，還有一個非常有意思的交叉地帶。比如：如何設計神經網絡訓練算法，讓它能在大量圖形處理器上訓練——這里面會有很多有趣的問題：異步性、梯度的新鮮度、流水線方式會怎樣加劇梯度陳舊，等等。

你在訓練算法設計里做出的這些系統(tǒng)性選擇，都會影響神經網絡的收斂情況和最終質量。

這些問題其實就算脫離大語言模型場景，也可以單獨研究，而且已經被研究很久了。所以如果你更偏基礎設施方向，那我會說，先把這些算法是怎么運作的弄明白，會是一個非常好的起點。

主持人：你覺得不同前沿實驗室之間，對人的要求會有差別嗎？比如說，如果有人想去 Google DeepMind，是不是會有某個方向比 Anthropic 更受重視？至少從技能組合上看，我感覺應該還是挺接近的。

Vlad：對，我覺得不同實驗室可能會在商業(yè)策略上有所差別，提供的產品和服務也會因為各自的專長和客戶類型不同而不一樣。

但如果問大家真正看重什么，我認為實驗室之間重疊其實非常大。我那篇文章發(fā)出去以后，你會看到 OpenAI 和 Anthropic 的人也在說：對，這些建議我們也認同。

所以我覺得，這至少算一個小小的證據，說明大家在這件事上其實非常接近。

主持人：我覺得很多人之所以特別想往人工智能研究靠近，是因為他們在想：未來軟件工程也許沒那么重要了。那研究這邊會不會也有類似問題——大語言模型以后會不會也把很多研究工作接過去？所以人工智能研究未必就比軟件工程更值得押注。

Vlad：我覺得研究能力只會越來越重要。

能夠處理工作規(guī)劃里那些不確定、隨機的成分，會越來越成為我們工作的核心部分。你要學會怎么在你做的任何事情里利用人工智能——而且這件事甚至不必局限于軟件——這種能力應該立刻開始練，因為這些系統(tǒng)本來就不是確定性的。

你真正要思考的是：我怎樣圍繞這些大語言模型搭系統(tǒng)，讓自己把工作做得更有效？未來真正能把你和別人區(qū)分開的，就是這種能力。我覺得不管你具體做什么，這一點都成立。

坦白說，現在到處都是恐懼營銷。尤其有些人在談人工智能的時候，本來就在故意制造這種恐慌。我的感覺是，人們真正應該做的，是把注意力放回自己身上，想辦法讓自己變得更高效。

我并不認為人工智能會取代我們所有人的工作。原因在于，人類在組織里承擔的一個關鍵角色，是構成一張信任網絡。組織本身就是一組資源和一群人，而這群人負責管理這些資源。

我們的一項重要職責，就是把這些資源分配到特定目標上。

就算人工智能能大幅加快執(zhí)行速度，關于資源如何分配的決定，最終還是必須落到具體的人身上。這件事永遠要有人負責。因為你不能把責任推給人工智能。

比如說，現在的大語言模型已經非常懂法律了，它可以幫你審合同之類的；但它不能代表你出庭，因為它不可能被吊銷律師執(zhí)照。

我覺得這就是一個非常尖銳的例子，說明為什么法律職業(yè)依然會存在：即便大語言模型很擅長調用先例、理解法理，你還是需要一個能為結果負責的人，去驗證人工智能的輸出，用人工智能來更高效地完成法律工作，而不是把自己的法律辯護整個交給一個語言模型。

別被恐懼營銷帶著走

主持人：對，我覺得當初促使你寫那篇文章的原因，其實也正是這種恐懼氣氛。

Vlad：對。我真的覺得，人們應該擁有的是一種更建設性的心態(tài)。

我之前看到一條推文，好像是 Deedy 發(fā)的，里面是那種很長的恐慌敘事，說什么人工智能會制造一個永久性的底層階級之類的。人很容易被卷進去。

但我覺得真正該想的是：我們每個人都對自己的未來擁有主動權。今天就可以開始投資那些對明天有意義的能力。這才是唯一真正該做的事。光擔心，什么也改變不了。

所以我想寫那篇文章，也是為了回應這一點。因為我確實感覺到，這種情緒一直在擴散。前陣子我去普林斯頓做講座，現場一個很大的問題就是：我怎樣才能去 Google DeepMind 工作？

而且這幾乎就是大家知道我在做什么之后，最常問我的問題。

所以我想，也許給出一些更具建設性的方向，會對整個討論更有幫助。

主持人：關于那篇文章最后還有一個問題。因為如果你想拿到一個崗位，當然一方面是能力本身，我們前面聊了很多你的能力是否匹配這個崗位；但另一方面，其實還有“信號”——你如何向外界展示自己，以及什么樣的信號是被看重的。

如果你要把自己推給這些前沿實驗室，什么樣的信號最重要？

Vlad：****最重要的是，拿出真實證據，證明你沿著這些方向做出過對別人有用的東西。比如內核開發(fā)。

現在已經有很多開源大語言模型了，你完全可以拿其中任何一個來做優(yōu)化。你甚至不一定要把模型本身做得更強。很多場景下，只要你能證明：在某個設定里，我把這個地方做快了，把那個地方做順了，這就已經很有價值了。

而且事情也不只是在圖形處理器上加速模型推理。圍繞大語言模型的服務棧，本身就是一個非常復雜的分布式系統(tǒng)。它要維護鍵值緩存，還要處理各種負載均衡、請求排隊——這些都是后端服務里再常見不過的問題。

這些項目一直都需要幫助。所以像給 vLLM、SGLang 這種項目做貢獻，或者基于 TensorRT 做一些實踐展示，都會很有價值。TensorRT 那邊我記得還有個分布式系統(tǒng)叫 Dynamo，它支持把推理服務拆分部署。你如果能展示自己基于這些組件做了項目，或者真正改進了這些組件——

對我來說，這會是非常強的候選人信號；同時我也覺得，這會是對開源社區(qū)非常受歡迎的貢獻。

主持人：還有一點，我們前面很多討論都默認了一條路徑：從外部跳進前沿實驗室。

但其實這些實驗室背后往往都有很大的組織體系，很多團隊并不是直接做最前沿研究的。比如在 Google 體系里，有些基礎設施工程師可能本來在搜索團隊工作，有很強的后端能力，但領域背景沒那么深，然后他們想內部轉到 Google DeepMind。

在這種內部轉崗的情況下，你的建議會和外部候選人不一樣嗎？

Vlad：我以前在搜索那邊有一位合作很緊密的同事，后來真的轉到了我團隊，叫 Nate Lintz。他非常厲害，現在在我們團隊里負責了很多核心工作，特別是在 Flash 和 Flash-Lite 的推理協同設計方面。

我覺得他就是一個很好的例子。他當時的思路是：我怎樣才能幫助自己所在的產品線，盡可能有效地采用這項技術？

所以我會說，如果你所在的組織不是直接造模型的，而是試圖利用這些模型，那這里面其實有一個很大的空白：如何真正把這些大語言模型高效地應用到你的組織里，如何高效地把它們服務起來。

如果你能成為那個把這件事做得特別好的人，這不僅會給你的團隊創(chuàng)造巨大的業(yè)務價值——這顯然會讓你在本組織里脫穎而出——同時，你也會自然而然成為我們研究團隊在對接產品落地時最重要的合作方之一。因為我們會需要和你這樣的人協作，確保模型能在你們組織里真正發(fā)揮作用。

所以到了那一步，你也許會想轉崗，也許不會。你如果想轉，我們當然很歡迎。

但即便你不轉，其實你已經在做一件非常前沿的事情了：把這種新技術整合進真實產品，讓真實用戶去使用。

所以，對這種情況，我的建議大體就是這樣。

先做出東西來，信號自然會出現

主持人：在那篇文章快結束的時候，作為收尾，你還發(fā)出了一個很具體的邀請，因為我知道你當時在招人。要不要把那段再講一下？

Vlad：對，我當時是在想：我怎么才能真正做到“說到做到”？怎么證明我不是只在嘴上說這些能力重要，而是真的愿意按這個標準去看人？

我想表達的是：如果你能通過一些具體練習，證明自己至少在我強調的那些能力上已經有了一些初步證據——比如意圖、數學成熟度、韌性——那我愿意認真看。

所以我列了幾項練習：有些是為了展示你對縮放規(guī)律已經有初步理解；有些是要你在工程層面愿意深入細節(jié)，真正親手實現一個 Transformer；還有一些則是展示你愿意掌握我們每天都會用到的那些基本數學，用來估算和設計這些大語言模型。

我現在已經記不清完整的練習清單了，但如果你把《縮放之書》里的題目認真手寫做完，錄一段自己講解過程的視頻，再加上我文章里提到的 Transformer 練習，把這些都發(fā)給我——

那就是非常有力的東西。如果你能在紐約辦公室工作，我會非常愿意面試你。

確實已經有不少人因此聯系我了。我其實已經收到過幾份提交，現在也已經在推進其中一些人的面試流程。

所以，這件事工作量當然不小。但讓我很驚訝的是，我大概在文章發(fā)出后一周內，就收到了回應。說明這件事確實是做得到的。

當然，我的招聘名額不是無限的，所以這個邀請雖然有效，但我也不可能招無限多人。

不過好的一點是：這本身就是一種非常強的自我成長信號。所以，不管你最后會不會因此去 Google DeepMind，這些事情都值得你為了自己去做。

而且我覺得，它也會幫助你準備去其他地方面試。

當然，如果你真的完成了這些練習之后聯系我，即便我這邊已經招滿了，我也認識很多其他正在招人的人，我也很樂意幫忙推薦。

真正有意思的，是把模型做對，也把硬件吃滿

主持人：接下來換個話題。我看到你是 Gemini 預訓練方向的負責人，我覺得挺有意思的，很想聽你從自己的角度高層次講講：在你看來，預訓練到底是什么？以及這個方向上最重要的挑戰(zhàn)有哪些？

Vlad：可以。

作為預訓練方向的負責人，我們要做的事情其實很多。

我團隊負責交付的具體產品，包括 Flash 模型和 Flash-Lite 模型。這些模型會被用在搜索里的 AI 概覽 and AI 模式上，也包括一些供其他組織內部使用的一方模型，比如廣告 and YouTube。

除此之外，我們還是 Google and Apple 合作中的關鍵技術負責人之一，所以也會做那邊的技術工作。

這些是我團隊承擔的產品層面交付。

再往上，我們還要做研究，確保這些交付本身處在業(yè)界最先進水平。同時，我們也做一些更通用的預訓練研究，再反過來貢獻給 Pro 系列模型。

如果從研究性質來分，我會說大體可以分成三個方向。

第一是前面提到過的蒸餾。

第二是我喜歡稱之為“推理協同設計”的東西。也就是：設計那些在推理時足夠高效的神經網絡架構。具體來說，就是決定網絡的拓撲結構，決定 Transformer 里門控層和線性層的矩陣形狀，決定注意力機制的形狀、注意力頭數量，諸如此類。目標是讓這些設計在你實際部署的硬件上，能盡可能高效地運行。

第三個支柱，是新的量化方法。量化一直是我特別有感情、也從加入 Google 以來一直在研究的方向。它實際上會改變前兩個方向能夠做到什么，因此推進模型壓縮的最前沿，也就成了我們團隊研究中的重要組成部分。

一般來說，量化指的是：在某種意義上減少神經網絡權重表示所占據的體積。

通常在訓練時，神經網絡里的那些矩陣參數是用三十二位浮點數來存儲的。

但事實證明，在實際計算中，你根本不需要那么高的精度，模型質量依然可以保持得很好。用一些并不算復雜的方法，就能把這些權重的存儲精度壓縮到四位。

也就是說，本來三十二位浮點數能表示一大段數值范圍、達到大約七位精度的東西，現在居然能以相當高的保真度，用四位整數來表示——而四位整數覆蓋的范圍其實非常小，大約只是從負八到七。這本身已經像奇跡一樣了。

但更神奇的是，你甚至還可以把類似的量化變換應用到神經網絡運行時的激活值上。

一旦做到這一點，實際做矩陣乘法時，參與運算的數就會比以前小得多，因此運行神經網絡所需的電力也會顯著下降。

有意思的是，人工智能硬件總運營成本里，有百分之九十九都來自驅動這些芯片所消耗的電力。如果你能把這些運算做得更便宜，神經網絡就能更廉價、更高效地運行。

這會直接幫助你處理更多請求，也會改善時延。

所以量化研究的核心問題就是：我們怎樣把前沿繼續(xù)往四位之外推進？

主持人：我在推特上經常看到一種說法，老在討論“模型浮點運算利用率”。對于不在這個行業(yè)里的人，或者說不了解這個概念的人來說，他們一看到那個數字只有十幾個百分點，就會覺得：哇，這不是浪費了絕大多數圖形處理器資源嗎？

我想請你幫大家解釋一下，為什么看起來“低”的模型浮點運算利用率，其實一點也不低。順便也請你解釋一下它到底是什么。

Vlad：對。所謂模型浮點運算利用率，本質上是這樣算的：把神經網絡實際完成的浮點運算次數，除以在這段請求時間里，硬件加速器理論上本可以完成的總浮點運算次數。

所以從某種意義上講，這個指標告訴我們：在多大比例的時間里，我們真正有效利用了這塊加速器的浮點運算能力。

如果你想達到百分之百的利用率，那意味著你必須把硬件里的矩陣乘法單元一直吃滿。

也就是說，它只能不停地在循環(huán)里做矩陣乘法，不能去讀內存，也不能做任何別的操作。

但這種計算在現實里沒什么意義。神經網絡需要做激活函數，需要做注意力計算，需要把中間結果寫回高帶寬顯存。所有這些操作，都需要使用內存總線，或者向量處理單元。甚至有些數學操作，本來就是底層硬件里比矩陣乘法慢得多的部分。

這些因素都會導致模型不可能一直按處理器標稱峰值運行。

所以你之所以看不到百分之百的利用率，是因為神經網絡有一部分時間在讀寫內存，另一部分時間在做一些天生就比矩陣乘法慢的操作。

我前面提到的推理協同設計，其實很大一部分就是在協調芯片的各種能力：和其他芯片之間的通信、內存帶寬、從內存中讀取參數的速度、浮點運算能力——這里既包括矩陣乘法，也包括向量運算，比如做激活函數。

這些能力在硬件上都有不同的速率，而任意一種計算都不可能天然精確匹配硬件每一類能力的最佳節(jié)奏。

在設計神經網絡時，你要做的是選出一組結構形狀，讓這個網絡能盡可能同時吃滿這些硬件單元，從而在推理時把利用率盡量拉高。

而讓這件事不只是一個代數題的原因在于：這些設計選擇最終會影響你訓練出來的神經網絡質量。

所以推理協同設計真正有意思的地方就在于：我們怎樣設計出一種神經網絡架構，它既能穩(wěn)定地隨規(guī)模擴大，又有好的質量預測，同時還能讓推理時的硬件利用率盡可能高。

這種聯合優(yōu)化，正是推理協同設計最有趣的地方。

而且它還是個常青問題。因為隨著硬件變化，浮點運算、內存帶寬、通信帶寬之間的相對關系也會變化，而這又會改變“什么樣的神經網絡形狀才是最優(yōu)”的答案。

很多關鍵工作，并不光鮮

主持人：換個話題。Google 有一種叫“即時獎金”的機制，就是有人可以因為你做得特別好，給你一筆一次性的獎金。我在你的履歷里看到，Jeff Dean 這位傳奇人物曾經給過你即時獎金。

如果你愿意講講那個故事的話，我很想聽。為什么他會給你這個獎金？

Vlad：那其實發(fā)生在 Gemini 項目剛開始的時候。

Jeff 當時給了一批參與 Bard 第一版發(fā)布的人即時獎金。我在那個非常龐大的項目里，其實只做了一個很小的貢獻。我?guī)兔ψ隽吮O(jiān)督微調，參與了 Bard 最早幾個發(fā)布版本中的某一版。

那段經歷給我最大的啟發(fā)是：在那個時候，我還只是 Google Brain 里一個純做研究的人，我當時非常執(zhí)著于一件事——怎么盡量多發(fā)第一作者論文到 NeurIPS、ICML、ICLR。

我非常清楚地記得，當時我腦子里的第一反應其實是：我是不是應該繼續(xù)低頭寫論文？

很幸運的是，那時我的經理 Rohan Anil 非常鼓勵我們都投入這個方向。對我來說，這正好給了我需要的推動力——讓我真的卷起袖子，去做很多超參數調優(yōu) and 工程工作，想辦法讓這個模型在一些非常老的張量處理器上跑起來，好為監(jiān)督微調多爭取一些訓練機會。

那次很小的初步參與，后來得到了 Jeff Dean 的認可。我覺得它也進一步推動了我在大語言模型方向上的投入，最終把我?guī)У搅私裉斓奈恢谩?/p>

所以我會說，這件事的重點并不在于，我當時那一點監(jiān)督微調工作對最初發(fā)布到底幫了多大忙。

更重要的是，它讓微觀的我認識到：想參與那些高價值項目，你往往需要投入很多并不光鮮的工作。可能只是超參數調優(yōu)，只是為了讓程序塞進特定內存預算里，不停去擠壓編譯器表現、摳那點空間。

但這些工作，都會服務于更大的業(yè)務目標。而這件事，對于進入真正重要的項目來說，非常關鍵。

主持人：你在 Gemini 上也做了很久了，而且這還是一個最高優(yōu)先級項目，所以你一定經歷過一些事故或者“戰(zhàn)爭故事”。我很好奇，你最喜歡的一段 Gemini 故事是什么？

Vlad：如果讓我選，我最喜歡的應該是 Flash 2.0。

那真的是一段非常艱難、也非常漫長的旅程。但我們當時最核心的優(yōu)化目標之一，是延續(xù) Flash 1.5 已經建立起來的那個定位：做一種非常快、時延很低、但質量依然很強的模型。

尤其是它必須快，因為搜索需要它在 AI 模式里非常迅速地返回回答。

正因為如此，在 Flash 1 的時候，雖然我們已經知道混合專家模型，也知道它可以顯著提升容量，但當時一個很現實的問題是：我們當然想用這種新架構，可你很難直接切過去。

因為混合專家模型的特點之一就是參數通常更多。而參數一多，就會占用更多高帶寬顯存。可我們部署所用的這些芯片，高帶寬顯存是有限的。

所以你就必須把這個混合專家模型切分到多塊芯片上。假設你有 N 個專家模塊，那你可能得把它們分布到 N 塊芯片上，或者按某個和 N 相關的比例分布。

這樣一來，模型中間就會出現大量通信。當一個詞元需要被路由到某個專家模塊，而這個詞元原本在第一塊張量處理器上，卻必須送到最后一塊去處理——你就在前向傳播過程中引入了巨大的通信量。

而這個操作的時延會隨著 N 的增加而急劇變大。混合專家模型的難點就在于，它會把 N 推得很高。這就成了一個非常嚴重的瓶頸。

有意思的是，我們其實很早就知道流水線式服務這個思路。只是對稠密模型來說，它一直沒有真正重要到必須采用。

我很清楚地記得，自己很早曾和 Sholto 聊過這個事。Sholto 當時說：對啊，你這里主要受限于浮點運算量，所以做流水線并不會改變輸入預填階段的性能曲線。

后來證明他是對的。我試了一下，然后就把這個想法擱置了。

但有意思的是，當時我團隊很小，我手下的一位同事 Geng Yan 提出了一個非常好的想法。他當時和 Rahul Arya 以及 Google 以色列團隊的幾位同事合作，提出把流水線式預填應用到混合專家模型上。

所謂流水線，就是說你不再把那 N 臺機器并行地分給同一層里的 N 個專家模塊，而是把不同的層分配到不同機器上。

也就是說，不再是在某一層里把詞元在各臺機器之間來回路由；而是某一層的機器先處理你預填請求中的一部分詞元，再把這些處理過的詞元傳給下一臺機器，讓它處理第二層，再傳給第三層、第四層。

這樣一來，所有專家模塊都可以常駐在單臺機器上，或者更少數幾臺機器上。

它本質上改變了通信模式：從原來那種每一層都要做大量詞元交換，變成了一種可以被其他計算掩蓋掉的通信方式。

因為你可以把流水線式預填分攤到請求的不同部分。比如第二層在處理請求前一千個詞元時，第一層所在的第一臺芯片已經可以開始處理第二個一千詞元了。

所以，這其實是一種打破高帶寬顯存約束的方法：不是把專家模塊在機器之間搬來搬去，而是把網絡層分布到不同機器上。

正因為如此，通信開銷降下來了，混合專家模型的時延突然就變得非常有吸引力。

Gemini 2.0 的技術報告里寫得很清楚：它是一整個混合專家系列模型。而使這件事成為可能的原因之一，就是這種推理階段的服務創(chuàng)新。

Dwarkesh and Reiner 有一篇非常棒的文章，專門講這個優(yōu)化，而且你甚至可以把它寫進《縮放之書》的代數框架里去理解。

這也是一個很好的例子，說明這種看似局部的改動，實際上會對大語言模型質量產生多么巨大的影響。

真正讓 Flash 2.0 那段經歷如此有成就感的，是這個重大的混合專家決策。它在當時聽起來像個小技術選擇，但大家真的非常擔心：這個模型的時延到底能不能壓到合理范圍。

好在我最后推動了一套非常透明的技術決策流程，把問題徹底查明了。最后我們做出了正確的判斷。

可接下來還得訓練它。

這是一個在 Flash 這個規(guī)模上，我們訓練過的最大模型。我們知道這是對的方向，但接下來的四十天會是極其艱苦的過程，而且團隊非常小。

負責這次訓練輪班的人，可能只有五個左右。

我記得我們幾乎是一天接一天地交接，輪流做這種運維式工作：想辦法讓訓練任務一直活著。因為在當時，這真的是一個非常需要人工盯著的過程——你得確保所有東西都穩(wěn)定推進，確保數據迭代器調好了，不會拖慢任務；如果數據里有空洞、索引有問題，你必須立刻修補，因為每一分鐘都在燒掉巨量算力。

主持人：那夜里和周末怎么辦？

Vlad：對，所以那四十天里，我們基本沒怎么睡。

我們必須在巴黎辦公室 and 山景城之間做雙班倒。

而讓這一切最終變得特別值得的，是模型發(fā)布的時候，差不多正好趕上 DeepSeek-V3 出來。那時《華爾街日報》發(fā)了一篇很夸張的“紅色恐慌”式文章，講什么中國要靠開源模型接管人工智能之類的。

我記得我朋友給我發(fā)來一張截圖，是大模型競技場排行榜的一張表。最右上角是 ChatGPT，DeepSeek 緊隨其后。然后文章還在說，DeepSeek 只花了幾百萬美元訓練，就已經追得那么緊。

我朋友就跟我說：哦，Gemini 落后太多了。因為那張表最底下放的是一個我記得像 Flash 1.5 Pro 之類的版本。

然后我一看，心想：這挺有意思的。我剛好一直在看這個排行榜，因為我們剛發(fā)了一個模型，而網站上的實際情況顯然不是那樣。

后來才發(fā)現，《華爾街日報》那篇文章里把一些行給省略掉了。

所以如果你今天再回去看那篇文章，你就會看到，當時真正處在業(yè)界最前沿的模型——Flash 2.0 Thinking——其實在表格的右上角，遠遠領先于 DeepSeek-V3。這多少會讓他們當時想講的那個“開源壓倒一切”的敘事不那么成立。

但對我們團隊來說，那確實是一次非常重要的成就。

做那個別人真心希望他成功的人

主持人：最后一個問題。如果你可以回到自己剛大學畢業(yè)的時候，大概就是本科畢業(yè)那會兒，然后給那個時候的自己一些建議——以現在的你所知道的這些東西——你會說什么？

Vlad：****你得去追那些這個世界今天真正面對的問題。去追那些人們在日常生活中真正遇到的挑戰(zhàn)。不要害怕自己切進去的只是這個問題里較小的一部分，或者聽起來沒那么體面的那一部分。

即便它不是那種“很高級”的研究、數學之類的東西，也沒關系。你要相信，只要你是在做重要的事，哪怕只是一個更大項目里的較小組成部分，你最終也會看到，真正推動前沿往前走的，到底是什么。

我想，這里面需要一種面對問題時的謙遜。你真正該追求的是這個。

如果再說另一條建議，也許更偏職業(yè)層面一點，那就是：成為那種別人愿意看到他成功的同事。

我的意思是，大家總會談什么“職場精神病”、馬基雅維利式領導者，或者那種為了結果不惜一切代價的人。他們也許能通過壓榨別人，換來一些短期收益。

但這么多年和各種樣的人共事下來，我覺得最有意思的是：我見過極少數那樣的人——其中有一位特別親近，是我的朋友 and 導師 Todd Lipkin，也是最早帶我進入計算機科學的人——他們非常善良，而且你能從他們身上學到很多。你會真心覺得：我愿意跟著這個人一起做事，也愿意幫助他成功。

特別是，如果你是那種能幫助別人把項目做成的人，能提出一些項目，讓別人可以用自己的互補能力在其中發(fā)光的人，大家會注意到這一點。將來他們也會更愿意參與到你提出的項目里，也會更愿意支持你。

很多人一想到職場互動，就會變得很犬儒，總想著博弈，想著怎么占優(yōu)。

但我的經驗是，這種更友好、更合作的方式，往往會培養(yǎng)出一種很深的協作感 and 互相幫助的意愿。而要把那些需要多人、多種能力共同跨線的大項目真正做成，這種東西太重要了。

所以，如果我能給更早版本的自己一點人際層面、職業(yè)層面的建議，那就是：去做那種人。做那個別人會真心希望你成功的人。

主持人：我很喜歡這番建議，因為它正好對抗了那種很犬儒的建議。我也很喜歡，你最初那篇文章本身，就是在對抗那種“末日論”“永久底層階級”式的說法。

非常感謝你今天抽時間來聊。真的很有意思，也非常感謝你。

Vlad：謝謝你邀請我，Ryan。

CSDN 6 月寵粉福利

一步獲取以下全套技術資源：

1?? 200 小時 GPU 算力：注冊即領，支持 Jupyter Notebook 一鍵啟動

2?? Agent 實戰(zhàn)訓練營：奇點智能技術大會專家架構復盤視頻

3?? 《Claude Code實戰(zhàn)》開發(fā)者專屬試讀版本

4?? 《AI原生軟件研發(fā)白皮書》：2026最新版效能度量標準

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.