網易首頁 > 網易號 > 正文申請入駐

谷歌云CEO：自研TPU構筑競爭護城河，第八代芯片即將發布，外部需求已超供給上限

2026-04-25 12:00:34　來源: 華爾街見聞官方

上海舉報

分享至

在全球AI實驗室深陷“算力荒”的當下，谷歌正憑借超過十年的自研芯片積累，構筑起一道競爭對手難以復制的結構性護城河。

谷歌云CEO Thomas Kurian近日在接受專訪時表示，即將公布的第八代TPU將拆分為專注大規模訓練的v8T與推理優化的v8i兩條獨立產品線，單個訓練系統可容納兩個Petabyte的內存。外部AI實驗室對TPU的需求已"遠超我們所能滿足的上限"，并以此作為成本競爭力的最直接佐證："如果我們的成本貴得多，他們根本不會來找我們要TPU。"

芯片優勢正在加速兌現為商業增長。Kurian披露，Gemini企業版Token處理量已從今年1月的每分鐘100億躍升至160億，企業用戶數環比增長40%。他同時向行業發出警告：在算力產能持續受限的市場環境下，沒有自研芯片的玩家單位經濟成本將"越來越貴"；而依靠風險投資輸血、無法以推理收入覆蓋訓練成本的商業模式，終將面臨資金來源枯竭——"這個缺口越拉越大，你能找到的資金來源就會越來越少。"

Kurian將這一優勢定性為貫穿未來十年的長期壁壘，并以"平臺公司邏輯"回應外界對谷歌同時服務Anthropic等競爭對手的質疑：為對手提供底層算力與在模型層正面競爭并不矛盾，且恰因TPU同時服務內外部需求，谷歌在供應鏈談判中能獲得更有利的合同條款，進一步加深了這條結構性護城河。

十一年積累的復利效應：TPU從專用AI芯片走向通用算力

Kurian將谷歌今日的算力優勢，追溯至超過十一年前啟動的TPU自研項目。他表示，谷歌早在多年前便預判AI浪潮的到來，并從能源多元化、土地儲備、數據中心建造模式轉型等多個維度提前布局，以確保不在物理資源層面受到制約。

在數據中心建設層面，谷歌已將傳統建筑施工模式轉向工廠預制化模式，以更大的粒度進行預組裝和預測試，從而大幅壓縮產能部署周期。Kurian表示，這些決策的累積效應，在技術棧各層形成了復利——從TensorFlow到JAX，再到XLA和Pathways，谷歌圍繞TPU構建的完整編程棧，是當前系統效率的核心來源之一。

值得關注的是，TPU的應用場景已開始向AI之外延伸。Kurian提到，對沖基金Citadel已公開談及如何將TPU用于資本市場的算法交易，美國能源部及高性能計算領域的客戶也在采用這一方案。其邏輯在于：算法交易過去依賴數值計算，受制于摩爾定律放緩，而轉向推理計算可帶來顯著的性能躍升。部分頂級金融機構已要求將TPU部署在靠近交易所的客戶自有數據中心，谷歌正在探索這一新型商業模式。

第八代TPU拆分為推理與訓練兩條產品線，應對智能體時代需求

Kurian透露，即將發布的第八代TPU包含三款產品：面向大規模訓練的v8T，以及混合用途的Ironwood。其中v8i主要針對推理場景優化，可在無需水冷的條件下運行，便于部署至更多地點以管理推理延遲。

在技術規格層面，Kurian介紹，v8T訓練芯片在單個系統內可容納兩個Petabyte的內存，相當于美國國會圖書館全部數字化內容的約100倍。v8擁有9600塊芯片互聯，v8i則有1152塊，全部運行在統一的光學Taurus網絡上，具備極低的可預測延遲，內存到芯片的數據吞吐效率極高。

谷歌以"goodput"（有效吞吐量）作為核心衡量指標。Kurian表示，谷歌三四年前便預判能源供給將趨于緊張，因此將每瓦特算力的產出Token數作為優化重心，這一決策如今已成為眾多客戶選擇TPU的重要原因。他明確表示，谷歌完全有信心憑借TPU為世界上最大規模的模型提供服務，且其分離式部署（disaggregated serving）技術棧對TPU的使用效率在所有模型提供商中最高。

對于業界關于預訓練擴展放緩的討論，Kurian給出了明確回應："從芯片設計、系統設計或產能層面，我們都沒有看到這種放緩。"

智能體時代重塑算力架構：存儲瓶頸成下一個關鍵約束

在Kurian的框架中，AI應用正經歷三個演進階段：以搜索問答為核心的第一階段、以多模態內容生成為特征的第二階段，以及以智能體自主完成復雜任務為核心的第三階段。他指出，智能體的興起正在從根本上改變芯片和系統設計的優化方向。

智能體任務可能持續運行6至12小時，對KV緩存設計提出了全新要求，內存駐留成本的控制將直接決定推理服務的經濟性。與此同時，推理場景需要在大量地點分散部署，這與訓練可集中在少數超大規模地點完成的特性截然不同，v8i支持風冷運行正是對這一需求的直接回應。

在存儲層面，谷歌即將推出兩項新方案：其一是面向大規模訓練的托管Lustre解決方案，吞吐量達每秒10太字節；其二是面向推理場景的超低延遲"Rapid Storage"，吞吐量達每秒15太字節，可掛載于靠近推理芯片的位置。此外，谷歌還將推出新型網絡架構Virgo，提供超大規模集群內的超低延遲高速互聯。

Kurian指出，智能體普及的下一個重大瓶頸將出現在消費者側——讓虛擬機按需激活、停用，并高效處理本地存儲讀寫，將是降低智能體使用成本、實現大眾化普及的核心工程挑戰。

平臺邏輯下的商業模式：為競爭對手供給算力不影響自身競爭力

針對外界對谷歌同時為Anthropic提供TPU算力、卻又在模型層面直接競爭這一矛盾的質疑，Kurian將其歸結為平臺公司的內在邏輯。他表示，谷歌的不同業務部門與市場參與者同時存在競合關系，蘋果已與谷歌簽訂模型合同同樣屬于這一邏輯的體現。

對于如何在內部算力需求與外部供給之間做出權衡，Kurian表示，分配決策由以Sundar Pichai為首的管理團隊共同討論做出，并強調"擁有自己的芯片和需求，遠比沒有自己的芯片要好得多"。谷歌不依賴外部芯片采購，因此無論如何分配，均能在自有知識產權基礎上獲得利潤，這與純粹轉賣他人IP的商業模式有本質區別。

在對比英偉達的總擁有成本主張時，Kurian以客戶反饋作為回應——"我們有很多客戶說我們的總擁有成本是最低的"，并重申大量外部AI實驗室對TPU的需求已超出谷歌供給能力，視其為成本競爭力的最直接證明。

網絡安全成AI軍備競賽新戰場，谷歌推三層應對體系

Kurian對AI模型在網絡安全領域的風險持高度警覺態度。他指出，無論如何限制閉源模型的擴散，開源模型必然會流入對手手中，且隨時間推移持續進化。因此，核心問題在于：Anthropic認為Mythos過于危險而暫緩發布的那些漏洞檢測能力，有多大比例可以被開源模型復現？

谷歌的應對策略分為三層：第一，借助Gemini提升漏洞檢測速度，并推出能夠輔助修復代碼的新模型，因為漏洞被發現的速度已遠超人工修復的速度；第二，引入"持續紅隊演練"智能體——第一個智能體持續發動攻擊測試，第二個對漏洞進行優先級排序，第三個輔助完成修復；第三，與Wiz整合后，將持續檢測能力融入云端安全體系，形成從發現到修復再到部署的閉環。

Kurian亦對"AI將取代軟件工程師"的論斷提出反駁。他表示，在模型能力提升帶來大量安全漏洞的當下，恰恰是最需要大量軟件工程師配合模型工作的時刻，行業容易在"不再需要任何人"的論斷上矯枉過正，而現實往往相反。谷歌堅持代碼同行評審制度，并正在探索引入"監督模型"以不同方式審查AI生成代碼，以應對AI既生成代碼又審查代碼所帶來的認知盲區風險。

以下為訪談全文：

主持人：好的，Thomas，感謝您今天來接受我的采訪。我們現在在谷歌云園區，非常感激您抽出時間。
Thomas Kurian：感謝邀請。
主持人：我非常期待這次對話，有很多問題想問您。
Thomas Kurian：好的，盡管問。
主持人：我最近一直在思考的第一個問題是關于TPU產能的。當你看看Anthropic和OpenAI這些前沿實驗室，他們一直掛在嘴邊的就是算力受限的問題。但反觀谷歌，你們擁有完整的技術棧，有自研芯片，而且你們不僅在服務自己的推理需求，還在做訓練、銷售推理服務，同時還允許一些競爭對手在你們自己的芯片上構建產品，甚至還在直接銷售芯片。你們是怎么做到有這么充足的產能的？而其他前沿實驗室似乎永遠都不夠用？
Thomas Kurian：你想想我們在全球范圍內實際上變現了多大比例——在某些場景下，我們同時對算力和推理請求收費；在另一些場景下，我們提供的是算力，運行的是別人的模型，但底層芯片是我們的。這背后的部分原因，要追溯到很多年前我們所做的長期規劃。當我們預見到這波AI浪潮到來時，我們從多個維度入手，確保自己不會在物理資源上受到制約。
我們多元化了能源來源，提前鎖定了土地以便建設數據中心，改變了數據中心的建造方式——我們從傳統的建筑施工模式轉向了更多的工廠預制化模式，因為工廠制造永遠比現場施工更快。我們還縮短了機器部署的周期。這些都是我們已經做到的事，也在產能上幫了我們很大的忙。
在芯片層面，我們一直與英偉達保持合作伙伴關系，但同時我們也一直致力于研發自己的芯片，而且已經做了——我想大概是第十一年還是第十二年了。第八代TPU將會在我們的發布活動上正式公布。
主持人：是的，我們待會兒會聊到這個。
Thomas Kurian：我們在這件事上已經積累了深厚的經驗，一代又一代地做，一次又一次地交付這種優勢。現在很有意思的是，我們不僅看到來自AI實驗室的需求，還看到來自其他行業的需求。比如Citadel在資本市場領域就公開談到了他們如何使用我們的TPU；美國能源部以及高性能計算領域的客戶也在談論這個。所以我們正在看到TPU變得越來越通用，不再局限于AI算法，而是成為更廣泛的基礎設施。
主持人：那當你面對TPU這塊大蛋糕，需要在各種不同的用途之間分配算力時，你是怎么比較和權衡的？如果你愿意分享具體數字當然很好，但哪怕是粗略對比一下——直接銷售TPU、讓Anthropic或OpenAI通過你們的基礎設施運行推理、還是服務自己的Gemini模型——這幾種模式相比較如何？
Thomas Kurian：我們在這幾者之間保持投入的平衡，而且無論哪種方式我們都能獲得不錯的利潤，因為我們擁有自己的知識產權。我們不是單純在分銷別人的IP。我認為這一點幫助了我們，你也看到我們的營收和運營利潤率都在持續提升。
我們還把TPU擴展到了新的場景，比如資本市場。我們發現一個非常有趣的現象：算法交易過去主要依賴數值計算，而這類計算主要運行在傳統算力上，受摩爾定律的制約，每代之間的性能提升越來越慢。所以很多頂級機構已經發現，轉向推理計算可以帶來巨大的性能飛躍——與其用數值方法做計算，不如轉向推理，就能享受推理性能提升所帶來的紅利。隨著這些機構陸續加入，他們希望我們的機器能部署在更靠近交易所的地方，比如放在他們自己的數據中心里。所以我們已經開始把TPU引入部分核心客戶自己的場地，這是一種略有不同的商業模式。
從宏觀角度看，我認為多元化本身就能促進產品進步，因為你能從各個地方接收到需求反饋。商業化渠道的多元化也幫助我們實現增長。舉個例子，當我們和供應鏈供應商談判時，正因為我們使用這些芯片不僅僅是為了滿足自身需求，還為市場提供服務，他們會說谷歌的需求量是一個更大的總盤子，所以我們能拿到更有利的合同條款。
主持人：我想在這個點上再多停留一會兒。如果算力需求是無限的，哪怕只從研發角度來看，為什么不干脆把算力全部留給自己？更直白地說，如果AGI真的是所有AI實驗室都在追求的終極目標，而且誰先到達、誰先規模化部署誰就贏，那么把產能全部留給自己、留給自己的模型，似乎才是最有利的選擇。我的理解哪里有偏差？
Thomas Kurian：你必須賺錢才能支撐這一切。谷歌確實賺了很多錢，但你必須持續產生現金流，而這是我們生成足夠現金流的另一個杠桿。我們分配給外部的算力始終是在和自身需求及資本需求之間做平衡的。而且你知道，不管你是哪家實驗室，風險投資是沒辦法無限期地支撐你的。隨著算力成本不斷上漲，如果你做的是虧本買賣——你虧錢，而且從推理服務等手段中賺到的錢不足以覆蓋訓練成本——這個缺口越拉越大，你能找到的資金來源就會越來越少。
主持人：我一直在說谷歌處于多么獨特的位置：有現金奶牛、有芯片、有模型。你們的Gemini團隊有沒有來找你說過"我們不夠用"？我知道我在這個點上很糾結，其他那些公司就是跟不上，這對我來說真的太不可思議了。
Thomas Kurian：對這類東西的需求永遠存在，而且我認為未來十年需求會始終超過供給，如果你有自己的芯片，這是個很好的位置。如果你沒有，你就只是在轉賣別人的東西。在一個產能受限的環境下，你的單位經濟成本會變得越來越貴。而我們的情況是，因為我們掌控芯片，單位經濟效益仍然具有吸引力。所以擁有自研芯片將是我們的一個核心優勢。
主持人：那如果你把你們TPU的整個算力池、整個計算基礎設施看成一塊大餅，你能談談訓練、推理、銷售TPU、為其他實驗室服務推理這幾塊大概各占多少嗎？
Thomas Kurian：粗略地說，我們不會公開詳細數字，所以我不會逐項拆解。但大體上從宏觀來看，谷歌云大約占Alphabet總資本支出的一半，而且還在增長，因為它的增速遠超其他業務，這個你們應該清楚。所以這是一個大致的劃分比例。而在我們這邊，我們相當大比例的增長來自Gemini和我們自己的模型，你可以把這個作為一個粗略的參考。
主持人：好的。你剛才提到了數據中心和數據中心建設。你能解釋一下你所說的"建筑施工"和"工廠制造"在數據中心層面的區別是什么嗎？
Thomas Kurian：說白了就是你部署產能時的基本單元是什么。比如，你可以在數據中心里一個機架一個機架地組裝；也可以整排整排地部署。你能以越大的粒度來部署，就越能在一個集中地點提前完成預組裝和預測試，部署速度也就越快。
主持人：當你在規劃新數據中心的部署時——我想你比任何人都更清楚，美國社會對數據中心目前有相當負面的看法，我記得支持率大概只有20%左右。你是怎么看待這個問題的？整個AI行業又該如何扭轉公眾對人工智能、以及對部署數據中心這件事的看法——畢竟數據中心的部署實際上賦予了美國戰略優勢？我個人對AI是相當樂觀的，你是怎么看的？
Thomas Kurian：人們對數據中心的擔憂主要集中在幾個方面。第一，數據中心會不會推高我所在的州或縣的能源價格？第二，數據中心所在的社區能不能獲得足夠的就業機會？
針對這些問題，我們正在做幾件事。首先，我們正在投資"表后"（behind the meter）技術，也就是說我們不從電網取電，而是在州政府有意愿的情況下與電網互聯，這樣當電網出現短缺時，我們的能源反過來可以反哺電網。我們在投資替代能源，因為我們認為傳統的"發電+配電"模式并不是能源供應進入市場的唯一方式。所以我們正在研究的一個問題是：能否借助AI帶來的能源需求，推動新型能源配送方式的出現，從而降低單位能源成本，并進而服務于更廣泛的市場？
第三，我們非常重視PUE（電源使用效率）指標，也就是我們所消耗的每一度電的效率。簡單來說，如果你需要100兆瓦的計算功率，你從能源側實際消耗的額外兆瓦數越少，就說明你越沒有在浪費能源。我們在這方面是全球最高效的，背后涉及熱力學交換、散熱方式等數以千計的優化細節。
最后，我們會深度投入我們所在的社區。為了避免讓當地社區覺得谷歌把所有資源都集中在一個龐大的地點，我們把數據中心分散部署在許多地方，這樣沒有哪個州會覺得我們成了他們資源的一個沉重負擔。我們在這方面有著很好的記錄。我去過我們很多數據中心，當你深入到當地的經濟環境中，看到當地學校里的孩子，看到運營我們數據中心的員工——他們對我們來說極為重要——看到我們為那些偏遠社區帶來了多少經濟發展，你會覺得這是我們應盡的責任的一部分。
主持人：這很好。但如果說到更廣泛的社會層面的看法，而不僅僅是你進入的那個當地社區——你進去了、創造了就業、投入了資金、沒有直接推高電價，這一切都很好——但你究竟要怎么真正改變更廣大美國民眾對人工智能的看法？
Thomas Kurian：這將是一個過程。我認為關鍵在于找到那些能讓技術真正造福社會的應用場景，而不是引發人們對工作被取代的恐懼。讓我舉幾個例子。
在我們的發布會上你會看到一家叫Signal的公司，他們平時不怎么公開宣傳自己——他們是德國最大的健康保險公司。他們目前大規模部署了基于Gemini企業版構建的AI智能體，來幫助他們的團隊工作。非常有意思的是，當我們剛開始合作時，內部有很多焦慮，擔心這會導致裁員。但他們一個人都沒裁，而且他們發現，在回答客戶關于"我是否符合這項治療的報銷資格"這類問題時，準確率和速度都大幅提升——有些情況下，過去需要23分鐘才能查清楚的問題，現在只需要幾秒鐘就能回答。所以這既提升了效率，也提升了客戶服務的質量，而且沒有動過一個工作崗位。
我們還與美國臨床腫瘤學會合作——他們是全美51,000名腫瘤科醫生的行業組織。他們希望有一個AI應用，能在醫生坐診時幫助他們查閱標準治療指南。比如這位患者來看病，她有乳腺癌，標準治療方案是什么？但她同時還有糖尿病，如果是這種類型的糖尿病，我就不能給她開化療——這類規則極其復雜，很多情況下還互相交叉。他們希望AI能幫助提供答案，而且這些答案必須是百分之百準確的，絕對不能出現幻覺。我們幫助他們實現了這一點，幫助醫生更好地照護患者，他們會員的反饋令人非常振奮。
還有很多這樣的例子。我們經常說，最重要的應用之一是打造一個"財富顧問"。想想普通市民的處境：如果你是高凈值人士，你可以去私人銀行，有專業的財富管理顧問為你服務；但如果你是沒有那些經濟資源的普通人，你可能根本得不到高質量的理財建議。花旗集團正在開發一款財富顧問應用，他們會在活動上進行展示，這款應用將借助Gemini的推理和任務管理能力，為用戶提供理財建議，并在用戶需要時幫助他們執行投資操作。
這些都是社會將會認可其價值的例子。從"AI會造成大規模失業"到聽到這一面的聲音，需要時間來實現平衡，而這是我們作為一個社會共同走過的旅程的一部分。
主持人：我想繼續聊一個話題——算力需求如果是無限的，尤其在研發層面，為什么不干脆把算力全部留給自己？擁有自己的芯片，在算力受限的環境下保持單位經濟效益，這將是谷歌的一大優勢，因為你們擁有這些芯片。接下來，我想問你關于模型發布和安全邊界的問題：你是否有某條紅線，某個基準，讓你判斷Gemini已經不再安全到可以向公眾發布？
Thomas Kurian：我們從其他所有AI實驗室那里得到的需求已經超過了我們所能滿足的上限。
主持人：Thomas，什么事情會讓你夜不能寐？
主持人：我確實同意。我認為工作崗位被取代這個問題，尤其令美國普通民眾感到非常擔憂。我想直接問您——就您的組織谷歌云而言，現在隨著人工智能讓您的工程師和其他部門的員工效率大幅提升、自動化程度不斷提高，請問您們是在招人、裁員，還是保持穩定？你們目前處于哪個階段？
Thomas Kurian：我們在產品和銷售方面都在增加人手。我們在市場拓展團隊方面招募了大量人員，也在大量招聘部署工程師。在我們開發新產品的領域，我們也在擴充能力。
舉個人們通常看不到的例子——很早以前，我們就預判到兩件事：第一，隨著模型在理解代碼方面越來越強大；第二，隨著模型學會使用計算機來執行任務，它們在很多事情上能做得非常出色。但理解代碼帶來的一個問題是，模型同樣能發現代碼中的漏洞，因此新模型引發了大量關于網絡安全漏洞的焦慮。這個話題我們等會兒會聊到。
很早以前我們就決定做三件事：第一，借助 Gemini 提升漏洞檢測能力，目前已有大量客戶在使用；第二，打造一個能夠修復代碼的模型——因為如果你能快速發現漏洞，人工往往跟不上修復速度，那么模型能否協助你修復？我們針對這一點即將推出新功能。此外，在我們收購 Wiz 之后，你將看到我們結合 Wiz 展示的新能力，其核心是持續檢測。
有人稱之為"持續紅隊演練"。我們將展示三種不同類型的智能體（Agent）：第一個智能體持續對你發動攻擊，確保漏洞能被及時修復、不被打個措手不及——這是以前無法做到的；第二個智能體對發現的問題進行優先級排序，幫你明確哪些漏洞是最需要優先處理的；第三個智能體則協助你完成修復工作。
主持人：聽到你們仍在招人，我很高興——效率提升了，還在擴招。不過外面確實有一些公司采取了不同的做法。Block 是個典型案例，Jack Dorsey 發了一篇博文，Block 裁減了將近一半的員工，并將 AI 列為原因之一。您認為谷歌這種"效率提升同時持續擴招"的方式，與 Block 那種"重塑公司結構、以一半的人力實現更好效果"的方式之間，差異究竟在哪里？
Thomas Kurian：每家公司對自己產品和服務的需求情況不同，每位 CEO 都會做出自己的判斷。我們看到的是強勁的市場需求，所以我們選擇持續投入。
主持人：我們來聊聊英偉達。黃仁勛最近接受了 Taresh 的播客采訪，他談到英偉達及其架構在每個 Token 的總擁有成本上是最低的，這得益于 CUDA、NVLink 網絡以及各種工具鏈所帶來的更優 Token 經濟性。您認同這個判斷嗎？您認為谷歌在總擁有成本上是否最具競爭力？如果不是，谷歌打算如何追趕？
Thomas Kurian：我們有很多客戶說我們的總擁有成本是最低的。
主持人：好吧，我想這就是答案了，對吧？
Thomas Kurian：是的，現實情況是，如果你是一家 AI 實驗室，你會選擇最好的平臺。不只是谷歌自己的團隊在用，其他 AI 實驗室對我們 TPU 的需求，已經遠遠超過我們所能滿足的上限。我只想說：如果我們的成本貴得多，他們根本不會來找我們要 TPU。
主持人：TPU 的核心優勢之一是速度嗎？我注意到 Gemini 系列模型速度非常快，作為一個速度控，我非常欣賞這一點。通常來說，專用 ASIC 芯片往往比通用 GPU 快得多。這對 AI 實驗室或您的客戶來說是一大賣點，還是他們始終把質量放在第一位？
Thomas Kurian：質量。質量是第一位的。但我認為這是一個組合，有三個核心要素——因為關鍵不只是芯片本身，而是整個系統。以 TPU v8 為例，它擁有 9600 塊芯片；v8i 則有 1152 塊，全部連接在一個單一的光學 Taurus 網絡上。這帶來了極高的帶寬，以及整個 Pod 中所有芯片之間超可預測的低延遲。這使得我們能以極高的效率將數據從內存中取出進行處理，并再寫回內存。舉個例子，v8T 訓練芯片可以在單個系統中容納兩個 Petabyte 的內存——這相當于美國國會圖書館全部數字化內容的約 100 倍。
由于網絡延遲極低，內存到芯片的數據吞吐量也極為迅速。第三，在硬件層之上，從編程棧的角度來看，谷歌開發并貢獻給業界的工具非常豐富，例如用于編譯器優化的 JAX，我們在 PyTorch 上也做了大量工作，還有 XLA、Pathways——這些都是谷歌構建的技術。把這一切加在一起，即便你看推理和視覺語言模型，我們也針對其中大量技術進行了深度優化。正是這整套技術棧，讓 TPU 系統如此高效、如此強大。
我們通過一個叫做"goodput（有效吞吐量）"的指標來衡量這一點——它衡量的是你實際獲得的有效吞吐量。我們三四年前還做了一個決策：預見到能源將會供不應求，于是我們專注于優化每瓦特算力的性價比，也就是每瓦特能產出多少 Token。這也是如今很多人選擇我們的重要原因之一。
主持人：您之前提到 TPU 的布局已有 11 年歷史了。在科技行業，11 年是一段相當漫長的時間，能看到一個如此久遠的決策在近幾年結出如此豐碩的果實，實在令人感慨。那么，您的規劃會隨著市場的變化產生多大幅度的調整？是多年前的決策仍然堅定不移地貫徹執行，還是你們需要不斷地調整方向？
Thomas Kurian：我們在技術棧各層積累的歷史經驗，隨著時間推移形成了復利效應。當我們做 TensorFlow 的時候，我們意識到訓練需要一個大規模分布式編程模型，于是我們開發了 JAX。JAX 正是在 TensorFlow 的經驗積累上，以及人們對新型分布式訓練模型的需求上，進一步迭代的產物。所以，很多東西是隨著時間推移不斷積累的，我們從過去的實踐中學習，并持續改進。
與此同時，我們也極其敏銳地關注市場、傾聽客戶的聲音。比如有人問我們：為什么要專門開發 v8i 這顆推理芯片？原因在于我們看到一個規律——無論一家公司多么財大氣粗，如果不能靠推理賺錢，就無力持續負擔訓練的成本。你必須至少讓推理收入能抵消訓練的成本，而不能永遠依賴風險投資來輸血。所以我們判斷推理的需求將會爆發式增長，明確了推理所需的優化方向，而事實上，v8i 推理芯片的市場需求，遠遠超出了我們原先的預期。
主持人：我們來聊聊第八代芯片。這是你們首次將芯片拆分成兩個不同的系列——一個專注推理，一個專注預訓練。首先請確認一下，Ironwood 是主要為推理設計的嗎？
Thomas Kurian：Ironwood 是混合用途的，既用于訓練，也用于推理。我認為人們使用推理時有很強的時間規律性——白天用戶醒來會問大量問題，到了晚上有些人還是會睡覺的，所以那段時間很多推理任務會用 Spot 實例來跑；訓練后微調（post-training）也有很多人在夜間用 Spot 實例來完成。所以 Ironwood 是一款通用型芯片。v8T 則主要面向訓練，但也有人在考慮將其用于推理。v8i 主要用于推理，不過對于規模較小的模型，也有人用它來做訓練。
主持人：從你們決定拆分這兩款芯片這件事來看，您認為計算工作負載將向何處演進？您現在觀察到了什么？未來五年，主要的工作負載會集中在哪里？
Thomas Kurian：這一點，從我們在 Gemini 上做的工作中體現得并不亞于芯片設計本身。如果你觀察 Gemini，我們大致看到了模型發展的三個階段：
第一階段，用戶向模型提問，模型作出回答，可能會經歷多輪對話迭代，但整體上更像是一種搜索式聊天機器人體驗。我們的 Gemini 企業版提供了搜索問答的能力，并加入了"深度研究"功能用于深度分析。
第二階段，人們過去主要用擴散模型來生成內容，比如圖像、音頻、視頻。從 Gemini 2.5 Nano 開始，多模態輸入其實一直存在，但多模態輸出成為主模型的原生能力。我們看到 WPP 等創意公司，以及各類消費品公司，開始使用 Gemini 企業版——我們的企業級 AI 平臺——來進行內容創作，各式各樣的內容創作場景應運而生。
然后，模型在處理現實世界的各種抽象層面變得越來越強大。所謂"抽象"，是指在企業場景中，模型需要接入各種各樣的系統——比如對接 CRM 系統來回答客戶相關的問題，查閱供應鏈和計劃系統等等。而終極的抽象，是將整個世界抽象成一臺計算機——因為如果你能和計算機對話，計算機就能和一切對話，因為所有軟件本質上都是計算機與外界溝通的抽象形式。
主持人：您認為"模型能夠控制計算機、使用瀏覽器"是終極形態的抽象嗎？而且不只是"我能和計算機對話"，還需要能理解計算機返回的信息并做出響應——您明白我的意思嗎？
Thomas Kurian：是的，這正是"智能體"（Agent）這一概念的由來。智能體是一個模塊，你可以向它委派任務。智能體描述自身擁有的技能集，知道如何操作一系列工具，包括計算機，并能代表你執行任務。這使得 Xfinity 能用我們的技術來調度和管理整個客戶服務體系，沃爾瑪能在從供應鏈規劃到排班的各種場景中使用我們，博世將我們用于制造業，默克（Merck）則談到了如何將我們用于研究——從藥物發現，一直到將藥品交付給患者，整個流程的自動化。這就是下一個進化階段。
我們在某種程度上是"協同設計"的——隨著模型能力的進步，我們能夠不斷擴展可自動化的任務邊界。
主持人：把這個拉回到芯片拆分的決策上——推理和訓練分開，這兩者之間有什么內在聯系？
Thomas Kurian：回到第一階段，也就是搜索問答的階段：輸入 Token 遠多于輸出 Token，因為你會給模型一個很長很復雜的問題，它返回一個相對簡單的答案。
進入內容生成階段，你只需給出一個簡單的提示詞，比如"生成一段視頻，展示我的狗穿著超人斗篷在開車"，然后模型需要花很長時間來生成大量輸出 Token。這就產生了截然不同的 Token 構成比例——多模態是一大變量，輸出 Token 的體量也大幅增長。
到了智能體階段，對芯片設計的影響體現在三四個不同維度。首先是內存駐留時間的問題：你委派給智能體的任務可能需要運行 6 小時、7 小時甚至 12 小時，你不希望頻繁地將內容換入換出內存，因為那會帶來高昂的 Token 計算成本。因此，KV 緩存的設計需要重新考量，這是一個典型例子。
所以當人們問我們，這些經歷是如何影響你們芯片研發方向的——我們不僅與英特爾合作，我們自己也有ARM芯片，我們研發它是因為我們看到了這些工具帶來的通用算力需求。當你運行一個需要執行很多很多不同步驟的推理智能體時，有些事情涉及到你希望如何在模型中保留和固定對象，從而讓模型運行得極為高效，因為這能大幅優化推理成本。我們在芯片如何在內存中保存數據這方面做了很多內部工作。另外，因為人們想要更直觀的例子——人們希望在很多地方都能部署推理，因為他們需要管理延遲，這和訓練不同，訓練可以集中在少數幾個大型地點完成。
所以一個實際的例子是：8i可以在非水冷模式下運行，這樣你就可以把它部署在更多地點，因為風冷仍然是大多數數據中心的主要散熱方式。這些決策背后都有大量的深思熟慮。我只是舉三個簡單的例子來說明。
主持人：是的，我覺得智能體這塊確實很有意思，因為它真正改變了這些token在實際中的使用方式。英偉達大談極致協同設計（extreme co-design），谷歌看起來在每個層面都在做極致協同設計。
Thomas Kurian：是的。
主持人：先聊聊智能體的使用場景，尤其是當你需要做大量的硬盤讀寫操作時，有很多方面需要去優化。在TPU技術棧上，你們最近優化的是什么？基于智能體使用量的增長，你認為下一個大的瓶頸在哪里？
Thomas Kurian：我們一直在審視整個系統。舉幾個例子：我們下周將發布兩項全新的存儲解決方案。
第一個是我們的托管Lustre解決方案，我們將其吞吐量提升到了每秒10太字節，它真正為大規模訓練而設計。你可以將它與一個超大規模集群交叉互聯，因為你擁有大型數據集，你現在可以從大規模Lustre集群中將數據讀取到大型訓練集群中，實現超高效率的擴展。
第二個是我們推出的一種全新的超低延遲推理存儲系統，稱為"Rapid Storage"。它的理念是：你可以將需要用于推理的信息集中存儲在云存儲中，但可以將其掛載在靠近推理芯片運行位置的地方——可以把它想象成一種前向代理機制。從你的推理處理器到存儲系統Rapid Storage進行數據獲取，速度極快，達到每秒15太字節，實現超低延遲。
同時，你還需要在一個統一的網絡骨干上優化所有這些。所以我們正在推出一種新型網絡架構，叫做Virgo，它能在超大規模集群內提供超低延遲的高速互聯。此外，還有很多其他層面的工作我們也在進行協同設計，這些都是為了應對智能體的到來，核心目標是以最高效的成本結構，為人們提供性能最佳、質量最好的智能體運行環境。
主持人：下一個大瓶頸在哪里？
Thomas Kurian：下一個大瓶頸很大程度上將出現在消費者使用虛擬機的環節。比如說，我是一個家庭用戶，我構建了一個智能體，這個智能體將幫我安排出行——假設你要去度假，你讓它完成一系列任務，比如查詢八個旅行網站，這些網站作為工具暴露出來，也就是現在大家常說的MCP或API，讓它去找所有旅行網站，假設是訂一趟去歐洲或東南亞的行程，幫我計算總費用并告知我的預算。
消費者負擔不起讓虛擬機永久運行的成本，那非常昂貴，正如你所知道的。所以人們希望在任務完成時隨時激活、停用虛擬機。而且因為這些工具需要本地存儲，這些虛擬機雖然可以超量部署，但你也可以配置本地磁盤來實現超高效的讀寫，這將成為一個瓶頸，因為它會直接影響這項技術能夠普及的廣度。企業當然可以為此付費，越便宜、越高效，他們就能使用越多；但如果你想把這項技術普及到消費者，對他們來說成本很快就會變得高昂。如果你想觸達所有人，就必須在工程層面解決這些成本結構的問題。而正是那種能夠跨層貫通的能力——從智能體層到Gemini層，再到存儲系統和計算系統——才讓我們能夠做協同設計。
主持人：謝謝你的分享。我想聊一聊Anthropic。Anthropic是谷歌的客戶，他們在很多方面都很獨特。Claude是谷歌最強勁的競爭對手之一，但與此同時，你們實際上又是他們大量訓練和推理工作的基礎設施支撐。你們是如何看待這個決策的？我知道我們之前稍有提及，但我想深入探討一下：你如何看待為Anthropic的模型提供算力，而他們同時又在與谷歌競爭？這是AWS的打法——為所有人提供服務，不偏袒任何一方？還是有所不同？
Thomas Kurian：谷歌是一家平臺公司。當你是一家平臺公司時，你的業務的不同部分會與市場上的不同玩家形成競爭，某些業務部分可能為他們提供供給，另一些部分又與他們競爭。我們致力于在模型層面做到業界最佳，我們對自己所做的工作感到非常自豪，不僅僅是Gemini這個模型本身，還包括我們圍繞Gemini構建的完整工具鏈，以及我們的企業工具組合。與此同時，有些客戶希望使用我們的TPU，Anthropic就是其中一個例子。這只是作為一家平臺公司的一部分。就像人們問我們，你們的模型與蘋果的合作優化做得如何？蘋果已經與我們簽訂了模型合同，你也知道。于是人們問：這不是在和你們的Android平臺及生態系統競爭嗎？是的，但這就是平臺公司的一部分。
主持人：我還是有點執念于Anthropic這個問題，因為他們畢竟在企業層面是直接競爭的，而蘋果則不然。我在想，你們給他們提供算力，而到了某個時間點——盡管你說現在TPU產能還很充裕——但屆時可能就必須做出艱難的抉擇：這些產能是給Anthropic，還是留給Gemini？留給我們自己的研究？你怎么做這個決策？
Thomas Kurian：我們有一個以Sundar為首的管理團隊，我們會在一起討論，就像任何一家成熟的公司一樣做出這些決策。每天都有艱難的判斷。比如說，我們收到的需求不僅僅來自Anthropic。所以哪怕你說有X量的產能留給Gemini，Y量的產能留給其他所有人，那么在這Y之中，你又如何分配給Anthropic，以及數百家其他實驗室和客戶呢？這些都是任何人都必須面對的復雜決策。但我可以告訴你一件事：擁有自己的芯片和需求，遠比沒有自己的芯片要好得多。
主持人：說得好。Mythos據傳是第一個萬億參數規模的模型，谷歌現在在10萬億參數模型這個領域有所布局嗎？還是接近了？你們目前處于這個發展周期的哪個階段？
Thomas Kurian：關于Gemini，你會在Next大會以及之后不久看到我們的新動作。在模型能力方面，我們對Gemini所處的位置非常自豪。它長期以來都處于業界領先水平。我們有一個新版本的Gemini即將推出，從我們看到的所有基準測試來看，我們對此同樣充滿信心。
主持人：假設性地問一下，如果考慮一個10萬億參數的模型，基于你在TPU層面的統籌，這在當前世界的技術狀態下，是一個可行的服務規模嗎？
Thomas Kurian：我們長期以來具備分離式部署（disaggregated serving）的能力，這使我們能夠非常出色地擴展非常大型的稠密模型，這一能力已經存在很長時間了。所以，我們不會設計出我們自己都無法部署的模型。我們完全有信心，TPU能夠服務世界上最大的模型。最重要的是，我們用于分離式部署的服務棧，在所有模型提供商中，對TPU的使用效率是最高的。所以我們完全有信心，能夠服務最大的模型，尤其是最大的Gemini模型。
主持人：這是否意味著我們在預訓練的擴展側沒有看到任何放緩？你們完全沒有感受到嗎？因為業界有一段時間在討論預訓練正在放緩，應該把重心轉向強化學習，轉向思考時間（thinking time）。你們完全沒有這種感覺嗎？
Thomas Kurian：從芯片設計、系統設計或產能層面，我們都沒有看到這種放緩。
主持人：那底層數據方面呢？你們是否看到合成數據有更高效的應用？
Thomas Kurian：我來舉兩三個我們實際觀察到的例子。歷史上，輸入模型的數據大多是非結構化數據，比如文本、音頻、視頻、文件等，這些數據量持續增長。但現實情況是，在企業場景中有很多元素，實際上相對容易處理。比如你向智能體提問，讓它告訴你答案的引用來源，如果是文檔中的內容，就很簡單，只需展示一個鏈接即可。
但想象一下，你問模型一個問題："告訴我需要備貨多少才能滿足這款產品的需求。"這就需要轉化為對SAP之類系統或某種供應鏈系統的查詢，它需要動態地查詢一組數據表。首先，準確地將這個查詢分解到對應的數據表，然后展示響應時——引用來源在哪里？你怎么知道你給我的答案是正確的？這是一個復雜得多的問題。
正因為我們在企業領域的工作，我們能夠向Gemini的軌跡優化訓練框架輸入更多的結構化數據循環，包括結構化數據和復雜字段這類復雜內容。比如，你有沒有見過——在討論瀏覽器中的計算機使用時——一個有一千個字段、下拉列表等的企業應用？沒有任何消費級應用會有如此高的復雜度。在這個領域深耕，也讓我們能夠將這些內容教給我們的Gemini系統，并將其融入訓練框架。
主持人：那我們繼續聊訓練框架和智能體編程這個話題吧。我最近自己也在大量編程。有一條帖子在網上瘋傳，說是某人有位朋友在谷歌，那位朋友基本說谷歌在內部并沒有站在智能體編程的前沿。你怎么看這件事？谷歌內部是如何采用智能體編程的？尤其是，我必須再次提到Anthropic，他們的發布速度令人嘆為觀止。谷歌是如何擁抱智能體編程前沿的？
Thomas Kurian：目前，我們有大量工程師在使用Jet Ski，這是我們內部的編程框架，其反饋正在實時傳遞給DeepMind，形成強化學習的閉環，每天都在提升Gemini在編程方面的質量。我的組織里有很多人都在使用它。
主持人：有一件事我注意到——我比以前更有生產力了，我發布產品的速度非常快，過程非常愉快，我沒有逐行審查代碼。實際上，我審查的代碼行數非常少。但谷歌不能這樣做。我的項目都是小玩具項目，而谷歌要處理的是高風險的項目、服務和產品。你們如何既站在智能體編程的前沿、產出海量代碼，同時又保證質量，確保每一行部署的代碼都經過了審查？
Thomas Kurian：當我們談論軟件工程生產力時，我們的看法與外部報道的視角略有不同。如果你在一家像谷歌這樣開發產品的公司工作，現實情況是有兩三件事非常重要。比如，一位資深工程師寫的代碼比一位初級工程師緊湊得多。所以我們不以代碼行數作為衡量指標，因為通常來說，能力相對弱的工程師需要寫更多的代碼來完成同一個任務，而資深工程師寫得更精煉。
主持人：這幾乎是個老生常談的說法了，多年來一直如此，但我覺得現在比以往任何時候都更重要的是整體的交付速度。
Thomas Kurian：是的，重要的是我們增加了多少功能。
第二，谷歌一直有一個傳統：提交代碼時需要同伴評審，通常由資深主管來完成，而他們往往成為瓶頸。因此，我們引入了Gemini，人們也在使用它——例如，我們最近在Cloud中引入了它來掃描代碼中的安全漏洞。所以這個工具不僅僅用于生成代碼，我們也用它來檢查代碼，這有助于在資深工程師來做最終審查之前，預先完成大量前置工作。
第三，從長遠來看，在任何真正的軟件公司里，工程師們發現自己花在低效工作上的大部分時間，是在調試問題。所以我們構建了一個Gemini的特定版本，我們下周將展示的其中一件事就是：世界上最復雜的計算機就是云。與之相比，個人電腦不過是個玩具。我們將整個云的能力和工具全部開放給模型。現在我們正在用Gemini來排查正在發生的故障事件，這也幫助我們提升了工作效率，進而提高了模型本身的質量。我們從多個維度來審視這個問題。但隨著生產力不斷提升、功能迭代越來越快——代碼行數當然不是衡量標準，但它確實是這種速度提升的一個體現——終究會到達一個臨界點，你根本無法審查每一行代碼。
主持人：更進一步來想，隨著時間推移，人類對實際代碼的理解會越來越少。尤其是您剛才提到的，如果用AI來審查代碼、調試代碼——如果AI既負責生成代碼，又負責審查代碼，我們是否正在失去對代碼本身以及所部署功能的核心理解？
Thomas Kurian：這是整個行業都必須管控的風險。人們常說：我給你一個提示詞，它就能生成一段代碼，你不需要理解代碼，因為你理解提示詞就夠了。但現實是，對于一個復雜的系統，提示詞并不能解釋代碼所有潛在的行為。比如，你該如何處理異常？
每次出現這種論調，我都覺得似曾相識。前些年有人說不需要那么多軟件工程師了，結果模型出來之后發現了大量安全漏洞——就在這個節骨眼上，我們反而需要大量軟件工程師來配合模型工作。比如我們正在推出一個新版本的模型，它能夠修復漏洞、專門修復安全漏洞，但你依然需要一個人來使用這個工具并加以專注地把控。這個行業有時候容易矯枉過正，說"根本不需要任何人"，結果恰恰是在最需要人的時候這么說。
所以我們始終保持更長遠的視角。我們一直在思考，比如是否需要一個"監督模型"以不同的方式來審查代碼——這也是為什么我說我們依然堅持代碼的同行評審，并且幫助我們的高級工程師使用工具來完成審查。接下來的問題是：這個工具是否有足夠的自我感知——如果是它自己生成的代碼，它能否發現其中的問題？因為它對某些代碼模式可能缺乏自我認知。這是我們正在探索解決方案的方向。
我們的目標始終是打造最優秀的模型，并將其大規模應用。僅在我的團隊中，就有數千人每天都在使用它。如果你走到對面的園區，可以看到有人同時開著六個窗口——一個在寫代碼，一個在編譯，一個在部署和測試，另一個在后臺跑代碼審查任務。整套工具鏈有大量的人在使用，這就是工作方式演進的一部分。
主持人：您提到了網絡安全，我們就以這個話題收尾。Anthropic認為其Mythos模型在網絡安全能力方面過于先進，暫時不宜公開發布。對于谷歌而言，您如何看待這件事？您的第一反應是什么？另外，是否存在某條紅線或某個基準，一旦觸及，您就會認為Gemini不再適合公開發布？
Thomas Kurian：我們正在研究這條線應該劃在哪里。但我們面臨的核心問題是：Mythos發現的那些漏洞，有多大比例同樣可以用開源模型發現？我之所以提到開源模型，是因為無論你怎么防范，即便能確保閉源模型不落入對手之手，開源模型肯定是會流入對手手中的，而且它們還在持續進化、越來越強。所以遲早有一天，其中某些能力——也許不是全部——是可以被檢測和利用的。
那么我們應該如何應對？我們有獨特的優勢，因為我們既是超大規模云服務商，又是模型提供商，同時還擁有網絡安全團隊——包括我們的Mandiant團隊和Wiz。我們采取了三項切實舉措：
第一，如果人們要用模型來發現漏洞，你就需要用模型來幫助修復漏洞——因為漏洞被發現的速度遠超人工修復的速度，所以必須用模型來輔助修復。
第二，如果對手用模型來發現漏洞，他們也會利用模型和計算機來發動大規模攻擊。面對這種威脅，每月只做一次紅隊測試是遠遠不夠的。因此，我們需要引入能夠持續進行紅隊測試的智能體，以及能夠輔助修復的智能體——修復代碼是一回事，找出所有運行舊代碼的地方、將其清除、再部署經過補丁更新的新代碼，這又是另一回事。
第三，現存代碼量如此龐大，從哪里開始下手？這又是一個問題。我們為此構建了工具，幫助人們識別并確定優先級。
主持人：這是否意味著開源軟件（注意不是開源模型，而是開源軟件）是弊大于利的？如果你的代碼是開源的，全都暴露在外，模型就可以掃描、發現漏洞并加以利用。閉源則沒有這個問題。但另一方面，開源代碼會被更快速地加固。您怎么看？這到底是支持還是反對開源的論據？
Thomas Kurian：我們谷歌大量使用開源，也大量貢獻開源。我們會用自己的工具幫助開源社區修復這些問題。我只是在陳述現實：對手會使用模型，他們首先會掃描的，就是那些流行的開源庫，因為這能給他們提供最大的攻擊面。這是我們認為必須認真對待、積極修復的問題，我們正在與業界其他伙伴共同推進。
主持人：Thomas，最后一個問題：什么事情會讓您夜不能寐？
Thomas Kurian：我們需要平衡很多事情。第一，我們是否有面向未來的長期計劃——數據中心、網絡基礎設施，以及足夠多的TPU？第二，我們是否始終在聚焦最核心、最重要的問題？三年前，我們就判斷隨著AI能力增強，網絡安全領域必將受到深遠影響。當我們提出收購Wiz的時候，很多人問：你們為什么要這么做？
再舉個例子，看看我們的Gemini企業平臺：從今年一月到現在，我們的Token處理量已經從每分鐘100億增長到每分鐘160億。Gemini企業版的企業用戶數環比增長了40%。
所以，我們始終在追問：我們是否在為客戶和用戶解決正確的問題？這始終是我們的核心聚焦所在。只要我們持續積極地推進問題的解決，保持對市場的領先——在技術如此快速演進的今天，當某件事發生時，你必須提前就準備好解決方案。我們的團隊做出了令人驚嘆的成果，我們為他們感到無比自豪，也期待接下來的活動。
主持人：Thomas，非常感謝您，真的非常感謝！

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.