網易首頁 > 網易號 > 正文 申請入駐

谷歌第八代TPU首推「訓推雙芯」:8t專攻訓練,8i「死磕」推理

0
分享至

機器之心編輯部


谷歌的 AI 芯片戰略路線迎來重大轉向!

在剛剛過去的 Google Cloud Next 2026 大會上,谷歌正式對外發布第八代張量處理器(TPU)。與以往不同的是,這次亮點之一在于,谷歌首次針對 AI 模型訓練與推理任務,分別推出 TPU 8t 與 TPU 8i 兩款獨立芯片產品。

其中,專注于 AI 模型訓練任務的 TPU 8t,在大規模、高計算需求的訓練工作負載中表現出色,設計上具備更大的計算吞吐量和更多的擴展帶寬。相較于去年 11 月發布的第七代 Ironwood TPU,性能提升 2.7 倍。

聚焦于推理 / 實時執行任務的 TPU 8i,設計時更多考慮了內存帶寬,以便處理最為延遲敏感的推理工作負載,因為智能體在大規模交互時即使是微小的效率問題也會被放大。

值得注意的是,與上一代相比,TPU 8i 單芯片集成了 384MB 的靜態隨機存取存儲器(SRAM),容量是其 3 倍,因此可以完全在硅片上容納更大的 KV 緩存,從而顯著減少長上下文解碼期間內核的空閑時間。性能提升 80% ,尤其是在大規模 MoE 模型的低延遲目標下。

谷歌高級副總裁兼 AI 基礎設施首席技術專家 Amin Vahdat 在官方博客中稱,在智能體時代,模型必須解決問題,執行多步工作流,并從自己的行為中不斷學習。這意味著對基礎設施提出了新的高要求,TPU 8t 和 TPU 8i 兩款芯片旨在應對最具挑戰性的 AI 工作負載,并適應不斷演化的大規模模型架構。

目前,這兩款新品還沒有正式對外,官方宣稱,將在今年晚些時候開始向谷歌云客戶提供。

芯片一經發布,谷歌 CEO 桑達爾?皮查伊(Sundar Pichai)也在 X 上發文宣傳自家新品:「TPU 8t,優化訓練;TPU 8i,優化推理。看起來真不錯!」



在帖文下,引來一眾網友熱議。

有網友認為,此次谷歌將TPU分為專門的訓練芯片和推理芯片,似乎是在承認當前AI算力基礎設施的瓶頸已經轉移,從FLOPs轉移到了內存帶寬和延遲上。

而考慮到推理任務的預期規模,如果工作負載有所差異,(為了優化性能和成本),針對每個任務定制硬件,從成本上看也是合理的選擇。

「這可能類似于電視中的視頻解碼芯片,與能夠進行視頻編碼的芯片相比,解碼芯片通常不會非常便宜或高效。」



大多數網友則認為,谷歌的這款新芯片一出,意味著 AI 芯片市場競爭將愈加激烈,尤其是對英偉達的「沖擊」。

一位網友調侃道,「谷歌正在發布新的 TPU。英偉達,你得做更多的工作了。」



誠然,從 2015 年開始,谷歌就在使用自研處理器來運行 AI 模型,并在 2018 年開始向谷歌云客戶出租芯片,試圖通過構建這種高度集成、針對特定任務優化的自有芯片生態,進一步減少對外部供應商,尤其英偉達的依賴,打造更具自主可控的 AI 基礎設施。

但不得不承認,谷歌的芯片并不能對英偉達構成全面威脅,或者說,至少在當前階段還不是。與微軟、亞馬遜之類的云服務巨頭一樣,谷歌使用這些芯片是為了補充其基礎設施中基于英偉達的系統,而不是徹底取代英偉達。

據了解,谷歌還承諾,其云服務將在今年晚些時候提供英偉達的最新芯片 ——Vera Rubin。

谷歌在官方博客中詳細介紹了兩款芯片的設計細節,下面來了解一下。

TPU 8t:訓練動力引擎

谷歌稱,TPU 8t 是為將前沿模型的開發周期從幾個月縮短到幾周而設計的。通過平衡最高計算吞吐量、共享內存和芯片間帶寬,同時保證最佳的功率效率和計算時間,谷歌打造了一個系統,使得每個超級節點的計算性能比上一代提高近 3 倍,從而加速創新,確保客戶繼續引領行業步伐。

  • 大規模擴展:單個 TPU 8t 超級節點現在能夠擴展到 9600 個芯片和 2 個 PB 的共享高帶寬內存,內存帶寬是上一代的兩倍。這種架構提供 121 ExaFlops 的計算能力,支持最復雜的模型使用單一的大規模內存池;
  • 最大化利用率:通過集成 10 倍更快的存儲訪問,并結合 TPUDirect 將數據直接加載到 TPU,TPU 8t 有助于確保端到端系統的最大利用;
  • 近線性擴展:新 Virg 網絡與 JAX 和 Pathways 軟件結合,意味著 TPU 8t 可以提供高達百萬芯片的近線性擴展。

此外,除了原始性能,TPU 8t 還針對超過 97% 的「良好利用率」進行優化,這是衡量有效計算時間的指標,涵蓋了實時遙測、自動故障檢測和重定向等多項可靠性功能。



具體來看,相較于上一代 TPU,TPU 8t 的關鍵提升主要包括以下幾個方面:

  • SparseCore 優勢:TPU 8t 的核心是 SparseCore,這是一種專門的加速器,旨在處理嵌入查找的非規律內存訪問模式。Matrix Multiply Unit(MXU)處理矩陣運算,而 SparseCore 則卸載了數據依賴的所有聚集操作,以及其他集體操作,防止了通常困擾通用芯片的零操作瓶頸。
  • VPU/MXU 重疊與平衡擴展:TPU 8t 旨在最大化已提供的 FLOP 使用率,通過實現更平衡的向量處理單元(VPU)擴展,架構最小化了暴露的向量操作時間。這使得量化、softmax 和 layernorms 可以更好地與 MXU 中的矩陣乘法重疊,幫助芯片保持忙碌,而不是等待順序向量任務。
  • 原生 FP4:TPU 8t 引入了原生的 4 位浮點數(FP4)以克服內存帶寬瓶頸,在保持大模型準確性的同時,提升了 MXU 的吞吐量,即使在較低精度量化下也能維持準確性。通過減少每個參數的位數,該平臺最小化了數據傳輸的能耗,并允許更大的模型層在本地硬件緩存中適配,從而實現峰值計算利用率。



TPU 8t ASIC 框圖

TPU 8i:推理引擎

谷歌認為,在智能體時代,用戶希望能夠提出問題、委派任務并獲得結果,而TPU 8i 正是被設計來處理許多專業智能體的復雜協作和迭代工作,智能體往往在復雜的工作流中「群集」起來,以提供解決方案和洞察力。

谷歌通過四項關鍵創新,重新設計了堆棧,以消除「等待室」效應:

  • 突破「內存墻」:為了防止處理器閑置,TPU 8i 配備了 288 GB 高帶寬內存,并配有 384 MB 的片上 SRAM,比上一代多出 3 倍,確保模型的活躍工作集完全保存在芯片內;
  • Axion 動力高效性:將每個服務器的物理 CPU 主機數量翻倍,采用了基于 Axion Arm 的定制 CPU。通過使用非統一內存體系結構(NUMA)進行隔離,優化了整個系統的性能;
  • 擴展 MoE 模型:對于 MoE 模型,將互聯帶寬提高至 19.2Tb/s。新的 Boardfly 架構將最大網絡直徑縮短超過 50%,確保系統作為一個統一的低延遲單元運行;



TPU 8i 層次化的 Boardfly 拓撲結構,從四個完全連接的芯片構建起一個基礎單元,逐步發展為一個完全連接的八塊板組成的集群,最終將 36 個這樣的集群完全連接成一個 TPU 8i 超級節點。

  • 消除延遲:新片上集體加速引擎(CAE)卸載全局操作,將片上延遲減少了最多 5 倍,最大限度地減少了延遲。每個集體操作的低延遲意味著等待時間更少,從而直接提高了吞吐量,滿足了同時運行數百萬個智能體所需的性能。

這些創新使得,在每美元的價位下,性能提升了 80%,也就是說,企業能夠以相同的成本為更多客戶提供服務。



TPU 8i ASIC 框圖

https://techcrunch.com/2026/04/22/google-cloud-next-new-tpu-ai-chips-compete-with-nvidia/

https://blog.google/innovation-and-ai/infrastructure-and-cloud/google-cloud/eighth-generation-tpu-agentic-era/

https://cloud.google.com/blog/products/compute/tpu-8t-and-tpu-8i-technical-deep-dive

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
中央定調,2026年基本養老金調整有望,定額調整漲80元可行嗎?

中央定調,2026年基本養老金調整有望,定額調整漲80元可行嗎?

小嵩
2026-04-23 07:55:41
醫院的專家號剛放出就瞬間“秒空”,上海三甲醫院緊急報警!警方:對倒賣醫院號源犯罪團伙的李某、鄭某等人依法刑事拘留

醫院的專家號剛放出就瞬間“秒空”,上海三甲醫院緊急報警!警方:對倒賣醫院號源犯罪團伙的李某、鄭某等人依法刑事拘留

大風新聞
2026-04-22 15:12:13
《新聞聯播》主持人急需更新換代,這4個人的可能性最大

《新聞聯播》主持人急需更新換代,這4個人的可能性最大

離離言幾許
2026-04-23 07:37:37
打瘋了!活塞狂轟30-3夢幻攻擊波 杜倫遭一級惡意犯規打頭

打瘋了!活塞狂轟30-3夢幻攻擊波 杜倫遭一級惡意犯規打頭

醉臥浮生
2026-04-23 09:11:17
空軍全軍覆沒?伊朗突亮地下底牌!美以傻眼了,就這樣被騙幾十億

空軍全軍覆沒?伊朗突亮地下底牌!美以傻眼了,就這樣被騙幾十億

琨玉秋霜
2026-04-21 00:11:13
不知不覺都老了,這兩位演員已經不在了,你還記得他們嗎?

不知不覺都老了,這兩位演員已經不在了,你還記得他們嗎?

阿廢冷眼觀察所
2026-04-11 17:02:28
“香港演員幾乎全軍覆沒! 無戲可拍”引發網友熱議

“香港演員幾乎全軍覆沒! 無戲可拍”引發網友熱議

許三歲
2026-03-26 11:35:13
胡錫進譴責打女司機的保安:善良的男人是不會這樣打女人的!

胡錫進譴責打女司機的保安:善良的男人是不會這樣打女人的!

映射生活的身影
2026-04-23 13:09:09
新中國十位國家級女領導人

新中國十位國家級女領導人

祁州校尉
2026-04-11 09:00:31
湖人變季后賽頭號黑馬,晉級次輪概率超6成,兩數據驚艷改變戰局

湖人變季后賽頭號黑馬,晉級次輪概率超6成,兩數據驚艷改變戰局

謝說籃球
2026-04-23 16:51:33
曝阿里集團副總裁確認離職

曝阿里集團副總裁確認離職

純潔的微笑
2026-04-23 11:18:48
倒查13年,央國企開始慌了

倒查13年,央國企開始慌了

新浪財經
2026-04-23 02:44:17
57.2萬億索賠重啟!日本瘋狂挑釁,中國亮劍:賣光日本都不夠賠!

57.2萬億索賠重啟!日本瘋狂挑釁,中國亮劍:賣光日本都不夠賠!

小陸搞笑日常
2026-04-23 16:12:32
全世界都討厭他們

全世界都討厭他們

平原公子
2026-04-21 22:25:31
本想秀恩愛,沒想到成笑柄,自毀體面的郭富城,證實熊黛林沒說謊

本想秀恩愛,沒想到成笑柄,自毀體面的郭富城,證實熊黛林沒說謊

白面書誏
2026-04-22 16:18:08
“最美嬰兒”走紅,像是在娘胎里整了容,網友:看一眼就想抱走

“最美嬰兒”走紅,像是在娘胎里整了容,網友:看一眼就想抱走

大果小果媽媽
2026-04-23 13:35:47
醫生調查發現:餓著睡覺的人,會比吃宵夜的人更容易患腦梗?

醫生調查發現:餓著睡覺的人,會比吃宵夜的人更容易患腦梗?

芹姐說生活
2026-04-21 18:59:09
最值得安裝的20個Skills

最值得安裝的20個Skills

沃垠AI
2026-04-20 21:38:23
第三方平臺:今日深圳寶安機場、珠海金灣機場出現大面積延誤,航班延誤比例超90%

第三方平臺:今日深圳寶安機場、珠海金灣機場出現大面積延誤,航班延誤比例超90%

澎湃新聞
2026-04-23 17:31:10
島內風向變了?臺當局喊話大陸:若時機成熟,愿主動與大陸協商

島內風向變了?臺當局喊話大陸:若時機成熟,愿主動與大陸協商

面包夾知識
2026-04-22 19:44:42
2026-04-23 18:11:00
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
12837文章數 142634關注度
往期回顧 全部

科技要聞

馬斯克喊出"史上最大產品",但量產難預測

頭條要聞

五角大樓"斬"海軍部長 知情人士:他沒認清誰是老大

頭條要聞

五角大樓"斬"海軍部長 知情人士:他沒認清誰是老大

體育要聞

萊斯特城降入英甲,一場虧麻了的豪賭

娛樂要聞

王大陸因涉黑討債被判 女友也一同獲刑

財經要聞

關于AI算力鏈"瓶頸" 這是高盛的最新看法

汽車要聞

令人驚艷的奇瑞車 風云A9可不只是樣子貨

態度原創

房產
本地
家居
時尚
公開課

房產要聞

三亞安居房,突然官宣!

本地新聞

SAGA GIRLS 2026女團選秀

家居要聞

浪漫協奏 法式風格

這4件衣服,從春天穿到夏天都很好看

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版