網易首頁 > 網易號 > 正文申請入駐

200億美元的人才收購值了！英偉達 Groq 芯片下半年問世

2026-03-26 15:10:07　來源: EETOP半導體社區

北京舉報

分享至

早在去年 12 月底，英偉達就以200 億美元的價格對 Groq 開展了一次 “人才收購”，拿下了該公司大部分開發團隊，并獲得了其用于 AI 推理的 LPU 數據流引擎底層技術授權。外界原本預計，英偉達會迅速部署由喬納森?羅斯打造的張量流處理器。這位前谷歌工程師在離開這家搜索巨頭后，設計出了一款全調度、可編程的張量處理器。隨著生成式 AI 熱潮興起，這款處理器被更名為語言處理單元（LPU），但架構并未改變。如今，英偉達正與三星合作，將第三代LP30 芯片推向市場。英偉達聯合創始人兼首席執行官黃仁勛在2026 年 GTC 大會開幕主題演講中表示，這款芯片將在今年下半年上市，極有可能是第三季度。

英偉達一刻也沒有耽誤，因為它根本耗不起。Groq 原本已經開始在低延遲推理領域嶄露頭角，就像 Cerebras Systems 以及 SambaNova Systems 一樣 —— 這兩家公司主打超高帶寬 SRAM，搭配相對精簡的算力，在大量計算引擎上實現極速推理。在對速度要求極高的場景下，這些系統廠商以及數十家試圖規模化做推理的初創公司，就像一群食人魚撲向站在亞馬遜河里的一頭肥牛。所以英偉達必須火速行動……

于是就有了這筆轟動業界的 200 億美元 Groq 人才收購。之所以沒有直接全資收購，是因為那樣可能需要一兩年時間，還未必能通過全球反壟斷機構的審查。也正因如此，Groq 的技術被立刻整合進了Vera-Rubin平臺。鑒于黃仁勛在主題演講中提到，低延遲、高定價的 Token 生成算力，大約會占到 AI 集群總算力的 25%，這個平臺其實更應該被稱作Vera-Rubin- Groq 平臺。

還記得英偉達在 2025 年 9 月曝光的RubinCPX 大上下文計算引擎嗎？那款基于Rubin架構變體、搭配更便宜、供應更充足的 GDDR7 顯存的產品？

“我們想到了一個絕佳的思路，” 英偉達 AI 與高性能計算副總裁伊恩?巴克在 GTC 2026 會前的系統發布溝通會上表示，“將 LPU 和 LPX 整合進我們的Rubin平臺，對解碼環節進行優化。這是我們當前的重點，我們也很期待將它推向市場。”

換句話說，RubinCPX 項目直接被砍掉了。

黃仁勛在臺上對比了兩款芯片：一邊是我們推測的“Rubin” R200 GPU 加速器，另一邊是 Groq 的 “Alan-3” LP30 推理加速器。前者是通用型、動態調度的計算引擎，非常擅長批量處理大量推理任務，通過 HBM 堆疊內存做流水線處理，延遲適中，能支持大量并發用戶。（這就是 GPU。）后者則是以機柜為單位、算力相對精簡、專為推理設計、靜態調度、確定性運行的計算引擎，多芯片協同工作，通常只為少量用戶服務 —— 大多數時候甚至只服務一個用戶。它會把模型權重（而非數據）分布在整體 SRAM 中，機器加得越多，Token 生成的響應速度就越快。

如果把 GPU 比作脫粒機，那 LPU 就是速度狂魔。二者可以通過 Dynamo 推理軟件棧協同工作，在吞吐量和延遲區間內形成一條更均衡的推理性能帕累托曲線。

以下是R200 和 LP30 芯片的規格與性能：

更完整的對比還需要考慮整套系統的內存層級，包括主機處理器中的閃存和主存，但大致意思已經很明顯。另外，如果統一按 FP8 浮點算力計算，相同精度下二者性能差距為21 倍；如果 AI 工作負載的解碼部分能用上 FP4—— 這個前提條件并不容易滿足 —— 那么 R200 的理論峰值性能將達到 LP30 的42 倍。

但再看看 GPU 的復雜程度，這直接和成本掛鉤。R200 的物料成本里，絕大部分都會花在 HBM4 堆疊內存以及連接內存與 GPU 所需的中介層上。所以必須認清一點：這位 “速度狂魔” 不僅延遲比 “脫粒機” 低得多，在達到合理交互體驗的前提下，單 Token 成本也可能更低。

當下，AI 正從人類和聊天機器人交互，轉向智能體 AI 之間高速對話、自主完成任務的時代。這類場景速度更快、推理更強，Token 生成量呈指數級增長。在這種趨勢下，一個關鍵點顯而易見：像 Groq、Cerebras、SambaNova 這樣的架構將會變得越來越重要。谷歌 TPU、亞馬遜 Trainium 也必然會推出專門面向智能體 AI 推理的版本，在內存帶寬和算力之間取得更好平衡，同時不犧牲內存容量。

后續我們會對硬件做更深入的拆解，敬請期待。目前我們先梳理黃仁勛與巴克披露的戰略思路。你只需要看懂兩條帕累托性能曲線：一條是傳統、當前和未來連貫 GPU 內存域系統的曲線，另一條是加入 Groq 設計的 LP30 之后的曲線。按照黃仁勛對推理市場的構想，目標是用推理硬件覆蓋從免費到高端的全層級服務，這個思路是合理的。

下面是Hopper NVL8、Grace-Blackwell NVL72 和Vera-Rubin NVL72 系統在吞吐量（每兆瓦每秒 Token 數）和交互性（每用戶每秒 Token 數）上的對比：

顯而易見，借助 NVSwitch 實現的更大 GPU 共享內存域，讓性能曲線從Hopper延伸到了布萊克威爾；但升級到Rubin GPU 后，內存、帶寬和算力的提升只能讓曲線向上抬升，卻無法向右延展。英偉達未來會擴大這個內存域，但 2026 這一代硬件不會實現。

下面是系統中加入 Groq LP30 之后的效果：LP30 主攻中高端市場，隨著部署數量增加，還能拓展到利潤極高的頂級市場：

這條驚人的曲線說明了什么？我用大白話給你總結一下：

如果你只做低成本推理，對響應時間無所謂，比如人類慢悠悠地跟聊天機器人對話，或是幾個智能體輔助做一些自動化工作，那Vera-Rubin完全夠用。而且訓練大概率也離不開它。但在智能體 AI 時代，需要生成的 Token 數量極其龐大，Token 生成延遲必須極低，才能讓海量智能體完成任務 —— 任何延遲都是真金白銀的損失，就像在數據中心地板上、或是在紐約證券交易所里直接燒錢。在這種場景下，沒有人，我是說絕對沒有人，會選擇 CPU-GPU 混合系統來做解碼工作。

這就是英偉達花200 億美元把 Groq 精華收入囊中的原因。

我目前只能透露一句：AMD 和 Cerebras 的聯合創始人關系非常不一般。

Vera-Rubin架構由 88 核 “維拉” CV100 Arm 服務器處理器（搭載定制 “奧林匹斯” 核心）搭配 “Rubin” R200 GPU 加速器組成。整套方案包含七款不同芯片，可構成五種機架級系統，在Vera-Rubin AI 超算中自由組合搭配。

黃仁勛還展示了一組對比：1 吉瓦算力的 “Hopper” H100 GPU 搭配 X86 處理器，組成 HGX NVL8 系統（8 張 GPU 在縱向擴展網絡中共享內存，通過 InfiniBand 橫向擴展），對陣我們推測的 VR200 NVL72 機架級系統集群（GPU 實現 72 路內存共享）。

對比結果是：GPU 數量減半，AI 處理性能提升 13.3 倍。公平地說，H100 最低只支持到 FP8 精度，而 R200 支持 FP4 格式（和上一代布萊克威爾 GPU 一樣）。所以 13.3 倍的提升里，有 2 倍來自精度壓縮。而且 FP4 也不只是跑分噱頭 —— 模型正在被持續優化，在把數據和運算精度減半的同時，讓答案精度只比 FP8 低一兩個點。業內已經在實際生產負載中做這種取舍。

但問題在于：即便 GPU 數量減半，可單顆價格卻是原來的三四倍。英偉達通過賣出至少兩倍數量的芯片，實現營收大幅增長；而你的 IT 預算并不會下降，如果 AI 負載繼續擴張 —— 未來肯定會 —— 你的 IT 預算只會上漲。其他所有部署 AI 的機構也是如此。最終需求再次遠超供應，推動價格進一步上漲，讓英偉達的營收和利潤比在供應不受限的環境下還要高。

當上“推理之王” 的滋味，確實不錯。

但這一寶座本幾乎屬于喬納森?羅斯—— 谷歌 TPU 的締造者，也是設計出 Groq 這種堪稱更優秀架構的人。羅斯收到了一份無法拒絕的邀約，而我認為，Cerebras 也極有可能收到類似的邀約。英特爾錯過了與 SambaNova Systems 合作的機會，不過或許現在還有時間和資金促成一筆交易。

原文：

https://www.nextplatform.com/ai/2026/03/17/nvidia-finally-admits-why-it-shelled-out-20-billion-for-groq/5209495

邀約｜AMD 技術日：GPU+CPU+FPGA（4.2,北京）

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.