網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

談?wù)凪eta的芯片路線圖

2026-04-09 09:21:02　來(lái)源: 半導(dǎo)體行業(yè)觀察

上海舉報(bào)

分享至

公眾號(hào)記得加星標(biāo)??，第一時(shí)間看推送不會(huì)錯(cuò)過(guò)。

除了顯而易見(jiàn)的“功能越多越好”之外，很難預(yù)測(cè)五年后的人工智能計(jì)算引擎會(huì)是什么樣子。而且，當(dāng)人工智能模型的更新速度超過(guò)芯片開(kāi)發(fā)周期時(shí)，任何大型模型構(gòu)建商以及任何大規(guī)模運(yùn)行人工智能推理的機(jī)構(gòu)都必須采取多產(chǎn)品、多來(lái)源、多供應(yīng)商的策略，以應(yīng)對(duì)未來(lái)人工智能計(jì)算引擎可能出現(xiàn)的任何延遲或所需功能缺失。

如果你瞇起眼睛仔細(xì)觀察 Meta Platforms，你會(huì)發(fā)現(xiàn)它的業(yè)務(wù)是在龐大的社交網(wǎng)絡(luò)上運(yùn)行排名和推薦引擎，這些社交網(wǎng)絡(luò)包含海量的用戶自定義內(nèi)容。這些排名和推薦應(yīng)用最初是由運(yùn)行在大量 CPU 上的算法集合構(gòu)成，最終通過(guò)運(yùn)行在 GPU 加速器上的機(jī)器學(xué)習(xí)算法進(jìn)行了增強(qiáng)——也就是所謂的深度學(xué)習(xí)推薦模型（DRLM）。

這些數(shù)字線性模型（DLRM）與谷歌、OpenAI 和 Anthropic 開(kāi)發(fā)的大型語(yǔ)言模型截然不同，它們所需的硬件也大相徑庭。DLRM 與語(yǔ)言模型（LLM）一樣，將數(shù)據(jù)轉(zhuǎn)換為向量，但它們創(chuàng)建的是一個(gè)巨大的多維向量空間，可以用來(lái)展示事物之間的關(guān)聯(lián)——例如，F(xiàn)acebook 上喜歡貓咪視頻的用戶與 Instagram 上新發(fā)布的貓咪視頻之間的關(guān)聯(lián)——而無(wú)需使用圖算法將它們直接連接起來(lái)。從這個(gè)意義上講，它是預(yù)測(cè)性的，而非確定性的，而這對(duì)于全球最大的廣告商之一來(lái)說(shuō)，無(wú)疑是一項(xiàng)非常強(qiáng)大的功能。

問(wèn)題在于，要?jiǎng)?chuàng)建一個(gè)足夠大的內(nèi)存空間，供數(shù)十億用戶進(jìn)行數(shù)萬(wàn)億甚至數(shù)千萬(wàn)億次操作，這本身就是一項(xiàng)艱巨的任務(wù)。即使將現(xiàn)實(shí)簡(jiǎn)化為一堆浮點(diǎn)向量，以便建立關(guān)聯(lián)并推斷關(guān)系，其規(guī)模仍然會(huì)迅速增長(zhǎng)。Meta Platforms 決定將這項(xiàng)任務(wù)分成兩部分：配備高速 HBM 的 GPU 存儲(chǔ)嵌入表中“熱門(mén)”的相關(guān)部分，其余部分則交給配備大容量 DRAM 的 CPU 存儲(chǔ)。早在 2022 年 10 月，我就詳細(xì)分析了 Meta Platforms 設(shè)計(jì)的“Zion”、“ZionEX”和“Grand Teton”混合 CPU-GPU 系統(tǒng)，指出 DLRM 與當(dāng)時(shí)的 LLM 一樣，都需要大量的參數(shù)和浮點(diǎn)運(yùn)算。我還詳細(xì)介紹了 Meta Platforms 如何創(chuàng)建了一個(gè)名為“Neo”的內(nèi)存管理程序，該程序不僅可以在節(jié)點(diǎn)內(nèi)的 CPU 和 GPU 內(nèi)存層次結(jié)構(gòu)中，而且還可以在機(jī)器集群中對(duì)參數(shù)和嵌入進(jìn)行分級(jí)。

顯而易見(jiàn)，Meta Platforms 非常擅長(zhǎng)構(gòu)建運(yùn)行 R&R 訓(xùn)練和 R&R 推理的 DLRM 系統(tǒng)架構(gòu)，但在計(jì)算引擎的選擇上卻完全沒(méi)有掌控權(quán)。從某種意義上說(shuō)，配備強(qiáng)大高速 NVLink 端口、能夠與 Nvidia “Hopper” H100 GPU 實(shí)現(xiàn)內(nèi)存一致性共享的“Grace” CG100 Arm 服務(wù)器 CPU 的出現(xiàn)，正是 Nvidia 為了讓 Meta Platforms 留在其陣營(yíng)而做出的努力。DLRM 比 LLM 需要更多的 CPU 內(nèi)存，而 LLM 并沒(méi)有龐大的嵌入表。

最大的問(wèn)題在于，隨著計(jì)算資源的增加，DLRM 的性能提升并不會(huì)隨之提升，這意味著規(guī)模更大的 DLRM 并不總是意味著更好的 DLRM。然而，從 2024 年開(kāi)始，Meta Platforms 提出了一種新的 DLRM 方法，稱為生成式推薦器。該方法基于一種名為分層序列轉(zhuǎn)換單元 (HSTU)的技術(shù)，借鑒了語(yǔ)言學(xué)習(xí)模型 (LLM) 的一些技術(shù)，并將用戶行為視為一種語(yǔ)言，利用生成技術(shù)來(lái)預(yù)測(cè)用戶的下一步行為，就像 LLM 可以根據(jù)人類知識(shí)庫(kù)預(yù)測(cè)序列中的下一個(gè)詞元一樣。Meta Platforms 已在其所有應(yīng)用平臺(tái)上使用的 DLRM v3 模型中嵌入了這種 HTSU 方法。

我認(rèn)為，正是這種讓 DLRM 更像 LLM 的洞察，以及 HSTU 技術(shù)及其生成式推薦引擎背后的算法和數(shù)學(xué)原理，推動(dòng)了 Meta Platforms 的 MTIA AI 計(jì)算引擎項(xiàng)目。自主研發(fā) AI 計(jì)算引擎的唯一目的，就是進(jìn)行協(xié)同設(shè)計(jì)，從而大幅提升性價(jià)比。（相比于在特定并行計(jì)算任務(wù)上表現(xiàn)更出色，降低成本或許更容易，因此這絕非易事。）

Meta Platforms 近期公布了其 MTIA 路線圖，駁斥了此前關(guān)于其發(fā)展受阻的傳言，并印證了其芯片合作伙伴博通的觀點(diǎn)。在仔細(xì)思考了 MTIA 路線圖之后，我終于有了一些值得記錄的想法。我們對(duì)未來(lái)的 MTIA 設(shè)備知之甚少，但可以肯定的是：它們將采用 HTSU 技術(shù)進(jìn)行協(xié)同設(shè)計(jì)，從而降低 R&R 訓(xùn)練和推理的成本。我們還認(rèn)為，HTSU 方法意味著未來(lái)的 MTIA 設(shè)備在 GenAI 推理方面可能表現(xiàn)出色，這將幫助 Meta Platforms 實(shí)現(xiàn)架構(gòu)上的雙重目標(biāo)，同時(shí)支持其 DLRM 和 LLM 項(xiàng)目。

讓我們深入了解一下它的構(gòu)造

顯而易見(jiàn)的是，未來(lái)的MTIA芯片看起來(lái)更像是GPU和其他XPU，而不是之前于2023年5月發(fā)布的MTIA v1和于2023年4月發(fā)布的MTIA v2。我們已將它們重新命名為MTIA 100和MTIA 200，Meta Platforms表示，他們已在其數(shù)據(jù)中心部署了數(shù)十萬(wàn)個(gè)MTIA 100和MTIA 200芯片，以及此前未曾提及的MTIA 300芯片。

未來(lái)的 MTIA 以及目前已部署用于 R&R 訓(xùn)練工作負(fù)載的 MTIA 300 之所以需要具備類似 GPU 和 AI XPU 的性能，是因?yàn)樗鼈冋趶幕谙蛄壳度肟臻g中用戶和活動(dòng)相關(guān)性的嵌入查找和比較的應(yīng)用，轉(zhuǎn)向類似于 LLM 中詞元預(yù)測(cè)的用戶活動(dòng)預(yù)測(cè)。因此，與 DLRM v2 中的機(jī)器學(xué)習(xí)技術(shù)相比，在 DLRM v3 中使用 HTSU 方法當(dāng)然需要極快的內(nèi)存速度以及更強(qiáng)大的計(jì)算能力。

Meta Platforms 自去年下半年開(kāi)始部署 MTIA 300 計(jì)算引擎。以下是 Meta Platforms 提供的簡(jiǎn)化框圖，所有框圖并排顯示，方便您一目了然：

MTIA 300 采用多芯片設(shè)計(jì)，這與 MTIA 100 和 MTIA 200 不同，后者是單芯片設(shè)計(jì)，計(jì)算、I/O 和內(nèi)存控制器都集成在同一塊硅片上。MTIA 擁有一個(gè)處理單元網(wǎng)格，這些單元連接到我認(rèn)為出于經(jīng)濟(jì)原因而采用的 HBM3（而非 HBM3E）堆疊式內(nèi)存組。Meta Platforms 公布的容量和帶寬數(shù)據(jù)也讓我確信這一點(diǎn)。

總之，正如你所見(jiàn)，MTIA 芯片包含一個(gè)搭載 HBM3 控制器的計(jì)算芯片，以及兩個(gè) I/O 芯片（分別位于芯片頂部和底部），用于連接外部網(wǎng)絡(luò)。值得注意的是，這兩個(gè) I/O 芯片共提供了 12 條 800 Gb/s RoCE 以太網(wǎng)通道，帶寬相當(dāng)可觀。

我照例制作了一個(gè)表格，將六種不同的MTIA計(jì)算引擎并排展示，以便我們比較過(guò)去和未來(lái)的發(fā)展。請(qǐng)看一看，我們?cè)賮?lái)討論：

與The Next Platform 的慣例一樣，所有以普通黑色文本顯示的都是真實(shí)數(shù)據(jù)，所有以粗體紅色斜體文本顯示的都是我的估計(jì)。

MTIA 300 標(biāo)志著 Meta Platforms 從 INT8 處理轉(zhuǎn)向 FP8 處理，這意味著不再需要將數(shù)據(jù)從浮點(diǎn)格式轉(zhuǎn)換為整數(shù)。MTIA 300 上的張量單元性能顯著提升，但耗電量也增加了 8.9 倍。我們推測(cè)，其每 8 位或 16 位性能單位的成本更高，但這也在意料之中，因?yàn)?MTIA 300 專注于 R&R 訓(xùn)練，而非像 MTIA 100 和 MTIA 20 那樣專注于 R&R 推理。MTIA 300 也為更強(qiáng)大的 MTIA 計(jì)算引擎奠定了基礎(chǔ)。

我們目前尚不清楚MTIA 300及其后續(xù)產(chǎn)品在向量運(yùn)算方面究竟表現(xiàn)如何，但正如我們深入分析其架構(gòu)后發(fā)現(xiàn)的那樣，每個(gè)處理單元都包含兩個(gè)RISC-V向量核心。或許Meta Platforms能夠?yàn)槲覀兘獯疬@個(gè)問(wèn)題？

可以看到，MTIA 400 將插槽中的計(jì)算芯片數(shù)量翻了一番，并增加了一條芯片間鏈路，連接到一個(gè) SoC，該 SoC 充當(dāng)主機(jī)處理器和 MTIA 處理單元之間的橋梁。鑒于Meta Platforms 是Arm 的新型 AGI CPU-1的聯(lián)合設(shè)計(jì)者及其首位客戶，我們推測(cè)該主機(jī)處理器就是 Arm 的新型 AGI CPU-1。目前尚不清楚該 SoC 的具體功能，但我們預(yù)計(jì)它會(huì)像某種 DPU 一樣，嵌入在 MTIA 的計(jì)算芯片和 I/O 芯片之間。MTIA 400 將插入由 AMD 和 Meta Platforms 聯(lián)合開(kāi)發(fā)的“Helios”開(kāi)放式機(jī)架寬型 v3 機(jī)架，最多可將 72 個(gè)這樣的設(shè)備連接到共享內(nèi)存域中。

Meta Platforms公司表示，MTIA 400芯片已在其實(shí)驗(yàn)室完成測(cè)試，并準(zhǔn)備在其數(shù)據(jù)中心進(jìn)行部署。這令其芯片供應(yīng)商博通公司（Broadcom）——或許也是其機(jī)架式系統(tǒng)構(gòu)建商——非常高興。

MTIA 450 是 MTIA 400 的快速升級(jí)版，我們認(rèn)為其主要改進(jìn)在于將 MTIA 400 使用的 HBM3E 內(nèi)存升級(jí)到了 HBM4 內(nèi)存。這使得器件的內(nèi)存帶寬翻倍，達(dá)到了相當(dāng)可觀的 18.4 TB/s，同時(shí) MX4 峰值吞吐量也提升了 1.75 倍。值得注意的是，與 MTIA 400 相比，MTIA 450 的 MX8 和 FP16 性能僅提升了 16.7%。我猜測(cè)，由于某種原因，這部分額外的性能可能隱藏在 MTIA 400 和 MTIA 450 芯片中，并未完全發(fā)揮出來(lái)，這或許與臺(tái)積電 (TSMC) 3 納米工藝的良率有關(guān)。這種“暗硅”設(shè)計(jì)讓我感到困擾，尤其是在 Meta Platforms 并沒(méi)有任何商業(yè)理由讓芯片的某些部分保持“暗”狀態(tài)的情況下，除非這樣做有助于提高良率。

MTIA 500 的具體設(shè)計(jì)比較復(fù)雜，但顯然它包含四個(gè)用于處理單元計(jì)算的芯片。我認(rèn)為，明年年底采用四芯片封裝（chiplet）是對(duì)四芯片計(jì)算復(fù)合體的一次預(yù)演，為即將到來(lái)的高數(shù)值孔徑（High NA）工藝轉(zhuǎn)型做準(zhǔn)備。高數(shù)值孔徑工藝雖然可以在芯片上增加更多晶體管，但光刻面積會(huì)減半。如果是我來(lái)做，我會(huì)利用現(xiàn)有的 EUV 工藝和 2 納米節(jié)點(diǎn)的芯片互連技術(shù)，完善四芯片封裝的良率，然后為高數(shù)值孔徑工藝的轉(zhuǎn)型做好準(zhǔn)備。這一點(diǎn)尤其值得關(guān)注，因?yàn)楦〉男酒悸矢撸@也是 AMD 兩年前轉(zhuǎn)向八芯片 GPU 復(fù)合體的原因。最好將芯片封裝技術(shù)與高數(shù)值孔徑工藝的轉(zhuǎn)型分開(kāi)學(xué)習(xí)。

你會(huì)注意到MTIA 500將有384GB和512GB兩種堆疊式內(nèi)存版本，根據(jù)規(guī)格推測(cè)，它們將采用HBM4E顯存。384GB版本很可能是為了提高良率——誰(shuí)會(huì)舍得扔掉一塊只有25%內(nèi)存是次品的MTIA 500呢？博通想賣掉它，而Meta Platforms想買。順便一提，我認(rèn)為出于同樣的原因，還會(huì)推出256GB版本。

我們粗略估算了一下博通公司為 Meta Platforms 提供的 MTIA 計(jì)算引擎成品的成本，以此說(shuō)明技術(shù)和經(jīng)濟(jì)效益的變化速度有多快。從 2023 年到 2027 年，Meta Platforms 的 MTIA 設(shè)備有效吞吐量將提升 293 倍（其中一半來(lái)自向 MX4 4 位數(shù)據(jù)格式的遷移），據(jù)我估計(jì)，其單位推理吞吐量（以峰值浮點(diǎn)運(yùn)算次數(shù)衡量）的成本將下降 9.1 倍。

（來(lái)源：編譯自nextplatform）

*免責(zé)聲明：本文由作者原創(chuàng)。文章內(nèi)容系作者個(gè)人觀點(diǎn)，半導(dǎo)體行業(yè)觀察轉(zhuǎn)載僅為了傳達(dá)一種不同的觀點(diǎn)，不代表半導(dǎo)體行業(yè)觀察對(duì)該觀點(diǎn)贊同或支持，如果有任何異議，歡迎聯(lián)系半導(dǎo)體行業(yè)觀察。

今天是《半導(dǎo)體行業(yè)觀察》為您分享的第4371內(nèi)容，歡迎關(guān)注。

加星標(biāo)??第一時(shí)間看推送

求推薦

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.