公眾號(hào)記得加星標(biāo)??,第一時(shí)間看推送不會(huì)錯(cuò)過(guò)。
除了顯而易見(jiàn)的“功能越多越好”之外,很難預(yù)測(cè)五年后的人工智能計(jì)算引擎會(huì)是什么樣子。而且,當(dāng)人工智能模型的更新速度超過(guò)芯片開(kāi)發(fā)周期時(shí),任何大型模型構(gòu)建商以及任何大規(guī)模運(yùn)行人工智能推理的機(jī)構(gòu)都必須采取多產(chǎn)品、多來(lái)源、多供應(yīng)商的策略,以應(yīng)對(duì)未來(lái)人工智能計(jì)算引擎可能出現(xiàn)的任何延遲或所需功能缺失。
如果你瞇起眼睛仔細(xì)觀察 Meta Platforms,你會(huì)發(fā)現(xiàn)它的業(yè)務(wù)是在龐大的社交網(wǎng)絡(luò)上運(yùn)行排名和推薦引擎,這些社交網(wǎng)絡(luò)包含海量的用戶自定義內(nèi)容。這些排名和推薦應(yīng)用最初是由運(yùn)行在大量 CPU 上的算法集合構(gòu)成,最終通過(guò)運(yùn)行在 GPU 加速器上的機(jī)器學(xué)習(xí)算法進(jìn)行了增強(qiáng)——也就是所謂的深度學(xué)習(xí)推薦模型(DRLM)。
這些數(shù)字線性模型(DLRM)與谷歌、OpenAI 和 Anthropic 開(kāi)發(fā)的大型語(yǔ)言模型截然不同,它們所需的硬件也大相徑庭。DLRM 與語(yǔ)言模型(LLM)一樣,將數(shù)據(jù)轉(zhuǎn)換為向量,但它們創(chuàng)建的是一個(gè)巨大的多維向量空間,可以用來(lái)展示事物之間的關(guān)聯(lián)——例如,F(xiàn)acebook 上喜歡貓咪視頻的用戶與 Instagram 上新發(fā)布的貓咪視頻之間的關(guān)聯(lián)——而無(wú)需使用圖算法將它們直接連接起來(lái)。從這個(gè)意義上講,它是預(yù)測(cè)性的,而非確定性的,而這對(duì)于全球最大的廣告商之一來(lái)說(shuō),無(wú)疑是一項(xiàng)非常強(qiáng)大的功能。
問(wèn)題在于,要?jiǎng)?chuàng)建一個(gè)足夠大的內(nèi)存空間,供數(shù)十億用戶進(jìn)行數(shù)萬(wàn)億甚至數(shù)千萬(wàn)億次操作,這本身就是一項(xiàng)艱巨的任務(wù)。即使將現(xiàn)實(shí)簡(jiǎn)化為一堆浮點(diǎn)向量,以便建立關(guān)聯(lián)并推斷關(guān)系,其規(guī)模仍然會(huì)迅速增長(zhǎng)。Meta Platforms 決定將這項(xiàng)任務(wù)分成兩部分:配備高速 HBM 的 GPU 存儲(chǔ)嵌入表中“熱門(mén)”的相關(guān)部分,其余部分則交給配備大容量 DRAM 的 CPU 存儲(chǔ)。早在 2022 年 10 月,我就詳細(xì)分析了 Meta Platforms 設(shè)計(jì)的“Zion”、“ZionEX”和“Grand Teton”混合 CPU-GPU 系統(tǒng),指出 DLRM 與當(dāng)時(shí)的 LLM 一樣,都需要大量的參數(shù)和浮點(diǎn)運(yùn)算。我還詳細(xì)介紹了 Meta Platforms 如何創(chuàng)建了一個(gè)名為“Neo”的內(nèi)存管理程序,該程序不僅可以在節(jié)點(diǎn)內(nèi)的 CPU 和 GPU 內(nèi)存層次結(jié)構(gòu)中,而且還可以在機(jī)器集群中對(duì)參數(shù)和嵌入進(jìn)行分級(jí)。
顯而易見(jiàn),Meta Platforms 非常擅長(zhǎng)構(gòu)建運(yùn)行 R&R 訓(xùn)練和 R&R 推理的 DLRM 系統(tǒng)架構(gòu),但在計(jì)算引擎的選擇上卻完全沒(méi)有掌控權(quán)。從某種意義上說(shuō),配備強(qiáng)大高速 NVLink 端口、能夠與 Nvidia “Hopper” H100 GPU 實(shí)現(xiàn)內(nèi)存一致性共享的“Grace” CG100 Arm 服務(wù)器 CPU 的出現(xiàn),正是 Nvidia 為了讓 Meta Platforms 留在其陣營(yíng)而做出的努力。DLRM 比 LLM 需要更多的 CPU 內(nèi)存,而 LLM 并沒(méi)有龐大的嵌入表。
最大的問(wèn)題在于,隨著計(jì)算資源的增加,DLRM 的性能提升并不會(huì)隨之提升,這意味著規(guī)模更大的 DLRM 并不總是意味著更好的 DLRM。然而,從 2024 年開(kāi)始,Meta Platforms 提出了一種新的 DLRM 方法,稱為生成式推薦器。該方法基于一種名為分層序列轉(zhuǎn)換單元 (HSTU)的技術(shù),借鑒了語(yǔ)言學(xué)習(xí)模型 (LLM) 的一些技術(shù),并將用戶行為視為一種語(yǔ)言,利用生成技術(shù)來(lái)預(yù)測(cè)用戶的下一步行為,就像 LLM 可以根據(jù)人類知識(shí)庫(kù)預(yù)測(cè)序列中的下一個(gè)詞元一樣。Meta Platforms 已在其所有應(yīng)用平臺(tái)上使用的 DLRM v3 模型中嵌入了這種 HTSU 方法。
我認(rèn)為,正是這種讓 DLRM 更像 LLM 的洞察,以及 HSTU 技術(shù)及其生成式推薦引擎背后的算法和數(shù)學(xué)原理,推動(dòng)了 Meta Platforms 的 MTIA AI 計(jì)算引擎項(xiàng)目。自主研發(fā) AI 計(jì)算引擎的唯一目的,就是進(jìn)行協(xié)同設(shè)計(jì),從而大幅提升性價(jià)比。(相比于在特定并行計(jì)算任務(wù)上表現(xiàn)更出色,降低成本或許更容易,因此這絕非易事。)
Meta Platforms 近期公布了其 MTIA 路線圖,駁斥了此前關(guān)于其發(fā)展受阻的傳言,并印證了其芯片合作伙伴博通的觀點(diǎn)。在仔細(xì)思考了 MTIA 路線圖之后,我終于有了一些值得記錄的想法。我們對(duì)未來(lái)的 MTIA 設(shè)備知之甚少,但可以肯定的是:它們將采用 HTSU 技術(shù)進(jìn)行協(xié)同設(shè)計(jì),從而降低 R&R 訓(xùn)練和推理的成本。我們還認(rèn)為,HTSU 方法意味著未來(lái)的 MTIA 設(shè)備在 GenAI 推理方面可能表現(xiàn)出色,這將幫助 Meta Platforms 實(shí)現(xiàn)架構(gòu)上的雙重目標(biāo),同時(shí)支持其 DLRM 和 LLM 項(xiàng)目。
讓我們深入了解一下它的構(gòu)造
顯而易見(jiàn)的是,未來(lái)的MTIA芯片看起來(lái)更像是GPU和其他XPU,而不是之前于2023年5月發(fā)布的MTIA v1和于2023年4月發(fā)布的MTIA v2。我們已將它們重新命名為MTIA 100和MTIA 200,Meta Platforms表示,他們已在其數(shù)據(jù)中心部署了數(shù)十萬(wàn)個(gè)MTIA 100和MTIA 200芯片,以及此前未曾提及的MTIA 300芯片。
未來(lái)的 MTIA 以及目前已部署用于 R&R 訓(xùn)練工作負(fù)載的 MTIA 300 之所以需要具備類似 GPU 和 AI XPU 的性能,是因?yàn)樗鼈冋趶幕谙蛄壳度肟臻g中用戶和活動(dòng)相關(guān)性的嵌入查找和比較的應(yīng)用,轉(zhuǎn)向類似于 LLM 中詞元預(yù)測(cè)的用戶活動(dòng)預(yù)測(cè)。因此,與 DLRM v2 中的機(jī)器學(xué)習(xí)技術(shù)相比,在 DLRM v3 中使用 HTSU 方法當(dāng)然需要極快的內(nèi)存速度以及更強(qiáng)大的計(jì)算能力。
Meta Platforms 自去年下半年開(kāi)始部署 MTIA 300 計(jì)算引擎。以下是 Meta Platforms 提供的簡(jiǎn)化框圖,所有框圖并排顯示,方便您一目了然:
![]()
MTIA 300 采用多芯片設(shè)計(jì),這與 MTIA 100 和 MTIA 200 不同,后者是單芯片設(shè)計(jì),計(jì)算、I/O 和內(nèi)存控制器都集成在同一塊硅片上。MTIA 擁有一個(gè)處理單元網(wǎng)格,這些單元連接到我認(rèn)為出于經(jīng)濟(jì)原因而采用的 HBM3(而非 HBM3E)堆疊式內(nèi)存組。Meta Platforms 公布的容量和帶寬數(shù)據(jù)也讓我確信這一點(diǎn)。
總之,正如你所見(jiàn),MTIA 芯片包含一個(gè)搭載 HBM3 控制器的計(jì)算芯片,以及兩個(gè) I/O 芯片(分別位于芯片頂部和底部),用于連接外部網(wǎng)絡(luò)。值得注意的是,這兩個(gè) I/O 芯片共提供了 12 條 800 Gb/s RoCE 以太網(wǎng)通道,帶寬相當(dāng)可觀。
我照例制作了一個(gè)表格,將六種不同的MTIA計(jì)算引擎并排展示,以便我們比較過(guò)去和未來(lái)的發(fā)展。請(qǐng)看一看,我們?cè)賮?lái)討論:
![]()
與The Next Platform 的慣例一樣,所有以普通黑色文本顯示的都是真實(shí)數(shù)據(jù),所有以粗體紅色斜體文本顯示的都是我的估計(jì)。
MTIA 300 標(biāo)志著 Meta Platforms 從 INT8 處理轉(zhuǎn)向 FP8 處理,這意味著不再需要將數(shù)據(jù)從浮點(diǎn)格式轉(zhuǎn)換為整數(shù)。MTIA 300 上的張量單元性能顯著提升,但耗電量也增加了 8.9 倍。我們推測(cè),其每 8 位或 16 位性能單位的成本更高,但這也在意料之中,因?yàn)?MTIA 300 專注于 R&R 訓(xùn)練,而非像 MTIA 100 和 MTIA 20 那樣專注于 R&R 推理。MTIA 300 也為更強(qiáng)大的 MTIA 計(jì)算引擎奠定了基礎(chǔ)。
我們目前尚不清楚MTIA 300及其后續(xù)產(chǎn)品在向量運(yùn)算方面究竟表現(xiàn)如何,但正如我們深入分析其架構(gòu)后發(fā)現(xiàn)的那樣,每個(gè)處理單元都包含兩個(gè)RISC-V向量核心。或許Meta Platforms能夠?yàn)槲覀兘獯疬@個(gè)問(wèn)題?
可以看到,MTIA 400 將插槽中的計(jì)算芯片數(shù)量翻了一番,并增加了一條芯片間鏈路,連接到一個(gè) SoC,該 SoC 充當(dāng)主機(jī)處理器和 MTIA 處理單元之間的橋梁。鑒于Meta Platforms 是Arm 的新型 AGI CPU-1的聯(lián)合設(shè)計(jì)者及其首位客戶,我們推測(cè)該主機(jī)處理器就是 Arm 的新型 AGI CPU-1。目前尚不清楚該 SoC 的具體功能,但我們預(yù)計(jì)它會(huì)像某種 DPU 一樣,嵌入在 MTIA 的計(jì)算芯片和 I/O 芯片之間。MTIA 400 將插入由 AMD 和 Meta Platforms 聯(lián)合開(kāi)發(fā)的“Helios”開(kāi)放式機(jī)架寬型 v3 機(jī)架,最多可將 72 個(gè)這樣的設(shè)備連接到共享內(nèi)存域中。
Meta Platforms公司表示,MTIA 400芯片已在其實(shí)驗(yàn)室完成測(cè)試,并準(zhǔn)備在其數(shù)據(jù)中心進(jìn)行部署。這令其芯片供應(yīng)商博通公司(Broadcom)——或許也是其機(jī)架式系統(tǒng)構(gòu)建商——非常高興。
![]()
MTIA 450 是 MTIA 400 的快速升級(jí)版,我們認(rèn)為其主要改進(jìn)在于將 MTIA 400 使用的 HBM3E 內(nèi)存升級(jí)到了 HBM4 內(nèi)存。這使得器件的內(nèi)存帶寬翻倍,達(dá)到了相當(dāng)可觀的 18.4 TB/s,同時(shí) MX4 峰值吞吐量也提升了 1.75 倍。值得注意的是,與 MTIA 400 相比,MTIA 450 的 MX8 和 FP16 性能僅提升了 16.7%。我猜測(cè),由于某種原因,這部分額外的性能可能隱藏在 MTIA 400 和 MTIA 450 芯片中,并未完全發(fā)揮出來(lái),這或許與臺(tái)積電 (TSMC) 3 納米工藝的良率有關(guān)。這種“暗硅”設(shè)計(jì)讓我感到困擾,尤其是在 Meta Platforms 并沒(méi)有任何商業(yè)理由讓芯片的某些部分保持“暗”狀態(tài)的情況下,除非這樣做有助于提高良率。
MTIA 500 的具體設(shè)計(jì)比較復(fù)雜,但顯然它包含四個(gè)用于處理單元計(jì)算的芯片。我認(rèn)為,明年年底采用四芯片封裝(chiplet)是對(duì)四芯片計(jì)算復(fù)合體的一次預(yù)演,為即將到來(lái)的高數(shù)值孔徑(High NA)工藝轉(zhuǎn)型做準(zhǔn)備。高數(shù)值孔徑工藝雖然可以在芯片上增加更多晶體管,但光刻面積會(huì)減半。如果是我來(lái)做,我會(huì)利用現(xiàn)有的 EUV 工藝和 2 納米節(jié)點(diǎn)的芯片互連技術(shù),完善四芯片封裝的良率,然后為高數(shù)值孔徑工藝的轉(zhuǎn)型做好準(zhǔn)備。這一點(diǎn)尤其值得關(guān)注,因?yàn)楦〉男酒悸矢撸@也是 AMD 兩年前轉(zhuǎn)向八芯片 GPU 復(fù)合體的原因。最好將芯片封裝技術(shù)與高數(shù)值孔徑工藝的轉(zhuǎn)型分開(kāi)學(xué)習(xí)。
![]()
你會(huì)注意到MTIA 500將有384GB和512GB兩種堆疊式內(nèi)存版本,根據(jù)規(guī)格推測(cè),它們將采用HBM4E顯存。384GB版本很可能是為了提高良率——誰(shuí)會(huì)舍得扔掉一塊只有25%內(nèi)存是次品的MTIA 500呢?博通想賣掉它,而Meta Platforms想買。順便一提,我認(rèn)為出于同樣的原因,還會(huì)推出256GB版本。
我們粗略估算了一下博通公司為 Meta Platforms 提供的 MTIA 計(jì)算引擎成品的成本,以此說(shuō)明技術(shù)和經(jīng)濟(jì)效益的變化速度有多快。從 2023 年到 2027 年,Meta Platforms 的 MTIA 設(shè)備有效吞吐量將提升 293 倍(其中一半來(lái)自向 MX4 4 位數(shù)據(jù)格式的遷移),據(jù)我估計(jì),其單位推理吞吐量(以峰值浮點(diǎn)運(yùn)算次數(shù)衡量)的成本將下降 9.1 倍。
(來(lái)源:編譯自nextplatform)
*免責(zé)聲明:本文由作者原創(chuàng)。文章內(nèi)容系作者個(gè)人觀點(diǎn),半導(dǎo)體行業(yè)觀察轉(zhuǎn)載僅為了傳達(dá)一種不同的觀點(diǎn),不代表半導(dǎo)體行業(yè)觀察對(duì)該觀點(diǎn)贊同或支持,如果有任何異議,歡迎聯(lián)系半導(dǎo)體行業(yè)觀察。
今天是《半導(dǎo)體行業(yè)觀察》為您分享的第4371內(nèi)容,歡迎關(guān)注。
加星標(biāo)??第一時(shí)間看推送
求推薦
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.