公眾號記得加星標??,第一時間看推送不會錯過。
每年有三大半導體會議:IEDM 、VLSI和 ISSCC。過去幾年,我們對前兩個會議進行了詳盡的報道。今天,我們將帶來 ISSCC 2026 的綜述,至此,我們將完成這三大會議的總結。
與IEDM和VLSI相比,ISSCC更側重于集成電路。幾乎每篇論文都包含電路圖,以及清晰的測量結果和數(shù)據(jù)。
往年,ISSCC 的研究成果對行業(yè)的影響力參差不齊。但今年情況有所不同,大量論文和演講都與市場趨勢直接相關。涵蓋的主題包括 HBM4、LPDDR6、GDDR7 和 NAND 的最新進展,以及共封裝光學器件、先進的芯片間接口,還有來自聯(lián)發(fā)科、AMD、英偉達和微軟等公司的先進處理器。
本次綜述將涵蓋內存、光網(wǎng)絡、高速電互連、處理器等主要類別。
存儲
今年ISSCC展會上,最吸引我們關注的一個主題是內存,包括三星HBM4、三星和SK海力士LPDDR6以及SK海力士GDDR7。除了DRAM之外,基于邏輯的SRAM和MRAM也引起了我們的興趣。
三星 HBM4
在三大內存廠商中,只有三星發(fā)表了關于HBM4的技術論文。在ISSCC大會之前,我們在加速器與HBM模型中就指出,三星的HBM4相比HBM3E有了顯著的改進。ISSCC大會上公布的數(shù)據(jù)證實了我們的分析,三星的性能達到了同類最佳水平——幾個月前,我們也曾在模型更新報告中詳細介紹過這一進展。
ISSCC大會上公布的技術細節(jié),結合我們收集到的行業(yè)信息,清晰地表明三星的HBM4在同級別產品中具有競爭力。值得注意的是,它在滿足Rubin要求的引腳速度的同時,還能將電壓保持在1V以下。雖然三星在可靠性和穩(wěn)定性方面仍然落后于SK海力士,但該公司在技術方面取得了顯著進展,有望挑戰(zhàn)SK海力士在HBM領域的統(tǒng)治地位。他們基于1c架構的HBM4搭配SF4邏輯芯片,似乎在引腳速度方面表現(xiàn)更佳。
![]()
![]()
三星展示了一款 36 GB、12 層高的 HBM4 堆疊,具有 2048 個 IO 引腳和 3.3 TB/s 的帶寬,采用第六代 10nm 級 (1c) DRAM 核心芯片與 SF4 邏輯基礎芯片相結合制成。
從 HBM3E 到 HBM4,最顯著的架構變化在于核心 DRAM 芯片和基片芯片的工藝技術差異。HBM4 僅對核心芯片采用 DRAM 工藝節(jié)點,而基片芯片則采用更先進的邏輯節(jié)點制造,這與之前幾代 HBM 產品對核心芯片和基片芯片均采用相同工藝不同。
隨著人工智能工作負載對HBM帶寬和數(shù)據(jù)傳輸速率的需求不斷增長,架構方面的關鍵挑戰(zhàn)也隨之而來。通過將基片工藝升級到SF4邏輯工藝,三星實現(xiàn)了更高的運行速度和更低的功耗。工作電壓(VDDQ)降低了32%,從HBM3E的1.1V降至HBM4的0.75V。與采用DRAM工藝制造的基片相比,基于邏輯的基片由于晶體管尺寸更小、金屬層堆疊面積更大,因此能夠提供更高的晶體管密度、更小的器件尺寸和更高的面積效率。這使得三星的HBM4能夠達到甚至顯著超越JEDEC的HBM4標準。
![]()
結合自適應體偏置(ABB:adaptive body-bias )控制技術(該技術可減輕堆疊核心芯片間的工藝偏差),翻倍的TSV數(shù)量進一步提升了時序裕量。三星的論文指出,ABB技術和4倍增加的TSV數(shù)量共同作用,使其HBM4單引腳運行速度高達13 Gb/s。
SF4 基片和 1c DRAM 核心芯片帶來的性能提升并非沒有代價。三星選擇SF4 作為邏輯基片,雖然三星晶圓代工廠可以為內部基片使用提供折扣,但其成本仍然高于其他競爭方案。SK 海力士在其 HBM4 基片中采用了臺積電的 N12 邏輯工藝,而美光則依賴于其自主研發(fā)的 CMOS 基片技術。即使考慮到垂直整合的成本優(yōu)勢,這兩種方案的成本也低于接近領先的 SF4 工藝。
2025年,三星的1c前端制造工藝一直面臨挑戰(zhàn),尤其是在該公司跳過1b節(jié)點,直接從基于1a的HBM3E過渡到1c世代的情況下。去年,1c節(jié)點的前端良率僅為50%左右,盡管近年來有所改善。較低的良率對其HBM4的利潤率構成風險。
從歷史數(shù)據(jù)來看,三星的HBM利潤率一直低于其主要競爭對手SK海力士,我們在內存模型中對所有廠商的這一動態(tài)進行了全面建模。我們詳細列出了各廠商在不同制程節(jié)點上的HBM、DDR和LPDDR的晶圓產量、良率、密度、成本等數(shù)據(jù)。
三星的策略似乎是積極采用更先進的制程工藝來制造基礎芯片,以實現(xiàn)卓越的性能并超越競爭對手,尤其是在NVIDIA等領先客戶對HBM的要求不斷提高的情況下。
HBM 中另一個需要解決的關鍵問題是 tCCDR,即跨越不同堆棧 ID (SID:stack ID) 發(fā)出的連續(xù) READ 命令之間的最小間隔。對于嚴重依賴跨多個通道并行內存訪問的 AI 工作負載而言,tCCDR 直接影響可實現(xiàn)的內存吞吐量。
在堆疊式DRAM架構中,多個核心芯片垂直集成在一個基底芯片之上。這自然會在整個堆疊層中引入微小的延遲差異,其驅動因素包括核心芯片和基底芯片之間的工藝偏差、TSV傳播差異以及局部溝道偏差。
堆疊高度和通道數(shù)(從 16 通道增加到 32 通道)的增加加劇了這一挑戰(zhàn)。隨著通道數(shù)和堆疊高度的增加,芯片間的差異會累積,導致通道和芯片間時序失配增大,從而影響可實現(xiàn)的 tCCDR 和整體 HBM 性能。
![]()
為了解決這個問題,三星引入了一種“單通道TSV RDQS時序自動校準方案”。上電后,系統(tǒng)使用一條與實際信號路徑時序行為相匹配的RDQS副本路徑來測量各通道間的延遲變化。時間數(shù)字轉換器(TDC)量化這些時序差異,然后使用每個通道的延遲補償電路(DCDL)進行補償。
該校準方案同時考慮了堆疊核心芯片之間的全局延遲差異和單個通道的局部延遲差異,從而實現(xiàn)了整個堆疊芯片時序的對齊。通過補償這些不匹配,三星顯著提高了有效時序裕量,并在滿足所需 tCCDR 約束的前提下,提升了最大可實現(xiàn)數(shù)據(jù)速率。僅此一項方案就將數(shù)據(jù)速率從 7.8 Gb/s 提升至 9.4 Gb/s。
一些精通內存技術的讀者可能會問:芯片面積如何才能容納如此顯著增加的TSV數(shù)量?這就體現(xiàn)了1c工藝的重要性。與之前的1a工藝相比,1c工藝進一步縮小了DRAM單元面積,從而釋放出更多的芯片空間,用于集成HBM4所需的更多TSV。
![]()
![]()
另一項由邏輯基片實現(xiàn)的關鍵創(chuàng)新是三星的可編程存儲器內置自測試 (PMBIST:Programmable Memory Built-In Self-Test ) 架構。PMBIST 使基礎die能夠生成完全可編程的存儲器測試模式,同時支持完整的 JEDEC 行和列命令集,這意味著測試引擎可以發(fā)出與實際系統(tǒng)相同的命令,并且可以在任何時鐘沿和全接口速度下執(zhí)行這些命令。實際上,這使得工程師能夠模擬復雜的真實世界存儲器訪問模式,并在實際運行條件下對 HBM 接口進行壓力測試,而這對于傳統(tǒng)的固定模式測試引擎來說是難以實現(xiàn)的。
這種方法與HBM3E截然不同。如前所述,HBM3E的基礎die采用DRAM工藝制造,這給MBIST(Memory Built-In Self-Test)引擎帶來了嚴格的功耗和面積限制,并且由于DRAM本身在功耗和面積方面相對于邏輯芯片的劣勢,測試只能局限于一小部分預定義的模式。通過將基礎芯片轉移到三星晶圓代工的SF4邏輯工藝,三星實現(xiàn)了完全可編程的測試框架,能夠運行復雜的測試算法和靈活的訪問序列。
這使得HBM的調試更加穩(wěn)健,良率學習效果也更佳。工程師可以創(chuàng)建針對性的應力模式來驗證關鍵時序參數(shù),例如tCCDR和tCCDS,在制造早期識別極端情況下的故障,并加速芯片級(CoW)和系統(tǒng)級封裝(SiP)測試期間的特性分析。簡而言之,隨著HBM堆疊結構日益復雜且運行速度不斷提高,PMBIST能夠提升測試覆蓋率、調試效率,并最終提高生產良率。
![]()
三星的HBM4顯存引腳速度也表現(xiàn)出色——在低于1V的內核電壓(VDDC)下,其傳輸速率可達11Gb/s,在高電壓下更可達到13Gb/s。盡管三星的競爭對手在可靠性和穩(wěn)定性方面更勝一籌,但我們尚未看到它們展現(xiàn)出與之匹敵的性能。
三星的實現(xiàn)方案顯著超越了官方 JEDEC HBM4 標準 (JESD270-4) 的基準規(guī)范,該標準規(guī)定每引腳最大數(shù)據(jù)傳輸速率為 6.4 Gb/s,帶寬約為 2 TB/s。三星的實現(xiàn)方案達到了 JEDEC 標準引腳速度的兩倍以上,每引腳可達 13 Gb/s,帶寬高達 3.3 TB/s。即使在 VDDC/VDDQ 分別為 1.05V 和 0.75V 的情況下,該器件仍能維持 11.8 Gb/s 的數(shù)據(jù)傳輸速率。
三星 LPDDR6
三星和SK海力士都展示了各自的LPDDR6芯片。我們將首先討論三星的芯片,稍后再討論SK海力士的芯片。
![]()
三星展示了其 LPDDR6 架構,并詳細介紹了所采用的節(jié)能技術。
![]()
LPDDR6 采用每芯片 2 個子通道的架構,每個子通道包含 16 個存儲體。它還具有兩種模式:普通模式和高效模式。在高效模式下,輔助子通道斷電,主子通道控制全部 32 個存儲體。但是,訪問輔助子通道中的數(shù)據(jù)會增加延遲。
雙子通道架構也意味著外圍電路的數(shù)量翻倍,例如命令解碼器、串行化和控制電路。根據(jù)三星和SK海力士提供的芯片照片,這種架構會使芯片總面積增加約5%,從而導致每片晶圓的總比特數(shù)減少。
![]()
與采用 PAM3 信號的 GDDR7 不同,LPDDR6 將繼續(xù)使用 NRZ 編碼。然而,它并非采用標準 NRZ 編碼,因為標準 NRZ 編碼會導致眼圖裕量不足。LPDDR6 采用寬 NRZ 編碼,每個子通道使用 12 個數(shù)據(jù) (DQ) 引腳,每次操作的突發(fā)長度為 24。
![]()
如果你仔細計算過,12×24 等于 288,而不是 2 的冪。剩下的 32 位分為兩種用途:16 位用于元數(shù)據(jù)(例如 ECC),16 位用于數(shù)據(jù)總線反轉 (DBI)。
DBI 是一種節(jié)能和信號完整性機制。在發(fā)送突發(fā)數(shù)據(jù)之前,控制器會檢查與前一次突發(fā)數(shù)據(jù)相比,是否有超過一半的比特會發(fā)生狀態(tài)翻轉。如果是,控制器會反轉所有比特并設置 DBI 標志,以便接收器知道需要反轉這些比特才能獲得實際數(shù)據(jù)。這可以將同時切換的輸出數(shù)量限制在總線寬度的一半以內,從而降低功耗和電源噪聲。
要計算有效帶寬,必須考慮這些元數(shù)據(jù)和 DBI 位,公式如下:帶寬 = 數(shù)據(jù)速率 × 寬度 (24 位) × 數(shù)據(jù) (32 位) / 數(shù)據(jù)包 (36 位)。例如,12.8 Gb/s 時,有效帶寬為 34.1 GB/s;14.4 Gb/s 時,有效帶寬為 38.4 GB/s。
![]()
LPDDR6 具有兩個恒壓域,VDD2C 為 0.875V,VDD2D 為 1.0V。通過精心選擇哪些外設邏輯使用哪個電源域,讀取功耗降低了 27%,寫入功耗降低了 22%。
![]()
![]()
LPDDR 內存主要用于空閑狀態(tài)下的低數(shù)據(jù)速率,例如 3.2 Gb/s 及以下。三星通過巧妙地利用電壓域,著重提升低數(shù)據(jù)速率下的功耗,從而降低待機和讀寫操作的功耗。
![]()
通過使用重分布層 (RDL),三星可以將相關電路在物理上更緊密地排列在一起。這縮短了關鍵延遲路徑,并降低了它們對電壓和溫度變化的敏感性。在 LPDDR6 的高頻應用中,更嚴格的時序和更小的波動至關重要。
![]()
![]()
三星的LPDDR6在0.97V電壓下可達到12.8 Gb/s的數(shù)據(jù)傳輸速率,在1.025V電壓下最高可達14.4 Gb/s。每個16Gb芯片的面積為44.5mm2,采用未知的10nm工藝制造,密度為0.360 Gb/mm2。這遠低于LPDDR5X在1b工藝下的密度(0.447 Gb/mm2),僅略高于LPDDR5X在1a工藝下的密度(0.341 Gb/mm2)。雖然雙子通道架構造成的面積損失是部分原因,但LPDDR6似乎還存在其他問題。根據(jù)上述內存密度,我們推測這款LPDDR6原型芯片采用的是三星的1b工藝制造。
三星 SF2 LPDDR6 PHY
![]()
三星還發(fā)布了用于LPDDR6邏輯芯片接口的PHY芯片。這些PHY芯片采用三星最新的SF2工藝制造,支持高達14.4 Gb/s的傳輸速率。PHY芯片的海岸線長度為2.32毫米,面積為0.695平方毫米,帶寬密度分別為16.6 Gb/s/mm和55.3 Gb/s/mm2。
![]()
PHY 還支持 LPDDR6 芯片實現(xiàn)的效率模式,該模式可降低 39% 的讀取功耗和 29% 的寫入功耗。
PHY 可以通過對非活動輔助子通道的高速時鐘路徑進行門控來增強效率模式。通過時鐘門控,讀寫功耗可降低近 50%,空閑功耗可降低 41%。
SK 海力士 1c LPDDR6
![]()
SK海力士發(fā)布了其首款1c DRAM產品,包括LPDDR6和GDDR7兩種封裝。其LPDDR6的數(shù)據(jù)傳輸速率最高可達14.4 Gb/s,比最快的LPDDR5X快35%,且功耗更低。
雖然 SK 海力士沒有說明 LPDDR6 芯片的面積或密度,但根據(jù)其 GDDR7 的相對密度增加,我們估計其位密度將達到 0.59 Gb/mm2。
![]()
SK海力士在其shmoo圖表中顯示,在1.025V電壓下,其芯片可達到14.4 Gb/s的數(shù)據(jù)傳輸速率,與三星相同。然而,在0.95V電壓下,SK海力士的芯片數(shù)據(jù)傳輸速率僅為10.9 Gb/s,而三星在0.97V電壓下則可達12.8 Gb/s。這表明,與三星相比,SK海力士在較低引腳速度下可能存在更高的能效問題,需要更高的電壓才能保證可靠性。
![]()
![]()
與三星的LPDDR6內存類似,SK海力士的LPDDR6內存也提供兩種模式:普通模式和節(jié)能模式。節(jié)能模式在單通道下以12.8 Gb/s的速率運行,與普通模式相比,待機電流和運行電流分別降低了12.7%和18.9%。
SK海力士1c GDDR7
![]()
雖然LPDDR6憑借其全新的內存技術實現(xiàn)了代際飛躍,但SK海力士采用1c工藝生產的GDDR7內存展現(xiàn)出更大的提升,在1.2V/1.2V電壓下最高頻率可達48Gb/s。即使在1.05V/0.9V電壓下,其頻率也能達到30.3Gb/s,高于RTX 5080顯卡中30Gb/s的顯存頻率。
![]()
![]()
該工藝實現(xiàn)的位密度為 0.412 Gb/mm2,而三星 1b 工藝的位密度為 0.309 Gb/mm2,三星較早的 1z 工藝的位密度為 0.192 Gb/mm2。
![]()
GDDR7 的位密度低于 LPDDR5X,通常約為后者的 70%。雖然它的數(shù)據(jù)傳輸速率更高,但這也帶來了更高的功耗和更大的面積。
GDDR7 密度較低是由于其外圍區(qū)域顯著增大,以實現(xiàn)更高的訪問速度。因此,實際的內存陣列在芯片面積中所占的比例較小。GDDR7 中使用的 PAM3 和 QDR(每個時鐘周期 4 個符號)信號需要更復雜的邏輯控制電路。
GDDR7 主要用于游戲 GPU 應用,這類應用需要比 HBM 更低的成本和容量,同時具備更高的內存帶寬。NVIDIA 曾宣布將于 2025 年推出配備 128GB GDDR7 的 Rubin CPX 大型上下文 AI 處理器,但隨著 NVIDIA 將重心轉移到推出 Groq LPX 解決方案,該產品幾乎已從 2026 年的路線圖中消失。
三星 4F2 COP DRAM
在2025年VLSI大會上,SK海力士詳細介紹了其4F2 Peri-Under-Cell (PUC) DRAM 。在今年的ISSCC大會上,三星公開了其4F2 Cell-on-Peripheral (COP) DRAM的實現(xiàn)方案。PUC和COP是同一架構,只是名稱不同。
![]()
4F2 單元的架構與 SK 海力士的相同,采用垂直溝道晶體管 (VCT),漏極上方有電容器。
![]()
三星提出的垂直架構與SK海力士的架構基本相同,都是將單元晶圓混合鍵合到外圍晶圓上。這種架構允許單元晶圓采用DRAM節(jié)點,而外圍晶圓則采用更先進的邏輯節(jié)點。
![]()
三星指出,混合鍵合技術已應用于COP閃存,并已應用于NAND閃存。其他NAND閃存制造商也采用了這種技術,但三星尚未將混合鍵合技術應用于NAND閃存的大規(guī)模生產,距離實現(xiàn)這一目標仍需數(shù)年時間。
此外,DRAM的晶圓間互連數(shù)量比NAND高一個數(shù)量級,并且需要更小的間距。為了減少晶圓間互連的數(shù)量,三星采用了兩種創(chuàng)新方法。
![]()
![]()
首先,他們將子詞線驅動器 (SWD: sub-wordline drivers) 從每個單元格塊 128 個重新組織成 16 組,每組 8 個。這使得 SWD 所需的信號數(shù)量減少了 75%。
接下來,他們將列選擇信號分成偶數(shù)路徑和奇數(shù)路徑。這需要兩倍的多路復用器(MUX:multiplexers),但每個數(shù)據(jù)引腳的列選擇線(CSL: column select line )數(shù)量減半至32條。
![]()
通過混合鍵合技術,可以將核心電路(即位線讀出放大器 (BLSA) 和 SWD)放置在單元陣列下方。其目標是使核心電路與單元陣列占據(jù)相同的面積,從而提高整體密度。
![]()
三星采用了“三明治”結構,這使得他們能夠最大限度地提高核心電路的面積效率,并減少邊緣區(qū)域(不在任何單元下方)的面積。
![]()
核心電路所占面積從 17.0% 減少到僅 2.7%,這是一個顯著的改進,直接轉化為芯片整體尺寸的減小。
在傳統(tǒng)DRAM中,增加每條位線上的單元數(shù)量會導致芯片面積顯著增加,而對于VCT DRAM,由于核心電路都在單元下方,因此增加的面積幾乎可以忽略不計。
![]()
三星沒有提供該芯片的任何密度數(shù)據(jù),只表示它是一款采用 10nm DRAM 工藝的 16Gb 芯片。
三星指出,VCT DRAM存在浮體效應,會導致漏電加劇并降低數(shù)據(jù)保持時間。緩解這一效應仍然是4F2技術普及應用的關鍵挑戰(zhàn)。
盡管面臨這些挑戰(zhàn),我們仍然預計 4F2 混合鍵合 DRAM 將在本十年后期,最早在 1d 之后的一代產品中問世。我們的內存模型詳細跟蹤了每個節(jié)點的時序和產能爬坡。當前的內存定價格局在很大程度上激勵著廠商加快產能爬坡,并推出具有更高位密度的新節(jié)點,以提高單晶圓廠的位輸出。另一方面,在許多應用場景中,內存的性能/價格比容量更為重要。
SanDisk/Kioxia BiCS10 NAND
SanDisk 和 Kioxia 展示了他們的 BiCS10 NAND 閃存,該閃存擁有 332 層和 3 個存儲層。這是目前報道的最高 NAND 閃存位密度,達到 37.6 Gb/mm2,超越了之前的冠軍SK 海力士的 321L V9 。
![]()
盡管SK海力士采用了類似的架構,擁有6個平面、3個層板和相近的層數(shù),但其比特密度卻低了30%。在QLC配置下,BiCS10的比特密度為37.6 Gb/mm2,而SK海力士的V9僅為28.8 Gb/mm2。在TLC配置下,二者的比特密度分別為29 Gb/mm2和21 Gb/mm2,這再次印證了SK海力士在該領域的落后地位。
![]()
此外,BiCS10采用6平面配置,I/O帶寬提升50%。6平面配置有兩種實現(xiàn)方式:1×6和2×3。SK海力士選擇采用2×3配置,而閃迪和鎧俠則選擇采用1×6配置。
1x6 配置的接地焊盤數(shù)量較少,面積減少了 2.1%。然而,較少的接地焊盤和垂直電源線限制了電源分配。
![]()
通過采用 CBA(Cell Bonded Array)架構,SanDisk 和 Kioxia 能夠定制 CMOS 晶圓工藝。通過在現(xiàn)有頂層金屬層的基礎上并聯(lián)添加另一層頂層金屬層,他們構建了更強大的電源網(wǎng)絡,并克服了電源分配方面的限制。
![]()
堆疊更多芯片是提高存儲密度的關鍵。然而,在多芯片架構中,未選中芯片的空閑電流會接近已選中芯片的激活電流。SanDisk 采用了一種門控系統(tǒng),可以完全關閉未選中芯片的數(shù)據(jù)通路,從而將空閑電流降低了兩個數(shù)量級。
聯(lián)發(fā)科 xBIT Logic-based Bitcell
![]()
![]()
SRAM 微縮已死。盡管邏輯面積從 N5 到 N2 減少了 40%,但 8 晶體管高電流 SRAM 位單元的面積僅減少了 18%。6 晶體管高電流 (6T-HC) 位單元的情況更糟,面積僅減少了 2%。輔助電路的微縮效果更好,但這并非沒有代價。
眾所周知,N3E 的高密度位單元相比 N3B 有所退步,密度回落至 N5 的水平。本文中,聯(lián)發(fā)科闡述了高電流位單元的相關情況。N3E 的高電流位單元面積比 N5 增加了 1-2%,密度則從約 39.0 Mib/mm2 下降至約 38.5 Mib/mm2。需要注意的是,這些數(shù)據(jù)并未考慮輔助電路的開銷。
![]()
![]()
在現(xiàn)代邏輯節(jié)點中,6T 位單元包含 4 個 NMOS 晶體管和 2 個 PMOS 晶體管,而 8T 位單元則分別包含 6 個和 2 個 NMOS 晶體管。NMOS 晶體管和 PMOS 晶體管數(shù)量的不等需要特殊的布局規(guī)則,并且會降低布局效率。聯(lián)發(fā)科的新型位單元 xBIT 是一種包含 10 個晶體管的單元,它包含 4 個 NMOS 晶體管和 6 個 PMOS 晶體管,或者反過來。這兩種位單元可以組合成一個矩形塊,包含 20 個晶體管,可存儲 2 位數(shù)據(jù)。
![]()
與PDK的標準8T位單元相比,xBIT的密度提高了22%至63%,在字線寬度較小時提升最為顯著。功耗也大幅降低,平均讀寫功耗降低了30%以上,0.5V電壓下的漏電降低了29%。在0.9V電壓下,其性能與8T位單元相近;在0.5V電壓下,雖然比8T位單元慢16%,但速度仍然足夠快,不會成為處理器的瓶頸,而且電壓范圍足夠大,可以進行電壓頻率縮放。
![]()
聯(lián)發(fā)科還展示了 xBIT 單元的 shmoo 圖表,從 0.35V 時的 100MHz 到 0.95V 時的 4GHz。
臺積電 N16 MRAM
臺積電在其 N16 節(jié)點上展示了更新的 STT-MRAM,這是基于他們在 ISSCC 2023 上的先前工作。臺積電將 MRAM 定位為嵌入式非易失性存儲器 (eNVM),用于汽車、工業(yè)和邊緣應用,這些應用不需要最先進的技術,而是更注重可靠性。
![]()
MRAM 具有雙端口訪問功能,因此可以同時進行讀取和寫入操作——這對于汽車領域的空中下載 (OTA) 更新至關重要,因為系統(tǒng)在寫入固件時不能停止讀取操作。
![]()
它采用跨模塊交錯讀取的方式,每個模塊都有獨立的時鐘,在 200 MHz 頻率下,吞吐量可提升至 51.2 Gb/s。在硅芯片上,這款 84 Mb 宏芯片在 -40 °C 至 150 °C 的溫度范圍內,0.8V 電壓下可實現(xiàn) 7.5ns 的讀取訪問時間。
![]()
該架構采用模塊化設計,可配置為 16 MB、8 MB 和 2 MB 的模塊,這些模塊可以組合成 8 MB 到 128 MB 的宏。通過將 16 MB 的大容量模塊與少量 2 MB 和 8 MB 的小容量模塊組合,可以根據(jù)任何設計需求對容量進行精細調整。例如,5 個 16 MB 模塊和 2 個 2 MB 模塊可以組成一個 84 MB 的宏。
![]()
如前所述,可靠性是嵌入式MRAM成敗的關鍵。在-40°C下經過100萬次耐久性循環(huán)后,硬錯誤率遠低于0.01 ppm,完全在ECC糾錯范圍內。在150°C下,典型讀取電壓下的讀取干擾低于10?22 ppm,幾乎可以忽略不計。這款168 Mb測試芯片通過了回流焊,并在150°C下支持20年的數(shù)據(jù)保持,滿足嚴格的汽車行業(yè)要求。
![]()
與同一N16節(jié)點上的舊款MRAM相比,位單元尺寸縮小了25%,從0.033 μm2縮小到0.0249 μm2,宏密度提升至16.0 Mb/mm2等效容量。讀取速度從6 ns降至5.5 ns等效容量,雙端口訪問和交錯讀取是全新的技術。
雖然三星晶圓代工今年也發(fā)布了 8LPP eMRAM 的相關成果,但臺積電的方案更有前景。它不僅滿足了所需的功能,性能也十分出色,而且采用的是成本更低的 N16 工藝。
![]()
臺積電已經在計劃推出下一代“Flash-Plus”版本,其比特單元體積縮小25%,耐久性提高100倍。
光網(wǎng)絡
多家主要光學設備供應商發(fā)表的論文探討了光互連技術,該技術將在下一代 AI 加速器之間(包括數(shù)據(jù)中心內部和數(shù)據(jù)中心之間)傳輸數(shù)據(jù)。
Nvidia DWDM
光信號格式的選擇將影響大規(guī)模共封裝光器件 (CPO) 的上市時間表。英偉達正在加緊生產 COUPE 光引擎,該引擎支持每通道 200G PAM4,可在近期內用于橫向擴展交換。
![]()
然而,在ISSCC會議上,英偉達提出每個波長使用32 Gb/s的傳輸速率,采用DWDM技術復用8個波長。第9個波長用于時鐘轉發(fā),速率減半,即16 Gb/s。
時鐘轉發(fā)意味著可以通過移除時鐘和數(shù)據(jù)恢復 (CDR) 電路以及其他電路來簡化 SerDes,從而提高能源效率和芯片海岸線效率。
3月初,就在OFC 2026之前,光計算互連MSA (OCI MSA)宣布成立,該協(xié)議將專注于200 Gb/s的雙向鏈路,發(fā)送和接收均使用4個波長的50G NRZ,這些波長將在同一根光纖上雙向傳輸。我好像聽到有人提到OCS?
![]()
有趣的是,OCI MSA 沒有使用額外的波長進行時鐘轉發(fā),看來將所有波長保留用于實際數(shù)據(jù)傳輸才是首要任務。
英偉達已發(fā)表的關于縱向擴展光網(wǎng)絡(CPO)的大部分研究都集中在密集波分復用(DWDM)技術上,但如今的CPO光引擎卻面向200G PAM4動態(tài)范圍光網(wǎng)絡(DR Optics),后者更適用于橫向擴展網(wǎng)絡。OCI MSA以DWDM為核心的縱向擴展光網(wǎng)絡方案解決了這一明顯的矛盾,因為現(xiàn)在很明顯,英偉達和其他廠商將以DWDM為縱向擴展核心,以動態(tài)范圍光網(wǎng)絡為橫向擴展核心。
OCI MSA 還展示了不同的實現(xiàn)方案,包括板載光模塊 (OBO)、通過 ASIC 封裝基板集成的 CPO 版本,以及光引擎直接集成在中介層上的版本。中間圖 (b) 所示的實現(xiàn)方案將在未來幾年內成為 CPO 橫向擴展和縱向擴展應用中最常用的方案,但它仍然需要某種形式的串行鏈路來穿過 ASIC 基板,并且仍然需要在兩端使用某種形式的 SerDes。例如,UCIe-S 可以用作此類傳輸?shù)膮f(xié)議。
![]()
現(xiàn)CPO的“最終目標”在于將光引擎集成到中介層本身,并通過并行化的芯片間(D2D)連接與ASIC連接,如上圖(c)所示。這將顯著提高海岸線帶寬密度,實現(xiàn)更高的基數(shù),并提升能效。因此,這種實現(xiàn)方式能夠以其他實現(xiàn)方式無法企及的方式釋放CPO的優(yōu)勢,但實現(xiàn)這一目標仍需數(shù)年時間,并且需要先進封裝技術的進一步發(fā)展。
Marvell Coherent-Lite 收發(fā)器
![]()
Marvell公司推出了一款適用于輕型相干通信應用的800G收發(fā)器。傳統(tǒng)收發(fā)器的傳輸距離有限,通常不足10公里。相干收發(fā)器雖然傳輸距離更遠,但結構復雜、功耗更高、成本也更高。Marvell的輕型相干收發(fā)器在功耗、成本和傳輸距離之間尋求平衡,非常適合鏈路跨度在幾十公里以內的大型數(shù)據(jù)中心園區(qū)。
![]()
相干收發(fā)器主要使用C波段波長,因為其衰減低。然而,相干傳輸所應用的長距離鏈路通常具有非常高的色散,需要大量的數(shù)字信號處理(DSP)。對于建筑物間距僅為幾十公里的數(shù)據(jù)中心園區(qū)而言,傳統(tǒng)相干光器件的遠距離傳輸能力往往過剩。
Coherent-Lite 收發(fā)器則使用 O 波段波長,這種波長在數(shù)據(jù)中心園區(qū)相對較短的距離內色散接近于零。這可以最大限度地減少 DSP 處理,從而節(jié)省功耗并降低延遲。
![]()
Coherent-lite 收發(fā)器是一個基于 DSP 的可插拔模塊,由兩個 400G 通道組成。每個 400G 通道運行雙極化 QAM,并由兩個并行的調制流 X 和 Y 組成。
![]()
本次演示的關鍵在于重點介紹針對校園應用優(yōu)化的其他信道帶寬擴展方法。
采用高階調制結合X軸和Y軸雙極化技術,可實現(xiàn)400G信道帶寬。如上所示,每個信道包含8比特,總共32個星座點。這8比特乘以62.5GBd的信號速率,等于約400G的總帶寬。
這種調制方案對于業(yè)界來說并非完全是新的,但現(xiàn)在它正被引入數(shù)據(jù)中心園區(qū)環(huán)境,用于較短的鏈路。
![]()
Marvell 的方法顯著降低了功耗,在不考慮硅光子學的情況下,功耗僅為 3.72 pJ/b,僅為其他成熟相干收發(fā)器的一半。他們的測量是在 40 公里的光纖長度上進行的,延遲小于 300 ns。
博通 6.4T 光學引擎
![]()
博通展示了其6.4T MZM光引擎(OE)的最新進展,該光引擎采用PAM4調制,包含64條~100G通道。這些光引擎在Tomahawk 5 51.2T CPO系統(tǒng)中進行了測試。一個CPO封裝包含八個6.4T光引擎,每個光引擎都包含一個光集成電路(PIC)和一個電子集成電路(EIC),采用臺積電N7工藝制造。
![]()
英偉達采用 COUPE 封裝技術,而博通則為這款 OE 產品采用扇出型晶圓級封裝 (FWAP)。博通未來將轉向 COUPE 封裝技術,但像這款 OE 這樣的老一代產品目前仍使用其他供應鏈合作伙伴。以下是他們演示中取得的令人鼓舞的結果:
![]()
高速電氣互連
隨著多芯片設計成為主流,芯片間互連成為關鍵瓶頸。各大晶圓代工廠和芯片設計公司紛紛提出各種方案,旨在通過有機襯底和先進封裝技術提升帶寬密度和能效。
英特爾 UCIe-S
![]()
英特爾發(fā)布了其兼容 UCIe-S 的芯片間 (D2D) 接口。該接口采用 UCIe-S 協(xié)議,單通道傳輸速率最高可達 48 Gb/s(16 通道),而采用定制協(xié)議時,單通道傳輸速率最高可達 56 Gb/s。它采用標準有機封裝,傳輸距離最遠可達 30 毫米。值得一提的是,該接口采用英特爾的 22 納米工藝制造。
![]()
在2025年VLSI大會上,Cadence展示了其基于N3E工藝的UCIe-S芯片間互連技術。盡管制程工藝處于劣勢,英特爾在數(shù)據(jù)速率、通道長度和海岸線帶寬方面仍然超越了Cadence的互連技術,僅在能效方面略遜一籌。
![]()
英特爾展示的互連技術很可能是其Diamond Rapids Xeon CPU未來將采用的互連技術的原型。與這款22nm測試芯片相比,采用英特爾3工藝設計的互連技術效率應該會更高,并有望取代Granite Rapids芯片上采用的EMIB等先進封裝技術。Diamond Rapids由兩顆IMH芯片和四顆CBB芯片組成。由于每顆CBB芯片與兩顆IMH芯片之間都存在較長的走線,我們認為這種互連方式是連接芯片的理想選擇,無需使用EMIB,即可在標準封裝基板上實現(xiàn)芯片間的無縫連接。
臺積電有源LSI
![]()
臺積電先進封裝事業(yè)部展示了其有源局部硅互連(aLSI)解決方案。與標準的CoWoS-L或EMIB相比,aLSI能夠提升信號完整性,并降低頂層芯片上PHY和SerDes的復雜性。
![]()
臺積電展示的器件采用了一款32 Gb/s的類UCIe收發(fā)器。由于大規(guī)模集成電路(aLSI)技術提高了信號完整性,收發(fā)器的面積得以縮小,凸點間距也從45 μm減小到38.8 μm。更小的間距以及曼哈頓網(wǎng)格的引入,使得物理層(PHY)深度從1043 μm減小到850 μm,節(jié)省的空間可用于計算、存儲或I/O,或進一步縮小芯片尺寸。需要注意的是,該收發(fā)器只是類UCIe,并非真正的UCIe,因為UCIe要求使用六邊形凸點布局,而非此處使用的曼哈頓網(wǎng)格。
隨著設計師們?yōu)橄乱淮斯ぶ悄芗铀倨鹘弑M所能地利用每一寸芯片空間,向 aLSI 的轉變勢在必行。
aLSI 的“有源”部分源于用有源晶體管取代橋接芯片中無源的長距離金屬通道,從而構成邊沿觸發(fā)收發(fā)器 (ETT) 電路,以在更長的傳輸距離內保持信號完整性。這還降低了頂層芯片發(fā)送/接收端口的信號驅動要求。aLSI 中的 ETT 電路僅增加 0.07pJ/b 的能耗,最大限度地減少了在堆疊芯片中添加有源電路帶來的散熱問題。通過將信號調理電路移至橋接芯片,可以使用更小的預驅動器和時鐘緩沖器來減小頂層芯片發(fā)送/接收端口的 PHY 面積,并消除接收端對信號放大的需求。
該ETT集成了驅動器、交流耦合電容(Cac)、具有正負反饋的放大器以及輸出級。信號經過Cac后,會在信號轉換邊沿引入峰值,這些峰值隨后會被雙環(huán)路放大器拾取,因此被稱為邊沿觸發(fā)式電路。放大器利用正負反饋環(huán)路來穩(wěn)定電壓電平。在本設計中,對于1.7 mm的通道長度,Cac設置為180 fF,芯片A上的電阻為2 kΩ,芯片B上的電阻為3 kΩ。
![]()
這些aLSI橋接器還可以在前端集成嵌入式深溝槽電容(eDTC),以改善對PHY和D2D控制器的供電。與通過橋接芯片來影響電源網(wǎng)絡不同,采用eDTC的aLSI可以同時改善D2D接口的電源和信號路由。
![]()
僅需 388 μm 的海岸線即可滿足 64 條 TX 和 64 條 RX 數(shù)據(jù)通道的需求,總面積僅為 0.330 mm2。信號布線僅需最上面的兩層金屬層,其余金屬層可用于前端電路。
![]()
臺積電解釋了如何分多個階段測試有源LSI。第一階段是已知良好芯片(KGD),僅測試LSI本身,用于驗證芯片性能。第二階段是已知良好堆棧(KGS),將SoC通過LSI連接起來,用于驗證堆棧功能。最后階段是已知良好封裝(KGP),對整個封裝進行全面驗證,以驗證其功能、性能和可靠性。
他們展示了 KGD 和 KGP 階段的 shmoo 圖,兩者均顯示互連在 0.75V 時達到 32 Gb/s,在 0.95V 時達到 38.4 Gb/s。
![]()
封裝圖顯示包含兩顆SoC芯片和兩顆I/O芯片。有趣的是,該測試芯片的設計似乎與AMD的MI450 GPU類似,包含兩顆相互連接的基礎芯片、12個HBM4顯存堆疊以及兩顆帶有主動式LSI的I/O芯片。不同之處在于,MI450 GPU的每個HBM4顯存堆疊并非擁有獨立的主動式LSI,而是兩顆HBM4顯存堆疊共用一個主動式LSI。
至于功耗,在 0.75V 電壓下總功耗僅為 0.36 pJ/b,其中主動式 LSI 中的 ETT 僅消耗 0.07 pJ/b。以下是與其他 D2D 解決方案的比較。
![]()
微軟D2D互連
![]()
微軟還詳細介紹了他們的芯片間互連(D2D)技術。他們的測試平臺包含兩顆芯片和兩對用于互連的D2D節(jié)點。此外,還搭建了完整的電源傳輸網(wǎng)絡和布線模型,以模擬時鐘門控和串擾。
![]()
測試芯片上的互連線占據(jù)了 532 μm 的海岸線,深度為 1350 μm。測試芯片采用臺積電的 N3P 節(jié)點制造,互連線在兩種數(shù)據(jù)速率下進行了測試:0.65V 下的 20 Gb/s 和 0.75V 下的 24 Gb/s。
![]()
微軟公布了兩組功耗數(shù)據(jù),一組包含模擬和數(shù)字系統(tǒng)功耗,另一組僅包含模擬功耗。后者與大多數(shù)芯片間互連的功耗一致。在 24 Gb/s 速率下,系統(tǒng)功耗為 0.33 pJ/b,模擬功耗為 0.226 pJ/b;而在 20 Gb/s 速率下,系統(tǒng)功耗為 0.25 pJ/b,模擬功耗為 0.17 pJ/b。空閑狀態(tài)下的功耗為 0.05 pJ/b。
![]()
微軟還將他們的互連技術與臺積電之前針對其主動式LSI所做的相同研究進行了比較。
正如我們在之前的文章中解釋的那樣,微軟的 Cobalt 200 CPU 由兩個計算芯片組成,這兩個芯片通過定制的高帶寬互連線連接。我們認為本次演示詳細介紹了這種互連線。
處理器
從小型移動CPU到大型AI加速器,ISSCC首次全面展示了聯(lián)發(fā)科、英特爾、AMD、Rebellions和微軟等公司的架構圖。許多產品甚至還展示了芯片實物圖。
聯(lián)發(fā)科天璣9500
每年,聯(lián)發(fā)科都會重點展示其旗艦移動CPU的不同方面。今年也不例外,今年的移動CPU發(fā)布會聚焦于睿頻加速和散熱管理。
![]()
臺積電為N3E和N3P工藝提供兩種不同的接觸柵間距(CGP)選項:48nm和54nm。大多數(shù)芯片采用的是48nm的窄間距CGP,因為它能實現(xiàn)更小的單元尺寸和更大的芯片尺寸縮小。然而,由于關鍵尺寸較小,它也面臨著漏電、布線和制造方面的挑戰(zhàn)。
聯(lián)發(fā)科在其天璣9500的C1 Ultra高性能核心上采用了更大的54nm CGP工藝,以提高能效。這使得他們在降低散熱的同時實現(xiàn)了更高的性能,在漏電相同的情況下性能提升了4.6%,或在性能相同的情況下功耗降低了3%。
聯(lián)發(fā)科論文的其余部分重點介紹了如何利用未使用的老化預算和減少熱過沖來優(yōu)化動態(tài)性能。最終,他們成功地將睿頻頻率從 4.21 GHz 提升至 4.4 GHz。
Intel 18A-on-Intel 3 混合鍵合
![]()
英特爾發(fā)布了其首款混合鍵合芯片 M3DProc。該芯片由一個 Intel 3 下芯片和一個 18A 上芯片組成。每個芯片分別包含 56 個網(wǎng)格單元、核心單元和深度神經網(wǎng)絡加速器單元。這兩個芯片采用 Foveros Direct 混合鍵合技術,鍵距為 9μm。
![]()
網(wǎng)格單元排列成 14×4×2 的 3D 網(wǎng)格,兩個芯片共享 SRAM。
![]()
英特爾發(fā)現(xiàn),3D網(wǎng)格結構可將延遲降低近40%,吞吐量提升近40%。他們還測試了數(shù)據(jù)傳輸?shù)哪苄В渲?D測試是在底部芯片的56個網(wǎng)格單元內進行的,而3D測試則是在兩個芯片上相鄰的28個網(wǎng)格單元內進行的。結果表明,混合鍵合互連(HBI)對能效的影響微乎其微。
![]()
每個Tile有 552 個焊盤,其中不到一半用于數(shù)據(jù)傳輸,不到四分之一用于供電。
在封裝方面,M3DProc 與 Clearwater Forest (CWF) 類似。CWF 采用 Intel 3 基本芯片,并通過 9μm Foveros Direct 連接到 18A 計算芯片。
M3DProc 的 3D 帶寬高達 875 GB/s,而每個 CWF 計算芯片的帶寬僅為 210 GB/s。該芯片的 3D 片上網(wǎng)絡 (NoC) 具有顯著更高的帶寬密度。CWF 使用 Foveros Direct 將 CPU 核心集群的 L2 緩存與基礎 L3 緩存分離,每個頂層芯片包含 6 個集群,每個集群的帶寬為 35 GB/s,因此每個頂層芯片的總帶寬為 210 GB/s。M3DProc 的 875 GB/s 3D 帶寬通過 56 個垂直連接進行聚合,每個連接僅需 15.6 GB/s,覆蓋面積卻小得多。
AMD MI355X
![]()
AMD 展示了其 MI355X GPU。在以往的會議演講中,AMD 通常會重復之前發(fā)布的消息,只引入一兩項新的信息。但這次的演講在這方面做得更好,詳細解釋了 MI355X 的 XCD 和 IOD 相較于 MI300X 有哪些改進。
![]()
AMD詳細介紹了他們如何在保持總面積不變且CU數(shù)量基本不變的情況下,將每個CU的矩陣吞吐量提高了一倍。首先,當然是從N5到N3P的轉變;這帶來了晶體管密度提升的大部分。N3P提供的額外兩層金屬層優(yōu)化了布線,從而提高了單元利用率。AMD像之前在N5中那樣,設計了自己的標準單元,以針對其高性能計算(HPC)應用場景優(yōu)化節(jié)點。
他們還采用了更密集的布局算法,類似于 EPYC Bergamo CPU 中使用的 Zen 4c 內核比 EPYC Genoa CPU 中使用的 Zen 4 內核小得多。
當使用多種不同的數(shù)據(jù)格式(例如 FP16、FP8、MXFP4 等)執(zhí)行相同的計算時,有兩種方法。第一種方法是使用共享硬件,即所有格式都通過相同的電路進行處理。然而,這種方法會帶來額外的功耗,因為每種格式的優(yōu)化程度都很低。第二種方法是為每種數(shù)據(jù)格式使用完全不同的電路集進行計算。然而,這種方法會占用大量額外的空間。當然,最佳方法介于兩者之間。這種優(yōu)化是 AMD 重點關注的領域。
![]()
作為采用改進型晶體管的下一代工藝節(jié)點,N3P本身就能帶來性能提升。然而,在工藝節(jié)點改進之前,AMD就已經能夠將頻率等效功耗提升5%。他們還設計了多種具有不同功耗和性能特性的觸發(fā)器,并根據(jù)用途和架構要求,將其部署在芯片的不同區(qū)域。
![]()
MI300X 擁有 4 個 I/O 芯片,而 MI355X 則減少到兩個。通過這種方式,AMD 節(jié)省了芯片間互連的面積。更大的單芯片尺寸改善了延遲,并減少了 SerDes 和轉換次數(shù)。此外,通過增加互連寬度,HBM 的效率也得到了提升。節(jié)省下來的功耗可以重新分配給計算芯片,從而提高性能。
![]()
由于芯片面積較大,且芯片上任意兩個區(qū)域之間都有多種布線方案,AMD 必須投入大量精力來優(yōu)化線纜和互連。通過對線纜進行定制設計,AMD 成功將互連功耗降低了約 20%。
Rebellions Rebel100
Rebellions 是一家韓國初創(chuàng)公司,專注于人工智能加速器。在 ISSCC 大會上,他們首次公開了其新型加速器 Rebel100 的架構圖。與其他通常由臺積電 (TSMC) 代工的加速器不同,Rebellions 選擇了三星晶圓代工的 SF4X 工藝節(jié)點。由于英偉達 (Nvidia)、AMD、博通 (Broadcom) 等公司占據(jù)了臺積電的大部分產能,這為他們提供了更大的靈活性。
![]()
在2025年Hot Chips大會上,Rebellions展示了運行Llama 3.3 70B固件的芯片。Hot Chips和ISSCC大會上的規(guī)格參數(shù)保持一致。值得注意的是,該芯片采用了三星的I-CubeS中介層技術。雖然Hot Chips大會的幻燈片中提到了臺積電的CoWoS-S技術,但我們已澄清幻燈片上的錯誤,實際使用的是I-CubeS技術。
我們最近提到過,CoWoS-S 的產能限制有所緩解。也就是說,三星可能為了將 I-CubeS 的先進封裝技術與其前端工藝捆綁銷售,提供了大幅折扣,從而使這家初創(chuàng)公司免去了尋找和驗證獨立先進封裝供應商的麻煩。三星可能還將 HBM的供應與使用 I-CubeS 技術掛鉤。
I-CubeS尚未被任何主流AI加速器采用,這可能是三星試圖打入該市場的嘗試。目前已確認的I-CubeS用戶僅有5家:eSilicon、百度、Nvidia、Rebellions和Preferred Networks。
首先是eSilicon采用三星14LPP工藝和HBM2顯存的網(wǎng)絡ASIC芯片。百度昆侖1加速器與之類似,同樣采用三星14LPP工藝和兩層HBM2顯存。2023年CoWoS-S產能緊張時,英偉達曾將少量H200芯片的生產外包給I-CubeS。此外還有Rebel100,以及Preferred Networks計劃推出的基于SF2工藝的加速器。
![]()
Rebel100 采用 4 個計算芯片和 4 個 HBM3E 內存堆棧。每個芯片有 3 個 UCIe-A 接口。但是,每個芯片上只使用了兩個接口,時鐘頻率為 16 Gb/s。
![]()
Rebellions 聲稱該設計可在封裝級別進行重新配置,可以通過添加額外的 I/O 或內存芯片來集成以太網(wǎng),從而實現(xiàn)規(guī)模擴展。剩余的 UCIe-A 接口將用于此用途。
Rebellions公司表示,IO芯片將于2026年第一季度完成流片。但并未提供內存芯片的流片時間表。
![]()
![]()
他們還在每個 HBM3E 堆疊旁邊集成了硅電容器,以提高 HBM3E 和關鍵控制模塊的電源質量。
微軟 Maia 200
微軟詳細介紹了他們的 Maia 200 AI 加速器。與其說這是一篇研究論文,不如說它更像是一份白皮書,其中只有一張圖片和一個規(guī)格表,將 Maia 200 與 Maia 100 進行了比較。考慮到 Maia 200 的許多數(shù)據(jù)都值得懷疑,例如每平方毫米浮點運算次數(shù) (flops/mm2) 和每瓦浮點運算次數(shù) (flops/w),這樣的安排也合情合理。
Maia 100 的設計始于 GPT 出現(xiàn)之前,而 Maia 200 則面向當前的模型時代,特別是推理領域。今年早些時候,Maia 200 節(jié)點已在 Azure 上正式發(fā)布。
![]()
Maia 200 是目前唯一堅持光罩級單芯片設計的芯片。所有主流的配備 HBM 的訓練和推理加速器都已轉向多芯片設計,每個封裝包含 2 個、4 個甚至 8 個計算芯片。芯片上的每一平方毫米都針對特定用途進行了高度優(yōu)化。與 Nvidia 或 AMD 的 GPU 不同,Maia 200 沒有用于媒體或向量運算的傳統(tǒng)硬件。微軟在臺積電的 N3P 工藝上將光罩級單芯片設計發(fā)揮到了極致,集成了超過 10 PFLOPs 的 FP4 計算能力、6 個 HBM3E 堆棧以及 28 條 400 Gb/s 全雙工 D2D 鏈路。
![]()
在封裝層面,Maia 200 非常標準,模仿了 H100。它是一款 CoWoS-S 中介層芯片,包含 1 個主芯片和 6 個 HBM3E 堆疊芯片。
![]()
芯片的長邊各覆蓋 3 個 HBM3E PHY,短邊各有 14 條 400 Gb/s D2D 鏈路(共 28 條)。芯片中心有 272 MB 的 SRAM,其中包含 80 MB 的 TSRAM(L1)和 192 MB 的 CSRAM(L2)。
![]()
Maia 200 具有兩種不同的鏈路:同一節(jié)點內其他芯片之間的固定鏈路,以及芯片與交換機之間的交換鏈路。其中 21 條鏈路配置為固定鏈路,每 7 條鏈路連接到其他芯片;其余 7 條鏈路配置為交換鏈路,連接到四個機架式交換機之一。
其他亮點
三星SF2溫度傳感器
![]()
![]()
三星在SF2上展示了一款緊湊型溫度傳感器,用后端金屬電阻取代了傳統(tǒng)的雙極型晶體管(BJT)方案。這或許不如新一代內存或處理器那樣引人注目,但對于芯片的正常工作而言卻至關重要。
這種金屬電阻器的薄層電阻比同等規(guī)格的布線金屬電阻器高 518 倍,而所需面積卻只有后者的約 1%。由于它位于上層金屬層,因此為下方的電路留出了充足的空間,并消除了前端工藝 (FEOL) 的面積開銷。雖然它的分辨率較低,但其優(yōu)勢足以彌補這一不足。
![]()
該傳感器采用全堆疊式電容-電阻電路結構,總面積僅為 625 μm2。作為特性明確的 PDK 元件,其特性已由代工廠建模并驗證。它更適用于對工藝偏差控制要求嚴格的大規(guī)模生產。即使在單個芯片上,也可以在熱點附近使用數(shù)千個這樣的傳感器。
如前所述,金屬電阻的溫度系數(shù) (TCR) 較低,僅為布線金屬的 0.2 倍,這限制了傳感分辨率。三星通過增加基極電阻來彌補這一缺陷。然而,由于 RC 時間常數(shù)增大,這會延長傳感時間。為了解決這個問題,三星采用了一種時間偏移壓縮技術:利用低電阻 (0.1R) 快速充電路徑迅速為 RC 濾波器充電,然后在波形的溫度敏感部分,電路切換到全電阻。
對于時間數(shù)字轉換 (TDC),他們用緊湊的基于環(huán)形振蕩器 (RO) 的 TDC 取代了先前工作中使用的大型線性延遲發(fā)生器,將延遲發(fā)生器面積減少了 99.1%。RO 還兼作系統(tǒng)時鐘,相位交錯計數(shù)可防止非單調性。
![]()
![]()
新型溫度傳感器的精度品質因數(shù) (FoM) 為 0.017 nJ·%2,優(yōu)于之前基于三星 5LPE、臺積電 N3E 和英特爾 4 (JSSC 2025) 的同類產品。以往的溫度傳感器只能在面積或速度之間進行二選一的優(yōu)化。例如,N3E 上的傳感器面積小巧(900 μm2),但響應時間為 1 ms;而三星 5LPE 上的傳感器速度快(12 μs),但面積巨大(6356 μm2)。
*免責聲明:本文由作者原創(chuàng)。文章內容系作者個人觀點,半導體行業(yè)觀察轉載僅為了傳達一種不同的觀點,不代表半導體行業(yè)觀察對該觀點贊同或支持,如果有任何異議,歡迎聯(lián)系半導體行業(yè)觀察。
今天是《半導體行業(yè)觀察》為您分享的第4378內容,歡迎關注。
加星標??第一時間看推送
![]()
![]()
求推薦
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.