網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

SRAM，遇到困難

2026-03-27 18:28:57　來(lái)源: 半導(dǎo)體產(chǎn)業(yè)縱橫

北京舉報(bào)

分享至

由于SRAM在最新的工藝節(jié)點(diǎn)中無(wú)法實(shí)現(xiàn)可擴(kuò)展性，業(yè)界必須評(píng)估其對(duì)所有計(jì)算形式的影響。

SRAM 是所有計(jì)算系統(tǒng)的重要組成部分，但它未能跟上邏輯電路的擴(kuò)展步伐，造成了越來(lái)越棘手的問(wèn)題，而這些問(wèn)題在過(guò)去五年中變得更加嚴(yán)重。

早在1990年，亨尼西和帕特森就出版了《計(jì)算機(jī)體系結(jié)構(gòu)：量化方法》一書(shū)。作者當(dāng)時(shí)就已清楚地認(rèn)識(shí)到，內(nèi)存容量和性能將成為未來(lái)處理能力發(fā)展的關(guān)鍵瓶頸（見(jiàn)圖1）。幾十年來(lái)，硬件架構(gòu)一直在回避這個(gè)問(wèn)題，通常使用SRAM作為緩存，并輔以容量更大的片外DRAM。雖然這使得內(nèi)存看起來(lái)更大，但速度往往慢得多。這就是所謂的“內(nèi)存墻”。

圖1：內(nèi)存墻的早期識(shí)別。來(lái)源：Hennessy & Patterson，《計(jì)算機(jī)體系結(jié)構(gòu)：定量方法》。

在所有計(jì)算形式中，程序和數(shù)據(jù)都存儲(chǔ)在靜態(tài)隨機(jī)存取存儲(chǔ)器（SRAM）中。處理器從該存儲(chǔ)器中讀取指令。這些指令告訴處理器要對(duì)同樣存儲(chǔ)在該存儲(chǔ)器中的數(shù)據(jù)執(zhí)行哪些操作。

SRAM 比處理器內(nèi)部臨時(shí)存儲(chǔ)數(shù)據(jù)的寄存器更便宜。雖然寄存器單元可以使用與 SRAM 相同數(shù)量的晶體管，但寄存器使用更昂貴的解碼和訪問(wèn)機(jī)制，這種機(jī)制無(wú)法隨著寄存器組大小的增加而擴(kuò)展。

SRAM 存儲(chǔ)器由一系列存儲(chǔ)單元組成，周?chē)h(huán)繞著電路，這些電路能夠以隨機(jī)方式讀取和存儲(chǔ)數(shù)據(jù)。在許多情況下，周?chē)倪壿嬰娐肥前攵ㄖ频模驗(yàn)樗鼤?huì)隨著存儲(chǔ)陣列規(guī)模的增大而變化。事實(shí)上，許多存儲(chǔ)器速度的提升都來(lái)自于這些電路的改進(jìn)，而不是存儲(chǔ)陣列本身的改進(jìn)。

隨著SRAM容量和性能的提升幾乎停滯不前，未來(lái)前景愈發(fā)黯淡。這意味著，隨著制程節(jié)點(diǎn)的不斷縮小，相同容量的SRAM所占用的芯片面積比例卻越來(lái)越高。隨著越來(lái)越多的芯片達(dá)到光刻工藝的極限，這種狀況難以承受，制造商不得不比以往更多地依賴(lài)外部存儲(chǔ)器。而外部存儲(chǔ)器的速度要慢得多。

在人工智能時(shí)代，訪問(wèn)模式發(fā)生了變化，這也迅速成為主要的限制因素。

臺(tái)積電承認(rèn)SRAM微縮存在一些問(wèn)題，但該公司聲稱(chēng)其新的2nm納米片技術(shù)（見(jiàn)圖2）已有所改進(jìn)。然而，很難獲得確鑿的數(shù)據(jù)來(lái)支持這一說(shuō)法。過(guò)去，實(shí)際結(jié)果往往低于大規(guī)模應(yīng)用前公布的數(shù)據(jù)。

圖2：臺(tái)積電 SRAM 單元尺寸（數(shù)據(jù)來(lái)自公開(kāi)渠道）。來(lái)源：半導(dǎo)體工程

雖然這可以被視為內(nèi)存問(wèn)題，但歸根結(jié)底是計(jì)算問(wèn)題。“性能并非受限于計(jì)算能力，”Eliyan的首席執(zhí)行官兼聯(lián)合創(chuàng)始人Ramin Farjadrad 表示，“在很多情況下，大多數(shù)功能的處理器利用率只有 20%，甚至更低。性能主要受限于內(nèi)存和內(nèi)存帶寬。這就是所謂的內(nèi)存墻。”

SRAM 微縮

人們很容易認(rèn)為，當(dāng)晶體管尺寸縮小時(shí)，由六個(gè)晶體管組成的SRAM 單元的尺寸和性能也會(huì)隨之降低。“SRAM 微縮停滯不前，是因?yàn)閭鹘y(tǒng)的 6T 位單元達(dá)到了物理極限和工藝偏差極限，” Synopsys嵌入式存儲(chǔ)器IP 首席產(chǎn)品經(jīng)理 Daryl Seitzer 表示。“SRAM 位單元的設(shè)計(jì)初衷是實(shí)現(xiàn)高密度存儲(chǔ)，但它存在一個(gè)固有的缺陷，即讀寫(xiě)需求相互沖突。訪問(wèn)晶體管與存儲(chǔ)晶體管之間存在競(jìng)爭(zhēng)，這種競(jìng)爭(zhēng)需要仔細(xì)平衡，并考慮工藝偏差。隨著幾何尺寸的縮小，工藝偏差對(duì)位單元讀寫(xiě)特性的影響比例會(huì)越來(lái)越大。”

問(wèn)題遠(yuǎn)不止于此。“隨著制程節(jié)點(diǎn)的縮小，靜電控制和隨機(jī)波動(dòng)成為主要制約因素，阻礙了單元面積的相應(yīng)縮小，”Arteris產(chǎn)品管理高級(jí)經(jīng)理Andre Bonnardot 表示。“此外，由于導(dǎo)線(xiàn)電阻和位線(xiàn)電容的增加，SRAM 的速度已經(jīng)達(dá)到瓶頸，而 Vdd 在最近的制程節(jié)點(diǎn)中幾乎沒(méi)有降低。邏輯電路可以通過(guò)器件和布線(xiàn)方面的創(chuàng)新繼續(xù)縮小尺寸，但 SRAM 卻無(wú)法做到這一點(diǎn)。”

隨著制程節(jié)點(diǎn)的更新，這些問(wèn)題愈發(fā)嚴(yán)重。“在先進(jìn)的2nm及以下制程工藝上，SRAM位單元的密度提升幅度已降至不足15%。”Cadence硅解決方案集團(tuán)研究員Gopi Ranganathan表示，“這遠(yuǎn)低于我們?cè)?5nm到5nm工藝技術(shù)迭代過(guò)程中所經(jīng)歷的50%到100%的逐代縮小幅度。這種下降可歸因于先進(jìn)制程節(jié)點(diǎn)上器件、柵極觸點(diǎn)、MEOL以及V0/V1的尺寸極其狹窄，而進(jìn)一步有意義的尺寸縮小受到工具的限制以及硅良率的制約。”

其影響是成本更高、性能更低。“主要表現(xiàn)為存儲(chǔ)器密度擴(kuò)展速度落后于傳統(tǒng)存儲(chǔ)器，”Quadric首席技術(shù)官Nigel Drego 表示。“每平方毫米門(mén)數(shù)(Gate/mm2)的發(fā)展速度超過(guò)了每平方毫米兆字節(jié)數(shù)(MB/mm2 )。此外，由于線(xiàn)路延遲和物理定律與 SoC 設(shè)計(jì)人員的需求不符，訪問(wèn)速度也受到影響。然而，巧妙的架構(gòu)調(diào)整可以緩解邏輯和 SRAM 速度之間的依賴(lài)性。”

自20 世紀(jì) 80 年代以來(lái)，這種差距一直在擴(kuò)大，那么如今的計(jì)算機(jī)技術(shù)與二十年前相比如何呢？Eliyan 公司的 Farjadrad 表示：“計(jì)算機(jī)或處理器的性能提升了近五個(gè)數(shù)量級(jí)。但這些計(jì)算機(jī)需要處理來(lái)自?xún)?nèi)存的數(shù)據(jù)。內(nèi)存帶寬甚至沒(méi)有提升 100 倍，因此，計(jì)算機(jī)實(shí)際處理或能夠處理的數(shù)據(jù)量與實(shí)際輸入的數(shù)據(jù)量之間存在超過(guò) 1000 倍的差距。”

這不僅僅是前沿人工智能技術(shù)的問(wèn)題。最終，它將影響到所有領(lǐng)域——甚至包括小型微控制器（MCU）和微處理器（MPU）——尤其是在人工智能向邊緣應(yīng)用發(fā)展的過(guò)程中。“在某種程度上，它變得無(wú)法擴(kuò)展，屆時(shí)SRAM將占據(jù)芯片總面積的更大比例，”瑞薩電子首席產(chǎn)品營(yíng)銷(xiāo)經(jīng)理Kavita Char表示。“這是我們必須考慮的問(wèn)題。這也會(huì)影響芯片用戶(hù)，因?yàn)樗麄儽仨毧紤]哪些功能可以在芯片上實(shí)現(xiàn)，以及何時(shí)需要使用外部存儲(chǔ)器。隨著芯片幾何尺寸的縮小，成本也會(huì)越來(lái)越高。”

目前尚不清楚N2的位單元面積是否比上一代產(chǎn)品更優(yōu)。“SRAM近期的性能提升主要得益于邏輯電路尺寸的縮小，并將其應(yīng)用于SRAM宏的解碼和控制電路，”Synopsys嵌入式存儲(chǔ)器IP高級(jí)產(chǎn)品經(jīng)理Rahul Thukral表示。“這需要設(shè)計(jì)上的創(chuàng)新，而我們能夠在位單元尺寸未縮小的情況下實(shí)現(xiàn)這樣的面積優(yōu)勢(shì)。隨著環(huán)柵（GAA）技術(shù)的改進(jìn)以及器件寬度控制靈活性的提高，預(yù)計(jì)未來(lái)性能將進(jìn)一步提升。GAA晶體管能夠提供更好的靜電控制，從而降低漏電并改善讀寫(xiě)性能，預(yù)計(jì)還將帶來(lái)更多改進(jìn)。對(duì)于最初的2nm工藝，存儲(chǔ)器面積正在改善，其中大部分性能提升來(lái)自解碼和數(shù)據(jù)通路電路中的邏輯器件。然而，隨著GAA晶體管的進(jìn)一步縮小，位單元面積有望進(jìn)一步縮小，預(yù)計(jì)在后續(xù)節(jié)點(diǎn)中位單元面積將進(jìn)一步降低。”

Arteris公司的Bonnardot表示：“我們認(rèn)為SRAM擴(kuò)展速度的放緩正處于系統(tǒng)架構(gòu)的拐點(diǎn)。當(dāng)內(nèi)存密度增長(zhǎng)放緩時(shí)，簡(jiǎn)單地增加緩存就變得不經(jīng)濟(jì)了。”

對(duì)軟件的影響

對(duì)軟件的影響范圍廣泛，挑戰(zhàn)了長(zhǎng)期以來(lái)“軟件生產(chǎn)力是優(yōu)化最重要的目標(biāo)”這一觀念。如今，許多領(lǐng)域都在質(zhì)疑這一觀點(diǎn)，尤其是在越來(lái)越多的產(chǎn)品走向軟件定義化之后。“依賴(lài)于海量本地SRAM和多層快速緩存的處理器架構(gòu)將受到最大的影響，”Quadric公司的Drego表示。“CPU無(wú)法避免這些硬件密集型的內(nèi)存架構(gòu)，因?yàn)槲覀兪謾C(jī)、筆記本電腦和數(shù)據(jù)中心中的CPU被設(shè)計(jì)用于運(yùn)行具有非結(jié)構(gòu)化內(nèi)存引用的隨機(jī)用戶(hù)代碼，并同時(shí)處理數(shù)十個(gè)線(xiàn)程。”

對(duì)于這類(lèi)公司而言，選擇余地不多。“SRAM 現(xiàn)在占據(jù)了芯片面積和成本的更大比例，”Bonnardot 表示。“大型寄存器文件和緩存層次結(jié)構(gòu)不再能夠自由擴(kuò)展，這加大了對(duì)芯片尺寸、良率、能效和數(shù)據(jù)傳輸效率的壓力。這使得瓶頸從計(jì)算密度轉(zhuǎn)移到了內(nèi)存架構(gòu)和互連效率。軟件必須假定內(nèi)存的層次結(jié)構(gòu)更加復(fù)雜，速度也更加分散。局部性、分塊、分區(qū)和流量可預(yù)測(cè)性變得更加重要，而延遲差異則成為系統(tǒng)級(jí)性能的限制因素。”

人工智能也無(wú)法擺脫這些問(wèn)題。“隨著人工智能模型規(guī)模和上下文長(zhǎng)度的增長(zhǎng)，內(nèi)存帶寬和片上緩存成為性能瓶頸，”Synopsys公司的Seitzer表示。“這在LLM推理中表現(xiàn)得尤為明顯，鍵值緩存帶寬成為瓶頸。因此，軟件必須優(yōu)化數(shù)據(jù)局部性、內(nèi)存感知調(diào)度、量化、稀疏性和內(nèi)存分層，因?yàn)橛?jì)算能力的提升已無(wú)法彌補(bǔ)內(nèi)存擴(kuò)展速度的緩慢。”

人工智能架構(gòu)的一些差異可以被利用。“人工智能引擎，尤其是人工智能推理處理器，可以長(zhǎng)時(shí)間處理結(jié)構(gòu)良好的代碼，其運(yùn)行時(shí)間比頻繁切換任務(wù)的CPU長(zhǎng)幾個(gè)數(shù)量級(jí)，”Drego說(shuō)道。“智能人工智能架構(gòu)將內(nèi)存管理推入離線(xiàn)編譯器，這些編譯器可以調(diào)度顯式的代碼驅(qū)動(dòng)的DMA傳輸，用于傳輸人工智能模型的權(quán)重和激活值。整個(gè)人工智能推理處理引擎都可以構(gòu)建成不需要任何數(shù)據(jù)緩存的架構(gòu)。這減輕了使用最高速度、最高功耗的SRAM來(lái)設(shè)計(jì)分層緩存、緩存標(biāo)簽和轉(zhuǎn)換緩沖區(qū)的壓力。隨著越來(lái)越多的工作負(fù)載依賴(lài)于人工智能模型，先進(jìn)SoC芯片面積中越來(lái)越大的部分可以避免SRAM密度/速度瓶頸，從而將這一設(shè)計(jì)挑戰(zhàn)限制在關(guān)鍵的CPU子模塊中。”

或許業(yè)內(nèi)并非所有人都注意到了這一點(diǎn)。“對(duì)于人工智能模型來(lái)說(shuō)，有一個(gè)叫做算術(shù)強(qiáng)度的概念，”Eliyan公司的Farjadrad說(shuō)道，“它指的是處理器在內(nèi)存上運(yùn)行的函數(shù)或操作的數(shù)量。遺憾的是，近期人工智能模型的算術(shù)強(qiáng)度遠(yuǎn)低于以往。因此，從內(nèi)存到處理器的帶寬需求更大了。”

3D SRAM

如果SRAM 無(wú)法擴(kuò)展，那么使用最昂貴的工藝節(jié)點(diǎn)就毫無(wú)意義。目前，人們?cè)絹?lái)越傾向于將 SRAM 集成到芯片上，并安裝在處理器之上。Cadence 公司的 Ranganathan 表示：“SoC 設(shè)計(jì)人員正在探索解耦方案，即將少量 SRAM 放置在采用最先進(jìn)工藝節(jié)點(diǎn)設(shè)計(jì)的芯片上。最關(guān)鍵的需求是 CPU/GPU/AI 工作負(fù)載，例如 1 級(jí)、2 級(jí)甚至 3 級(jí)。在這種情況下，更大的 SRAM 容量（例如 4 級(jí)）則放置在更早工藝節(jié)點(diǎn)的芯片上，從而降低每個(gè)晶體管的成本。更快的芯片間通信鏈路和更小的互連間距的出現(xiàn)，使得多存儲(chǔ)器層次結(jié)構(gòu)的集成更加容易，從而在合理的延遲影響下降低成本。”

目前，這是一種成本高昂的解決方案。“由于封裝成本高、散熱復(fù)雜且標(biāo)準(zhǔn)化程度有限，基于3D和芯片組的SRAM目前僅適用于高端AI/HPC芯片，”Seitzer表示。“如今，SRAM密集型芯片組仍然集中在高端設(shè)備中，需要通過(guò)定制解決方案將SRAM與其他高價(jià)值IP集成在一起。短期內(nèi)實(shí)現(xiàn)低成本、面向大眾市場(chǎng)的SRAM芯片組似乎不太可能。”

但那一天或許終會(huì)到來(lái)。“芯片組（Chiplets）提供了一種絕佳的解決方案，能夠以更低的功耗實(shí)現(xiàn)更高的帶寬，”Farjadrad說(shuō)道。“每個(gè)人都需要讓它發(fā)揮作用，這就是為什么整個(gè)行業(yè)如此關(guān)注解決這些挑戰(zhàn)的原因。這才是打破性能瓶頸的途徑，不僅適用于2.5D，也適用于3D。”

替代方案

每當(dāng)內(nèi)存出現(xiàn)問(wèn)題時(shí)，人們總會(huì)討論可以用哪些新型內(nèi)存技術(shù)來(lái)替代SRAM。“新興技術(shù)在某些特定情況下有所幫助，但它們并不能完全替代SRAM，”Bonnardot說(shuō)道。“未來(lái)的大多數(shù)系統(tǒng)將會(huì)使用更多層級(jí)的內(nèi)存，而不是更少。”

未來(lái)的系統(tǒng)架構(gòu)也可能有所不同。“內(nèi)存計(jì)算或近內(nèi)存計(jì)算的概念，正是人工智能的發(fā)展方向，這意味著傳統(tǒng)模型將會(huì)發(fā)生一些變化，”Baya Systems首席商務(wù)官Nandan Nayampally表示。“傳統(tǒng)模型圍繞著龐大的計(jì)算引擎構(gòu)建，這些引擎試圖從相對(duì)靠近內(nèi)存的位置提取數(shù)據(jù)。因此，系統(tǒng)將持續(xù)演進(jìn)，開(kāi)始使用不同的存儲(chǔ)器，因?yàn)槲覀冏罱K可以說(shuō)SRAM已經(jīng)無(wú)法擴(kuò)展。這是一種看待問(wèn)題的方式。另一種看待問(wèn)題的方式是，我們目前使用SRAM的方式是否已經(jīng)達(dá)到了架構(gòu)上的極限？我認(rèn)為后一種情況更為明顯。Cerebras在晶圓級(jí)應(yīng)用方面邁出了重要一步，即將更多的存儲(chǔ)器集中在芯片上，從而改變了一些限制。”

即使有了這些進(jìn)步，單個(gè)芯片上可容納的模型尺寸仍然有限。“這就引出了一個(gè)主要問(wèn)題：‘在一片晶圓上究竟能高效地實(shí)現(xiàn)什么？’ 如果開(kāi)始堆疊晶圓或生產(chǎn)更大的晶圓，這種架構(gòu)還能繼續(xù)正常擴(kuò)展嗎？還是最終會(huì)遇到同樣的限制？所謂的‘內(nèi)存墻’并非一次性的障礙，”納亞姆帕利說(shuō)道。 “如果架構(gòu)保持不變，模型尺寸的每一次增大都會(huì)帶來(lái)新的障礙。因此，設(shè)計(jì)決策必須著重考慮系統(tǒng)的可擴(kuò)展性，從單芯片到多芯片乃至更大范圍。最初，我們看到的是CPU集群。后來(lái)是芯片組集群。再后來(lái)，發(fā)展到板級(jí)集群。如今，擴(kuò)展意味著要讓整個(gè)機(jī)架作為一個(gè)統(tǒng)一的計(jì)算資源運(yùn)行，甚至更進(jìn)一步。在每個(gè)階段，無(wú)論是納米級(jí)、毫米級(jí)、厘米級(jí)、米級(jí)還是公里級(jí)，都會(huì)出現(xiàn)新的挑戰(zhàn)。最終，如何劃分和管理資源決定了你克服這些反復(fù)出現(xiàn)的障礙的能力。”

新型存儲(chǔ)器也正在站穩(wěn)腳跟。“一些新興的嵌入式存儲(chǔ)器確實(shí)展現(xiàn)出了真正的市場(chǎng)吸引力，尤其是在SRAM或嵌入式閃存難以勝任的領(lǐng)域，”Seitzer說(shuō)道。“例如，MRAM具有良好的可擴(kuò)展性、低泄漏、高耐久性，有望取代SoC中的部分嵌入式閃存/SRAM。ReRAM由于易于集成和成本較低，正被越來(lái)越多地采用，成為一種更經(jīng)濟(jì)高效的嵌入式非易失性存儲(chǔ)技術(shù)。這些技術(shù)可以增強(qiáng)而非取代L1/L2緩存中的高性能SRAM，但它們有望取代某些控制器、MCU和加速器中的嵌入式存儲(chǔ)器。”

高帶寬內(nèi)存(HBM) 備受關(guān)注，它顯著提升了 DRAM 的帶寬。HBM 由多層 DRAM 堆疊而成，其底層傳統(tǒng)上是與處理器直接連接的芯片級(jí)物理層 (PHY)。由于底層芯片采用了與位單元層相同的工藝技術(shù)——一種針對(duì)存儲(chǔ)單元而非邏輯電路優(yōu)化的工藝——因此其功耗密度和熱密度受到限制。如果將底層芯片的工藝升級(jí)為針對(duì)邏輯電路優(yōu)化的工藝，則可以支持更多潛在功能并實(shí)現(xiàn)更高的性能。

“通過(guò)這種方式，我們可以在HBM基片和GPU之間實(shí)現(xiàn)更高帶寬的芯片間接口，”Farjadrad說(shuō)道。“我們可以利用基片另一側(cè)的剩余帶寬來(lái)連接其他設(shè)備。這些額外設(shè)備可以是另一排HBM，從而使GPU可訪問(wèn)的HBM容量翻倍。或者，也可以將其用于I/O芯片組，以提供更高的外部帶寬，或者兩者兼而有之。”

此外，緩存管理方面也有了更大的空間。“在SRAM擴(kuò)展不再自動(dòng)的時(shí)代，架構(gòu)效率，尤其是在結(jié)構(gòu)和一致性層面，成為了每平方毫米性能和每瓦性能的關(guān)鍵所在，”Bonnardot說(shuō)道。“通過(guò)智能地管理緩存位置和流量行為，緩存可以在不成比例增加SRAM面積的情況下，提供足夠的內(nèi)存容量和帶寬提升。”

結(jié)論

內(nèi)存瓶頸日益凸顯，而且短期內(nèi)幾乎沒(méi)有改變的跡象。SRAM 擴(kuò)展不太可能重現(xiàn)昔日的輝煌，這意味著必須尋找替代方案。3D 堆疊技術(shù)可能會(huì)變得更加普及，尤其是在價(jià)格下降的情況下。但目前還沒(méi)有萬(wàn)全之策。如果高速內(nèi)存成為計(jì)算能力的瓶頸，那么計(jì)算就必須更有效地利用現(xiàn)有內(nèi)存。

*聲明：本文系原作者創(chuàng)作。文章內(nèi)容系其個(gè)人觀點(diǎn)，我方轉(zhuǎn)載僅為分享與討論，不代表我方贊成或認(rèn)同，如有異議，請(qǐng)聯(lián)系后臺(tái)。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.