![]()
由于SRAM在最新的工藝節(jié)點(diǎn)中無(wú)法實(shí)現(xiàn)可擴(kuò)展性,業(yè)界必須評(píng)估其對(duì)所有計(jì)算形式的影響。
SRAM 是所有計(jì)算系統(tǒng)的重要組成部分,但它未能跟上邏輯電路的擴(kuò)展步伐,造成了越來(lái)越棘手的問(wèn)題,而這些問(wèn)題在過(guò)去五年中變得更加嚴(yán)重。
早在1990年,亨尼西和帕特森就出版了《計(jì)算機(jī)體系結(jié)構(gòu):量化方法》一書(shū)。作者當(dāng)時(shí)就已清楚地認(rèn)識(shí)到,內(nèi)存容量和性能將成為未來(lái)處理能力發(fā)展的關(guān)鍵瓶頸(見(jiàn)圖1)。幾十年來(lái),硬件架構(gòu)一直在回避這個(gè)問(wèn)題,通常使用SRAM作為緩存,并輔以容量更大的片外DRAM。雖然這使得內(nèi)存看起來(lái)更大,但速度往往慢得多。這就是所謂的“內(nèi)存墻”。
![]()
圖1:內(nèi)存墻的早期識(shí)別。來(lái)源:Hennessy & Patterson,《計(jì)算機(jī)體系結(jié)構(gòu):定量方法》。
在所有計(jì)算形式中,程序和數(shù)據(jù)都存儲(chǔ)在靜態(tài)隨機(jī)存取存儲(chǔ)器(SRAM)中。處理器從該存儲(chǔ)器中讀取指令。這些指令告訴處理器要對(duì)同樣存儲(chǔ)在該存儲(chǔ)器中的數(shù)據(jù)執(zhí)行哪些操作。
SRAM 比處理器內(nèi)部臨時(shí)存儲(chǔ)數(shù)據(jù)的寄存器更便宜。雖然寄存器單元可以使用與 SRAM 相同數(shù)量的晶體管,但寄存器使用更昂貴的解碼和訪問(wèn)機(jī)制,這種機(jī)制無(wú)法隨著寄存器組大小的增加而擴(kuò)展。
SRAM 存儲(chǔ)器由一系列存儲(chǔ)單元組成,周?chē)h(huán)繞著電路,這些電路能夠以隨機(jī)方式讀取和存儲(chǔ)數(shù)據(jù)。在許多情況下,周?chē)倪壿嬰娐肥前攵ㄖ频模驗(yàn)樗鼤?huì)隨著存儲(chǔ)陣列規(guī)模的增大而變化。事實(shí)上,許多存儲(chǔ)器速度的提升都來(lái)自于這些電路的改進(jìn),而不是存儲(chǔ)陣列本身的改進(jìn)。
隨著SRAM容量和性能的提升幾乎停滯不前,未來(lái)前景愈發(fā)黯淡。這意味著,隨著制程節(jié)點(diǎn)的不斷縮小,相同容量的SRAM所占用的芯片面積比例卻越來(lái)越高。隨著越來(lái)越多的芯片達(dá)到光刻工藝的極限,這種狀況難以承受,制造商不得不比以往更多地依賴(lài)外部存儲(chǔ)器。而外部存儲(chǔ)器的速度要慢得多。
在人工智能時(shí)代,訪問(wèn)模式發(fā)生了變化,這也迅速成為主要的限制因素。
臺(tái)積電承認(rèn)SRAM微縮存在一些問(wèn)題,但該公司聲稱(chēng)其新的2nm納米片技術(shù)(見(jiàn)圖2)已有所改進(jìn)。然而,很難獲得確鑿的數(shù)據(jù)來(lái)支持這一說(shuō)法。過(guò)去,實(shí)際結(jié)果往往低于大規(guī)模應(yīng)用前公布的數(shù)據(jù)。
![]()
圖2:臺(tái)積電 SRAM 單元尺寸(數(shù)據(jù)來(lái)自公開(kāi)渠道)。來(lái)源:半導(dǎo)體工程
雖然這可以被視為內(nèi)存問(wèn)題,但歸根結(jié)底是計(jì)算問(wèn)題。“性能并非受限于計(jì)算能力,”Eliyan的首席執(zhí)行官兼聯(lián)合創(chuàng)始人Ramin Farjadrad 表示,“在很多情況下,大多數(shù)功能的處理器利用率只有 20%,甚至更低。性能主要受限于內(nèi)存和內(nèi)存帶寬。這就是所謂的內(nèi)存墻。”
SRAM 微縮
人們很容易認(rèn)為,當(dāng)晶體管尺寸縮小時(shí),由六個(gè)晶體管組成的SRAM 單元的尺寸和性能也會(huì)隨之降低。“SRAM 微縮停滯不前,是因?yàn)閭鹘y(tǒng)的 6T 位單元達(dá)到了物理極限和工藝偏差極限,” Synopsys嵌入式存儲(chǔ)器IP 首席產(chǎn)品經(jīng)理 Daryl Seitzer 表示。“SRAM 位單元的設(shè)計(jì)初衷是實(shí)現(xiàn)高密度存儲(chǔ),但它存在一個(gè)固有的缺陷,即讀寫(xiě)需求相互沖突。訪問(wèn)晶體管與存儲(chǔ)晶體管之間存在競(jìng)爭(zhēng),這種競(jìng)爭(zhēng)需要仔細(xì)平衡,并考慮工藝偏差。隨著幾何尺寸的縮小,工藝偏差對(duì)位單元讀寫(xiě)特性的影響比例會(huì)越來(lái)越大。”
問(wèn)題遠(yuǎn)不止于此。“隨著制程節(jié)點(diǎn)的縮小,靜電控制和隨機(jī)波動(dòng)成為主要制約因素,阻礙了單元面積的相應(yīng)縮小,”Arteris產(chǎn)品管理高級(jí)經(jīng)理Andre Bonnardot 表示。“此外,由于導(dǎo)線(xiàn)電阻和位線(xiàn)電容的增加,SRAM 的速度已經(jīng)達(dá)到瓶頸,而 Vdd 在最近的制程節(jié)點(diǎn)中幾乎沒(méi)有降低。邏輯電路可以通過(guò)器件和布線(xiàn)方面的創(chuàng)新繼續(xù)縮小尺寸,但 SRAM 卻無(wú)法做到這一點(diǎn)。”
隨著制程節(jié)點(diǎn)的更新,這些問(wèn)題愈發(fā)嚴(yán)重。“在先進(jìn)的2nm及以下制程工藝上,SRAM位單元的密度提升幅度已降至不足15%。”Cadence硅解決方案集團(tuán)研究員Gopi Ranganathan表示,“這遠(yuǎn)低于我們?cè)?5nm到5nm工藝技術(shù)迭代過(guò)程中所經(jīng)歷的50%到100%的逐代縮小幅度。這種下降可歸因于先進(jìn)制程節(jié)點(diǎn)上器件、柵極觸點(diǎn)、MEOL以及V0/V1的尺寸極其狹窄,而進(jìn)一步有意義的尺寸縮小受到工具的限制以及硅良率的制約。”
其影響是成本更高、性能更低。“主要表現(xiàn)為存儲(chǔ)器密度擴(kuò)展速度落后于傳統(tǒng)存儲(chǔ)器,”Quadric首席技術(shù)官Nigel Drego 表示。“每平方毫米門(mén)數(shù)(Gate/mm2)的發(fā)展速度超過(guò)了每平方毫米兆字節(jié)數(shù)(MB/mm2 )。此外,由于線(xiàn)路延遲和物理定律與 SoC 設(shè)計(jì)人員的需求不符,訪問(wèn)速度也受到影響。然而,巧妙的架構(gòu)調(diào)整可以緩解邏輯和 SRAM 速度之間的依賴(lài)性。”
自20 世紀(jì) 80 年代以來(lái),這種差距一直在擴(kuò)大,那么如今的計(jì)算機(jī)技術(shù)與二十年前相比如何呢?Eliyan 公司的 Farjadrad 表示:“計(jì)算機(jī)或處理器的性能提升了近五個(gè)數(shù)量級(jí)。但這些計(jì)算機(jī)需要處理來(lái)自?xún)?nèi)存的數(shù)據(jù)。內(nèi)存帶寬甚至沒(méi)有提升 100 倍,因此,計(jì)算機(jī)實(shí)際處理或能夠處理的數(shù)據(jù)量與實(shí)際輸入的數(shù)據(jù)量之間存在超過(guò) 1000 倍的差距。”
這不僅僅是前沿人工智能技術(shù)的問(wèn)題。最終,它將影響到所有領(lǐng)域——甚至包括小型微控制器(MCU)和微處理器(MPU)——尤其是在人工智能向邊緣應(yīng)用發(fā)展的過(guò)程中。“在某種程度上,它變得無(wú)法擴(kuò)展,屆時(shí)SRAM將占據(jù)芯片總面積的更大比例,”瑞薩電子首席產(chǎn)品營(yíng)銷(xiāo)經(jīng)理Kavita Char表示。“這是我們必須考慮的問(wèn)題。這也會(huì)影響芯片用戶(hù),因?yàn)樗麄儽仨毧紤]哪些功能可以在芯片上實(shí)現(xiàn),以及何時(shí)需要使用外部存儲(chǔ)器。隨著芯片幾何尺寸的縮小,成本也會(huì)越來(lái)越高。”
目前尚不清楚N2的位單元面積是否比上一代產(chǎn)品更優(yōu)。“SRAM近期的性能提升主要得益于邏輯電路尺寸的縮小,并將其應(yīng)用于SRAM宏的解碼和控制電路,”Synopsys嵌入式存儲(chǔ)器IP高級(jí)產(chǎn)品經(jīng)理Rahul Thukral表示。“這需要設(shè)計(jì)上的創(chuàng)新,而我們能夠在位單元尺寸未縮小的情況下實(shí)現(xiàn)這樣的面積優(yōu)勢(shì)。隨著環(huán)柵(GAA)技術(shù)的改進(jìn)以及器件寬度控制靈活性的提高,預(yù)計(jì)未來(lái)性能將進(jìn)一步提升。GAA晶體管能夠提供更好的靜電控制,從而降低漏電并改善讀寫(xiě)性能,預(yù)計(jì)還將帶來(lái)更多改進(jìn)。對(duì)于最初的2nm工藝,存儲(chǔ)器面積正在改善,其中大部分性能提升來(lái)自解碼和數(shù)據(jù)通路電路中的邏輯器件。然而,隨著GAA晶體管的進(jìn)一步縮小,位單元面積有望進(jìn)一步縮小,預(yù)計(jì)在后續(xù)節(jié)點(diǎn)中位單元面積將進(jìn)一步降低。”
Arteris公司的Bonnardot表示:“我們認(rèn)為SRAM擴(kuò)展速度的放緩正處于系統(tǒng)架構(gòu)的拐點(diǎn)。當(dāng)內(nèi)存密度增長(zhǎng)放緩時(shí),簡(jiǎn)單地增加緩存就變得不經(jīng)濟(jì)了。”
對(duì)軟件的影響
對(duì)軟件的影響范圍廣泛,挑戰(zhàn)了長(zhǎng)期以來(lái)“軟件生產(chǎn)力是優(yōu)化最重要的目標(biāo)”這一觀念。如今,許多領(lǐng)域都在質(zhì)疑這一觀點(diǎn),尤其是在越來(lái)越多的產(chǎn)品走向軟件定義化之后。“依賴(lài)于海量本地SRAM和多層快速緩存的處理器架構(gòu)將受到最大的影響,”Quadric公司的Drego表示。“CPU無(wú)法避免這些硬件密集型的內(nèi)存架構(gòu),因?yàn)槲覀兪謾C(jī)、筆記本電腦和數(shù)據(jù)中心中的CPU被設(shè)計(jì)用于運(yùn)行具有非結(jié)構(gòu)化內(nèi)存引用的隨機(jī)用戶(hù)代碼,并同時(shí)處理數(shù)十個(gè)線(xiàn)程。”
對(duì)于這類(lèi)公司而言,選擇余地不多。“SRAM 現(xiàn)在占據(jù)了芯片面積和成本的更大比例,”Bonnardot 表示。“大型寄存器文件和緩存層次結(jié)構(gòu)不再能夠自由擴(kuò)展,這加大了對(duì)芯片尺寸、良率、能效和數(shù)據(jù)傳輸效率的壓力。這使得瓶頸從計(jì)算密度轉(zhuǎn)移到了內(nèi)存架構(gòu)和互連效率。軟件必須假定內(nèi)存的層次結(jié)構(gòu)更加復(fù)雜,速度也更加分散。局部性、分塊、分區(qū)和流量可預(yù)測(cè)性變得更加重要,而延遲差異則成為系統(tǒng)級(jí)性能的限制因素。”
人工智能也無(wú)法擺脫這些問(wèn)題。“隨著人工智能模型規(guī)模和上下文長(zhǎng)度的增長(zhǎng),內(nèi)存帶寬和片上緩存成為性能瓶頸,”Synopsys公司的Seitzer表示。“這在LLM推理中表現(xiàn)得尤為明顯,鍵值緩存帶寬成為瓶頸。因此,軟件必須優(yōu)化數(shù)據(jù)局部性、內(nèi)存感知調(diào)度、量化、稀疏性和內(nèi)存分層,因?yàn)橛?jì)算能力的提升已無(wú)法彌補(bǔ)內(nèi)存擴(kuò)展速度的緩慢。”
人工智能架構(gòu)的一些差異可以被利用。“人工智能引擎,尤其是人工智能推理處理器,可以長(zhǎng)時(shí)間處理結(jié)構(gòu)良好的代碼,其運(yùn)行時(shí)間比頻繁切換任務(wù)的CPU長(zhǎng)幾個(gè)數(shù)量級(jí),”Drego說(shuō)道。“智能人工智能架構(gòu)將內(nèi)存管理推入離線(xiàn)編譯器,這些編譯器可以調(diào)度顯式的代碼驅(qū)動(dòng)的DMA傳輸,用于傳輸人工智能模型的權(quán)重和激活值。整個(gè)人工智能推理處理引擎都可以構(gòu)建成不需要任何數(shù)據(jù)緩存的架構(gòu)。這減輕了使用最高速度、最高功耗的SRAM來(lái)設(shè)計(jì)分層緩存、緩存標(biāo)簽和轉(zhuǎn)換緩沖區(qū)的壓力。隨著越來(lái)越多的工作負(fù)載依賴(lài)于人工智能模型,先進(jìn)SoC芯片面積中越來(lái)越大的部分可以避免SRAM密度/速度瓶頸,從而將這一設(shè)計(jì)挑戰(zhàn)限制在關(guān)鍵的CPU子模塊中。”
或許業(yè)內(nèi)并非所有人都注意到了這一點(diǎn)。“對(duì)于人工智能模型來(lái)說(shuō),有一個(gè)叫做算術(shù)強(qiáng)度的概念,”Eliyan公司的Farjadrad說(shuō)道,“它指的是處理器在內(nèi)存上運(yùn)行的函數(shù)或操作的數(shù)量。遺憾的是,近期人工智能模型的算術(shù)強(qiáng)度遠(yuǎn)低于以往。因此,從內(nèi)存到處理器的帶寬需求更大了。”
3D SRAM
如果SRAM 無(wú)法擴(kuò)展,那么使用最昂貴的工藝節(jié)點(diǎn)就毫無(wú)意義。目前,人們?cè)絹?lái)越傾向于將 SRAM 集成到芯片上,并安裝在處理器之上。Cadence 公司的 Ranganathan 表示:“SoC 設(shè)計(jì)人員正在探索解耦方案,即將少量 SRAM 放置在采用最先進(jìn)工藝節(jié)點(diǎn)設(shè)計(jì)的芯片上。最關(guān)鍵的需求是 CPU/GPU/AI 工作負(fù)載,例如 1 級(jí)、2 級(jí)甚至 3 級(jí)。在這種情況下,更大的 SRAM 容量(例如 4 級(jí))則放置在更早工藝節(jié)點(diǎn)的芯片上,從而降低每個(gè)晶體管的成本。更快的芯片間通信鏈路和更小的互連間距的出現(xiàn),使得多存儲(chǔ)器層次結(jié)構(gòu)的集成更加容易,從而在合理的延遲影響下降低成本。”
目前,這是一種成本高昂的解決方案。“由于封裝成本高、散熱復(fù)雜且標(biāo)準(zhǔn)化程度有限,基于3D和芯片組的SRAM目前僅適用于高端AI/HPC芯片,”Seitzer表示。“如今,SRAM密集型芯片組仍然集中在高端設(shè)備中,需要通過(guò)定制解決方案將SRAM與其他高價(jià)值IP集成在一起。短期內(nèi)實(shí)現(xiàn)低成本、面向大眾市場(chǎng)的SRAM芯片組似乎不太可能。”
但那一天或許終會(huì)到來(lái)。“芯片組(Chiplets)提供了一種絕佳的解決方案,能夠以更低的功耗實(shí)現(xiàn)更高的帶寬,”Farjadrad說(shuō)道。“每個(gè)人都需要讓它發(fā)揮作用,這就是為什么整個(gè)行業(yè)如此關(guān)注解決這些挑戰(zhàn)的原因。這才是打破性能瓶頸的途徑,不僅適用于2.5D,也適用于3D。”
替代方案
每當(dāng)內(nèi)存出現(xiàn)問(wèn)題時(shí),人們總會(huì)討論可以用哪些新型內(nèi)存技術(shù)來(lái)替代SRAM。“新興技術(shù)在某些特定情況下有所幫助,但它們并不能完全替代SRAM,”Bonnardot說(shuō)道。“未來(lái)的大多數(shù)系統(tǒng)將會(huì)使用更多層級(jí)的內(nèi)存,而不是更少。”
未來(lái)的系統(tǒng)架構(gòu)也可能有所不同。“內(nèi)存計(jì)算或近內(nèi)存計(jì)算的概念,正是人工智能的發(fā)展方向,這意味著傳統(tǒng)模型將會(huì)發(fā)生一些變化,”Baya Systems首席商務(wù)官Nandan Nayampally表示。“傳統(tǒng)模型圍繞著龐大的計(jì)算引擎構(gòu)建,這些引擎試圖從相對(duì)靠近內(nèi)存的位置提取數(shù)據(jù)。因此,系統(tǒng)將持續(xù)演進(jìn),開(kāi)始使用不同的存儲(chǔ)器,因?yàn)槲覀冏罱K可以說(shuō)SRAM已經(jīng)無(wú)法擴(kuò)展。這是一種看待問(wèn)題的方式。另一種看待問(wèn)題的方式是,我們目前使用SRAM的方式是否已經(jīng)達(dá)到了架構(gòu)上的極限?我認(rèn)為后一種情況更為明顯。Cerebras在晶圓級(jí)應(yīng)用方面邁出了重要一步,即將更多的存儲(chǔ)器集中在芯片上,從而改變了一些限制。”
即使有了這些進(jìn)步,單個(gè)芯片上可容納的模型尺寸仍然有限。“這就引出了一個(gè)主要問(wèn)題:‘在一片晶圓上究竟能高效地實(shí)現(xiàn)什么?’ 如果開(kāi)始堆疊晶圓或生產(chǎn)更大的晶圓,這種架構(gòu)還能繼續(xù)正常擴(kuò)展嗎?還是最終會(huì)遇到同樣的限制?所謂的‘內(nèi)存墻’并非一次性的障礙,”納亞姆帕利說(shuō)道。 “如果架構(gòu)保持不變,模型尺寸的每一次增大都會(huì)帶來(lái)新的障礙。因此,設(shè)計(jì)決策必須著重考慮系統(tǒng)的可擴(kuò)展性,從單芯片到多芯片乃至更大范圍。最初,我們看到的是CPU集群。后來(lái)是芯片組集群。再后來(lái),發(fā)展到板級(jí)集群。如今,擴(kuò)展意味著要讓整個(gè)機(jī)架作為一個(gè)統(tǒng)一的計(jì)算資源運(yùn)行,甚至更進(jìn)一步。在每個(gè)階段,無(wú)論是納米級(jí)、毫米級(jí)、厘米級(jí)、米級(jí)還是公里級(jí),都會(huì)出現(xiàn)新的挑戰(zhàn)。最終,如何劃分和管理資源決定了你克服這些反復(fù)出現(xiàn)的障礙的能力。”
新型存儲(chǔ)器也正在站穩(wěn)腳跟。“一些新興的嵌入式存儲(chǔ)器確實(shí)展現(xiàn)出了真正的市場(chǎng)吸引力,尤其是在SRAM或嵌入式閃存難以勝任的領(lǐng)域,”Seitzer說(shuō)道。“例如,MRAM具有良好的可擴(kuò)展性、低泄漏、高耐久性,有望取代SoC中的部分嵌入式閃存/SRAM。ReRAM由于易于集成和成本較低,正被越來(lái)越多地采用,成為一種更經(jīng)濟(jì)高效的嵌入式非易失性存儲(chǔ)技術(shù)。這些技術(shù)可以增強(qiáng)而非取代L1/L2緩存中的高性能SRAM,但它們有望取代某些控制器、MCU和加速器中的嵌入式存儲(chǔ)器。”
高帶寬內(nèi)存(HBM) 備受關(guān)注,它顯著提升了 DRAM 的帶寬。HBM 由多層 DRAM 堆疊而成,其底層傳統(tǒng)上是與處理器直接連接的芯片級(jí)物理層 (PHY)。由于底層芯片采用了與位單元層相同的工藝技術(shù)——一種針對(duì)存儲(chǔ)單元而非邏輯電路優(yōu)化的工藝——因此其功耗密度和熱密度受到限制。如果將底層芯片的工藝升級(jí)為針對(duì)邏輯電路優(yōu)化的工藝,則可以支持更多潛在功能并實(shí)現(xiàn)更高的性能。
“通過(guò)這種方式,我們可以在HBM基片和GPU之間實(shí)現(xiàn)更高帶寬的芯片間接口,”Farjadrad說(shuō)道。“我們可以利用基片另一側(cè)的剩余帶寬來(lái)連接其他設(shè)備。這些額外設(shè)備可以是另一排HBM,從而使GPU可訪問(wèn)的HBM容量翻倍。或者,也可以將其用于I/O芯片組,以提供更高的外部帶寬,或者兩者兼而有之。”
此外,緩存管理方面也有了更大的空間。“在SRAM擴(kuò)展不再自動(dòng)的時(shí)代,架構(gòu)效率,尤其是在結(jié)構(gòu)和一致性層面,成為了每平方毫米性能和每瓦性能的關(guān)鍵所在,”Bonnardot說(shuō)道。“通過(guò)智能地管理緩存位置和流量行為,緩存可以在不成比例增加SRAM面積的情況下,提供足夠的內(nèi)存容量和帶寬提升。”
結(jié)論
內(nèi)存瓶頸日益凸顯,而且短期內(nèi)幾乎沒(méi)有改變的跡象。SRAM 擴(kuò)展不太可能重現(xiàn)昔日的輝煌,這意味著必須尋找替代方案。3D 堆疊技術(shù)可能會(huì)變得更加普及,尤其是在價(jià)格下降的情況下。但目前還沒(méi)有萬(wàn)全之策。如果高速內(nèi)存成為計(jì)算能力的瓶頸,那么計(jì)算就必須更有效地利用現(xiàn)有內(nèi)存。
*聲明:本文系原作者創(chuàng)作。文章內(nèi)容系其個(gè)人觀點(diǎn),我方轉(zhuǎn)載僅為分享與討論,不代表我方贊成或認(rèn)同,如有異議,請(qǐng)聯(lián)系后臺(tái)。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.