過去10余年,人工智能(AI)計算硬件的發展以提升算力規模為核心,以圖形處理器(GPU)為代表的數字加速器支撐了模型參數從百萬級擴展至萬億級。然而,算力堆疊的發展模式正面臨顯著的能效與成本壓力:大模型訓練和推理已成為數據中心的主要能耗來源,單卡功耗高達400~700W,整機功耗普遍超過1kW;在大規模推理場景中,主要挑戰已從峰值算力轉向單位能耗下的有效計算量,提升能效因此成為AI硬件演進的首要目標。
當前主流的AI芯片架構如圖1所示,主要包括3種:存算分離、近內存計算和存算一體。前兩種以馮·諾依曼架構為基礎,特點是計算與存儲分離,頻繁的數據搬運造成“存儲墻”和“功耗墻”問題。研究表明,傳統芯片執行AI任務時,超過90%的能量消耗在數據搬運而非實際計算過程中。存算一體架構通過將計算嵌入存儲單元,從體系結構層面減少數據搬運,其模擬計算形式進一步利用電信號的物理特性,在存儲陣列內并行完成向量-矩陣運算,實現極低能耗。對于權重穩定、計算重復的AI推理及部分容錯訓練場景,模擬存算一體在能效密度與并行性上展現出顯著優勢。更重要的是,相比高度依賴先進制程的GPU,模擬存算一體有望基于28nm及以上成熟工藝實現量產,繞開對極紫外光刻(EUV)等先進光刻設備的強依賴,具備清晰的工程可行性與成本優勢。該技術最初源于類神經計算等學術研究,但因受限于早期器件的精度和一致性不足,其發展長期停留在實驗室階段。近年來,隨著AI核心計算穩定為向量-矩陣運算,加之存儲工藝與混合信號設計的進步,該技術已步入工程化和產業化階段。
![]()
在產業層面,Mythic、Syntiant等國際公司已在AI應用中驗證了存算一體的高能效潛力,三星、英特爾等傳統巨頭也在積極布局相關技術;國內后摩智能、知存科技、仿生智芯等企業同樣也在加速推進高能效存內計算。行業分析機構IIM數據顯示,2025年全球存算一體市場規模已超80億美元,預計到2030年,市場規模將以超過45%的年均增速擴張,展現出從專用AI領域向更廣泛計算場景滲透的強勁趨勢。
模擬存算一體計算范式
深度神經網絡的核心運算是大規模、規則且可并行的矩陣乘法,其訪存行為具有顯著的結構化特征,主要體現在2個方面:一是數據流的可解耦性,即權重、輸入和輸出數據在訪問模式和時序上彼此獨立,允許在硬件設計中采用不同的存儲與訪問策略;二是數據的高度可重用性,權重可被多個輸入重復使用,輸入數據在計算中可多次復用,輸出則采用本地累加、最終寫回的方式。這些計算與訪存特征為設計高能效的專用AI硬件指明了方向:權重參數穩定且重用性高,適合長期駐留在高密度存儲器中;而輸入與輸出數據則具有明顯的流式特性,可以與權重的存取過程分開處理。
模擬存算一體技術正是基于這一邏輯:它將神經網絡的核心計算(即乘累加操作),直接嵌入到存儲陣列內部完成,如圖2所示。具體來說,權重以模擬狀態固定于存儲單元中,輸入以模擬信號形式注入到陣列中,利用電壓或電流的物理疊加特性,在單個計算周期內并行完成運算。這種物理并行的特性使模擬存算一體在單位能耗和計算密度上具有先天優勢,能夠大幅減少傳統架構中因頻繁搬運數據而產生的能耗開銷,從而形成一種面向高能效AI計算的全新硬件范式。
![]()
大算力模擬存算一體架構
隨著大模型在諸多核心業務場景的廣泛應用,其數十億至萬億級的參數規模對計算與存儲系統提出了更高的并行擴展要求。為在有限時間內完成海量運算,存算一體系統需要從陣列規模、并行度以及組織架構3個層面進行系統優化。
具體而言,在大算力模擬存算一體系統中,計算的核心是采用分層、模塊化設計的存算陣列,如圖3所示。該陣列以二維結構為基本計算單元,可進一步劃分為多個具備獨立輸入驅動與輸出感測電路的子陣列。這些子陣列可組織為計算塊,并通過共享外圍電路在帶寬與面積間取得平衡。在此基礎上,多個計算塊可通過并行復制與級聯實現系統級擴展,從而在控制互聯與調度復雜度的前提下,支撐更大規模的權重映射與并行計算。
![]()
為實現系統的高效運行,還需配套控制調度與接口模塊。控制調度模塊負責任務分配與多陣列協同,保障計算有序推進;接口與存儲模塊則負責參數加載、數據輸入及結果回傳,以實現系統在吞吐、延遲與可擴展性之間的整體平衡。
模擬存算一體宏單元電路
針對模擬存算一體系統中外圍電路開銷與精度問題,現有研究從2個方面展開優化。由圖3可以看出,外圍電路中高分辨率模數轉換器(ADC)和數模轉換器(DAC)會顯著增加系統面積與功耗,由此衍生出兩類優化路徑:一是降低或去除轉換器,采用時間編碼、電流積分等模擬處理方式直接獲取結果以簡化電路;二是保留ADC,但通過降低分辨率、共享復用等方式降低開銷。與此同時,為滿足不同任務對精度與功耗的差異化需求,可靈活配置的ADC結構逐漸成為重要發展方向。
在精度層面,由于模擬電路易受器件失配、寄生效應等因素影響,大規模陣列中的誤差會被放大。為此,學術界已形成“算法-架構-電路”協同校正策略:算法層面,利用神經網絡對數值誤差的容錯性,結合再訓練等方式吸收硬件偏差;電路層面,通過魯棒感測和變化感知的ADC設計提升容錯能力;架構層面,通過數據映射優化與冗余計算抑制誤差累積。這種多層次協同優化是實現模擬存算一體系統實用化的重要支撐。
模擬存算一體系統芯片
為了將模擬存算一體陣列的大規模算力有效轉化為實際部署的計算能力,模擬存算一體系統需在單芯片上實現從控制、數據傳輸到計算與回傳的完整閉環。這需要集成通用處理器(CPU)、靜態存儲器(SRAM)、控制器(SIMD)與路由器(Router)等關鍵硬件模塊,構成完整的系統芯片。為此,芯片通常采用“通用指令+領域擴展指令”的指令體系:通用指令負責控制流與狀態管理;領域擴展指令則針對存算一體陣列,直接支持陣列配置、權重加載、數據注入、計算觸發及結果讀取等關鍵操作。這一設計能以較低的軟件開銷驅動大規模并行計算,并為不同神經網絡層的計算映射提供統一接口,從而在系統層面實現高效、可擴展的計算支持。
在系統芯片內部,通常集成輕量級CPU和片上SRAM,分別用于指令解析、任務調度、異常處理及數據緩存,減少對外部存儲的頻繁訪問。此外,專用調度單元負責管理任務隊列、分配計算資源并協調執行時序,支持陣列間的并行與流水線操作;外圍接口模塊則連接主機與片外存儲器,完成模型加載與數據傳輸。通過控制、存儲、調度和接口模塊的協同,該系統能夠在實現算力規模擴展的同時保持可控的管理開銷,從而為大規模模型部署提供可擴展的硬件支持。
模擬存算一體系統芯片的發展趨勢
趨勢一:從追求算力密度轉向系統級可靠與能效平衡。未來,模擬存算一體芯片的發展將超越單一陣列的能效優勢,聚焦于解決大規模擴展中的系統性挑戰。核心在于通過電路-架構協同設計,在存儲介質非理想效應、外圍電路(如ADC)開銷與計算精度之間取得系統級平衡,確保技術在高密度、可制造的條件下實現穩定可靠的部署。
趨勢二:從硬件加速演進為“異構計算單元”的深度協同。模擬存算陣列將不再僅是受控的協處理器,而是與CPU深度融合的異構計算單元。其演進方向是通過硬件抽象(專用指令集/接口)實現極低開銷的調用與控制,并與片上存儲、數據通路進行能力匹配,最終在系統層面實現計算、存儲與控制資源的無縫協同與負載均衡。
趨勢三:從專用硬件依賴走向全棧軟件定義與生態融合。技術的規模化應用,其決定性因素將從硬件峰值性能轉向全棧軟件能力。未來趨勢是構建完整的工具鏈,實現從主流框架模型自動編譯、優化映射到動態調度的全過程,并通過與開放生態融合,顯著降低開發與部署門檻,使高性能硬件能力可被便捷、穩定地調用。
總結與展望
綜合來看,存算一體已從早期技術探索演進為覆蓋端、邊、云多層級的系統性產業方向,正持續重塑AI計算的成本結構與算力供給模式。隨著大模型與智能應用進入長期化、規模化階段,高能效算力的目標已從單純的性能優化升級為滿足數據中心與智能系統的基礎設施級需求,為存算一體技術提供了清晰而持續的市場牽引。可以預見,隨著技術成熟、生態完善,以及資本投入的不斷深化,存算一體將逐步走出實驗室與小規模試點,成長為支撐下一代AI計算體系的重要產業支點,不斷釋放出潛在的市場價值與戰略意義。
致謝:感謝國家自然科學基金重點項目(12235012)和國家特色學科基礎研究項目(G2024WD0147)的支持。
本文刊登于IEEE Spectrum中文版《科技縱覽》2026年4月刊。
作者簡介
徐 德:西北工業大學仿生芯片交叉研究中心博士生 。
高 武:西北工業大學仿生芯片交叉研究中心教授。
謝永宜:西安仿生智芯科技有限公司研發總監。
趙 勇:西安仿生智芯科技有限公司總經理。
掃碼報名參會,現場簽到有禮 + 抽獎福利,席位有限,先到先得!
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.