網易首頁 > 網易號 > 正文申請入駐

AI驅動存儲產業革新：HBM 破局瓶頸，先進封裝定未來

2025-10-31 15:40:50　來源: 奇普樂芯片技術

廣東舉報

分享至

閃迪、美光、三星等國際大廠接連上調存儲產品價格，OpenAI 鎖定全球 40% 的 DRAM 晶圓供應，SK 海力士 2025 年 HBM 產能已提前售罄 —— 這一系列密集的市場動態，清晰揭示著一個不爭的事實：AI 驅動下的存儲產業，正步入全新的 “超級周期”。

一、存儲芯片：半導體產業的技術基石

存儲芯片是數據存儲與運算的核心載體，其技術架構直接決定數字設備性能上限。當前行業以“易失性 + 非易失性” 兩大技術路線為核心，形成功能互補的產品體系：

（一）易失性存儲：斷電失數據，主打高速交互

易失性存儲核心價值是“高頻數據臨時緩存”，適配 CPU、GPU 的實時讀寫需求，代表產品為 SRAM 與 DRAM：

SRAM（靜態隨機存取存儲器）：靠晶體管觸發器存儲數據，無需頻繁刷新，讀寫延遲僅 1-5 納秒，聚焦 CPU 內置緩存、高端路由器數據轉發緩存等 “極致速度場景”。

DRAM（動態隨機存取存儲器）：靠電容存儲電荷，斷電后 64 毫秒內數據流失，需定期刷新，是電腦內存條、手機RAM、AI 服務器 “參數緩存池” 的主力 ——AI 手機運行本地大模型時，參數需暫存于 DRAM，直接影響運算效率。

（二）非易失性存儲：斷電保數據，主打長期保存

非易失性存儲能無供電持久存數據，按“可擦寫性 - 存儲密度” 梯度覆蓋場景，承接 AI 時代海量數據留存需求：

ROM（只讀存儲器）：傳統 MASK ROM 出廠數據固化，僅能讀取，適用于早期家電控制程序等固定場景。

NOR Flash（或非閃存）：支持重復擦寫，可按字節讀取并直接運行程序，適配手機基帶控制程序、智能手表系統固件等 “小容量程序存儲” 場景。

NAND Flash（與非閃存）：支持重復擦寫，存儲密度極高，需按 “塊” 讀取且無法直接運行程序，是 AI 數據中心冷存儲（訓練數據集歸檔）、4K AI 攝像頭本地硬盤、大模型平板固態硬盤的核心載體。

二、AI浪潮：重構存儲芯片技術需求

人工智能的核心是“數據驅動的迭代運算”，千億參數大模型（如 GPT-4、文心一言）的訓練推理、邊緣 AI 設備（智能駕駛汽車、工業 AI 傳感器）的落地，不僅讓存儲需求呈指數級增長，更對存儲芯片的 “容量、速度、持續響應能力” 提出嚴苛要求：

1.大容量需求：從TB級到PB級的跨越

千億參數模型單次訓練需調用數十PB（1PB=1024TB）原始數據，單臺 AI 訓練服務器存儲配置達數十 TB 至數百 TB，是傳統服務器的 8-10 倍；邊緣端 4K AI 攝像頭為實現 “7×24 小時視頻流存儲 + 本地行為識別”，存儲需求從傳統的 16-32GB 提升至 128GB-1TB，增幅達 3-5 倍。

2.高速度需求：破解 “存儲墻” 困局

大模型運算時，數據需在存儲與GPU 間每秒數百萬次高頻交互，若存儲速度滯后，會導致 “算力閑置”。以 NVIDIA H100 GPU 為例，其單顆每秒可完成 672 萬億次浮點運算，需至少 3TB/s 帶寬匹配；而傳統 DDR5 內存單通道帶寬僅 64GB/s，即便 8 通道并聯也僅 512GB/s，遠無法滿足需求。此外，AI 推理（實時語音翻譯、智能客服）需 “微秒級響應”，傳統存儲的數十納秒至毫秒級延遲已成為短板。

3.持續動態需求：支撐大模型迭代

AI 大模型需通過 “訓練 - 推理 - 收集新數據 - 再訓練” 閉環優化：ChatGPT 每月接入數十億條用戶對話數據更新模型，自動駕駛系統需實時存儲路測數據回傳訓練。這要求存儲系統全年高負載運行，且支持 “彈性擴容”—— 當模型參數從千億級升級至萬億級時，存儲容量需在數天內從數百 TB 擴展至數 PB，傳統 “停機換硬件” 的靜態擴容模式已無法適應 AI 大模型的快速迭代需求。

三、HBM：突破AI存儲瓶頸

面對AI 的三大需求，傳統 DRAM 在帶寬、延遲、集成度上的局限性凸顯。HBM（高帶寬內存）憑借 3D 堆疊架構成為核心解決方案，但 HBM 的高帶寬優勢若無法通過高效先進封裝傳遞到 GPU/CPU，仍會 “有能力用不上”—— 因此，先進封裝成為HBM 適配 AI 需求、釋放完整性能的關鍵路徑。

（一）HBM：3D堆疊架構打造 “高帶寬利器”

HBM 是專為高頻數據交互設計的 3D 堆疊式 DRAM，通過 “空間壓縮 + 高效互聯” 實現性能突破，三大核心組件缺一不可：

3D 堆疊存儲芯片：將8-16 顆 DDR5/DDR6 DRAM 芯片（單顆厚度 50-80 微米）垂直堆疊，整體高度控制在 1 毫米以內。相比傳統平面排列的 DRAM，數據無需在主板長距離傳輸，直接在芯片內部交互，大幅降低延遲。

硅通孔（TSV）互聯：在每顆堆疊芯片上蝕刻直徑5-10 微米的硅通孔，用銅金屬填充形成 “垂直導線”，信號延遲僅為傳統 PCB 互聯的 1/10（約 0.1 納秒），且支持 8-16 個獨立數據通道并行傳輸，帶寬呈倍數提升。

邏輯控制芯片（Base Die）：堆疊體底部集成專用邏輯芯片，既協調各層DRAM 的讀寫指令、數據分配與錯誤校驗（避免數據沖突），又通過高速接口（如 HBM3 的 IF 接口速率 6.4Gbps）與 GPU、AI 加速卡連接，實現 “存儲 - 算力” 無縫銜接。

依托該架構，當前主流HBM3帶寬達 1.2TB/s（是 8 通道 DDR5 的 2.3 倍），HBM3e 更是提升至 3.6TB/s；同時，因數據傳輸距離縮短，HBM 運行功耗較傳統 DRAM 降低 30%，完美適配 AI 服務器 “高帶寬、低功耗” 需求。

（二）先進封裝：讓HBM的高帶寬真正適配AI需求

傳統存儲與GPU 靠 PCB 板布線連接，傳輸距離達厘米級、信號損耗大，即便 HBM 有 TB 級帶寬，實際傳遞到 GPU 的有效帶寬仍折損 30%-50%，無法解決 “算力閑置”。而先進封裝通過 “縮短物理距離 + 提升互連效率”，讓 HBM 高帶寬服務于 AI 高頻交互：

1）2.5D硅中介層封裝

通過超薄硅中介層（interposer），將HBM與GPU“近距離集成”—— 二者分別貼裝在中介層上，間距從 PCB 的厘米級縮小至微米級，數據通過中介層內納米級銅導線傳輸，信號損耗降至 5% 以下。

例如NVIDIA H100 GPU采用臺積電CoWoS封裝技術，將 6 顆HBM3 與 GPU 集成在同一硅中介層，實現 3.35TB/s 總有效帶寬，完美匹配其 672 萬億次 / 秒算力，使 AI 大模型訓練延遲降低 40%、閑置算力減少至 15% 以內。這種方案的核心價值是讓 HBM 高帶寬 “無損耗傳遞”，直接破解 “存儲墻”，將大模型訓練周期從數周縮短至數天。

2）3D封裝

隨著AI 大模型參數向 “萬億級” 突破（如 GPT-5 預計參數超 1 萬億），存儲帶寬需求將達 5TB/s 以上，2.5D 封裝潛力見頂。3D 封裝通過 “HBM與GPU垂直堆疊”，用 TSV 技術實現二者垂直電連接，傳輸距離從微米級縮至納米級，帶寬密度較 2.5D 提升 3-5 倍、延遲再降 50%。

例如三星研發的 SAINT-D 3D 封裝技術，計劃在 HBM4 中應用，目標實現 5.2TB/s 有效帶寬，適配未來萬億參數模型訓練，同時縮小 AI 加速卡體積，為數據中心節省空間成本。

四、結語

AI 浪潮正推動存儲芯片產業進入 “技術重構關鍵期”：從 DRAM 到 HBM 的迭代，解決了 “帶寬不足” 核心痛點；從傳統布線到 2.5D/3D 先進封裝的升級，打通了 “性能傳遞” 最后一公里。對全球產業而言，這場變革既是技術較量，更是產業鏈協同能力的比拼 —— 誰率先實現 HBM 與先進封裝的深度融合，誰就能主導 AI 存儲競爭。

< 奇普樂 · 往期文章 >

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.