網易首頁 > 網易號 > 正文申請入駐

H100去哪兒了？

2026-05-19 17:56:48　來源: 機器之心Pro

河北舉報

分享至

編輯｜Panda

「H100 是不是突然從所有平臺上消失了？」

X 用戶 Jino Rohit 發出的這個疑問在社交媒體上迅速擴散，引發了 AI 圈的廣泛共鳴。就連曾參與創立 OpenAI、被無數開發者奉為學習標桿的 Andrej Karpathy 也忍不住發聲，感嘆 H100 的獲取難度正在成為人們參與 AI 研究和學習的真實瓶頸。

所以，到底發生了什么？為什么所有人都感覺 H100 的市場供應明顯下降了？

事實上，這并不是一時的市場波動，也不是某個平臺的運營問題。這是一場正在悄然改變 AI 產業格局的算力危機。而它的核心，遠比「芯片不夠用」復雜得多。

消失的 H100

如果你在 2026 年初嘗試從 AWS、Google Cloud 或 Azure 的標準渠道租用 H100，大概率會碰壁。

SemiAnalysis 在今年 4 月發布的報告用一句話類比了這種荒誕：「找 GPU 算力就像在最后一班飛機起飛前訂機票 —— 價格奇高，座位幾乎沒有。」

數字可以說明問題的嚴重程度。

H100 SXM5 的一年期租約合同價格，從 2025 年 10 月的 1.70 美元/小時/GPU 低點，一路飆升至 2026 年 3 月的 2.35 美元/小時/GPU，漲幅接近 40%

https://semianalysis.com/gpu-pricing-index/

與此同時，SiliconData 的 H100 超大規模指數在 4 月底進一步跳漲至7.49美元。這是一個反直覺的現象 —— 明明更強大的下一代 Blackwell 架構芯片已經開始出貨，上一代 H100 的價格卻不降反升。

https://www.silicondata.com/products/silicon-index

在直接采購渠道，情況更為嚴峻。來自 Spheron 的數據顯示，H100 SXM5 的交貨周期目前普遍在36 至 52 周之間；H200 更長，超過 40 周；而最新的 B200 的可用產能已被預訂至 2027 年下半年。一家 AI 研究機構描述了切身遭遇：原本預算 4 萬美元的 Q2 訓練任務，在找不到預留算力的情況下，轉向按需定價后成本飆升至 8 至 12 萬美元 —— 如果還能找到算力的話。

https://www.spheron.network/blog/gpu-shortage-2026/

數據中心層面同樣告急。一份提交給美國證券交易委員會的文件顯示，截至 2026 年初，北美數據中心的空置率已降至歷史最低的 1.6%，全球 AI 相關支出預計在 2026 年達到 2.52 萬億美元，同比增長 44%。市場上所有計劃在 2026 年 8 至 9 月前上線的算力，據報道已被全部預訂一空。

https://www.sec.gov/Archives/edgar/data/1446159/000117184326002096/exh_991.htm

那么，是誰在推高算力需求？

很顯然，文章開始處的那條推文與 Karpathy 的感嘆并非無的放矢，這也讓 AI 的門檻從能力門檻變成了資源門檻。正如 X 網友 Rahul Chavan 調侃的那樣：「英偉達悄然成為了整個行業的瓶頸」。

具體來看，將 H100 從市場上「抽走」的，是一批體量遠超個人研究者的超級買家。

微軟、谷歌、Meta、亞馬遜在 2025 年就已相繼簽下數十億美元的 Blackwell GPU（GB200、B200）前置訂單，將英偉達 2026 年全年乃至 2027 年初的可用產能基本鎖定。這種提前布局的能力，直接將中型企業和學術研究者擠出了正規采購渠道。

正如行業分析所指出的，這里存在一個顯著的不對稱性：超大規模云廠商和資金雄厚的前沿實驗室，在危機真正爆發前的一兩年里就通過遠期合同鎖定了供應。而其他所有人，只能競爭那些未被預留的現貨和按需算力。

這批算力需求的規模令人震驚。OpenAI 承諾為下一代 AI 基礎設施部署至少 10 吉瓦的英偉達系統；Anthropic 計劃采用 1 吉瓦的 Grace Blackwell 計算容量；摩根士丹利預測，僅英偉達平臺的 AI 服務器機柜需求，就將從 2025 年的約 2.8 萬臺躍升至 2026 年的至少 6-7 萬臺，規模翻倍有余。

超大規模算力的競爭，甚至已經從商業層面上升到地緣政治層面，「算力」也似乎正在成為國家競爭的戰略資源。

真正的瓶頸：不是 GPU，是內存和封裝

理解這場危機，有一個關鍵認知需要厘清：短缺的核心不是 GPU 芯片本身，而是圍繞芯片的內存封裝工藝。

Spheron 的分析一語中的：這是「一個有兩個根本原因的結構性問題：臺積電的 CoWoS 封裝產能已被全部占滿，SK 海力士的 HBM 產量無法跟上需求。」

HBM 的生產困境

高帶寬內存（HBM）是現代 AI 芯片的核心組件，H100 使用 HBM3，H200 和整個 Blackwell 系列則需要更先進的 HBM3e。全球有能力生產 HBM 的廠商只有三家：SK 海力士、三星和美光，而它們同時要為英偉達、AMD 和英特爾供貨，同時又在爭奪相同的 HBM 分配量。

HBM3e 的生產比 HBM2e 更為苛刻 —— 更高的芯片堆疊數量和更嚴格的公差意味著每片晶圓的良率更低。隨著 Blackwell 架構加速量產，對 HBM3e 的需求持續攀升，直接加劇了本已捉襟見肘的 H100/H200 供應。

TrendForce 的研究報告指出，從 2023 年到 2026 年，全球 HBM 總需求增長了約 3.8 倍（從 1.5BGB 到 5.7BGB）。三家供應商都有各自的擴產計劃，但新工廠從建設到量產，需要不少時間。

CoWoS 封裝：另一道卡脖子工序

臺積電的 CoWoS（晶圓上晶片上基板）技術是將 HBM 芯片鍵合到 GPU 基板的必要工藝。目前，這一封裝產能已被預訂至至少 2027 年中期 —— 事實上，部分訂單的可見度已延伸至 2028 年。

https://www.digitimes.com.tw/tech/dt/n/shwnws.asp

TrendForce 預計臺積電 CoWoS 產能將在 2025 年達到每月約 7.5 萬片晶圓，并在 2026 年底達到約 12 至 13 萬片，但增長速度仍跟不上需求。

CoWoS 是 GPU 產量的瓶頸。當封裝產能擴充時，GPU 出貨量才能真正提升；而在此之前，即便芯片制造工藝一切正常，也無法解決供應不足的問題。

HBM 短缺的連鎖效應

HBM 的供應緊張不僅僅讓數據中心 GPU 變得稀缺，還產生了多重連鎖反應：

其一，消費級 GPU 生產被大幅削減。據供應鏈媒體 Benchlife 等來源的報道，英偉達在 2026 年上半年將 RTX 5000 系列（Blackwell 架構）產量削減了 30 至 40%，直接原因是 GDDR7 內存供應緊張，以及公司戰略向數據中心 SKU 傾斜。消費級 GPU 市場如今同樣干涸。

其二，HBM 的緊缺推高了 GPU 的整體租用成本，即使是手頭有庫存的云服務提供商，也面臨更高的硬件采購成本，并將其傳導至租價。這解釋了為何 H100 的現貨價格沒有因為 Blackwell 的出現而崩塌。

其三，AI 對內存的吞噬已經蔓延到了整個芯片產業鏈。正如機器之心此前報道的，HBM 緊缺的壓力正在向普通 DRAM、LPDDR 甚至 CPU 市場傳導。參閱《離譜：256G 內存比 RTX5090 還貴，你要為 AI 買單嗎？》

誰在受傷？危機對 AI 生態的沖擊

算力危機的影響并不均勻分布，它沿著資源能力的梯度，將 AI 生態的參與者劃分成了截然不同的處境。

中小型團隊：被迫重新規劃

按照 Spheron 的分析，算力危機對 AI 團隊產生了三個層面的沖擊：

訓練延誤：規劃在 2026 年第二季度開展訓練的團隊，發現超大云平臺的預留算力已被現有客戶鎖定，按需定價的成本高出 2 至 3 倍，且隨時可能無法獲得算力。
推理成本激增：H100 按需價格的上漲讓部分面向用戶的 API 服務面臨單 token 成本超出盈利臨界點的困境，被迫轉向更小的模型或更廉價的 GPU—— 這不是架構選擇，而是財務必要。
規劃周期崩潰：過去企業可以「需要時再購買算力」，如今面對 36 至 52 周的采購周期和提前半年以上預訂的云端產能，這種彈性已經不復存在。

學術與獨立研究者：門檻正在升高

Karpathy 的擔憂觸及了一個更深層的問題：當 H100 成為 AI 研究的事實標準，而 H100 又只對巨頭開放，那么「參與 AI」這件事的準入門檻是否正在被資本決定？

對于高校實驗室、獨立研究者和初創團隊而言，這是切切實實的現實困境。

應對策略

面對結構性的算力緊缺，產業界正在形成一套應對方法論。

向算力專屬云遷移

AWS、Google Cloud、Azure 等通用云平臺在算力緊張時優先保障自身 AI 業務和頭部企業客戶，對中小用戶的按需算力供應日趨不穩定。

與此同時，CoreWeave、Lambda、Spheron、Hyperstack 等「新型算力云（Neo-cloud）」正在填補這一空缺。它們專注 GPU 供應，沒有內部 AI 業務與用戶競爭產能，在庫存和可用性上反而有結構性優勢。

充分利用 Spot 實例

所謂 Spot 實例，是云平臺將暫時閑置、尚未被長期合同預訂的 GPU 算力以折扣價對外開放的一種臨時租用方式；代價是平臺在需要回收資源時可以隨時中斷你的任務，因此也被稱為「可被搶占的實例」。

正因為存在中斷風險，Spot 實例的價格遠低于穩定的按需實例 —— 通常低 40% 至 70%。配合自動化檢查點技術（每 15 至 30 分鐘保存一次模型狀態），即便任務被中斷也只損失最近一個存檔點的進度，可以大幅降低訓練成本。

據報道，一支 12 人團隊曾借助這一方式，將一個 70B 參數模型的訓練成本控制在約 1.12 萬美元。

https://www.spheron.network/blog/spot-gpu-training-case-study/

模型優化以降低硬件需求

當 GPU 數量難以繼續擴張時，減少對 GPU 顯存與帶寬的依賴成為另一條路徑。相比 FP16/BF16，FP8 量化通常可將模型權重內存占用降低約 50%，在推理場景下顯著減少 GPU 需求；更激進的 INT4 量化甚至可讓部分 13B 模型運行在單塊 24GB 消費級 GPU 上。Blackwell 架構則開始支持 MXFP4 等 FP4 微縮放格式，而 NVIDIA 自家的 NVFP4 格式還能進一步降低內存占用與帶寬壓力。

混合專家（MoE）架構正是憑借「每 token 只激活少量參數」的特性贏得了新一輪青睞。通過激活部分參數，能讓計算成本大幅降低。

知識蒸餾則是另一個選擇：用大模型生成的輸出訓練小模型，讓 7B 參數的學生模型在特定任務上達到大模型 85 至 95% 的表現，同時將推理時的 GPU 需求降低 10 至 20 倍。

多云編排與故障轉移

單一供應商依賴在算力短缺時代是一種危險，因此主動在兩至三家算力平臺間分配工作負載，并設置自動切換機制，能夠在某家平臺突發斷供時保障業務連續性。

算力短缺并非無解，但需要時間

供給側：擴張已在路上，但時間表滯后

SK 海力士與美光正在持續擴充 HBM3e 與 HBM4 產能，新增供給預計將在 2026 年逐步爬坡，并于下半年后更明顯緩解供應緊張。與此同時，臺積電也在持續擴張 CoWoS 先進封裝產能，AI GPU 的封裝瓶頸有望逐步松動。

不過，NVIDIA 下一代 Rubin 架構雖然仍計劃于 2026 年下半年推出，卻面臨供應鏈挑戰。TrendForce 在 2026 年 4 月的報告中，將 Rubin 在 NVIDIA 高端 GPU 出貨中的占比預測從 29% 下調至 22%，原因包括 HBM4 驗證周期延長、ConnectX-9 網絡升級適配、更高功耗，以及更復雜的液冷系統需求。與此同時，Rubin 平臺本身也將消耗大量新增 CoWoS 產能，使先進封裝資源短期內仍維持緊張。

相比之下，更成熟的 Blackwell 平臺將在短期內繼續承擔主力供應角色。TrendForce 預計，以 GB300/B300 為代表的 Blackwell 系列，將占 NVIDIA 2026 年高端 GPU 出貨量的約 71%。

需求側：Jevons 悖論正在上演

更令人憂慮的是需求端的邏輯。理論上，模型效率的提升應該減少對算力的需求；現實中，效率提升只會讓 AI 工具的應用邊界擴大，進而帶來更高的總算力消耗。

效率提升不會減少需求，只會加速需求的擴張——這正是工業史上著名的杰文斯悖論（Jevons Paradox）

從 SemiAnalysis 對 Claude Code 使用量的追蹤來看，AI 編程工具的普及正以驚人速度吸收算力：他們預測 Claude Code 將在 2026 年底前占到全球日均代碼提交量的 20% 以上。

https://newsletter.semianalysis.com/p/claude-code-is-the-inflection-point

普通消費者：買單者的時間窗口

對于普通消費者和中小型企業而言，這場算力危機已經通過內存漲價、消費級 GPU 減產、電腦手機配置縮水等方式悄然侵入日常。多家產業研究機構預計，即便供應鏈持續擴產，HBM 與先進封裝等關鍵資源在未來幾年內仍將維持緊張狀態；SK 集團董事長崔泰源（Chey Tae-won）也曾警告，AI 基礎設施的供需失衡可能持續數年。

如果說有什么確定性，大概是：未來數年，先進算力資源仍將是 AI 行業最關鍵的瓶頸之一；而對算力、能源與基礎設施的爭奪，也將持續決定誰能站在 AI 浪潮的前排。

隨著下一代 Rubin Ultra 等 AI 系統功耗持續攀升，機柜級供電、散熱與液冷系統的重要性和價值量也在快速上升。相比芯片本身，電源、網絡、封裝與數據中心基礎設施，正在成為 AI 軍備競賽中越來越關鍵的組成部分。

AI 的軍備競賽還遠未結束，而芯片只是這場競賽中最看得見的戰場。

https://newsletter.semianalysis.com/p/the-great-gpu-shortage-rental-capacity

https://xueqiu.com/9993624771/360569153

https://www.spheron.network/blog/gpu-shortage-2026/

https://www.chyxx.com/industry/1251434.html

https://benchlife.info/nvidia-will-adjust-geforce-rtx-50-suppy-due-gddr7-shortage/

https://www.trendforce.com/news/2025/01/02/news-tsmc-set-to-expand-cowos-capacity-to-record-75000-wafers-in-2025-doubling-2024-output/

https://www.trendforce.com/presscenter/news/20260408-13003.html

https://www.koreatimes.co.kr/amp/business/companies/20260317/sk-chairman-warns-global-memory-shortage-may-last-through-2030

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.