![]()
編輯|Panda
「H100 是不是突然從所有平臺上消失了?」
X 用戶 Jino Rohit 發出的這個疑問在社交媒體上迅速擴散,引發了 AI 圈的廣泛共鳴。就連曾參與創立 OpenAI、被無數開發者奉為學習標桿的 Andrej Karpathy 也忍不住發聲,感嘆 H100 的獲取難度正在成為人們參與 AI 研究和學習的真實瓶頸。
![]()
所以,到底發生了什么?為什么所有人都感覺 H100 的市場供應明顯下降了?
![]()
事實上,這并不是一時的市場波動,也不是某個平臺的運營問題。這是一場正在悄然改變 AI 產業格局的算力危機。而它的核心,遠比「芯片不夠用」復雜得多。
消失的 H100
如果你在 2026 年初嘗試從 AWS、Google Cloud 或 Azure 的標準渠道租用 H100,大概率會碰壁。
SemiAnalysis 在今年 4 月發布的報告用一句話類比了這種荒誕:「找 GPU 算力就像在最后一班飛機起飛前訂機票 —— 價格奇高,座位幾乎沒有。」
數字可以說明問題的嚴重程度。
H100 SXM5 的一年期租約合同價格,從 2025 年 10 月的 1.70 美元/小時/GPU 低點,一路飆升至 2026 年 3 月的 2.35 美元/小時/GPU,漲幅接近 40%
![]()
https://semianalysis.com/gpu-pricing-index/
與此同時,SiliconData 的 H100 超大規模指數在 4 月底進一步跳漲至7.49美元。這是一個反直覺的現象 —— 明明更強大的下一代 Blackwell 架構芯片已經開始出貨,上一代 H100 的價格卻不降反升。
![]()
https://www.silicondata.com/products/silicon-index
在直接采購渠道,情況更為嚴峻。來自 Spheron 的數據顯示,H100 SXM5 的交貨周期目前普遍在36 至 52 周之間;H200 更長,超過 40 周;而最新的 B200 的可用產能已被預訂至 2027 年下半年。一家 AI 研究機構描述了切身遭遇:原本預算 4 萬美元的 Q2 訓練任務,在找不到預留算力的情況下,轉向按需定價后成本飆升至 8 至 12 萬美元 —— 如果還能找到算力的話。
![]()
https://www.spheron.network/blog/gpu-shortage-2026/
數據中心層面同樣告急。一份提交給美國證券交易委員會的文件顯示,截至 2026 年初,北美數據中心的空置率已降至歷史最低的 1.6%,全球 AI 相關支出預計在 2026 年達到 2.52 萬億美元,同比增長 44%。市場上所有計劃在 2026 年 8 至 9 月前上線的算力,據報道已被全部預訂一空。
![]()
https://www.sec.gov/Archives/edgar/data/1446159/000117184326002096/exh_991.htm
那么,是誰在推高算力需求?
很顯然,文章開始處的那條推文與 Karpathy 的感嘆并非無的放矢,這也讓 AI 的門檻從能力門檻變成了資源門檻。正如 X 網友 Rahul Chavan 調侃的那樣:「英偉達悄然成為了整個行業的瓶頸」。
![]()
具體來看,將 H100 從市場上「抽走」的,是一批體量遠超個人研究者的超級買家。
微軟、谷歌、Meta、亞馬遜在 2025 年就已相繼簽下數十億美元的 Blackwell GPU(GB200、B200)前置訂單,將英偉達 2026 年全年乃至 2027 年初的可用產能基本鎖定。這種提前布局的能力,直接將中型企業和學術研究者擠出了正規采購渠道。
正如行業分析所指出的,這里存在一個顯著的不對稱性:超大規模云廠商和資金雄厚的前沿實驗室,在危機真正爆發前的一兩年里就通過遠期合同鎖定了供應。而其他所有人,只能競爭那些未被預留的現貨和按需算力。
這批算力需求的規模令人震驚。OpenAI 承諾為下一代 AI 基礎設施部署至少 10 吉瓦的英偉達系統;Anthropic 計劃采用 1 吉瓦的 Grace Blackwell 計算容量;摩根士丹利預測,僅英偉達平臺的 AI 服務器機柜需求,就將從 2025 年的約 2.8 萬臺躍升至 2026 年的至少 6-7 萬臺,規模翻倍有余。
超大規模算力的競爭,甚至已經從商業層面上升到地緣政治層面,「算力」也似乎正在成為國家競爭的戰略資源。
真正的瓶頸:不是 GPU,是內存和封裝
理解這場危機,有一個關鍵認知需要厘清:短缺的核心不是 GPU 芯片本身,而是圍繞芯片的內存封裝工藝。
Spheron 的分析一語中的:這是「一個有兩個根本原因的結構性問題:臺積電的 CoWoS 封裝產能已被全部占滿,SK 海力士的 HBM 產量無法跟上需求。」
HBM 的生產困境
高帶寬內存(HBM)是現代 AI 芯片的核心組件,H100 使用 HBM3,H200 和整個 Blackwell 系列則需要更先進的 HBM3e。全球有能力生產 HBM 的廠商只有三家:SK 海力士、三星和美光,而它們同時要為英偉達、AMD 和英特爾供貨,同時又在爭奪相同的 HBM 分配量。
HBM3e 的生產比 HBM2e 更為苛刻 —— 更高的芯片堆疊數量和更嚴格的公差意味著每片晶圓的良率更低。隨著 Blackwell 架構加速量產,對 HBM3e 的需求持續攀升,直接加劇了本已捉襟見肘的 H100/H200 供應。
TrendForce 的研究報告指出,從 2023 年到 2026 年,全球 HBM 總需求增長了約 3.8 倍(從 1.5BGB 到 5.7BGB)。三家供應商都有各自的擴產計劃,但新工廠從建設到量產,需要不少時間。
CoWoS 封裝:另一道卡脖子工序
臺積電的 CoWoS(晶圓上晶片上基板)技術是將 HBM 芯片鍵合到 GPU 基板的必要工藝。目前,這一封裝產能已被預訂至至少 2027 年中期 —— 事實上,部分訂單的可見度已延伸至 2028 年。
![]()
https://www.digitimes.com.tw/tech/dt/n/shwnws.asp
TrendForce 預計臺積電 CoWoS 產能將在 2025 年達到每月約 7.5 萬片晶圓,并在 2026 年底達到約 12 至 13 萬片,但增長速度仍跟不上需求。
CoWoS 是 GPU 產量的瓶頸。當封裝產能擴充時,GPU 出貨量才能真正提升;而在此之前,即便芯片制造工藝一切正常,也無法解決供應不足的問題。
HBM 短缺的連鎖效應
HBM 的供應緊張不僅僅讓數據中心 GPU 變得稀缺,還產生了多重連鎖反應:
其一,消費級 GPU 生產被大幅削減。據供應鏈媒體 Benchlife 等來源的報道,英偉達在 2026 年上半年將 RTX 5000 系列(Blackwell 架構)產量削減了 30 至 40%,直接原因是 GDDR7 內存供應緊張,以及公司戰略向數據中心 SKU 傾斜。消費級 GPU 市場如今同樣干涸。
其二,HBM 的緊缺推高了 GPU 的整體租用成本,即使是手頭有庫存的云服務提供商,也面臨更高的硬件采購成本,并將其傳導至租價。這解釋了為何 H100 的現貨價格沒有因為 Blackwell 的出現而崩塌。
其三,AI 對內存的吞噬已經蔓延到了整個芯片產業鏈。正如機器之心此前報道的,HBM 緊缺的壓力正在向普通 DRAM、LPDDR 甚至 CPU 市場傳導。參閱《離譜:256G 內存比 RTX5090 還貴,你要為 AI 買單嗎?》
誰在受傷?危機對 AI 生態的沖擊
算力危機的影響并不均勻分布,它沿著資源能力的梯度,將 AI 生態的參與者劃分成了截然不同的處境。
中小型團隊:被迫重新規劃
按照 Spheron 的分析,算力危機對 AI 團隊產生了三個層面的沖擊:
- 訓練延誤:規劃在 2026 年第二季度開展訓練的團隊,發現超大云平臺的預留算力已被現有客戶鎖定,按需定價的成本高出 2 至 3 倍,且隨時可能無法獲得算力。
- 推理成本激增:H100 按需價格的上漲讓部分面向用戶的 API 服務面臨單 token 成本超出盈利臨界點的困境,被迫轉向更小的模型或更廉價的 GPU—— 這不是架構選擇,而是財務必要。
- 規劃周期崩潰:過去企業可以「需要時再購買算力」,如今面對 36 至 52 周的采購周期和提前半年以上預訂的云端產能,這種彈性已經不復存在。
學術與獨立研究者:門檻正在升高
Karpathy 的擔憂觸及了一個更深層的問題:當 H100 成為 AI 研究的事實標準,而 H100 又只對巨頭開放,那么「參與 AI」這件事的準入門檻是否正在被資本決定?
對于高校實驗室、獨立研究者和初創團隊而言,這是切切實實的現實困境。
![]()
應對策略
面對結構性的算力緊缺,產業界正在形成一套應對方法論。
向算力專屬云遷移
AWS、Google Cloud、Azure 等通用云平臺在算力緊張時優先保障自身 AI 業務和頭部企業客戶,對中小用戶的按需算力供應日趨不穩定。
與此同時,CoreWeave、Lambda、Spheron、Hyperstack 等「新型算力云(Neo-cloud)」正在填補這一空缺。它們專注 GPU 供應,沒有內部 AI 業務與用戶競爭產能,在庫存和可用性上反而有結構性優勢。
![]()
充分利用 Spot 實例
所謂 Spot 實例,是云平臺將暫時閑置、尚未被長期合同預訂的 GPU 算力以折扣價對外開放的一種臨時租用方式;代價是平臺在需要回收資源時可以隨時中斷你的任務,因此也被稱為「可被搶占的實例」。
正因為存在中斷風險,Spot 實例的價格遠低于穩定的按需實例 —— 通常低 40% 至 70%。配合自動化檢查點技術(每 15 至 30 分鐘保存一次模型狀態),即便任務被中斷也只損失最近一個存檔點的進度,可以大幅降低訓練成本。
據報道,一支 12 人團隊曾借助這一方式,將一個 70B 參數模型的訓練成本控制在約 1.12 萬美元。
![]()
https://www.spheron.network/blog/spot-gpu-training-case-study/
模型優化以降低硬件需求
當 GPU 數量難以繼續擴張時,減少對 GPU 顯存與帶寬的依賴成為另一條路徑。相比 FP16/BF16,FP8 量化通常可將模型權重內存占用降低約 50%,在推理場景下顯著減少 GPU 需求;更激進的 INT4 量化甚至可讓部分 13B 模型運行在單塊 24GB 消費級 GPU 上。Blackwell 架構則開始支持 MXFP4 等 FP4 微縮放格式,而 NVIDIA 自家的 NVFP4 格式還能進一步降低內存占用與帶寬壓力。
混合專家(MoE)架構正是憑借「每 token 只激活少量參數」的特性贏得了新一輪青睞。通過激活部分參數,能讓計算成本大幅降低。
知識蒸餾則是另一個選擇:用大模型生成的輸出訓練小模型,讓 7B 參數的學生模型在特定任務上達到大模型 85 至 95% 的表現,同時將推理時的 GPU 需求降低 10 至 20 倍。
多云編排與故障轉移
單一供應商依賴在算力短缺時代是一種危險,因此主動在兩至三家算力平臺間分配工作負載,并設置自動切換機制,能夠在某家平臺突發斷供時保障業務連續性。
算力短缺并非無解,但需要時間
供給側:擴張已在路上,但時間表滯后
SK 海力士與美光正在持續擴充 HBM3e 與 HBM4 產能,新增供給預計將在 2026 年逐步爬坡,并于下半年后更明顯緩解供應緊張。與此同時,臺積電也在持續擴張 CoWoS 先進封裝產能,AI GPU 的封裝瓶頸有望逐步松動。
不過,NVIDIA 下一代 Rubin 架構雖然仍計劃于 2026 年下半年推出,卻面臨供應鏈挑戰。TrendForce 在 2026 年 4 月的報告中,將 Rubin 在 NVIDIA 高端 GPU 出貨中的占比預測從 29% 下調至 22%,原因包括 HBM4 驗證周期延長、ConnectX-9 網絡升級適配、更高功耗,以及更復雜的液冷系統需求。與此同時,Rubin 平臺本身也將消耗大量新增 CoWoS 產能,使先進封裝資源短期內仍維持緊張。
![]()
相比之下,更成熟的 Blackwell 平臺將在短期內繼續承擔主力供應角色。TrendForce 預計,以 GB300/B300 為代表的 Blackwell 系列,將占 NVIDIA 2026 年高端 GPU 出貨量的約 71%。
需求側:Jevons 悖論正在上演
更令人憂慮的是需求端的邏輯。理論上,模型效率的提升應該減少對算力的需求;現實中,效率提升只會讓 AI 工具的應用邊界擴大,進而帶來更高的總算力消耗。
效率提升不會減少需求,只會加速需求的擴張——這正是工業史上著名的杰文斯悖論(Jevons Paradox)
從 SemiAnalysis 對 Claude Code 使用量的追蹤來看,AI 編程工具的普及正以驚人速度吸收算力:他們預測 Claude Code 將在 2026 年底前占到全球日均代碼提交量的 20% 以上。
![]()
https://newsletter.semianalysis.com/p/claude-code-is-the-inflection-point
普通消費者:買單者的時間窗口
對于普通消費者和中小型企業而言,這場算力危機已經通過內存漲價、消費級 GPU 減產、電腦手機配置縮水等方式悄然侵入日常。多家產業研究機構預計,即便供應鏈持續擴產,HBM 與先進封裝等關鍵資源在未來幾年內仍將維持緊張狀態;SK 集團董事長崔泰源(Chey Tae-won)也曾警告,AI 基礎設施的供需失衡可能持續數年。
如果說有什么確定性,大概是:未來數年,先進算力資源仍將是 AI 行業最關鍵的瓶頸之一;而對算力、能源與基礎設施的爭奪,也將持續決定誰能站在 AI 浪潮的前排。
隨著下一代 Rubin Ultra 等 AI 系統功耗持續攀升,機柜級供電、散熱與液冷系統的重要性和價值量也在快速上升。相比芯片本身,電源、網絡、封裝與數據中心基礎設施,正在成為 AI 軍備競賽中越來越關鍵的組成部分。
AI 的軍備競賽還遠未結束,而芯片只是這場競賽中最看得見的戰場。
https://newsletter.semianalysis.com/p/the-great-gpu-shortage-rental-capacity
https://xueqiu.com/9993624771/360569153
https://www.spheron.network/blog/gpu-shortage-2026/
https://www.chyxx.com/industry/1251434.html
https://benchlife.info/nvidia-will-adjust-geforce-rtx-50-suppy-due-gddr7-shortage/
https://www.trendforce.com/news/2025/01/02/news-tsmc-set-to-expand-cowos-capacity-to-record-75000-wafers-in-2025-doubling-2024-output/
https://www.trendforce.com/presscenter/news/20260408-13003.html
https://www.koreatimes.co.kr/amp/business/companies/20260317/sk-chairman-warns-global-memory-shortage-may-last-through-2030
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.