![]()
當下的全球 AI 行業,正面臨一個殘酷現實:"真正的 AI 瓶頸不是 GPU,而是電力(Power)"。
近日,微軟首席執行官Satya Nadella在采訪時坦言,微軟現在有大批英偉達的AI芯片因為缺電放在倉庫里積灰。同樣的情況出現在谷歌歐洲數據中心,因電網限制被迫延期。
在此背景下,谷歌在本月正式啟動一項名為"太陽捕手計劃"(Project Suncatcher)的項目,宣布將自研 TPU AI 芯片送入太空,并且與衛星公司 Planet Labs 合作,在距地 650 公里的低地球軌道上構建 AI 計算集群。
看起來像是在技術炫技,實際上只是為了應對能源危機的抉擇。?
![]()
開頭提到,來自地面電力體系的壓力,是谷歌轉向太空的直接動因。AI 算力的爆發式增長讓數據中心能耗呈指數級飆升:2010 年全球數據中心耗電約 200 太瓦時,2024 年已逼近 500 太瓦時,預計 2030 年將占全球總發電量的 8%。OpenAI 訓練 GPT-4 單次電耗超 1200 萬千瓦時,相當于歐洲小城市月用電量;一個萬卡 AI 集群運行功率就超過 7 兆瓦,絕非普通電網能承載。
谷歌自身的困境就更加明顯:其歐洲新數據中心因電網接入問題多次延遲,而愛爾蘭等數據中心密集地區已直接暫停新審批。
即便谷歌已將 Gemini 模型查詢能耗一年內降低 33 倍,但 AI 應用的增長速度遠超能效優化幅度,地面電力已嚴重阻礙了自家AI應用的發展。?
相比之下,太陽每秒輸出的能量是人類全球電力生產總量的 100 萬億倍以上。
按照谷歌的計劃,在選定的晨昏太陽同步低地球軌道上,太陽能板不僅能獲得地面 8 倍的能量密度,更能實現全年 99% 的持續供電,徹底擺脫晝夜與天氣干擾。有意思的是,太空真空環境還能完美解決了地面數據中心的冷卻難題,地面機房 35%-45% 的運營成本消耗在散熱上,而太空中的輻射散熱機制能讓 TPU 芯片在無需復雜冷卻系統的情況下維持穩定運行。
這樣一來,太空的數據中心可以不將電能傳回地面,而是直接在太空完成計算僅回傳結果,大幅提升了方案可行性。?
報道稱,目前的TPU 芯片已經實現了太空適配性突破,谷歌專為該計劃定制的 Trillium(TPU v6e)芯片,已通過 67 兆電子伏質子束的嚴苛測試:在承受 15krad 的輻射劑量時未出現硬件故障,即便最敏感的高帶寬內存(HBM)子系統,也能在 2krad 的劑量下保持穩定。
最后,為了構建規模化算力,谷歌設計了由 81 顆衛星組成的密集星座:在 650 公里軌道上以 100-200 米間距編隊飛行,通過自由空間光學鏈路實現數據互聯。地面測試已實現 1.6Tbps 的雙向傳輸速率,采用密集波分復用技術后,單鏈路理論帶寬可達 10Tbps,滿足 AI 集群的低延遲通信需求。
當然,瘋狂的計劃背后也要算一筆經濟賬。谷歌的財務模型顯示,當火箭發射成本降至每公斤 200 美元以下時,太空數據中心的綜合成本將與地面持平。這里可以參照SpaceX 的星艦計劃,花旗等機構預測 2035 年左右即可實現價格拐點。當前發射成本雖仍高達每公斤 1500-2900 美元,按 SpaceX 的曲線,累計發射質量每翻倍,成本就能下降 20%。??
如果一切順利,谷歌將在2027 年初與 Planet 公司合作發射的兩顆原型衛星,用來驗證 TPU 在軌運行穩定性、光學鏈路通信效率及分布式機器學習能力。
盡管散熱材料優化、訓練任務抗輻射等難題仍待攻克,但這一探索已為 AI 突破能源枷鎖指明方向。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.