![]()
作者|石燕紅
編輯|張旻
電影《流浪地球2》中有一幕令人印象深刻:一排排根服務器浸沒在海水里,仿佛在“燒開水”。
觀眾不禁會問:這樣不會短路嗎?泡在水里還能正常工作?
實際上,這種讓服務器“泡水”的設定,如今已不再是科幻。現實中早已有成熟的技術方案——浸沒式液冷。
![]()
在甘肅慶陽的一個數據中心展廳里,我們親眼見到了這樣一組“泡在水里”的服務器。當然,這里的“水”需要打上引號。它不是普通的水,而是一種特殊的冷卻液——電子氟化液。
這種液體無色、無味,且不導電。工作人員介紹,他們曾測算過,即便將一部手機丟進氟化液里浸泡10年,取出來之后依然可以正常使用。
本文從氟化液出發,探討一個關鍵問題:為什么全國的數據中心不約而同地想將算力服務器“泡進水里”?為了實現這一目標,工程師們又攻克了哪些技術難題?
![]()
傳統散熱的困境:風扇的“天花板”
要理解液冷為何在當前變得如此重要,首先需要回到一個最基本的物理問題:芯片產生的熱量,到底有多大?
十年前,一臺服務器中單顆CPU的功耗大約為幾十瓦,用一塊鋁制散熱片加一個小型風扇就能輕松壓制。但如今,訓練AI大模型所用的GPU,單卡功耗已飆升至700瓦,甚至超過1000瓦。當一臺機柜中塞進數十張這樣的計算卡時,整柜功耗可以輕松突破30千瓦、50千瓦,并正向100千瓦邁進。
而在一個大型數據中心里,這樣的機柜往往成千上萬。
![]()
傳統的散熱方式是用風扇將冷空氣吹入服務器帶走熱量,再通過中央空調對熱空氣進行冷卻。這套方案在數據中心領域統治多年,但它存在一個硬性的物理天花板。
空氣的比熱容低,導熱能力也差。當單機柜功耗超過30千瓦,即便將風扇轉速拉到極限、空調開到最大,熱量仍會在機柜內部堆積,導致芯片因過熱而降頻,甚至觸發保護性宕機。
更棘手的是能耗問題。數據中心有一個核心指標——PUE(電源使用效率),即數據中心總耗電量與IT設備本身耗電量的比值。理想狀態下PUE為1.0,意味著所有電力都用于計算。但在現實中,風冷數據中心需要將大量電力用于空調和風扇,PUE普遍在1.4到1.6之間,表現較好的能做到1.2左右。
全球數據中心每年消耗的電力已占人類總用電量的約2%。國際能源署預測,到2030年,這一比例將翻倍。如果繼續依靠風冷來支撐未來的AI算力,我們或許不是在訓練模型,而是在為整個電網的空調系統“打工”。
散熱,已經從運維層面的問題,上升為制約算力發展的關鍵瓶頸之一。
![]()
液冷技術接棒:三種主流方案
當風冷技術觸及天花板,全球工程師的目光紛紛投向液冷技術。液冷并非單一技術,而是包含多種方案的技術譜系。當前主流的實現方式主要分為三類。
第一類:冷板式液冷
這是目前最成熟的過渡方案。工程師在CPU、GPU等“發熱大戶”表面貼上一塊金屬冷板,內部設有細密的液冷管道,冷卻液在管道中流動,通過金屬將熱量導出。
![]()
經常玩游戲的讀者可能聽說過“水冷機箱”,其原理與此類似。
由于冷卻液不直接接觸芯片,安全性相對較高,改造成本也較低,因此許多傳統數據中心在向液冷過渡時,會優先采用冷板方案。
但它的散熱效率存在上限——熱量傳遞需經過一層金屬,且機柜中除CPU/GPU外,內存、硬盤、電源等部件仍依賴風冷散熱,容易造成“冷熱不均”的問題。
第二類:噴淋式液冷
這種方案更為激進。它通過噴頭將冷卻液直接噴灑在發熱元件表面,利用液體蒸發帶走熱量。相比冷板式,噴淋式的散熱效率更高,但系統結構更加復雜。噴頭堵塞、液體分布不均等工程難題仍需攻克,目前應用范圍相對較窄。
第三類:浸沒式液冷
這正是在慶陽數據中心所見的技術。它將整臺服務器乃至整臺機柜完全浸沒在特殊液體中,使液體與每一個電子元件直接接觸,通過熱傳導和熱對流帶走熱量。
![]()
這是當前數據中心散熱效率的最優形態:液體的導熱能力是空氣的25倍,單位體積液體能帶走的熱量更是空氣的近千倍,這使得浸沒式液冷的單機柜散熱能力達到風冷的數倍甚至十幾倍。同時,浸沒式方案可以均勻帶走所有部件的熱量,沒有死角。由于不需要風扇,整個系統幾乎是靜音運行,也徹底擺脫了灰塵的困擾。
技術路線的選擇并非“非此即彼”,而是根據不同功耗密度選取最優方案。目前慶陽數據中心給出的參考是:30千瓦以下,風冷依然夠用;30千瓦到50千瓦,冷板式是性價比最高的過渡方案;50千瓦以上,尤其是未來100千瓦級的超密集集群,浸沒式液冷將成為剛需。這三種方案將在未來長期共存,而非簡單的誰取代誰。
![]()
氟化液的優勢與工程挑戰
回答了“為什么要采用浸沒式液冷”之后,接下來的核心問題是:如何安全地實現這一方案?
數據中心連接著互聯網、人工智能、智能駕駛等眾多關鍵領域。一旦芯片完全浸沒在液體中,只要該液體具備微弱的導電性、腐蝕性或揮發性,整個機房都可能報廢,相關服務將全面停擺,影響是毀滅性的。因此,無論采用何種散熱方式,安全始終是首要考量。
為了找到一種既能高效導熱、又能與電子設備“和平共處”的液體,工程師們已探索多年。
最初,人們嘗試使用礦物油或變壓器油進行散熱,即所謂的“油冷”。這類油品雖具有絕緣性,但黏度大、散熱效率低,長期使用后會氧化變質,需要定期更換和清理,維護成本較高。后來的硅油性能有所改善,但仍停留在“能用”而非“好用”的階段。
![]()
目前行業較成熟的解決方案之一,是電子氟化液。
這種無色無味的人工合成有機化合物,從現有測試數據來看,具備三個突出特性:
第一,不導電。它的電阻率極高,即使服務器在通電狀態下完全浸泡其中,也不會發生短路。
第二,不腐蝕。服務器內部材料極為復雜,包括銅電路、金觸點、銀焊點、鋁散熱片、塑料框架、橡膠密封圈等。氟化液必須對所有這些材料保持化學惰性。研發團隊為此經歷了多次迭代:早期配方解決了金屬腐蝕問題,卻發現長期浸泡會導致塑料件微量溶脹;后續持續攻關時,又面臨高溫下揮發損耗的挑戰。直到當前這一代產品,廠家通過耐久性測試證實,設備在氟化液中浸泡10年后拆解,內部元器件依然完好如初,相關特性也已通過工信部驗收。
第三,不揮發。氟化液的沸點在110攝氏度以上,而服務器正常工作溫度約七八十攝氏度。這意味著在常規運行中,液體幾乎沒有損耗,無需頻繁補充。
即便如此,氟化液仍面臨工程層面的重大挑戰。
首先是密封。整個槽體必須完全密閉,液體循環管道、電源線、網線、光纖的穿艙位置均需做特殊密封處理。一旦漏液,不僅會造成昂貴損失,還可能污染其他設備。
其次是維護。傳統服務器發生故障時,工程師打開機柜即可更換部件。而對于浸沒式液冷服務器,維護需要先排液、再操作,流程復雜得多。此外,并非所有硬件都適合液體環境,部分類型的硬盤、光模塊對液體敏感,需要重新設計。
最后是成本。電子氟化液本身價格不菲,再加上專用槽體、循環泵、熱交換器等配套設備,初期投入比風冷系統高出約20%。不過從長遠來看,節省的電費可以收回這部分成本——以中國移動慶陽數據中心的測算為例,使用其浸沒式方案,大約4年即可回本。但首次投入的高門檻確實勸退了不少企業。
![]()
為什么是現在?——三大驅動力
浸沒式液冷的概念并不新鮮,早在十幾年前就有實驗室在探索。那么,為什么直到最近才開始規模化落地?
![]()
驅動力一:GPU功耗曲線將風冷逼至絕境。
英偉達最新的AI芯片,單卡功耗已突破1000瓦。若一個機柜塞滿64張或128張卡,整機柜功耗輕松超過50千瓦,甚至向100千瓦、130千瓦邁進。國產芯片也在快速迭代。風冷在這種密度下已完全失效,冷板式液冷也開始力不從心。浸沒式液冷由此從“先進技術”變為“唯一選擇”。
![]()
驅動力二:應用場景的分化。
AI算力分為訓練和推理兩大場景。訓練大模型時,GPU需要持續滿負荷運行數周甚至數月,熱量輸出穩定且巨大,此時浸沒式液冷的穩定散熱和節能優勢非常明顯。而推理任務不同,用戶調用AI時,算力需求是脈沖式的,負載忽高忽低,風冷或冷板式在此類波動場景下反而更靈活、更經濟。因此,未來的數據中心不會是“全場液冷”,而是采用混合架構:訓練集群用浸沒式液冷,推理集群用冷板式液冷或風冷,根據業務特性動態配置。
驅動力三:國產算力的崛起。
過去,液冷主要配合英偉達GPU的生態。而如今,華為昇騰、海光、寒武紀、燧原等國產芯片已大規模部署。這些芯片的功耗特性和封裝形式與英偉達存在差異,對散熱方案提出了新要求。浸沒式液冷憑借“液體包裹一切”的通用性,反而成為適配多元芯片架構的最優解。這也是慶陽這類國產算力樞紐率先布局浸沒式液冷的重要原因。
![]()
液冷背后:一場算力與能源的博弈
聊完技術,我們最后談談這件事的深層意義。
人類進入AI時代,上層是算法、模型與芯片的競爭,而底層則是能源的競爭。
訓練一次GPT-4級別的大模型,耗電量相當于3萬個家庭一年的用電量。全球數據中心的耗電量正以每年超過10%的速度增長。如果不改變散熱方式,未來我們可能面臨“算得起,但供不起電”的尷尬局面。
浸沒式液冷將PUE從1.2降低到1.07,看似只是0.13的微小改進,但放大到百萬千瓦級的算力集群,這意味著每年節省的電量相當于一座小型水電站的發電量,甚至更多。在“雙碳”目標和全球能源緊張的背景下,散熱效率就是能源效率,PUE就是碳排放。
在中國移動慶陽智算中心,浸沒式液冷已經從展廳測試走向機房部署。這里全年較低的氣溫、每度3毛8的綠電,以及正在建設的液冷集群,共同構成了目前國內最接近規模化落地的現實樣本。
![]()
但液冷不是終點。當單機柜功耗向100千瓦、200千瓦繼續攀升,今天的氟化液也會遇到新的瓶頸。下一代散熱技術會是什么?相變材料?超導熱管?還是直接把數據中心建到深海或極地?
沒有人知道確切答案。但可以確定的是,只要人類仍在追求更強的算力,散熱技術的進化就不會停止。因為物理定律從不妥協,工程師能做的,只是在極限邊緣,尋找那0.1的優化空間。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.