如今,隨著服務(wù)器功耗從數(shù)十千瓦攀升至數(shù)百千瓦,液冷市場(chǎng)開始爆發(fā)。TrendForce預(yù)計(jì),液冷技術(shù)在AI數(shù)據(jù)中心的滲透率將從2024年的14%大幅提升至2026年的40%,并在未來(lái)數(shù)年持續(xù)增長(zhǎng)。
4月8日,曙光數(shù)創(chuàng)在“液冷聚能·智算向新”2026戰(zhàn)略發(fā)布會(huì)上,正式發(fā)布全球首個(gè)MW級(jí)相變浸沒(méi)液冷整機(jī)柜及其基礎(chǔ)設(shè)施整體解決方案(C8000 V3.0)。這一產(chǎn)品誕生背后,曙光數(shù)創(chuàng)看到了哪些趨勢(shì),這個(gè)解決方案有何亮點(diǎn)?曙光數(shù)創(chuàng)高級(jí)副總裁張鵬、曙光數(shù)創(chuàng)資深技術(shù)專家黃元峰向EEWorld進(jìn)行了詳細(xì)剖析。
液冷成為未來(lái)AI計(jì)算首選方案
英偉達(dá)預(yù)測(cè),AI基礎(chǔ)設(shè)施市場(chǎng)規(guī)模在2027年可能達(dá)到萬(wàn)億美元級(jí)別。從其AI計(jì)算平臺(tái)演進(jìn)來(lái)看,單機(jī)柜功率密度持續(xù)攀升。
“高密部署是下一代AI計(jì)算的重要趨勢(shì),國(guó)內(nèi)外新建數(shù)據(jù)中心的功率密度正快速上升。”黃元峰解釋道,目前國(guó)際主流GPU功耗已達(dá)1.8kW,CPU超過(guò)650W。受制程影響,國(guó)產(chǎn)芯片功耗更高,預(yù)計(jì)到2027年,國(guó)產(chǎn)主流GPU功耗可能突破3000W,CPU突破1000W。
黃元峰強(qiáng)調(diào),在這樣的趨勢(shì)下,液冷成為未來(lái)AI計(jì)算的首選方案,是未來(lái)AIDC發(fā)展中最具應(yīng)用潛力的方向,前景廣闊。
![]()
曙光數(shù)創(chuàng)資深技術(shù)專家黃元峰
曙光數(shù)創(chuàng)是一家研發(fā)驅(qū)動(dòng)型企業(yè),其技術(shù)產(chǎn)品在國(guó)內(nèi)乃至全球都處于領(lǐng)先地位。如今發(fā)布的C8000 V3.0是曙光歷經(jīng)十年積累的成果,并非一蹴而就。早在2017年,曙光數(shù)創(chuàng)就推出了第一代相變浸沒(méi)式產(chǎn)品,單機(jī)柜功率為210kW,。第二代產(chǎn)品于2023年推出,單機(jī)柜功率達(dá)到575kW。第三代產(chǎn)品C8000 V3.0單機(jī)柜功率已達(dá)到900kW,這已是對(duì)標(biāo)英偉達(dá)2028年“費(fèi)曼架構(gòu)”的水平。
C8000 V3.0有何亮點(diǎn)
C8000 V3.0整體結(jié)構(gòu)擁有五個(gè)特點(diǎn):
第一,電力供給方面,系統(tǒng)采用自主研發(fā)的HVDC 2.0架構(gòu),支持市電、電池等多種輸入,可輸出直流800V、±400V、336V、240V及交流380V等多種電壓,靈活配比。穩(wěn)壓精度達(dá)±0.5%,響應(yīng)速度2.5毫秒每安,功率密度較傳統(tǒng)方案提升20%。服務(wù)器內(nèi)部采用高壓直流直接進(jìn)柜供電,并配備智能監(jiān)控與模塊化運(yùn)維,確保穩(wěn)定可靠。
第二,相變浸沒(méi)冷媒技術(shù)方面,主要包括自研冷媒新材料與材料兼容性。冷媒于2017年與中科院過(guò)程所合作研發(fā),2018年實(shí)現(xiàn)進(jìn)口替代,目前成本已降至進(jìn)口產(chǎn)品的30%以下。材料兼容性方面,公司投入超億元,建立了國(guó)內(nèi)首個(gè)相變浸沒(méi)材料兼容性數(shù)據(jù)庫(kù),檢測(cè)超過(guò)2000種材料,并形成材料使用的黑名單與白名單。
第三,相變換熱核心技術(shù)方面,沸騰環(huán)節(jié)采用金剛石銅材料,導(dǎo)熱系數(shù)較純銅提升100%,熱膨脹系數(shù)降低60%以上。經(jīng)過(guò)4000次高低溫循環(huán)沖擊,性能零衰減。散熱鰭片采用一體化成型技術(shù),加工精度達(dá)毛細(xì)血管級(jí)別,換熱面積為熱源面積的百倍以上。微流道中的微納復(fù)合結(jié)構(gòu)增強(qiáng)了相變效率,整體實(shí)測(cè)芯片性能提升10%,溫度降低5度以上。冷凝環(huán)節(jié)采用釬焊換熱器,換熱面積增加40%,換熱能力提升85%。點(diǎn)陣交錯(cuò)式通道配合微納米表面技術(shù),確保汽體快速冷凝。
第四,自控技術(shù)方面,系統(tǒng)可在5秒內(nèi)完成15%至100%的無(wú)波動(dòng)流量調(diào)節(jié),。配備故障診斷系統(tǒng),采用雙閉環(huán)控制和模型預(yù)測(cè)前饋策略,提高診斷的穩(wěn)定與準(zhǔn)確性。同時(shí)具備全局調(diào)優(yōu)能力,實(shí)現(xiàn)供能、負(fù)載與配電的整體能效優(yōu)化。
第五,機(jī)電轉(zhuǎn)接與結(jié)構(gòu)密封方面,實(shí)現(xiàn)汽、液、電、網(wǎng)四維熱插拔,泄漏率小于10??量級(jí),內(nèi)部潔凈度達(dá)到ISO 7級(jí)以上。
![]()
“我們認(rèn)為,單機(jī)柜功率超過(guò)200kW時(shí),采用兩相浸沒(méi)式液冷優(yōu)勢(shì)明顯,全生命周期看成本更優(yōu)且長(zhǎng)期可收斂。”黃元峰表示,主要體現(xiàn)在四個(gè)方面:高功率下單位冷卻成本遞減、介質(zhì)成本降至進(jìn)口產(chǎn)品的30%以下、PUE≤1.04大幅節(jié)省電費(fèi),以及規(guī)模化集成帶來(lái)的空間與配件成本優(yōu)化。因此,相變浸沒(méi)式液冷既高效又好用。
以中科曙光scaleX640超節(jié)點(diǎn)為例,這是全球首例已落地的兆瓦級(jí)AI解決方案,特點(diǎn)可概括為:高效散熱、成本可控、省電節(jié)能、性能穩(wěn)定、算力密度全球領(lǐng)先。
走進(jìn)實(shí)際項(xiàng)目
那么,C8000 V3.0在實(shí)際機(jī)房中如何讓液冷技術(shù)發(fā)揮出其最大價(jià)值。張鵬介紹,AIDC相對(duì)于傳統(tǒng)的數(shù)據(jù)中心,完全是不同的物種。面向未來(lái)的AIDC機(jī)房設(shè)計(jì),必須采用創(chuàng)新的設(shè)計(jì)理念,不能再以傳統(tǒng)眼光看待新事物。具體來(lái)說(shuō),其在項(xiàng)目中設(shè)計(jì)主要涵蓋四個(gè)方面:
第一是冷卻,AIDC有三類冷卻需求:高密度核心機(jī)房、通用計(jì)算區(qū)以及配套服務(wù)區(qū)域。C8000 V3.0可實(shí)現(xiàn)單機(jī)柜900kW以上的極致散熱能力。
第二是供電,它是C8000 V3.0最重要的創(chuàng)新之一。團(tuán)隊(duì)設(shè)計(jì)了占地僅17平方米的中壓直轉(zhuǎn)系統(tǒng),內(nèi)置變壓器和直流柜,可直接掛接電池。該裝置支持“交直流互用”,3150kVA可輸出交流或直流,以及240V、400V、800V等多種電壓。核心機(jī)房下方開挖了160個(gè)孔洞,使高壓線纜以最短距離接入計(jì)算機(jī),替代了傳統(tǒng)管井方案,節(jié)省成本約4000萬(wàn)元。這一布局將供配電系統(tǒng)盡量靠近機(jī)器,縮短低壓線纜,減少用銅量。
第三是智能管理系統(tǒng),曙光智創(chuàng)引入了“健康度”概念,實(shí)現(xiàn)故障預(yù)診斷。通過(guò)AI綜合分析溫度、流量、壓力等參數(shù),系統(tǒng)可提前判斷換熱器、冷媒、水泵等設(shè)備的健康狀態(tài),而不是等到故障發(fā)生才報(bào)警。同時(shí),將全年運(yùn)行數(shù)據(jù)輸入AI模型進(jìn)行學(xué)習(xí),系統(tǒng)可自動(dòng)給出更節(jié)能的運(yùn)行參數(shù)。在實(shí)際運(yùn)營(yíng)中,AI調(diào)優(yōu)可使冷卻系統(tǒng)能耗再降低10%。
第四是余熱利用方面,曙光數(shù)創(chuàng)也有自己的理解。張鵬指出,由于液冷排出的水溫約為40~50℃,品位處在不高不低的狀態(tài),芯片允許的工作溫度在80~90℃之間,受熱阻限制,外部水溫很難再提高。即便使用熱泵升溫,能耗反而得不償失。因此,最現(xiàn)實(shí)的做法是直接為這40~50℃的熱水尋找合適的應(yīng)用場(chǎng)景。目前曙光數(shù)創(chuàng)已識(shí)別出十多個(gè)潛在場(chǎng)景,例如中水處理廠中用于分解有機(jī)物的菌落需要這種溫度的熱量,皮革廠烘干工序同樣適用,此外還包括農(nóng)業(yè)大棚等。
![]()
曙光數(shù)創(chuàng)高級(jí)副總裁張鵬
但余熱利用的推廣不能僅靠企業(yè)單打獨(dú)斗,需要政府引導(dǎo)和政策支持,比如對(duì)實(shí)施余熱利用的項(xiàng)目給予電費(fèi)優(yōu)惠等激勵(lì)。張鵬將其概括為“算熱聯(lián)產(chǎn)”理念,目前數(shù)據(jù)中心占中國(guó)用電量約3%,遠(yuǎn)期有可能上升至30%,余熱利用將變得愈發(fā)重要。
從芯片外圍到芯片封裝
“液冷只有走完最后一微米,算力的能量才能真正被釋放。”張鵬表示,回顧多年的技術(shù)積累,芯片的熱密度持續(xù)增大,目前的工作仍主要圍繞芯片外圍展開。未來(lái),一個(gè)重要的趨勢(shì)是向芯片內(nèi)部發(fā)展。熱量從底層電路傳遞到表面的短短幾百微米,其熱阻可占整個(gè)鏈路的三成。此前主要降低的是外圍熱阻,而未來(lái)的“最后一微米”將是行業(yè)突破的關(guān)鍵。
展望未來(lái)5~10年,一個(gè)值得突破的方向是芯片“封裝”內(nèi)部的熱阻問(wèn)題。黃元峰對(duì)此解釋,目前液冷技術(shù)多在芯片外部做文章,但隨著芯片功耗增大,封裝本身帶來(lái)的溫差成為瓶頸,只有降低內(nèi)部熱阻,外部冷卻的效率才能最大化。
來(lái)源:電子工程世界(EEWorld)
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.