7月23日凌晨4點(diǎn)20,馬斯克發(fā)推文宣稱(chēng),自己剛剛啟動(dòng)了世界上最強(qiáng)的AI訓(xùn)練集群。
這個(gè)超算中心位于美國(guó)田納西州,孟菲斯,使用了100,000個(gè)(不用數(shù)了!是10萬(wàn)個(gè)!)英偉達(dá)H100液冷GPU,通過(guò)單一RDMA網(wǎng)絡(luò)連接 。
RDMA(Remote Direct Memory Access)即遠(yuǎn)程直接內(nèi)存訪問(wèn),它可以把數(shù)據(jù)直接從一臺(tái)計(jì)算機(jī)傳輸?shù)搅硪慌_(tái)計(jì)算機(jī),無(wú)需雙方操作系統(tǒng)的介入。單一RDMA打造了高吞吐、低延遲的網(wǎng)絡(luò)通信,尤其適合在大規(guī)模并行計(jì)算機(jī)集群中使用。
感謝xAI,X團(tuán)隊(duì),英偉達(dá)以及其他廠商的支持|X@elonmusk
單從規(guī)模來(lái)看,xAI孟菲斯超算中心已經(jīng)在算力上躋身世界第一,不僅遠(yuǎn)遠(yuǎn)超過(guò)了OpenAI用來(lái)訓(xùn)練GPT-4的2.5萬(wàn)塊A100 GPU,也超越了Aurora(60,000 個(gè) Intel GPU)和Microsoft Eagle(14,400 個(gè) Nvidia H100 GPU),甚至超過(guò)了此前的世界第一超算Frontier(37,888 個(gè) AMD GPU)。
H100是英偉達(dá)專(zhuān)為處理大型語(yǔ)言模型數(shù)據(jù)而開(kāi)發(fā)的芯片,每塊芯片價(jià)格大概在3萬(wàn)美元左右,也就是說(shuō)xAI這次建的超算中心僅是芯片的價(jià)值就高達(dá)30億美元。
此前,馬斯克的xAI一直不溫不火,xAI推出的人工智能Grok也經(jīng)常被大家吐槽不好用,但以目前的狀況來(lái)看,大模型訓(xùn)練就是一場(chǎng)算力游戲,再往下深究是能源游戲,而馬斯克不愿意再等了,直接把料堆滿(mǎn)。
他表示,改進(jìn)后的大模型(不出意外的話(huà)是Grok3)會(huì)在今年年底完成,屆時(shí)它將會(huì)是世界上最強(qiáng)大的AI。
2014年的馬斯克:我們正在召喚AI惡魔;2024年的馬斯克:我要自己召喚AI惡魔!!|X@JoshWhiton
其實(shí),英偉達(dá)已經(jīng)推出了新一代的H200芯片和基于Blackwell新架構(gòu)的B100和B200 GPU,但是更先進(jìn)的芯片要在今年年底才能出貨,而且也不能一下變出幾萬(wàn)張來(lái),也許是為了搶在ChatGPT5之前成為世界最強(qiáng),馬斯克這次比平時(shí)更加大干快上。
據(jù)福布斯稱(chēng),今年3月馬斯克才在孟菲斯敲定這項(xiàng)協(xié)議,之后這座超算基地幾乎立即開(kāi)工。為了加快速度,馬斯克從甲骨文借了2.4萬(wàn)塊H100。
然而如前文所說(shuō),目前的大模型訓(xùn)練歸根結(jié)底是能源游戲,而美國(guó)的電網(wǎng)系統(tǒng)相當(dāng)陳舊,已經(jīng)有幾十年沒(méi)有見(jiàn)證過(guò)大規(guī)模增長(zhǎng),尤其是AI訓(xùn)練的用電結(jié)構(gòu)和民用商用電很不一樣,經(jīng)常會(huì)突然出現(xiàn)超高的用電波峰,極大地挑戰(zhàn)電網(wǎng)的最大負(fù)荷。在這種情況下能擠出電力水力資源支持超算中心的地方所剩無(wú)幾。
據(jù)孟菲斯電力、天然氣和水務(wù)公司的首席執(zhí)行官估計(jì),xAI孟菲斯超算集群每小時(shí)使用的電力最高會(huì)達(dá)到150兆瓦,相當(dāng)于10萬(wàn)戶(hù)家庭的用電量。
目前孟菲斯工廠有3.2萬(wàn)塊GPU在線,預(yù)計(jì)今年第四季度供電建設(shè)將會(huì)完成,工廠將會(huì)全速運(yùn)行。
也難怪會(huì)有人質(zhì)疑馬斯克在撒謊,因?yàn)檫@個(gè)電力要求和這個(gè)建設(shè)速度實(shí)在是太不可思議了。
后來(lái)質(zhì)疑馬斯克的人道歉了,他發(fā)現(xiàn)馬斯克真的辦到了|DylanPatel@X
除了用電之外,xAI超算集群預(yù)計(jì)每天至少需要100萬(wàn)加侖(約379萬(wàn)升)的水來(lái)散熱。
據(jù)福布斯報(bào)道,孟菲斯市議會(huì)議員Pearl Walker上周表示:“民眾很害怕。他們擔(dān)心水資源可能出現(xiàn)問(wèn)題,也擔(dān)心能源供應(yīng)出現(xiàn)問(wèn)題。”她說(shuō),目前數(shù)據(jù)中心預(yù)計(jì)每天需要從孟菲斯的地下蓄水層,也就是該市的主要水源中抽取492萬(wàn)升(該市每天總共消耗大約5.68億升水)。雖然他們說(shuō)這只是暫時(shí)的,但新的灰水工廠的建造計(jì)劃還沒(méi)定,孟菲斯的公用事業(yè)部門(mén)也證實(shí),在處理廠建成運(yùn)行之前,馬斯克的超級(jí)計(jì)算機(jī)將被允許使用地下蓄水層的水。
除了馬斯克,OpenAI和微軟也在部署更大規(guī)模的超算,這臺(tái)名叫“星際之門(mén)”的超算芯片數(shù)量會(huì)達(dá)到百萬(wàn)級(jí),成本預(yù)計(jì)高達(dá)1150億美元,計(jì)劃在2028年推出。
今年四月,OpenAI把微軟電網(wǎng)搞崩潰了,據(jù)微軟工程師說(shuō),他們當(dāng)時(shí)正在為GPT-6部署10萬(wàn)個(gè)H100訓(xùn)練集群,不知道馬斯克會(huì)不會(huì)成為第一個(gè)讓10萬(wàn)個(gè)H100一起工作的人呢?
作者:翻翻
編輯:odette
封面圖來(lái)源:datacenterdynamics
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.