近日,上海棣山科技對外披露其自主研發(fā)的2nm高端AI GPU芯片最新進展,標志著國產(chǎn)高性能計算芯片在前沿制程與生態(tài)兼容領(lǐng)域取得重大突破。
這款被命名為"棣山智核(DS-Core)"的芯片已達到國際前沿設(shè)計水平,目前正處于原型驗證關(guān)鍵階段,距離正式流片、量產(chǎn)預(yù)計仍需1-2年時間。
該款2nm AI GPU原型芯片采用行業(yè)領(lǐng)先的FinFET/GAA混合制程與Chiplet異構(gòu)集成架構(gòu),核心晶體管數(shù)量達1700億顆,接近英偉達B200的2080億顆水平。芯片創(chuàng)新性地應(yīng)用2.5D CoWoS-L先進封裝技術(shù),在提升集成度的同時降低信號延遲,為海量數(shù)據(jù)處理提供硬件基礎(chǔ)。
![]()
研發(fā)團隊成功攻克三大核心技術(shù)瓶頸:
第一項核心技術(shù)瓶頸突破是高帶寬內(nèi)存(HBM)封裝互聯(lián)技術(shù)。
為解決大模型訓(xùn)練時海量數(shù)據(jù)高速傳輸?shù)耐袋c,棣山科技成功攻克HBM封裝互聯(lián)難題,為2nm AI GPU搭載了新一代HBM4內(nèi)存。
該內(nèi)存單顆容量高達48GB,引腳速率突破11Gb/s,內(nèi)存帶寬達到3.2TB/s,相較上一代HBM3E內(nèi)存帶寬提升約2.5倍,可高效承載AI大模型訓(xùn)練過程中巨量數(shù)據(jù)的實時讀寫與傳輸需求,打破了內(nèi)存帶寬不足對算力釋放的限制,為芯片高性能發(fā)揮提供了堅實的內(nèi)存支撐。
![]()
第二項核心技術(shù)瓶頸突破是超低延遲片間通信技術(shù)。
針對多芯片互聯(lián)時信號延遲高、協(xié)同效率低的行業(yè)難題,研發(fā)團隊實現(xiàn)了超低延遲片間通信技術(shù)的重大突破,將片間通信延遲控制在0.25ns/mm以內(nèi)。
同時,該芯片支持NVLink 6兼容互連協(xié)議,單鏈路帶寬達1.6TB/s,當(dāng)多顆芯片進行互聯(lián)協(xié)同運算時,可實現(xiàn)無瓶頸數(shù)據(jù)交互,有效提升整體算力規(guī)模,讓芯片能夠靈活應(yīng)對大規(guī)模AI集群運算場景,進一步放大單芯片的算力優(yōu)勢。
![]()
第三項核心技術(shù)瓶頸突破是微流道高效熱管理技術(shù)。
高端AI GPU在高負載運行時會產(chǎn)生大量熱量,若散熱不及時,極易導(dǎo)致芯片性能衰減、熱失控等問題。
棣山科技研發(fā)的微流道高效熱管理技術(shù),通過優(yōu)化芯片內(nèi)部散熱結(jié)構(gòu),大幅提升散熱效率,使芯片熱失控風(fēng)險降低68%,能夠?qū)⑿酒ぷ鳒囟确€(wěn)定控制在85℃以下,這一突破有效解決了高端GPU高功耗下的散熱難題。
性能表現(xiàn)上,棣山智核展現(xiàn)出強大算力實力。其FP32單精度算力達50 TFLOPS,F(xiàn)P16半精度算力達100 TFLOPS,F(xiàn)P4低精度算力更是高達400 TFLOPS,可靈活適配從大模型訓(xùn)練到邊緣推理的全場景需求。能效比方面,該芯片較上一代產(chǎn)品提升40%,典型功耗控制在350W以內(nèi),每瓦算力達142 GFLOPS,在高性能與低功耗間實現(xiàn)出色平衡。
目前,棣山科技已與國內(nèi)多家頭部云廠商、自動駕駛企業(yè)達成預(yù)合作意向,待芯片正式商用后,有望在AI訓(xùn)練、科學(xué)計算、自動駕駛等領(lǐng)域打破國外壟斷,推動國產(chǎn)高端芯片產(chǎn)業(yè)加速發(fā)展。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.