公眾號(hào)記得加星標(biāo)??,第一時(shí)間看推送不會(huì)錯(cuò)過。
研究發(fā)現(xiàn),人工智能(AI)基礎(chǔ)設(shè)施競(jìng)爭(zhēng)的最終結(jié)果取決于支撐它的軟件生態(tài)系統(tǒng),而非半導(dǎo)體性能。分析表明,英偉達(dá)的統(tǒng)治地位除了其卓越的圖形處理器(GPU)硬件外,還得益于其近20年來積累的以CUDA為中心的軟件棧所構(gòu)建的結(jié)構(gòu)性準(zhǔn)入壁壘。
根據(jù)軟件政策研究所(SPRi)11日發(fā)布的報(bào)告《軟件在人工智能基礎(chǔ)設(shè)施競(jìng)爭(zhēng)中的結(jié)構(gòu)性作用》,預(yù)計(jì)今年全球人工智能支出將達(dá)到2.5萬億美元。其中超過一半預(yù)計(jì)將集中在服務(wù)器、加速器和數(shù)據(jù)中心等基礎(chǔ)設(shè)施上。尤其值得一提的是,英偉達(dá)在數(shù)據(jù)中心GPU市場(chǎng)保持著絕對(duì)領(lǐng)先地位,占據(jù)了約86%的市場(chǎng)份額。
報(bào)告指出,這種優(yōu)勢(shì)不能僅僅用芯片性能來解釋。這是因?yàn)榧词故褂孟嗤腍100 GPU,實(shí)際吞吐量也會(huì)因編譯器、加速庫和驅(qū)動(dòng)程序的優(yōu)化程度不同而相差三倍以上。這意味著人工智能基礎(chǔ)設(shè)施的根本競(jìng)爭(zhēng)力取決于“芯片上計(jì)算的執(zhí)行效率”。
研究團(tuán)隊(duì)將人工智能基礎(chǔ)設(shè)施分為五層:開發(fā)框架、編譯器、加速庫、驅(qū)動(dòng)程序/運(yùn)行時(shí)和硬件。他們分析發(fā)現(xiàn),所有層都形成了一種鎖定結(jié)構(gòu),針對(duì)特定硬件進(jìn)行了優(yōu)化,從開發(fā)人員用于設(shè)計(jì)人工智能模型的 PyTorch 或 JAX 等開發(fā)工具,到基于 XLA、TVM 和 TensorRT 的編譯器(將這些模型轉(zhuǎn)換為適用于各種半導(dǎo)體的可執(zhí)行代碼),再到提升計(jì)算速度的 cuDNN 和 cuBLAS 等加速軟件,最后到最底層的驅(qū)動(dòng)程序 。
該報(bào)告特別提出了三種機(jī)制:“性能依賴性”,即優(yōu)化不對(duì)稱導(dǎo)致最終收斂于特定芯片;“設(shè)計(jì)依賴性”,即軟件選擇決定硬件路徑;以及“結(jié)構(gòu)依賴性”,即封閉的驅(qū)動(dòng)架構(gòu)阻礙了物理替換。報(bào)告指出,由于針對(duì)其他芯片重寫和驗(yàn)證已針對(duì)特定庫和 CUDA 路徑優(yōu)化的大規(guī)模 AI 模型代碼需要耗費(fèi)大量人力和時(shí)間,因此硬件替換本身就相當(dāng)于系統(tǒng)重建。此外,報(bào)告還解釋說,隨著這三個(gè)因素的疊加,切換成本呈指數(shù)級(jí)增長(zhǎng)。
主要國(guó)家的戰(zhàn)略也呈現(xiàn)出明顯的差異。在美國(guó),英偉達(dá) 通過“CUDA”生態(tài)系統(tǒng)同時(shí)建立了性能和結(jié)構(gòu)上的依賴關(guān)系,而谷歌則通過垂直整合TPU(張量處理單元,其專為大規(guī)模人工智能訓(xùn)練而設(shè)計(jì)的半導(dǎo)體)、XLA和ZAX,建立了一條獨(dú)立的架構(gòu)依賴路徑。 中國(guó)的華為也被認(rèn)為通過整合其人工智能芯片“Ascend”、專用軟件平臺(tái)“CANN”和人工智能開發(fā)框架“MindSpore”的系統(tǒng),構(gòu)建了類似的國(guó)內(nèi)生態(tài)系統(tǒng)。
國(guó)內(nèi)神經(jīng)網(wǎng)絡(luò)處理單元(NPU)產(chǎn)業(yè)面臨著機(jī)遇與挑戰(zhàn)。報(bào)告指出,盡管韓國(guó)NPU生態(tài)系統(tǒng)已通過原生PyTorch支持和與虛擬大型語言模型(vLLM)的集成成功打入框架市場(chǎng),但編譯器和庫層的性能差距以及缺乏可操作的參考資料,仍然是市場(chǎng)擴(kuò)張的障礙。國(guó)內(nèi)人工智能半導(dǎo)體企業(yè)也在努力降低對(duì)CUDA的依賴,集中精力開發(fā)專用編譯器并優(yōu)化大型語言模型(vLLM)推理軟件。
業(yè)界認(rèn)為,只有在總體擁有成本 (TCO) 方面展現(xiàn)出對(duì)英偉達(dá)的競(jìng)爭(zhēng)優(yōu)勢(shì),而不僅僅是芯片價(jià)格競(jìng)爭(zhēng)力,云服務(wù)提供商和大型企業(yè)才能真正采用我們的產(chǎn)品。TCO 涵蓋了能效、軟件維護(hù)和開發(fā)人員再培訓(xùn)成本。該報(bào)告還將引入基于 TCO 的評(píng)估體系列為一項(xiàng)關(guān)鍵的政策任務(wù)。
因此,研究團(tuán)隊(duì)建議政策范式應(yīng)從以芯片設(shè)計(jì)為中心的扶持轉(zhuǎn)向扶持全棧軟件,包括編譯器、運(yùn)行時(shí)環(huán)境和軟件開發(fā)工具包(SDK)。尤其值得一提的是,應(yīng)擴(kuò)大參與OpenXLA和MLIR等全球開源標(biāo)準(zhǔn)項(xiàng)目的規(guī)模,以降低對(duì)CUDA的依賴,并建立基于公共人工智能數(shù)據(jù)中心的示范環(huán)境,這些都是亟待完成的任務(wù)。分析總結(jié)指出,隨著不依賴于特定加速器廠商的多廠商標(biāo)準(zhǔn)生態(tài)系統(tǒng)(例如UXL基金會(huì))的普及,國(guó)內(nèi)企業(yè)必須積極參與全球軟件標(biāo)準(zhǔn)競(jìng)爭(zhēng)。
報(bào)告指出,“K-NPU 普及的瓶頸在于軟件優(yōu)化和運(yùn)營(yíng)生態(tài)系統(tǒng)的規(guī)模,而不是芯片本身”,并補(bǔ)充道,“我們必須通過利用公共人工智能數(shù)據(jù)中心進(jìn)行大規(guī)模演示以及參與全球開源標(biāo)準(zhǔn),來打破性能差距和缺乏參考的惡性循環(huán)。”
(來源:編譯自zdnet)
*免責(zé)聲明:本文由作者原創(chuàng)。文章內(nèi)容系作者個(gè)人觀點(diǎn),半導(dǎo)體行業(yè)觀察轉(zhuǎn)載僅為了傳達(dá)一種不同的觀點(diǎn),不代表半導(dǎo)體行業(yè)觀察對(duì)該觀點(diǎn)贊同或支持,如果有任何異議,歡迎聯(lián)系半導(dǎo)體行業(yè)觀察。
今天是《半導(dǎo)體行業(yè)觀察》為您分享的第4374內(nèi)容,歡迎關(guān)注。
加星標(biāo)??第一時(shí)間看推送
求推薦
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.