網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

打破英偉達(dá)壟斷，只有一個(gè)方法

2026-04-12 09:35:41　來源: 半導(dǎo)體行業(yè)觀察

上海舉報(bào)

分享至

公眾號(hào)記得加星標(biāo)??，第一時(shí)間看推送不會(huì)錯(cuò)過。

研究發(fā)現(xiàn)，人工智能（AI）基礎(chǔ)設(shè)施競(jìng)爭(zhēng)的最終結(jié)果取決于支撐它的軟件生態(tài)系統(tǒng)，而非半導(dǎo)體性能。分析表明，英偉達(dá)的統(tǒng)治地位除了其卓越的圖形處理器（GPU）硬件外，還得益于其近20年來積累的以CUDA為中心的軟件棧所構(gòu)建的結(jié)構(gòu)性準(zhǔn)入壁壘。

根據(jù)軟件政策研究所（SPRi）11日發(fā)布的報(bào)告《軟件在人工智能基礎(chǔ)設(shè)施競(jìng)爭(zhēng)中的結(jié)構(gòu)性作用》，預(yù)計(jì)今年全球人工智能支出將達(dá)到2.5萬億美元。其中超過一半預(yù)計(jì)將集中在服務(wù)器、加速器和數(shù)據(jù)中心等基礎(chǔ)設(shè)施上。尤其值得一提的是，英偉達(dá)在數(shù)據(jù)中心GPU市場(chǎng)保持著絕對(duì)領(lǐng)先地位，占據(jù)了約86%的市場(chǎng)份額。

報(bào)告指出，這種優(yōu)勢(shì)不能僅僅用芯片性能來解釋。這是因?yàn)榧词故褂孟嗤腍100 GPU，實(shí)際吞吐量也會(huì)因編譯器、加速庫和驅(qū)動(dòng)程序的優(yōu)化程度不同而相差三倍以上。這意味著人工智能基礎(chǔ)設(shè)施的根本競(jìng)爭(zhēng)力取決于“芯片上計(jì)算的執(zhí)行效率”。

研究團(tuán)隊(duì)將人工智能基礎(chǔ)設(shè)施分為五層：開發(fā)框架、編譯器、加速庫、驅(qū)動(dòng)程序/運(yùn)行時(shí)和硬件。他們分析發(fā)現(xiàn)，所有層都形成了一種鎖定結(jié)構(gòu)，針對(duì)特定硬件進(jìn)行了優(yōu)化，從開發(fā)人員用于設(shè)計(jì)人工智能模型的 PyTorch 或 JAX 等開發(fā)工具，到基于 XLA、TVM 和 TensorRT 的編譯器（將這些模型轉(zhuǎn)換為適用于各種半導(dǎo)體的可執(zhí)行代碼），再到提升計(jì)算速度的 cuDNN 和 cuBLAS 等加速軟件，最后到最底層的驅(qū)動(dòng)程序。

該報(bào)告特別提出了三種機(jī)制：“性能依賴性”，即優(yōu)化不對(duì)稱導(dǎo)致最終收斂于特定芯片；“設(shè)計(jì)依賴性”，即軟件選擇決定硬件路徑；以及“結(jié)構(gòu)依賴性”，即封閉的驅(qū)動(dòng)架構(gòu)阻礙了物理替換。報(bào)告指出，由于針對(duì)其他芯片重寫和驗(yàn)證已針對(duì)特定庫和 CUDA 路徑優(yōu)化的大規(guī)模 AI 模型代碼需要耗費(fèi)大量人力和時(shí)間，因此硬件替換本身就相當(dāng)于系統(tǒng)重建。此外，報(bào)告還解釋說，隨著這三個(gè)因素的疊加，切換成本呈指數(shù)級(jí)增長(zhǎng)。

主要國(guó)家的戰(zhàn)略也呈現(xiàn)出明顯的差異。在美國(guó)，英偉達(dá) 通過“CUDA”生態(tài)系統(tǒng)同時(shí)建立了性能和結(jié)構(gòu)上的依賴關(guān)系，而谷歌則通過垂直整合TPU（張量處理單元，其專為大規(guī)模人工智能訓(xùn)練而設(shè)計(jì)的半導(dǎo)體）、XLA和ZAX，建立了一條獨(dú)立的架構(gòu)依賴路徑。中國(guó)的華為也被認(rèn)為通過整合其人工智能芯片“Ascend”、專用軟件平臺(tái)“CANN”和人工智能開發(fā)框架“MindSpore”的系統(tǒng)，構(gòu)建了類似的國(guó)內(nèi)生態(tài)系統(tǒng)。

國(guó)內(nèi)神經(jīng)網(wǎng)絡(luò)處理單元（NPU）產(chǎn)業(yè)面臨著機(jī)遇與挑戰(zhàn)。報(bào)告指出，盡管韓國(guó)NPU生態(tài)系統(tǒng)已通過原生PyTorch支持和與虛擬大型語言模型（vLLM）的集成成功打入框架市場(chǎng)，但編譯器和庫層的性能差距以及缺乏可操作的參考資料，仍然是市場(chǎng)擴(kuò)張的障礙。國(guó)內(nèi)人工智能半導(dǎo)體企業(yè)也在努力降低對(duì)CUDA的依賴，集中精力開發(fā)專用編譯器并優(yōu)化大型語言模型（vLLM）推理軟件。

業(yè)界認(rèn)為，只有在總體擁有成本 (TCO) 方面展現(xiàn)出對(duì)英偉達(dá)的競(jìng)爭(zhēng)優(yōu)勢(shì)，而不僅僅是芯片價(jià)格競(jìng)爭(zhēng)力，云服務(wù)提供商和大型企業(yè)才能真正采用我們的產(chǎn)品。TCO 涵蓋了能效、軟件維護(hù)和開發(fā)人員再培訓(xùn)成本。該報(bào)告還將引入基于 TCO 的評(píng)估體系列為一項(xiàng)關(guān)鍵的政策任務(wù)。

因此，研究團(tuán)隊(duì)建議政策范式應(yīng)從以芯片設(shè)計(jì)為中心的扶持轉(zhuǎn)向扶持全棧軟件，包括編譯器、運(yùn)行時(shí)環(huán)境和軟件開發(fā)工具包（SDK）。尤其值得一提的是，應(yīng)擴(kuò)大參與OpenXLA和MLIR等全球開源標(biāo)準(zhǔn)項(xiàng)目的規(guī)模，以降低對(duì)CUDA的依賴，并建立基于公共人工智能數(shù)據(jù)中心的示范環(huán)境，這些都是亟待完成的任務(wù)。分析總結(jié)指出，隨著不依賴于特定加速器廠商的多廠商標(biāo)準(zhǔn)生態(tài)系統(tǒng)（例如UXL基金會(huì)）的普及，國(guó)內(nèi)企業(yè)必須積極參與全球軟件標(biāo)準(zhǔn)競(jìng)爭(zhēng)。

報(bào)告指出，“K-NPU 普及的瓶頸在于軟件優(yōu)化和運(yùn)營(yíng)生態(tài)系統(tǒng)的規(guī)模，而不是芯片本身”，并補(bǔ)充道，“我們必須通過利用公共人工智能數(shù)據(jù)中心進(jìn)行大規(guī)模演示以及參與全球開源標(biāo)準(zhǔn)，來打破性能差距和缺乏參考的惡性循環(huán)。”

（來源：編譯自zdnet）

*免責(zé)聲明：本文由作者原創(chuàng)。文章內(nèi)容系作者個(gè)人觀點(diǎn)，半導(dǎo)體行業(yè)觀察轉(zhuǎn)載僅為了傳達(dá)一種不同的觀點(diǎn)，不代表半導(dǎo)體行業(yè)觀察對(duì)該觀點(diǎn)贊同或支持，如果有任何異議，歡迎聯(lián)系半導(dǎo)體行業(yè)觀察。

今天是《半導(dǎo)體行業(yè)觀察》為您分享的第4374內(nèi)容，歡迎關(guān)注。

加星標(biāo)??第一時(shí)間看推送

求推薦

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.