提起NVIDIA,你最先想到的是什么?
是橫掃全球AI算力市場的H100、B100“核彈級”GPU?
是黃仁勛每場發布會都能點燃行業的技術宣言?
還是那句出圈的“我們創造了AI”?
但很少有人知道,這家站在全球算力之巔的巨頭,早已是RISC-V領域的超級玩家。
2024年一整年,NVIDIA單年出貨的RISC-V核心,正式突破了10億顆大關。
這個數字有多夸張?
很多深耕RISC-V賽道多年的廠商,累計出貨量都未必能摸到這個門檻。
而NVIDIA,甚至很少把“RISC-V”掛在嘴邊。
在RISC-V北美峰會上,NVIDIA多媒體架構副總裁Frans Sijstermans,終于揭開了這家AI巨頭與RISC-V之間,長達近十年的隱秘故事。
![]()
根據NVIDIA 2024年RISC-V峰會披露的數據,英偉達2024年一年就出貨了超過10億個RISC-V核心!
這些核心不是單獨賣的CPU,都是嵌在每個英偉達加速器里的:
一般一塊芯片放10到40個,最新的Blackwell GB200里。
這些RISC-V核心管什么?
協調數據交換、上下文切換、內存熱管理,還當硬件信任根做安全啟動,整個GPU的控制命脈都交給RISC-V了。
1:NVIDIA和RISC-V的緣分,早在2016年就已經開啟。
很多人不知道,英偉達用RISC-V不是今天才開始的,早從2016年就開始內部替換了,替換的就是用了快二十年的Falcon微控制器。
啥是Falcon?
就是英偉達GPU里管視頻解碼、內存復制、安全管理的小控制器。
從2005年用到現在,GPU核心從幾百個漲到幾萬個,老32位的Falcon早就頂不住了:尋址不夠,性能上不去,緩存支持差,線程也保護不了。
性能要到Falcon的兩倍以上,面積增加不超兩倍,支持64位尋址,還能跑現代實時系統。
當時英偉達把市面上所有指令集都篩了一遍,只有RISC-V滿足要求:
就這么著,NV-RISCV家族誕生了。
給你們看個最直觀的對比:
架構特性
傳統 Falcon 控制器
NV-RISCV (基于 RISC-V)
尋址能力
僅限 32 位
支持 64 位物理/虛擬尋址
性能基準
基準值
提升 3 倍以上
緩存架構
無/受限
支持多級緩存與緊耦合內存 (TCM)
自定義指令
不可擴展
超過 20 個針對 GPU 控制優化的自定義擴展
安全性
基礎級別
集成 ICD (In-Circuit Debug) 與安全調試功能
這場替換的規模,遠超行業想象。
如今,每一顆NVIDIA芯片組里,都會根據配置集成10到40個RISC-V核心。
從消費級游戲顯卡,到數據中心的AI加速卡,再到車載智能芯片,幾乎所有NVIDIA產品里,都有RISC-V核心的身影。
也正是這樣的全產品線鋪開,讓NVIDIA在2024年,正式跨過了“單年出貨10億顆RISC-V核心”的里程碑。
而按照NVIDIA的預估,這場架構替換最終會帶來數百億級的RISC-V處理器出貨。
很多人會好奇:為什么NVIDIA用了這么多RISC-V核心,行業里卻鮮有耳聞?
答案很簡單:這些RISC-V核心,都在產品的“幕后”工作。
它們不直接面向終端用戶,卻撐起了NVIDIA整個產品體系的底層運行,是GPU帝國里看不見的“地基”。
與此同時,NVIDIA也是RISC-V社區最核心的共建者之一。
從RISC-V首屆社區會議開始,NVIDIA就深度參與,幾乎一直保持著董事會層面的代表席位,同時加入了多個技術工作組、RISE軟件組織,既從社區生態中受益,也持續向社區反哺技術成果。
NVIDIA 從僅支持 32 位的 Falcon 核心向 RISC-V 遷移,最初的核心驅動力是對 64 位運算能力的需求。
其首款 RISC-V 研發成果,是一款采用標準擴展的常規雙發射亂序執行 RISC-V 核心,可部署為多處理器版本。
后續,NVIDIA 又補充了面向面積受限場景的 32 位版本,以及搭載 1024 位向量單元的向量處理器。
不搶GPU的風頭,RISC-V在NVIDIA里到底干了啥?
必須先澄清一個誤區:這些RISC-V核心,從來不是要替代NVIDIA的CUDA GPU核心,去做并行計算和AI訓練。
它們的定位,是整個算力系統的“超級管家”與“特種輔助”,核心工作集中在三大關鍵領域。
1. 功能級控制器:GPU的“毛細血管管家”
我們日常使用顯卡的視頻編解碼、畫面輸出、攝像頭接入、內存調度、芯片間數據傳輸,還有GPU任務的上下文切換,這些看似不起眼卻至關重要的基礎功能,全部由RISC-V核心負責管控。
它們就像GPU里的毛細血管管家,把每一個功能模塊打理得井井有條,才讓GPU的主核心能心無旁騖地跑算力。
2. 芯片/系統級控制:整顆芯片的“中樞調度官”
一顆GPU能否穩定運行、能否把功耗和性能平衡到極致、能否守住數據安全的底線,全靠系統級的管控。
而資源管理、電源管理、全芯片安全體系這三大核心工作,正是RISC-V核心的核心陣地。
小到顯卡的動態頻率調節,大到數據中心級的機密計算防護,背后都有RISC-V核心在兜底。
3. 數據處理:AI算力的“特種輔助部隊”
除了管控工作,RISC-V核心也會承擔特定的數據處理任務:比如網絡芯片里的數據包路由,再比如深度學習加速器(DLA)里,非矩陣乘類的AI網絡層運算。
這些工作不算GPU的核心算力場景,卻又必不可少,交給RISC-V核心處理,既能給GPU主核心減負,又能大幅提升全系統的運行效率。
2:RISC-V落地的標桿場景
在峰會上,NVIDIA也公開了兩個RISC-V落地的標桿場景,徹底揭開了這套體系的核心價值。
場景一:GPU系統處理器(GSP)——GPU的“首席執行官”
![]()
過去,主機CPU的內核驅動,需要直接操控GPU內部的一個個控制寄存器,不僅復雜度極高,還很難兼顧虛擬化和安全性。
而GSP,就是一顆基于64位RISC-V架構的嵌入式處理器,它就像GPU的“首席執行官”:主機只需要下發高層級的指令,GSP就會自動把這些指令翻譯成底層的寄存器操作,完成對GPU全資源的調度。
更關鍵的是,依托RISC-V的隔離能力和NVIDIA的自定義擴展,GSP能通過分離內核,把不同的虛擬機、vGPU runtime嚴格隔離,互不干擾。
這正是NVIDIA云GPU、虛擬化方案、機密計算能力的核心根基——客戶的GPU算力可以完整交付給虛擬機,不受底層虛擬化層的影響,安全和性能都拉滿。
場景二:深度學習加速器(DLA)——AI推理的“全能輔助”
在NVIDIA的AI專用SoC里,DLA是核心的推理引擎,負責跑ONNX等深度學習網絡模型。其中,卷積計算、矩陣乘法這些“重活”,由專用硬件單元負責,而剩下的絕大多數非矩陣乘網絡層、全流程調度控制,全靠RISC-V核心撐起。
![]()
NVIDIA在DLA里部署了兩顆RISC-V核心:
一顆32位NV-RISCV32核,負責全系統的運行時控制;
一顆NV-RVV向量核,搭載1024位向量單元,負責各類算子的運算。
二者配合,就能實現完整的ONNX模型端到端推理,給GPU主核心大幅減負,讓AI推理的效率和靈活性都上了一個臺階。
3:量身定制:NVIDIA的RISC-V自研全家桶
NVIDIA從來不是RISC-V的“拿來主義者”,而是基于這套開源指令集,做了全鏈路的深度自研,打造了一套完整的RISC-V“全家桶”。
![]()
三大自研核心,覆蓋全場景需求
針對不同的工作負載,NVIDIA打造了三款核心RISC-V處理器,形成了完整的產品矩陣:
核心型號
核心架構
核心定位
關鍵特性
NV-RISCV32
RV32I-MU
本地控制場景
順序單發射,主頻1.8GHz,主打面積受限、低功耗的控制類場景
NV-RISCV64
RV64I-MSU
高性能系統控制
亂序雙發射,主頻2GHz,支持多核SMP,主打GSP這類系統級高性能管控場景
NV-RVV
RV32I-MU+向量擴展
數據處理與AI運算
搭載1024位向量單元,主打DLA深度學習推理、數據并行處理場景
基于RISC-V的可擴展特性,NVIDIA開發了超過20個自定義擴展,覆蓋通用功能、安全、性能三大維度,既解決了自身的場景需求,也給整個RISC-V社區帶來了貢獻。
專屬優化的2KB頁大小擴展,讓 legacy 軟件的性能直接提升50%;
64位物理/虛擬地址擴展,完美適配數據中心分布式大內存場景;
指針掩碼擴展,被納入RISC-V官方標準,如今已被全球社區開發者廣泛使用,為安全類應用提供了核心能力。
4:Peregrine子系統:一次開發,全產品復用
如果說自研核心是積木,那Peregrine子系統,就是NVIDIA搭好的“萬能積木套件”。
這套子系統以RISC-V核心為基礎,整合了DMA、安全IP等全套外設,同時配套了統一的軟件棧。
![]()
NVIDIA旗下超過30個系統控制與管理應用,都可以基于這套子系統靈活配置——需要低功耗控制就選32位核心,需要高性能就選64位核心,再按需疊加對應的擴展,不用每次都從零開發。
![]()
軟件層面更是如此,一套統一的軟件棧,覆蓋了啟動程序、操作系統、分離內核、應用層庫文件,全產品線通用。
硬件和軟件的雙重復用,讓NVIDIA的開發成本大幅降低,研發效率和投資回報拉到了極致。
![]()
更關鍵的是,這套子系統把安全做到了骨子里。核心的分離內核就像一個輕量級 hypervisor,能把系統拆分成多個完全隔離的執行環境,不同安全等級的應用可以在不同分區獨立運行,比如滿足車規ASIL-D安全認證的程序,和普通應用互不干擾。
NVIDIA甚至專門組建了內部攻防安全團隊,以“黑客”視角持續挖掘設計漏洞,筑牢安全底線。
4:為什么偏偏是RISC-V?
全球商用架構這么多,為什么NVIDIA偏偏選中了RISC-V,還把它做成了全產品的底層根基?
在峰會分享中,NVIDIA給出了5個最核心的理由,也道破了RISC-V最核心的競爭力。
第一,極致的定制化能力,把硅片價值榨到極致。
RISC-V的開源授權模式,讓NVIDIA可以把基礎指令集當作“積木底座”,自由添加適配自身場景的擴展和配置,不用被商用架構的固定設計綁死,每一寸硅片都能用到刀刃上。
第二,軟硬件協同設計,實現效率雙向優化。
基于RISC-V的開放架構,NVIDIA可以針對軟件負載做定向的硬件優化,同時基于硬件特性優化軟件棧,雙向奔赴的協同設計,讓系統效率遠超市面上現成的通用處理器。
第三,按需配置的靈活性,不花一分冤枉錢。
通用商用處理器往往功能過剩,很多場景下90%的特性都用不上,卻要為其支付成本和功耗代價。而RISC-V可以讓NVIDIA只選擇自己需要的擴展,精準匹配場景需求,大幅降低成本和開發工作量。
第四,自定義擴展的自由度,想要什么功能就加什么。
不管是功能適配、安全加固還是性能提升,NVIDIA都可以通過自定義擴展實現,完全不用等待商用架構的版本迭代,完全掌控產品的研發節奏和能力邊界。
第五,統一的軟硬件架構,實現全生態復用。
這是最核心的一點,一套通用的硬件IP、一套統一的軟件棧,就能覆蓋NVIDIA旗下30多個應用、全產品線的需求,不用為每一款產品、每一個場景重新開發一套架構,不僅大幅降低了研發成本,更簡化了部署流程,讓產品迭代速度大幅提升。
很長一段時間里,行業里總有一個誤區:
RISC-V還只是“小眾玩家”,只能做物聯網、MCU這類低端場景,登不上算力舞臺的中央。
但NVIDIA的故事,給了這個誤區最有力的反駁。
當10億顆RISC-V核心,隨著NVIDIA的GPU走進全球的數據中心、個人電腦、智能汽車,當站在全球算力之巔的巨頭,把RISC-V當作自己產品體系的底層根基。
我們已經能清晰地看到:RISC-V早已不是邊緣玩家,它已經走進了算力產業的最核心地帶。
10億顆年出貨量,從來不是終點,只是一個開始。
RISC-V的時代,早已到來。
文章來源于歪睿老哥,作者歪睿老哥
創芯大講堂芯片課程匯總
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.