亚洲中文字幕乱码亚洲-蜜桃成熟视频在线观看-免费中文字幕视频在线-中国五十路熟妇洗澡视频-亚洲av伊人啪啪c-国产精品成人一区二区-国产自拍视频一区在线观看-成人一区不卡二区三区四区-亚洲情精品中文字幕99在线

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

MCU/MPU巨頭,集體自研NPU

0
分享至

過去幾年,提到邊緣AI,很多人第一反應(yīng)往往是高性能處理器、SoC。而到如今,在MCU中放入NPU,也已經(jīng)稀疏平常,畢竟通用MCU的CPU核并不適合直接執(zhí)行AI/ML運算,將AI推理卸載至NPU后,MCU可專注于其他關(guān)鍵功能,從而確保系統(tǒng)實時、高效地運行,搭配干活才不累。

對于Arm MCU和MPU來說,Ethos系列NPU堪稱絕配,很多廠商都選擇了這條路線。不過為了讓MCU和MPU更好的承載AI,幾大MCU/MPU巨頭都在研究自己的NPU,并在最近一段時間不斷加大研究力度。今天,EEWorld就來盤點一下這些廠商的最新動態(tài)。

TI:TinyEngine和C7 NPU

德州儀器(TI)目前擁有兩款NPU:面向高性能應(yīng)用的C7 NPU和面向低功耗可擴展設(shè)備的TinyEngine NPU。

根據(jù)TI的說法,嵌入式處理器的處理能力、功耗限制以及高門檻的編程專業(yè)知識曾限制了邊緣AI的普及。專用硬件如圖形處理器(GPU)、現(xiàn)場可編程門陣列(FPGA)和專用集成電路(ASIC)雖性能出色,但受限于高功耗或靈活性不足。集成的神經(jīng)網(wǎng)絡(luò)處理器(NPU)應(yīng)運而生——它專門執(zhí)行構(gòu)成現(xiàn)代神經(jīng)網(wǎng)絡(luò)基礎(chǔ)的矩陣乘法、卷積運算和激活函數(shù),通過從主CPU卸載計算密集型任務(wù),顯著提高推理速度并降低功耗。

首先,在TinyEngine NPU方面,MCU核心產(chǎn)品包括TMS320F28P550SJ(C2000 MCU)、AM13E230x(M33內(nèi)核MCU)和MSPM0G5187(80MHz M0+內(nèi)核MCU)。其對于TinyEngine NPU的理解在于讓AI與控制并行存在,通過硬件層面的任務(wù)劃分,讓兩種本質(zhì)不同的計算同時存在:CPU負責(zé)實時控制,NPU負責(zé)AI推理。

德州儀器ASM微控制器工業(yè)業(yè)務(wù)負責(zé)人吳健鴻向EEWorld解釋,加入NPU的核心原因,就是為了讓AI運算和實時控制可以并行,而不是互相干擾。這并不是一次簡單的性能升級,而是一次架構(gòu)上的解耦。它讓中低性能的MCU第一次可以在不破壞確定性及低延遲的前提下,引入非確定性的智能計算。


根據(jù)TI的官方闡述,TinyEngine NPU 突破了長期以來制約嵌入式人工智能廣泛普及的關(guān)鍵設(shè)計瓶頸,具備以下優(yōu)勢:

  • 相較于純軟件實現(xiàn)的人工智能方案,單次推理能耗降低至1/120,延遲降低至1/90;

  • 算力達2.56 GOPS,可支撐深度學(xué)習(xí)模型的實時邊緣 AI 推理。

  • 支持8比特、4比特、2比特量化及混合精度配置,支持原位運算,有效解決存儲容量受限問題;

  • 兼容多種神經(jīng)網(wǎng)絡(luò)層類型,包括卷積層(常規(guī)卷積、深度卷積、逐點卷積、轉(zhuǎn)置卷積)、全連接層、池化層(平均池化、最大池化),并支持批歸一化;

  • 簡化工具鏈降低開發(fā)復(fù)雜度,開發(fā)周期從數(shù)周縮短至數(shù)小時。

可以看出,TinyEngine并不試圖對標高端SoC,但它的目標更明確——在超低功耗和低成本下,完成足夠好的AI推理。


TI的策略并不是單點突破,而是構(gòu)建完整的系統(tǒng)AI能力,所以在TinyEngine NPU之外,另一只手是C7 NPU。

C7 NPU是一款高性能、高能效的AI加速器,集成于TDA54-Q1和TDA4VE-Q1片上系統(tǒng)(SoC)中。它源自TI在DSP領(lǐng)域的長期積累,使TI處理器能夠同時處理多個并發(fā)的AI工作負載,適用于高級駕駛輔助系統(tǒng)、信息娛樂和機器人等應(yīng)用。

另外值得一提的是,TI更是從模擬信號鏈到控制,再到AI推理,其能力覆蓋了一整條技術(shù)路徑。

ST:用內(nèi)存計算(IMC)顛覆NPU

早在2022年,ST就曾宣布,STM32N6將成為ST首個加入NPU的產(chǎn)品,很多工程師也對這一產(chǎn)品翹首以盼。

Neural-Art Accelerator是ST專有知識產(chǎn)權(quán)的神經(jīng)網(wǎng)絡(luò)處理單元。其搭載的NPU算力達到600 GOPS,具有3TOPS/W的優(yōu)異表現(xiàn)。嵌入式的Neural-Art Accelerator 的硬件加速單元在算力處理得當?shù)那闆r下,可以與Cortex-M55 內(nèi)核完全獨立并行工作,可以作為 Cortex-M55的協(xié)處理器,做AI加速能力運算。

在STM32N6中,NPU采用基于可配置全連接交換機的單向鏈路架構(gòu),通過DMA及支持卷積、池化、激活、標量等運算的加速器傳輸數(shù)據(jù)流,可在運行時定義任意多條并發(fā)虛擬處理鏈。完備的反壓機制實現(xiàn)數(shù)據(jù)流控制與流式多播,支持數(shù)據(jù)在多個端點間重用;鏈表控制整個周期(可融合多個層)的完全自主處理。多個加速器以分組或鏈接方式并行處理不同大小的特征圖與內(nèi)核,交換機拓撲在編譯時定義并在運行時動態(tài)配置,每個節(jié)點代表一個處理單元或內(nèi)存流通道。該設(shè)計支持跨多層的流水線操作并滿足最壞情況延遲約束,而可配置加速器框架(CAF)則負責(zé)管理數(shù)據(jù)傳輸與計算調(diào)度,并能自動適應(yīng)各種網(wǎng)絡(luò)層拓撲。



我們都知道,在STM32MP2系列中,NPU并非自研。而在STM32N6上,ST為什么選擇自研,而非Arm?事實上,Arm一直是ST的合作伙伴,ST始終非常重視與Arm的合作。然而,ST自研NPU從六年前就開始設(shè)計,并且具有一定靈活性,可以根據(jù)不同產(chǎn)品需求進行裁剪,其自研的產(chǎn)品在PPA上具有明顯優(yōu)勢,同時ST也在為未來的技術(shù)創(chuàng)新做準備,尤其是計劃推出的顛覆性技術(shù)——IMC(In Memory Computing,內(nèi)存計算)。這一技術(shù)將能夠基于ST的NPU架構(gòu)進行開發(fā)和應(yīng)用。

根據(jù)ST的規(guī)劃,第一款神經(jīng)網(wǎng)絡(luò)加速器Neural-ART 1,作為STM32N6微控制器的內(nèi)核。其最大性能為4.6 TOPS,能效為1~5TOPS/W。下一步,ST將會進一步發(fā)展第二代數(shù)字內(nèi)存計算D-IMC,這將帶來比第一代 4 倍的性能提升,能夠達到18TOPS和20~40TOPS/W的性能。Neural-ART 3將是具有混合架構(gòu)和50+ TOPS/W性能的產(chǎn)品,預(yù)計第三代的性能將比第二代再提升10倍。


ST一篇論文中表示,內(nèi)存計算(IMC)可大幅減少內(nèi)存數(shù)據(jù)傳輸,從而降低功耗。“我們已成功完成其數(shù)字和模擬版本的原型設(shè)計,性能分別提升高達8.3倍和16.7倍。這些技術(shù)支持1至8位高級量化,在保證與現(xiàn)有NPU無縫集成的前提下,進一步提升性能并縮小模型體積。”


NXP:一手自研,一手收購

eIQ Neutron NPU是NXP的高度可擴展的加速器內(nèi)核架構(gòu),可提供機器學(xué)習(xí)加速。該架構(gòu)優(yōu)化了功率和性能,與恩智浦廣泛的微控制器和應(yīng)用處理器產(chǎn)品組合相集成。目前,應(yīng)用eIQ Neutron NPU的MPU包括i.MX 95、i.MX 952、i.MX 94、i.MX 93、i.MX 8M Plus,跨界MCU包括i.MX RT700,MCU包括MCX N94x和N54X。

eIQ Neutron NPU采用點積脈動架構(gòu),支持多種神經(jīng)網(wǎng)絡(luò)類型,包括CNN、RNN、TCN和Transformer網(wǎng)絡(luò)等。eIQ機器學(xué)習(xí)軟件開發(fā)環(huán)境為eIQ Neutron NPU的ML應(yīng)用開發(fā)提供完整支持。eIQ Neutron支持常見的神經(jīng)網(wǎng)絡(luò)運算符,如Conv2D、Depthwise Conv2D、full connected、Add、Average Pooling2D、Maximum Pooling2D和Padding,它還支持8位量化權(quán)重。

eIQ Neutron NPU提供了一系列豐富的功能選項,這些選項會根據(jù)該內(nèi)核所集成到的具體 NXP邊緣處理設(shè)備,以及該設(shè)備系列所針對的市場需求來進行靈活配置。其主要特性包括:專用的控制器內(nèi)核;支持在線的反量化、激活和池化操作;內(nèi)置微型緩存,可有效降低功耗,并減少對系統(tǒng)內(nèi)存速度的依賴;權(quán)重解壓縮引擎;先進的多維DMA,支持步進、批處理、交織和拼接等多種輸入輸出格式;可配置緊耦合內(nèi)存。


從架構(gòu)來看,eIQ Neutron NPU采用點積脈動架構(gòu),傳統(tǒng)高吞吐量脈動陣列依賴大量寬位(32bit)累加器,帶來顯著的連線、邏輯與寄存器開銷,且在小工作負載下利用率低下。本文點積結(jié)構(gòu)可消除這些缺陷。

除了在MCU、MPU放入NPU,NXP還收購了獨立神經(jīng)處理單元(DNPU)的領(lǐng)導(dǎo)企業(yè)之一Kinara。根據(jù)NXP的說法,DNPU非常適合高性能、低延遲的專用AI任務(wù),而集成式NPU則能處理更通用的AI處理以及低功耗始終在線AI功能。這種組合能夠?qū)崿F(xiàn)更優(yōu)化、更高效的智能邊緣系統(tǒng)架構(gòu)。


NXP提供兩款獨立神經(jīng)處理單元(DNPU):Ara-1是第一代DNPU,適用于攝像頭、嵌入式系統(tǒng)和邊緣服務(wù)器等邊緣設(shè)備的高能效AI推理。Ara-2是第二代DNPU,能夠提供高達40 eTOPS的性能,并針對實時生成式AI進行了優(yōu)化。


英飛凌:針對汽車的PPU

英飛凌沒有直接做NPU,不過針對電動汽車開發(fā)了PPU(并行處理單元,Parallel Processing Unit),它并非一個獨立的DSP內(nèi)核,而是一個高度專業(yè)化、可靈活配置的計算加速器集群。目前搭載PPU的產(chǎn)品主要是28nm的AURIX TC4x。PPU擁有靈活的架構(gòu),適用于執(zhí)行速度快且數(shù)據(jù)處理量大的汽車應(yīng)用。

實現(xiàn)的任務(wù)和用例因應(yīng)用而異,但可以識別出兩個主要集群。一方面,PPU允許復(fù)雜的數(shù)據(jù)處理和基于觀察者的傳感器執(zhí)行器系統(tǒng)控制(例如牽引電機逆變器或直流/直流變換器控制)。另一方面,它支持基于人工神經(jīng)網(wǎng)絡(luò)(MLP、RBF、RNN、CNN)的系統(tǒng)建模(例如虛擬傳感器、電池管理系統(tǒng)中的健康狀態(tài)/電荷狀態(tài)優(yōu)化,以及未來領(lǐng)域或區(qū)域控制器的預(yù)測性車輛運動控制)和對象分類(如傳感器融合)解決方案。


PPU模塊內(nèi)核選擇了新思(Synopsys)的DesignWare ARC EV71處理器。ARC EV系列是Synopsys專門為嵌入式視覺、傳感器融合和人工智能處理而設(shè)計的高性能DSP處理器家族。PPU主要內(nèi)包含:

  • 標量核(Scalar Core):用于執(zhí)行大量的標量運算,以及任務(wù)調(diào)度,支持多種算術(shù)運算和邏輯運算,支持硬件浮點運算,提供豐富的硬件功能安全機制;

  • 向量核(Vector core/SIMD Core):專門用于執(zhí)行向量運算,支持多種向量算術(shù)運算、邏輯運算和專用信號處理,支持整型數(shù)和浮點運算,支持多級流水線和SIMD指令;

  • 一級緩存:用于保存計算輸入和輸出數(shù)據(jù)的存儲空間,由于結(jié)構(gòu)上和運算核緊密耦合,該緩存可以在PPU的執(zhí)行過程中對狀態(tài)進行快速讀寫,并且有EDC/ECC保護,從而實現(xiàn)更高的執(zhí)行效率和更高的可靠性;

  • 其它系統(tǒng)資源:包括用于快速數(shù)據(jù)搬運的DMA,共享內(nèi)存區(qū)等。


瑞薩:自研DRP-AI

瑞薩在最新的RA8P1系列等產(chǎn)品用了Arm的Ethos系列NPU,不過這家公司也有自研的AI 加速器:DRP-AI。大多數(shù)AI加速器專注于AI推理,依賴CPU進行前后處理,而DRP-AI將預(yù)處理、后處理和AI推理集成到單一DRP-AI硬件中,以實現(xiàn)卓越的AI處理性能。其RZ/V2H平臺就集成了最新的DRP-AI3,其他產(chǎn)品包括RZ/V2M、RZ/V2MA、RZ/V2L、RZ/V2N。

DRP-AI由AI-MAC(乘積累加處理器)和DRP(可重構(gòu)處理器)組成。AI處理可通過在卷積層和全連接層為運算分配AI-MAC來高速執(zhí)行,而且DRP也適用于預(yù)處理和池化層等其他復(fù)雜的處理。


DRP-AI3是瑞薩在2024年推出的新一代DRP-AI,與上一代相比,電源能效高出約10倍。 DRP-AI3 能夠應(yīng)對AI的未來發(fā)展需要以及機器人等應(yīng)用的復(fù)雜需求。




DRP-AI3算力達到8 TOPS,此外,對于已剪枝的 AI 模型,可以根據(jù)剪枝量信息成比例地減少運算周期次數(shù),從而使 AI 模型運算性能達到剪枝前模型的峰值水平 (80 TOPS)。 這相當于高出傳統(tǒng)DRP-AI處理性能約80倍,這樣的大幅度性能提升足以跟上 AI 快速發(fā)展的步伐。在電源能效方面,僅 AI 加速器的性能評估顯示,其最高理論性能約為 23 TOPS/W,運行主流AI模型時的電源能效達到世界頂尖水平(約為10 TOPS/W)。




DRP - AI如何與瑞薩的MCU/MPU協(xié)同工作以實現(xiàn)AI推理加速?MCU主要運行機器學(xué)習(xí)算法,MPU側(cè)重深度學(xué)習(xí)視覺方向算法。硬件層面,二者通過高速內(nèi)部總線通信,保障數(shù)據(jù)快速流轉(zhuǎn);軟件層面,優(yōu)化驅(qū)動與接口程序,讓調(diào)用DRP - AI算力如同調(diào)用本地函數(shù)般便捷,無縫銜接實現(xiàn) AI 推理加速。

參考文獻

[1]TI:https://www.ti.com/lit/wp/spry349a/spry349a.pdf

[2]芯視點:https://mp.weixin.qq.com/s/-KpDskzgV7MT-u-0XfSihA

[3]IEEE:https://arxiv.org/pdf/2509.14388

[4]ST:https://shequ.stmicroelectronics.cn/thread-645078-1-1.html

[5]汽車電子與軟件:https://mp.weixin.qq.com/s/kXG7a1mMS8KDITJGk8hEXA

[6]瑞薩:https://www.renesas.cn/zh/software-tool/ai-accelerator-drp-ai

[7]Digikey:https://www.digikey.cn/zh/forum/t/topic/4291

請將我們設(shè)為“星標”,這樣就會第一時間收到推送消息。

歡迎關(guān)注EEWorld旗下訂閱號:“機器人開發(fā)圈”

掃碼添加小助手回復(fù)“機器人”

進群和電子工程師們面對面交流經(jīng)驗


特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
蔣介石恐做夢也沒想到,被拒之門外的私生子,最終卻代表了蔣家!

蔣介石恐做夢也沒想到,被拒之門外的私生子,最終卻代表了蔣家!

近史談
2026-04-17 19:44:29
不卑微!一新生坦誠告知室友家窮,聚餐不必叫自己,宿舍衛(wèi)生全包

不卑微!一新生坦誠告知室友家窮,聚餐不必叫自己,宿舍衛(wèi)生全包

火山詩話
2026-04-17 09:22:03
12家歐洲車企倒戈!安世中國用實力證明:你敢斷供,我就換供應(yīng)商

12家歐洲車企倒戈!安世中國用實力證明:你敢斷供,我就換供應(yīng)商

大衛(wèi)聊科技
2026-04-18 12:27:33
234萬平方公里大國,海岸線僅37公里:準內(nèi)陸國到底有多憋屈

234萬平方公里大國,海岸線僅37公里:準內(nèi)陸國到底有多憋屈

兔斯基聊科學(xué)
2026-04-18 10:45:36
里沙利松:世界杯后多次想開車撞墻,但我妻子的出現(xiàn)拯救了我

里沙利松:世界杯后多次想開車撞墻,但我妻子的出現(xiàn)拯救了我

懂球帝
2026-04-17 19:44:25
吃相越來越難看,都開始硬搶了!

吃相越來越難看,都開始硬搶了!

胖胖說他不胖
2026-04-15 09:00:18
一覺醒來特朗普宣布戰(zhàn)爭結(jié)束,俄羅斯預(yù)感到什么?提醒伊朗一件事

一覺醒來特朗普宣布戰(zhàn)爭結(jié)束,俄羅斯預(yù)感到什么?提醒伊朗一件事

看盡人間百態(tài)
2026-04-18 15:12:46
伊朗戰(zhàn)爭打到今天,至少12國向IMF要貸款!印度的情況或許更糟!

伊朗戰(zhàn)爭打到今天,至少12國向IMF要貸款!印度的情況或許更糟!

丁丁鯉史紀
2026-04-18 14:35:57
18萬元幫扶款喂了“苦情戲”?網(wǎng)紅B太大涼山被騙,撕開流量公益的隱痛

18萬元幫扶款喂了“苦情戲”?網(wǎng)紅B太大涼山被騙,撕開流量公益的隱痛

新民周刊
2026-04-17 20:49:54
失業(yè)的弟弟一家找上門,我無奈裝病住院,5天后老公帶來了意外消息

失業(yè)的弟弟一家找上門,我無奈裝病住院,5天后老公帶來了意外消息

奶茶麥子
2026-04-14 15:09:04
高端產(chǎn)品打親民牌,智己LS8做了其它豪華品牌不敢做的事

高端產(chǎn)品打親民牌,智己LS8做了其它豪華品牌不敢做的事

汽車網(wǎng)評
2026-04-18 08:00:19
騎士消息:哈登明智決定,米切爾或被交易,G1出場情況更新

騎士消息:哈登明智決定,米切爾或被交易,G1出場情況更新

冷月小風(fēng)風(fēng)
2026-04-18 11:23:13
價格狂飆6倍!日本連夜求購遭中方出口管制,高端制造全線崩盤?

價格狂飆6倍!日本連夜求購遭中方出口管制,高端制造全線崩盤?

王二哥老搞笑
2026-04-17 17:08:23
游戲結(jié)束,中國運回2313噸金條,石油人民幣要來了,特朗普攔不住

游戲結(jié)束,中國運回2313噸金條,石油人民幣要來了,特朗普攔不住

南宗歷史
2026-04-17 16:05:20
局勢生變,全球接到消息,美軍全部撤離,所有軍事基地被敘國接管

局勢生變,全球接到消息,美軍全部撤離,所有軍事基地被敘國接管

老謝談史
2026-04-18 11:32:45
剛簽德國大單就后悔?越南670億高鐵成爛攤子,蘇林轉(zhuǎn)身赴華求救

剛簽德國大單就后悔?越南670億高鐵成爛攤子,蘇林轉(zhuǎn)身赴華求救

泠泠說史
2026-04-17 20:05:32
一夜變天!伊朗宣布開放海峽,同意交出濃縮鈾,中東發(fā)生了什么?

一夜變天!伊朗宣布開放海峽,同意交出濃縮鈾,中東發(fā)生了什么?

曉岇就是我
2026-04-18 10:26:52
跳樓身亡, 豪宅現(xiàn)金堆成山, 與兒媳生孩子? 大衣哥到底動了誰的蛋糕

跳樓身亡, 豪宅現(xiàn)金堆成山, 與兒媳生孩子? 大衣哥到底動了誰的蛋糕

TVB的四小花
2026-04-17 16:29:22
廢掉一個人最快的方法:讓他學(xué)滿一肚子“無用的文化”

廢掉一個人最快的方法:讓他學(xué)滿一肚子“無用的文化”

青蘋果sht
2026-04-16 05:33:08
西方承認:經(jīng)過中東這一仗才明白,中國手里3張底牌,別人學(xué)不來

西方承認:經(jīng)過中東這一仗才明白,中國手里3張底牌,別人學(xué)不來

尋墨閣
2026-04-18 11:14:32
2026-04-18 15:51:00
EEWorld電子工程世界 incentive-icons
EEWorld電子工程世界
即時參與討論電子工程世界最火話題,搶先知曉電子工程業(yè)界資訊。
279文章數(shù) 22關(guān)注度
往期回顧 全部

科技要聞

傳Meta下月擬裁8000 大舉清退人力為AI騰位

頭條要聞

巴方出動20多架戰(zhàn)機護送伊朗談判代表 包括殲-10戰(zhàn)機

頭條要聞

巴方出動20多架戰(zhàn)機護送伊朗談判代表 包括殲-10戰(zhàn)機

體育要聞

時隔25年重返英超!沒有人再嘲笑他了

娛樂要聞

《穿普拉達的女王2》疑似辱華?

財經(jīng)要聞

"影子萬科"2.0:管理層如何吸血萬物云?

汽車要聞

奇瑞威麟R08 PRO正式上市 售價14.48萬元起

態(tài)度原創(chuàng)

游戲
房產(chǎn)
藝術(shù)
時尚
軍事航空

國產(chǎn)翹臀吊打國外3A!外網(wǎng)玩家盛贊這下知道玩哪個了

房產(chǎn)要聞

官宣簽約最強城更!海口樓市,突然殺入神秘房企!

藝術(shù)要聞

何多苓油畫新作(2026-2025)

有些衣服,是穿給自己看的

軍事要聞

解放軍護衛(wèi)艦與外艦纏斗20小時 細節(jié)披露

無障礙瀏覽 進入關(guān)懷版