无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

萬億大模型推理時代,深明奧思的LPU芯片解法

0
分享至



【摘要】AI芯片的競爭正在轉向"誰能把每個token算得更便宜"。深明奧思LPU是面向大語言模型推理流程重新設計的計算架構,通過數據流計算、軟硬協同和板卡級交付,解決低延遲、高安全、低功耗的本地推理需求。

01 從搶GPU到算token

過去兩年,AI產業的核心敘事圍繞GPU展開。但當大模型走向企業與終端,一個核心矛盾浮現:訓練是一次性研發投入,推理卻是每天持續發生的運營成本。

tokens/s、tokens/W、上下文長度、部署成本——這些推理側指標,正取代參數規模成為產業關注焦點。一個智能體如果每天調用上千次模型,單位token的經濟性就是核心約束。這也是LPU——LLM Processing Unit——在當下變得重要的原因。

端側推理同樣在被重新定義。過去說端側AI,很多人聯想到耳機、手機、座艙語音這類輕量任務。但深明奧思創始人張強指出,真正高價值的端側推理將出現在政務、金融、律所、研發、制造、醫療等場景:數據不能上云、知識產權不能外泄、延遲不能不可控。AI一旦從聊天工具變成生產工具,采購邏輯就成立——只要它能在數月內創造足夠回報。這些場景對芯片的要求不是更萬能,而是在成本、功耗、帶寬與本地化之間取得更優平衡。

未來MoE模型和長上下文將進一步抬高帶寬與存儲需求。以傳統低功耗小芯片的思路做端側大模型,架構定義層面即存在先天瓶頸。AI基礎設施將形成云端、邊緣端和設備端并存格局:云端負責大規模算力調度,邊緣與設備端承擔低延遲、高安全的本地推理任務。

02 LPU的推理架構邏輯

判斷一顆芯片是否真正面向大模型推理設計,不能只看它是否被冠以"LPU"之名,更要看其計算方式、數據通路和軟件棧是否發生了系統性變化。深明奧思LPU的架構邏輯,可以從一個核心轉變說起。

傳統通用計算架構在運行時不斷處理任務調度、緩存命中和執行順序等問題。LPU的設計理念則反其道行之:面向大模型推理中相對穩定、重復且帶寬敏感的計算路徑,在編譯期提前規劃計算圖、數據通路和存儲分配,讓數據沿預設路徑持續流動,實現數據驅動的執行觸發(data-driven execution)。換言之,LPU不是在運行時"見招拆招",而是在編譯期就把推理全程的"劇本"寫好。對Transformer這類逐層前向推進的模型,這種方式天然貼合其執行過程——權重、激活值、KV cache可被組織為連續、可預測的數據流,從而提升有效帶寬利用率并穩定推理延遲。

之所以強調帶寬利用率,是因為大模型推理的真正瓶頸往往不在算力本身,而在存儲層級間的冗余數據搬移。GPU/NPU也會通過緩存層級和片上SRAM提升數據復用,但它們需要兼顧廣泛的任務形態。LPU的差異在于圍繞prefill、decode、KV cache訪問和矩陣/向量算子進行專項優化,通過自研數據流通路減少DDR到計算陣列間的搬運開銷。根據公司架構設計目標,LPU在典型推理負載下有效帶寬利用率目標達85%以上。在長上下文和連續decode場景中,這一指標直接決定單位token的能效和成本。

但僅有硬件層面的優化遠遠不夠。大模型演進速度極快——模型結構、算子形態、量化方式、MoE路由和上下文長度都在持續變化。如果芯片仍沿用"硬件先行、軟件補課"的模式,量產時就可能已經落后于模型生態。因此,深明奧思讓指令集、編譯器、運行時與硬件架構從立項起并行設計。編譯器負責將模型計算圖映射到芯片內部的數據流和執行單元上,在編譯期確定調度方式,減少運行時不確定性。這也是LPU最核心的壁壘——不在于芯片設計本身,而在于能否通過編譯器將模型結構轉化為高效、穩定、可預測的硬件執行過程。對智能體和企業本地大模型等應用,推理體驗不僅取決于平均tokens/s,更取決于token輸出的穩定性和延遲的可控性。

在具體計算單元上,深明奧思采用矩陣計算單元(MMA)與向量處理單元(VPU)異構協同的方式。矩陣乘法是Transformer推理最核心的算子,由專用MMA高效執行;而歸一化、激活函數、MoE路由等靈活算子,以及未來不斷演進的新算子,則由基于RISC-V向量擴展的自研VPU承擔——既保持專用加速效率,又保留對模型變化的適配彈性。

03 占住端側智能入口

中國AI芯片若正面復制GPU路線,將受制于先進制程、HBM供應、CUDA生態和超大資本開支。深明奧思選擇從端側大模型推理切入——客戶要低延遲、數據安全、能跑大模型、快速部署、穩定運行。這些需求不需要萬能GPU,而需要專門面向推理的板卡級方案。

因此深明奧思不只賣芯片,而強調核心板卡和系統級交付。對B端客戶而言,真正有價值的是:插上板卡、加載模型、通過OpenAI-compatible API接入現有應用,在本地完成推理。只有走到這一層,芯片公司才真正進入客戶的業務流程。

公司目前聚焦的方向——AI一體機、企業本地大模型、coding工作站、具身智能、政務金融法律等場景——共同指向"高價值本地推理"。其中具身智能尤其值得關注:當前機器人展示的多是運動能力("小腦"),但未來分水嶺在"大腦"——理解上下文、拆解任務、實時推理與決策。據公開資料,深明奧思已與萬通智控在該方向展開合作。

公司成立于2025年,已完成第一代LPU芯片功能設計,計劃于2026年流片。團隊在研發中系統性使用AI工具輔助芯片驗證和軟件開發,由工程師定義架構目標和判斷邊界,AI輔助局部實現,從而以更小團隊實現更高研發效率。未來AI芯片公司比拼的不只是架構效率,也包括研發組織效率——更快理解模型變化,把變化翻譯成指令集、編譯器和產品定義,才有可能避免量產即落后。

04 尾聲

計算架構的演進從來不是憑空發生。CPU讓出圖形渲染,GPU無法包打一切——每一代新架構的出現,都是新應用將舊架構的成本結構逼到極限。今天大模型推理正在扮演這個角色。

當AI進入辦公桌、工作站、機器人和車端,所有推理最終都歸結為一筆賬:每個token多少錢,每瓦多少智能,每毫秒延遲損失多少體驗。LPU的價值在于從架構層面重算這筆賬——不取代GPU,而是在低延遲、確定性、本地化部署和token成本敏感的場景中,提供更專門化的路徑。

未來AI基礎設施大概率不會是一種芯片統治一切,而是訓練、云端推理、端側推理各自形成精細的硬件分工。深明奧思這樣的中國LPU芯片公司,將在其中扮演什么角色,值得期待。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
中國男籃隊長調整

中國男籃隊長調整

極目新聞
2026-06-13 10:53:08
CCTV5直播中國男籃vs澳大利亞!楊瀚森出任主力,郭士強備戰世預賽

CCTV5直播中國男籃vs澳大利亞!楊瀚森出任主力,郭士強備戰世預賽

生活新鮮市
2026-06-13 13:12:25
SpaceX上市幕后大戲:搶跑OpenAI、瘋狂并購裝資產,華爾街全程被牽著鼻子走

SpaceX上市幕后大戲:搶跑OpenAI、瘋狂并購裝資產,華爾街全程被牽著鼻子走

華爾街見聞官方
2026-06-13 15:23:17
熊孩子掰壞一輛小米車上的“邁巴赫黃金車標”,車主稱不會追責:無妨,那是我30元買的

熊孩子掰壞一輛小米車上的“邁巴赫黃金車標”,車主稱不會追責:無妨,那是我30元買的

都市快報橙柿互動
2026-06-12 00:24:17
賣家忙到凌晨1點,西班牙球衣日銷500件

賣家忙到凌晨1點,西班牙球衣日銷500件

第一財經資訊
2026-06-13 13:17:53
正式官宣!前山東泰山助教出任主教練,球隊卻迎來讓人揪心的消息

正式官宣!前山東泰山助教出任主教練,球隊卻迎來讓人揪心的消息

王大發不懂球
2026-06-13 21:02:56
與王曼昱秘密戀愛真相大白后,林高遠近況曝光,難怪淡出國家隊

與王曼昱秘密戀愛真相大白后,林高遠近況曝光,難怪淡出國家隊

素衣讀史
2026-06-13 21:57:37
美國丟大臉了!特朗普又把全世界騙個底朝天,5小時演了一場大戲

美國丟大臉了!特朗普又把全世界騙個底朝天,5小時演了一場大戲

娛樂的宅急便
2026-06-13 19:32:31
原來她早已離世!自己定墓園和壽衣,3200萬遺產全給姐姐

原來她早已離世!自己定墓園和壽衣,3200萬遺產全給姐姐

賞心悅目的我
2026-06-13 08:18:13
巴基斯坦總統、總理哀悼

巴基斯坦總統、總理哀悼

環球時報國際
2026-06-11 14:35:12
世界杯裁判馬寧哽咽回應

世界杯裁判馬寧哽咽回應

極目新聞
2026-06-13 13:55:25
1949年,傅作義手下炊事員借機買菜,告知李克農:毛主席有危險

1949年,傅作義手下炊事員借機買菜,告知李克農:毛主席有危險

芊芊子吟
2026-06-13 11:15:10
偉大的1-1!2億歐加拿大終結世界杯6連敗 卡塔爾被釘歷史恥辱柱上

偉大的1-1!2億歐加拿大終結世界杯6連敗 卡塔爾被釘歷史恥辱柱上

風過鄉
2026-06-13 06:22:34
48歲喜提“七胞胎”兒子,真實“身份”不只是礦業老板那么簡單

48歲喜提“七胞胎”兒子,真實“身份”不只是礦業老板那么簡單

小怪吃美食
2026-06-13 15:56:46
王楠基地被王勵勤踢出乒超核心圈,消息一出,圈內全啞了

王楠基地被王勵勤踢出乒超核心圈,消息一出,圈內全啞了

攬星河的筆記
2026-06-12 18:50:03
為什么紅軍到了陜北,就安全了?原因很現實,6個原因

為什么紅軍到了陜北,就安全了?原因很現實,6個原因

老呶侃史
2026-06-11 21:36:40
蘋果把照片變三維的法子越來越妖,底層技術我眼熟

蘋果把照片變三維的法子越來越妖,底層技術我眼熟

野生運營
2026-06-12 05:17:56
高市磨刀霍霍要修皇室典范,德仁忍無可忍,記者會上撂下這句話

高市磨刀霍霍要修皇室典范,德仁忍無可忍,記者會上撂下這句話

舊窗老街
2026-06-13 08:57:21
年輕人開始全款買房:潮汕獨生女635萬買下北京一套房,“不想背債了”

年輕人開始全款買房:潮汕獨生女635萬買下北京一套房,“不想背債了”

時代財經
2026-06-12 12:19:50
太糟心了!反感持續升級!國內商家對印度游客的排斥會持續升溫!

太糟心了!反感持續升級!國內商家對印度游客的排斥會持續升溫!

阿策聊實事
2026-06-12 12:16:01
2026-06-13 22:47:00
芯流智庫 incentive-icons
芯流智庫
助力科技產業融智
850文章數 205關注度
往期回顧 全部

科技要聞

SpaceX上市首日破2萬億美元,馬斯克再封神

頭條要聞

深圳福田站現"幽靈9號口":人走著走著導向標識就沒了

頭條要聞

深圳福田站現"幽靈9號口":人走著走著導向標識就沒了

體育要聞

美國4比1巴拉圭:這統治力真是美國隊?!

娛樂要聞

鄧超曬孫儷親手織的帽子,笑瘋全網!

財經要聞

梁文鋒向左,楊植麟向右

汽車要聞

深藍S07華為乾崑激光版增程車型上市 限時15.49萬元起

態度原創

教育
藝術
手機
健康
公開課

教育要聞

預計2026年秋季竣工!綿陽這所高中即將升級改造

藝術要聞

嫵媚入骨,前衛封神!Alessio Albi 這組寫真,看完根本挪不開眼

手機要聞

榮耀X80 Pro Max官宣,新機即將亮相

老人、小孩、孕婦,吃粽子有啥風險

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版