網易首頁 > 網易號 > 正文申請入駐

萬億大模型推理時代，深明奧思的LPU芯片解法

2026-05-12 21:12:21　來源: 芯流智庫

黑龍江舉報

分享至

【摘要】AI芯片的競爭正在轉向"誰能把每個token算得更便宜"。深明奧思LPU是面向大語言模型推理流程重新設計的計算架構，通過數據流計算、軟硬協同和板卡級交付，解決低延遲、高安全、低功耗的本地推理需求。

01 從搶GPU到算token

過去兩年，AI產業的核心敘事圍繞GPU展開。但當大模型走向企業與終端，一個核心矛盾浮現：訓練是一次性研發投入，推理卻是每天持續發生的運營成本。

tokens/s、tokens/W、上下文長度、部署成本——這些推理側指標，正取代參數規模成為產業關注焦點。一個智能體如果每天調用上千次模型，單位token的經濟性就是核心約束。這也是LPU——LLM Processing Unit——在當下變得重要的原因。

端側推理同樣在被重新定義。過去說端側AI，很多人聯想到耳機、手機、座艙語音這類輕量任務。但深明奧思創始人張強指出，真正高價值的端側推理將出現在政務、金融、律所、研發、制造、醫療等場景：數據不能上云、知識產權不能外泄、延遲不能不可控。AI一旦從聊天工具變成生產工具，采購邏輯就成立——只要它能在數月內創造足夠回報。這些場景對芯片的要求不是更萬能，而是在成本、功耗、帶寬與本地化之間取得更優平衡。

未來MoE模型和長上下文將進一步抬高帶寬與存儲需求。以傳統低功耗小芯片的思路做端側大模型，架構定義層面即存在先天瓶頸。AI基礎設施將形成云端、邊緣端和設備端并存格局：云端負責大規模算力調度，邊緣與設備端承擔低延遲、高安全的本地推理任務。

02 LPU的推理架構邏輯

判斷一顆芯片是否真正面向大模型推理設計，不能只看它是否被冠以"LPU"之名，更要看其計算方式、數據通路和軟件棧是否發生了系統性變化。深明奧思LPU的架構邏輯，可以從一個核心轉變說起。

傳統通用計算架構在運行時不斷處理任務調度、緩存命中和執行順序等問題。LPU的設計理念則反其道行之：面向大模型推理中相對穩定、重復且帶寬敏感的計算路徑，在編譯期提前規劃計算圖、數據通路和存儲分配，讓數據沿預設路徑持續流動，實現數據驅動的執行觸發（data-driven execution）。換言之，LPU不是在運行時"見招拆招"，而是在編譯期就把推理全程的"劇本"寫好。對Transformer這類逐層前向推進的模型，這種方式天然貼合其執行過程——權重、激活值、KV cache可被組織為連續、可預測的數據流，從而提升有效帶寬利用率并穩定推理延遲。

之所以強調帶寬利用率，是因為大模型推理的真正瓶頸往往不在算力本身，而在存儲層級間的冗余數據搬移。GPU/NPU也會通過緩存層級和片上SRAM提升數據復用，但它們需要兼顧廣泛的任務形態。LPU的差異在于圍繞prefill、decode、KV cache訪問和矩陣/向量算子進行專項優化，通過自研數據流通路減少DDR到計算陣列間的搬運開銷。根據公司架構設計目標，LPU在典型推理負載下有效帶寬利用率目標達85%以上。在長上下文和連續decode場景中，這一指標直接決定單位token的能效和成本。

但僅有硬件層面的優化遠遠不夠。大模型演進速度極快——模型結構、算子形態、量化方式、MoE路由和上下文長度都在持續變化。如果芯片仍沿用"硬件先行、軟件補課"的模式，量產時就可能已經落后于模型生態。因此，深明奧思讓指令集、編譯器、運行時與硬件架構從立項起并行設計。編譯器負責將模型計算圖映射到芯片內部的數據流和執行單元上，在編譯期確定調度方式，減少運行時不確定性。這也是LPU最核心的壁壘——不在于芯片設計本身，而在于能否通過編譯器將模型結構轉化為高效、穩定、可預測的硬件執行過程。對智能體和企業本地大模型等應用，推理體驗不僅取決于平均tokens/s，更取決于token輸出的穩定性和延遲的可控性。

在具體計算單元上，深明奧思采用矩陣計算單元（MMA）與向量處理單元（VPU）異構協同的方式。矩陣乘法是Transformer推理最核心的算子，由專用MMA高效執行；而歸一化、激活函數、MoE路由等靈活算子，以及未來不斷演進的新算子，則由基于RISC-V向量擴展的自研VPU承擔——既保持專用加速效率，又保留對模型變化的適配彈性。

03 占住端側智能入口

中國AI芯片若正面復制GPU路線，將受制于先進制程、HBM供應、CUDA生態和超大資本開支。深明奧思選擇從端側大模型推理切入——客戶要低延遲、數據安全、能跑大模型、快速部署、穩定運行。這些需求不需要萬能GPU，而需要專門面向推理的板卡級方案。

因此深明奧思不只賣芯片，而強調核心板卡和系統級交付。對B端客戶而言，真正有價值的是：插上板卡、加載模型、通過OpenAI-compatible API接入現有應用，在本地完成推理。只有走到這一層，芯片公司才真正進入客戶的業務流程。

公司目前聚焦的方向——AI一體機、企業本地大模型、coding工作站、具身智能、政務金融法律等場景——共同指向"高價值本地推理"。其中具身智能尤其值得關注：當前機器人展示的多是運動能力（"小腦"），但未來分水嶺在"大腦"——理解上下文、拆解任務、實時推理與決策。據公開資料，深明奧思已與萬通智控在該方向展開合作。

公司成立于2025年，已完成第一代LPU芯片功能設計，計劃于2026年流片。團隊在研發中系統性使用AI工具輔助芯片驗證和軟件開發，由工程師定義架構目標和判斷邊界，AI輔助局部實現，從而以更小團隊實現更高研發效率。未來AI芯片公司比拼的不只是架構效率，也包括研發組織效率——更快理解模型變化，把變化翻譯成指令集、編譯器和產品定義，才有可能避免量產即落后。

04 尾聲

計算架構的演進從來不是憑空發生。CPU讓出圖形渲染，GPU無法包打一切——每一代新架構的出現，都是新應用將舊架構的成本結構逼到極限。今天大模型推理正在扮演這個角色。

當AI進入辦公桌、工作站、機器人和車端，所有推理最終都歸結為一筆賬：每個token多少錢，每瓦多少智能，每毫秒延遲損失多少體驗。LPU的價值在于從架構層面重算這筆賬——不取代GPU，而是在低延遲、確定性、本地化部署和token成本敏感的場景中，提供更專門化的路徑。

未來AI基礎設施大概率不會是一種芯片統治一切，而是訓練、云端推理、端側推理各自形成精細的硬件分工。深明奧思這樣的中國LPU芯片公司，將在其中扮演什么角色，值得期待。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.