![]()
【摘要】AI芯片的競爭正在轉向"誰能把每個token算得更便宜"。深明奧思LPU是面向大語言模型推理流程重新設計的計算架構,通過數據流計算、軟硬協同和板卡級交付,解決低延遲、高安全、低功耗的本地推理需求。
01 從搶GPU到算token
過去兩年,AI產業的核心敘事圍繞GPU展開。但當大模型走向企業與終端,一個核心矛盾浮現:訓練是一次性研發投入,推理卻是每天持續發生的運營成本。
tokens/s、tokens/W、上下文長度、部署成本——這些推理側指標,正取代參數規模成為產業關注焦點。一個智能體如果每天調用上千次模型,單位token的經濟性就是核心約束。這也是LPU——LLM Processing Unit——在當下變得重要的原因。
端側推理同樣在被重新定義。過去說端側AI,很多人聯想到耳機、手機、座艙語音這類輕量任務。但深明奧思創始人張強指出,真正高價值的端側推理將出現在政務、金融、律所、研發、制造、醫療等場景:數據不能上云、知識產權不能外泄、延遲不能不可控。AI一旦從聊天工具變成生產工具,采購邏輯就成立——只要它能在數月內創造足夠回報。這些場景對芯片的要求不是更萬能,而是在成本、功耗、帶寬與本地化之間取得更優平衡。
未來MoE模型和長上下文將進一步抬高帶寬與存儲需求。以傳統低功耗小芯片的思路做端側大模型,架構定義層面即存在先天瓶頸。AI基礎設施將形成云端、邊緣端和設備端并存格局:云端負責大規模算力調度,邊緣與設備端承擔低延遲、高安全的本地推理任務。
02 LPU的推理架構邏輯
判斷一顆芯片是否真正面向大模型推理設計,不能只看它是否被冠以"LPU"之名,更要看其計算方式、數據通路和軟件棧是否發生了系統性變化。深明奧思LPU的架構邏輯,可以從一個核心轉變說起。
傳統通用計算架構在運行時不斷處理任務調度、緩存命中和執行順序等問題。LPU的設計理念則反其道行之:面向大模型推理中相對穩定、重復且帶寬敏感的計算路徑,在編譯期提前規劃計算圖、數據通路和存儲分配,讓數據沿預設路徑持續流動,實現數據驅動的執行觸發(data-driven execution)。換言之,LPU不是在運行時"見招拆招",而是在編譯期就把推理全程的"劇本"寫好。對Transformer這類逐層前向推進的模型,這種方式天然貼合其執行過程——權重、激活值、KV cache可被組織為連續、可預測的數據流,從而提升有效帶寬利用率并穩定推理延遲。
之所以強調帶寬利用率,是因為大模型推理的真正瓶頸往往不在算力本身,而在存儲層級間的冗余數據搬移。GPU/NPU也會通過緩存層級和片上SRAM提升數據復用,但它們需要兼顧廣泛的任務形態。LPU的差異在于圍繞prefill、decode、KV cache訪問和矩陣/向量算子進行專項優化,通過自研數據流通路減少DDR到計算陣列間的搬運開銷。根據公司架構設計目標,LPU在典型推理負載下有效帶寬利用率目標達85%以上。在長上下文和連續decode場景中,這一指標直接決定單位token的能效和成本。
但僅有硬件層面的優化遠遠不夠。大模型演進速度極快——模型結構、算子形態、量化方式、MoE路由和上下文長度都在持續變化。如果芯片仍沿用"硬件先行、軟件補課"的模式,量產時就可能已經落后于模型生態。因此,深明奧思讓指令集、編譯器、運行時與硬件架構從立項起并行設計。編譯器負責將模型計算圖映射到芯片內部的數據流和執行單元上,在編譯期確定調度方式,減少運行時不確定性。這也是LPU最核心的壁壘——不在于芯片設計本身,而在于能否通過編譯器將模型結構轉化為高效、穩定、可預測的硬件執行過程。對智能體和企業本地大模型等應用,推理體驗不僅取決于平均tokens/s,更取決于token輸出的穩定性和延遲的可控性。
在具體計算單元上,深明奧思采用矩陣計算單元(MMA)與向量處理單元(VPU)異構協同的方式。矩陣乘法是Transformer推理最核心的算子,由專用MMA高效執行;而歸一化、激活函數、MoE路由等靈活算子,以及未來不斷演進的新算子,則由基于RISC-V向量擴展的自研VPU承擔——既保持專用加速效率,又保留對模型變化的適配彈性。
03 占住端側智能入口
中國AI芯片若正面復制GPU路線,將受制于先進制程、HBM供應、CUDA生態和超大資本開支。深明奧思選擇從端側大模型推理切入——客戶要低延遲、數據安全、能跑大模型、快速部署、穩定運行。這些需求不需要萬能GPU,而需要專門面向推理的板卡級方案。
因此深明奧思不只賣芯片,而強調核心板卡和系統級交付。對B端客戶而言,真正有價值的是:插上板卡、加載模型、通過OpenAI-compatible API接入現有應用,在本地完成推理。只有走到這一層,芯片公司才真正進入客戶的業務流程。
公司目前聚焦的方向——AI一體機、企業本地大模型、coding工作站、具身智能、政務金融法律等場景——共同指向"高價值本地推理"。其中具身智能尤其值得關注:當前機器人展示的多是運動能力("小腦"),但未來分水嶺在"大腦"——理解上下文、拆解任務、實時推理與決策。據公開資料,深明奧思已與萬通智控在該方向展開合作。
公司成立于2025年,已完成第一代LPU芯片功能設計,計劃于2026年流片。團隊在研發中系統性使用AI工具輔助芯片驗證和軟件開發,由工程師定義架構目標和判斷邊界,AI輔助局部實現,從而以更小團隊實現更高研發效率。未來AI芯片公司比拼的不只是架構效率,也包括研發組織效率——更快理解模型變化,把變化翻譯成指令集、編譯器和產品定義,才有可能避免量產即落后。
04 尾聲
計算架構的演進從來不是憑空發生。CPU讓出圖形渲染,GPU無法包打一切——每一代新架構的出現,都是新應用將舊架構的成本結構逼到極限。今天大模型推理正在扮演這個角色。
當AI進入辦公桌、工作站、機器人和車端,所有推理最終都歸結為一筆賬:每個token多少錢,每瓦多少智能,每毫秒延遲損失多少體驗。LPU的價值在于從架構層面重算這筆賬——不取代GPU,而是在低延遲、確定性、本地化部署和token成本敏感的場景中,提供更專門化的路徑。
未來AI基礎設施大概率不會是一種芯片統治一切,而是訓練、云端推理、端側推理各自形成精細的硬件分工。深明奧思這樣的中國LPU芯片公司,將在其中扮演什么角色,值得期待。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.