![]()
Token皆有成本,架構決定戰略。
2025年12月24日,英偉達以200億美元收購了Groq的推理技術授權及核心團隊。時隔兩個月,2026年2月20日,加拿大AI芯片初創企業Taalas推出推理芯片HC1。該芯片運行Llama 3.1 8B模型時,單用戶推理速度可達每秒16960個token,在同等測試條件下,性能約為英偉達B200的48倍。2026年5月14日,Cerebras正式登陸資本市場上市,再度讓AI推理芯片行業受到市場廣泛關注。
從英偉達斥巨資布局、大批初創企業入局,再到資本市場開始對相關企業進行估值,不難看出,AI推理時代下,行業競爭的核心已從打造“超大”模型,轉向研發“高效”模型。
行業風向轉變:從訓練走向推理
2022年生成式AI興起初期,行業競爭聚焦于模型訓練。誰能訓練出性能最強的大模型,誰就能掌握競爭主動權。各大企業紛紛投入巨額資金,不斷擴充模型參數、疊加芯片算力,力求實現模型規模與能力的跨越式提升。
但隨著AI服務進入常態化落地階段,成本結構也隨之發生改變。訓練屬于資金投入大、使用頻次低的研發開支,而推理則是高頻次、長期持續的成本項,直接與企業營收掛鉤。單token處理成本與能效表現,會直接影響企業毛利率與業務規模化能力。每一次接口調用、每一個生成的token,都會產生算力消耗,進一步壓縮利潤空間。倘若token生成成本無法隨業務規模擴大而下降,商業模式的可持續性將遭到質疑。
在此背景下,軟硬件研發的重心開始轉向吞吐能力、能效比與存儲架構優化。行業不再一味追求峰值算力,而是更加注重數據流轉效率與低延遲設計。
通用圖形處理器的架構瓶頸
傳統通用圖形處理器依靠高帶寬內存(HBM)與外置DRAM存儲模型參數,計算核心與存儲單元物理分離,數據需要在芯片與封裝組件之間頻繁交互。隨著推理業務流量持續增長,通用圖形處理器的架構短板愈發凸顯。
基于矩陣運算的Transformer模型推理任務,主要受限于內存帶寬與訪問延遲。高帶寬內存雖能提供出色的帶寬性能,但也存在封裝工藝復雜、量產良率不佳、成本高昂等問題,且帶寬提升的同時,功耗也會同步上漲。面對小批量、低延遲的推理請求,圖形處理器難以發揮大規模并行計算的優勢,最終導致硬件利用率走低、單token處理成本攀升。
與此同時,模型規模已不再是衡量競爭力的唯一標準,市場開始探索在保留推理能力的前提下對模型進行壓縮。例如,1.58比特量化、權重剪枝等技術,可讓模型在占用極小內存空間的同時,維持原有推理精度;混合專家(MoE)架構則采用“局部激活”機制,每次推理僅啟動部分子網絡,以此削減整體計算量。
輕量化模型的普及,為硬件設計開辟了新方向:當模型參數與架構趨于穩定,不再需要高成本的動態內存來適配靈活迭代需求時,將算法直接嵌入芯片硬件的路線,便具備了商業落地的可行性。
硬編碼推理芯片:功耗、散熱與成本優勢凸顯
硬編碼推理芯片的出現,正是為了解決能效瓶頸。以Taalas為代表的企業,將模型參數固化在掩膜只讀存儲器(Mask ROM)中,利用片內靜態隨機存儲器(SRAM)處理動態數據,大幅減少外部內存的數據交互功耗,顯著提升單位功耗、單位成本下的token處理量。這類芯片核心優勢在于低延遲、低功耗、高吞吐,同時散熱與封裝設計也得以簡化。
不過,行業最為擔憂的問題,仍是硬件面對模型快速迭代時的靈活性不足。相較于可編程架構,專用硬編碼芯片可調整空間極小。這類產品必須應用在場景高度穩定、部署規模足夠龐大的領域,才能攤平一次性工程費用(NRE)。生態層面同樣存在壁壘:目前云市場仍以通用平臺為主,客戶也更傾向于選擇可跟隨模型同步升級的靈活方案。
為化解上述風險,廠商正搭建自動化模型轉芯片流程、預制晶圓方案,同時研發融合量化、LoRA微調技術的混合可編程架構,在硬編碼與靈活性之間尋求平衡,推動產品商業化落地。
長遠來看,在低延遲要求極高、部署場景封閉、模型架構穩定、數據隱私要求嚴苛且落地規模明確的領域,硬編碼技術將迎來快速發展。這類芯片可適配常規風冷機架,降低能耗與硬件投入,對云服務商及垂直領域集成商吸引力十足。反觀傳統依托軟件調度的專用集成電路(ASIC)廠商,則會在架構層面面臨性能壓力。
綜合來看,集邦咨詢認為,通用圖形處理器仍將主導模型訓練以及多模型混合運行的場景;而在業務成熟、運行規律可預判的推理場景中,專用架構芯片將逐步占據一席之地。二者并非替代關系,而是聚焦對能效、成本敏感度不同的細分領域。整個行業將逐步形成通用計算與專用計算并行發展的雙軌格局。
Taalas HC1:硬編碼推理方案的實踐樣本
2026年2月20日,加拿大AI芯片初創企業Taalas推出HC1芯片,該產品將Llama 3.1 8B模型直接硬編碼至硬件內部,單用戶推理吞吐達到每秒16960個token。
Taalas HC1采用臺積電N6工藝,無需搭載高帶寬內存,也不使用CoWoS封裝,單芯片熱設計功耗約250瓦,僅依靠風冷即可運行。據Taalas測算,在運行Llama 3.1 8B模型時,英偉達B200(吞吐優化版)每生成百萬token的成本為3.79美分,而Taalas HC1僅需0.75美分,成本約為前者的五分之一。
![]()
內置Llama 3.1 8B模型的Taalas HC1芯片
![]()
Taalas HC1運行Llama 3.1 8B模型的單用戶token吞吐表現
Taalas實現超高算力效率的核心,是采用存內計算(CIM)架構。該技術將計算單元集成在存儲器內部,數據可直接在存儲單元中完成運算,免去計算核心與內存之間的頻繁數據搬運,打破存儲墻瓶頸,同時降低運算過程中的額外延遲與功耗。
存內計算是什么?
1945年,數學家馮?諾依曼提出馮?諾依曼架構。此后芯片設計均沿用計算單元與存儲單元相互分離的結構,以此保障硬件具備更強的通用性與靈活性。
但隨著內存帶寬與算力的發展速度逐漸失衡,計算單元與內存之間的數據傳輸,逐漸成為性能提升的主要制約因素。存內計算(CIM)技術應運而生,目前已分化出數字存內計算(DCIM)、模擬存內計算(ACIM)、混合存內計算等多種技術形態。不過,適配存內計算的編程語言、底層軟件架構及各類應用尚未完全成熟,該技術整體仍處在發展初期。
![]()
存內計算技術類型對比表,涵蓋數字、模擬、混合存內計算的原理、精度與能效差異
相較于常規存內計算方案,Taalas的技術路線更為激進,秉持“模型即硬件”的設計理念,打造全硬件定義的AI核心架構,把模型參數直接固化在芯片的掩膜只讀存儲器中。這套方案既保留了存內計算低延遲、低功耗的優勢,也規避了當前存內計算軟件生態不完善的短板。
除了極致的算力效率,依托高密度只讀存儲器存儲模型參數,Taalas針對全新AI模型開發專用芯片時,僅需修改兩層掩膜,從模型轉化為實體芯片的周期可縮短至兩個月。同時芯片保留部分靜態隨機存儲器,用于存放鍵值緩存與LoRA微調參數,以此彌補硬編碼架構靈活性不足的問題。
Taalas的全硬件定義路線與Groq的全軟件定義路線,實現方式雖截然不同,但目標一致:盡可能實現靜態調度與全確定性運算,用動態靈活性換取極致運行效率。
推理芯片新時代:多條技術路線并行發展
除Taalas之外,越來越多專注于高效推理賽道的AI芯片初創企業相繼入局,包括 Tenstorrent、Groq、Cerebras、SambaNova、MatX、Untether AI、Hepzibah AI、Etched、d-Matrix、Positron AI、Axelera AI、FuriosaAI等。下文匯總了各家主流芯片參數規格。
![]()
高效AI推理芯片參數對比表
需要說明的是,行業普遍將存內計算(CIM)作為一類架構統稱,但各家具體實現方式差異極大。Taalas HC1將模型參數直接硬編碼至掩膜只讀存儲器,屬于純硬件定義方案;Etched旗下Sohu芯片同樣采用硬編碼架構,但可適配所有Transformer模型,靈活性更高;d-Matrix的Corsair芯片以數字存內計算為核心,將AI模型底層架構嵌入硬件,適配范圍更廣,靈活性優于Etched;Untether AI的Boqueria芯片采用近內存計算架構,將精簡指令集(RISC-V)處理器與運算單元直接集成在靜態隨機存儲器陣列中;Axelera AI的Metis人工智能處理器(AIPU)同樣搭載數字存內計算技術,由精簡指令集架構管控數據流轉。
![]()
d-Matrix Corsair芯片架構
![]()
Untether AI Boqueria芯片架構
2026年5月14日,當下推理芯片領域熱度最高的企業Cerebras正式于納斯達克上市。其核心技術為晶圓級集成,將整片12英寸晶圓封裝為單顆芯片(WSE-3),片內集成44GB靜態隨機存儲器,內存帶寬可達21PB/s。目前Cerebras已與OpenAI達成為期三年的算力合作,合作規模超200億美元,算力部署容量達750兆瓦。
![]()
Cerebras WSE-3芯片四級架構示意圖
現階段整個市場仍處于早期探索階段,多條技術路線同步推進,包括存內計算、靜態隨機存儲器優先架構、晶圓級集成、張量收縮處理器等。業內預計,未來推理芯片架構會逐步融合各類技術優勢,以此滿足AI推理場景對性能與能效的綜合要求。
*聲明:本文系原作者創作。文章內容系其個人觀點,我方轉載僅為分享與討論,不代表我方贊成或認同,如有異議,請聯系后臺。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.