網易首頁 > 網易號 > 正文申請入駐

算力轉向推理，AI芯片規則重寫

2026-05-29 18:15:54　來源: 半導體產業縱橫

北京舉報

分享至

Token皆有成本，架構決定戰略。

2025年12月24日，英偉達以200億美元收購了Groq的推理技術授權及核心團隊。時隔兩個月，2026年2月20日，加拿大AI芯片初創企業Taalas推出推理芯片HC1。該芯片運行Llama 3.1 8B模型時，單用戶推理速度可達每秒16960個token，在同等測試條件下，性能約為英偉達B200的48倍。2026年5月14日，Cerebras正式登陸資本市場上市，再度讓AI推理芯片行業受到市場廣泛關注。

從英偉達斥巨資布局、大批初創企業入局，再到資本市場開始對相關企業進行估值，不難看出，AI推理時代下，行業競爭的核心已從打造“超大”模型，轉向研發“高效”模型。

行業風向轉變：從訓練走向推理

2022年生成式AI興起初期，行業競爭聚焦于模型訓練。誰能訓練出性能最強的大模型，誰就能掌握競爭主動權。各大企業紛紛投入巨額資金，不斷擴充模型參數、疊加芯片算力，力求實現模型規模與能力的跨越式提升。

但隨著AI服務進入常態化落地階段，成本結構也隨之發生改變。訓練屬于資金投入大、使用頻次低的研發開支，而推理則是高頻次、長期持續的成本項，直接與企業營收掛鉤。單token處理成本與能效表現，會直接影響企業毛利率與業務規模化能力。每一次接口調用、每一個生成的token，都會產生算力消耗，進一步壓縮利潤空間。倘若token生成成本無法隨業務規模擴大而下降，商業模式的可持續性將遭到質疑。

在此背景下，軟硬件研發的重心開始轉向吞吐能力、能效比與存儲架構優化。行業不再一味追求峰值算力，而是更加注重數據流轉效率與低延遲設計。

通用圖形處理器的架構瓶頸

傳統通用圖形處理器依靠高帶寬內存（HBM）與外置DRAM存儲模型參數，計算核心與存儲單元物理分離，數據需要在芯片與封裝組件之間頻繁交互。隨著推理業務流量持續增長，通用圖形處理器的架構短板愈發凸顯。

基于矩陣運算的Transformer模型推理任務，主要受限于內存帶寬與訪問延遲。高帶寬內存雖能提供出色的帶寬性能，但也存在封裝工藝復雜、量產良率不佳、成本高昂等問題，且帶寬提升的同時，功耗也會同步上漲。面對小批量、低延遲的推理請求，圖形處理器難以發揮大規模并行計算的優勢，最終導致硬件利用率走低、單token處理成本攀升。

與此同時，模型規模已不再是衡量競爭力的唯一標準，市場開始探索在保留推理能力的前提下對模型進行壓縮。例如，1.58比特量化、權重剪枝等技術，可讓模型在占用極小內存空間的同時，維持原有推理精度；混合專家（MoE）架構則采用“局部激活”機制，每次推理僅啟動部分子網絡，以此削減整體計算量。

輕量化模型的普及，為硬件設計開辟了新方向：當模型參數與架構趨于穩定，不再需要高成本的動態內存來適配靈活迭代需求時，將算法直接嵌入芯片硬件的路線，便具備了商業落地的可行性。

硬編碼推理芯片：功耗、散熱與成本優勢凸顯

硬編碼推理芯片的出現，正是為了解決能效瓶頸。以Taalas為代表的企業，將模型參數固化在掩膜只讀存儲器（Mask ROM）中，利用片內靜態隨機存儲器（SRAM）處理動態數據，大幅減少外部內存的數據交互功耗，顯著提升單位功耗、單位成本下的token處理量。這類芯片核心優勢在于低延遲、低功耗、高吞吐，同時散熱與封裝設計也得以簡化。

不過，行業最為擔憂的問題，仍是硬件面對模型快速迭代時的靈活性不足。相較于可編程架構，專用硬編碼芯片可調整空間極小。這類產品必須應用在場景高度穩定、部署規模足夠龐大的領域，才能攤平一次性工程費用（NRE）。生態層面同樣存在壁壘：目前云市場仍以通用平臺為主，客戶也更傾向于選擇可跟隨模型同步升級的靈活方案。

為化解上述風險，廠商正搭建自動化模型轉芯片流程、預制晶圓方案，同時研發融合量化、LoRA微調技術的混合可編程架構，在硬編碼與靈活性之間尋求平衡，推動產品商業化落地。

長遠來看，在低延遲要求極高、部署場景封閉、模型架構穩定、數據隱私要求嚴苛且落地規模明確的領域，硬編碼技術將迎來快速發展。這類芯片可適配常規風冷機架，降低能耗與硬件投入，對云服務商及垂直領域集成商吸引力十足。反觀傳統依托軟件調度的專用集成電路（ASIC）廠商，則會在架構層面面臨性能壓力。

綜合來看，集邦咨詢認為，通用圖形處理器仍將主導模型訓練以及多模型混合運行的場景；而在業務成熟、運行規律可預判的推理場景中，專用架構芯片將逐步占據一席之地。二者并非替代關系，而是聚焦對能效、成本敏感度不同的細分領域。整個行業將逐步形成通用計算與專用計算并行發展的雙軌格局。

Taalas HC1：硬編碼推理方案的實踐樣本

2026年2月20日，加拿大AI芯片初創企業Taalas推出HC1芯片，該產品將Llama 3.1 8B模型直接硬編碼至硬件內部，單用戶推理吞吐達到每秒16960個token。

Taalas HC1采用臺積電N6工藝，無需搭載高帶寬內存，也不使用CoWoS封裝，單芯片熱設計功耗約250瓦，僅依靠風冷即可運行。據Taalas測算，在運行Llama 3.1 8B模型時，英偉達B200（吞吐優化版）每生成百萬token的成本為3.79美分，而Taalas HC1僅需0.75美分，成本約為前者的五分之一。

內置Llama 3.1 8B模型的Taalas HC1芯片

Taalas HC1運行Llama 3.1 8B模型的單用戶token吞吐表現

Taalas實現超高算力效率的核心，是采用存內計算（CIM）架構。該技術將計算單元集成在存儲器內部，數據可直接在存儲單元中完成運算，免去計算核心與內存之間的頻繁數據搬運，打破存儲墻瓶頸，同時降低運算過程中的額外延遲與功耗。

存內計算是什么？

1945年，數學家馮?諾依曼提出馮?諾依曼架構。此后芯片設計均沿用計算單元與存儲單元相互分離的結構，以此保障硬件具備更強的通用性與靈活性。

但隨著內存帶寬與算力的發展速度逐漸失衡，計算單元與內存之間的數據傳輸，逐漸成為性能提升的主要制約因素。存內計算（CIM）技術應運而生，目前已分化出數字存內計算（DCIM）、模擬存內計算（ACIM）、混合存內計算等多種技術形態。不過，適配存內計算的編程語言、底層軟件架構及各類應用尚未完全成熟，該技術整體仍處在發展初期。

存內計算技術類型對比表，涵蓋數字、模擬、混合存內計算的原理、精度與能效差異

相較于常規存內計算方案，Taalas的技術路線更為激進，秉持“模型即硬件”的設計理念，打造全硬件定義的AI核心架構，把模型參數直接固化在芯片的掩膜只讀存儲器中。這套方案既保留了存內計算低延遲、低功耗的優勢，也規避了當前存內計算軟件生態不完善的短板。

除了極致的算力效率，依托高密度只讀存儲器存儲模型參數，Taalas針對全新AI模型開發專用芯片時，僅需修改兩層掩膜，從模型轉化為實體芯片的周期可縮短至兩個月。同時芯片保留部分靜態隨機存儲器，用于存放鍵值緩存與LoRA微調參數，以此彌補硬編碼架構靈活性不足的問題。

Taalas的全硬件定義路線與Groq的全軟件定義路線，實現方式雖截然不同，但目標一致：盡可能實現靜態調度與全確定性運算，用動態靈活性換取極致運行效率。

推理芯片新時代：多條技術路線并行發展

除Taalas之外，越來越多專注于高效推理賽道的AI芯片初創企業相繼入局，包括 Tenstorrent、Groq、Cerebras、SambaNova、MatX、Untether AI、Hepzibah AI、Etched、d-Matrix、Positron AI、Axelera AI、FuriosaAI等。下文匯總了各家主流芯片參數規格。

高效AI推理芯片參數對比表

需要說明的是，行業普遍將存內計算（CIM）作為一類架構統稱，但各家具體實現方式差異極大。Taalas HC1將模型參數直接硬編碼至掩膜只讀存儲器，屬于純硬件定義方案；Etched旗下Sohu芯片同樣采用硬編碼架構，但可適配所有Transformer模型，靈活性更高；d-Matrix的Corsair芯片以數字存內計算為核心，將AI模型底層架構嵌入硬件，適配范圍更廣，靈活性優于Etched；Untether AI的Boqueria芯片采用近內存計算架構，將精簡指令集（RISC-V）處理器與運算單元直接集成在靜態隨機存儲器陣列中；Axelera AI的Metis人工智能處理器（AIPU）同樣搭載數字存內計算技術，由精簡指令集架構管控數據流轉。

d-Matrix Corsair芯片架構

Untether AI Boqueria芯片架構

2026年5月14日，當下推理芯片領域熱度最高的企業Cerebras正式于納斯達克上市。其核心技術為晶圓級集成，將整片12英寸晶圓封裝為單顆芯片（WSE-3），片內集成44GB靜態隨機存儲器，內存帶寬可達21PB/s。目前Cerebras已與OpenAI達成為期三年的算力合作，合作規模超200億美元，算力部署容量達750兆瓦。

Cerebras WSE-3芯片四級架構示意圖

現階段整個市場仍處于早期探索階段，多條技術路線同步推進，包括存內計算、靜態隨機存儲器優先架構、晶圓級集成、張量收縮處理器等。業內預計，未來推理芯片架構會逐步融合各類技術優勢，以此滿足AI推理場景對性能與能效的綜合要求。

*聲明：本文系原作者創作。文章內容系其個人觀點，我方轉載僅為分享與討論，不代表我方贊成或認同，如有異議，請聯系后臺。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.