網易首頁 > 網易號 > 正文申請入駐

當千億參數(shù)撞上5毫米芯片

2025-12-10 10:15:40　來源: 摩爾觀察

北京舉報

分享至

過去兩年，全球科技界仿佛被卷入了一場名為Scaling Law的宗教狂熱。在OpenAI和NVIDIA的布道下，所有人的目光都鎖定在參數(shù)量的指數(shù)級增長上。從175B到萬億參數(shù)，從H100到Blackwell，似乎算力就是正義，規(guī)模就是真理。投資人和媒體熱衷于討論GPT-5何時通過圖靈測試，仿佛只要堆足夠多的卡，硅基生命就會在云端的數(shù)據中心里自然涌現(xiàn)。

然而，在云端算力狂飆突進的背面，物理世界的工程界正面臨著一道嚴峻的高墻。

你一定有過這樣的體驗：對著智能音箱喊一聲“關燈”，它卻還要反應兩秒鐘，甚至因為Wi-Fi波動回你一句“網絡連接中，請稍后再試”。在那個尷尬的瞬間，所謂的人工智能，表現(xiàn)得還不如一個五塊錢的物理開關。

對于這種“云端依賴癥”，消費者頂多抱怨兩句。但對于自動駕駛、工業(yè)機器人、醫(yī)療急救設備這些“要命”的終端來說，完全依賴云端的“超級大腦”既不現(xiàn)實，也不安全。

想象一下，一輛時速100公里的自動駕駛汽車，在識別到前方有障礙物時，如果需要把數(shù)據上傳到千里之外的云計算中心，等待推理完成后再傳回剎車指令——光是數(shù)據在光纖里跑個來回的物理時間Latency，就足以釀成一場事故。更別提還有隱私泄露的風險：誰愿意把自己家里的攝像頭畫面、個人的醫(yī)療病歷，毫無保留地傳到公有云上？

于是，2025年的技術風向悄然逆轉。相比于云端那些遙不可及、每秒燒掉幾萬美金電費的“超級大腦”，工程界開始死磕一個更性感、也更艱難的命題：端側AI。

而這并不是一次簡單的“減配”，而是一場極度反人性的工程惡戰(zhàn)。我們要把那個吞噬幾千張顯卡算力的AGI，“暴力瘦身”塞進一顆面積僅數(shù)平方毫米、功耗僅幾瓦的端側芯片中，同時還要保持它的“智商”不掉線。

今天，我們剝離具體的商業(yè)包裝，從底層架構視角，來復盤這場發(fā)生在芯片與算法上的“腦科學”革命。

當140GB撞上幾百兆的物理極限

在討論怎么做之前，我們必須先理解端側AI面臨的物理極限，那簡直是一種令人絕望的算力悖論。

目前的通用大模型LLM是一個十足的“富貴病”患者，它對資源的索取是貪得無厭的。讓我們看一組數(shù)據：以一個70B即700億參數(shù)的模型為例，如果我們想要運行它，僅加載模型權重Weights就需要占用約140GB的顯存。這還只是“靜態(tài)”的占用，模型在推理過程中產生的KV Cache更是內存吞噬獸，且隨著對話長度的增加呈線性增長。

而在端側，現(xiàn)實是殘酷的。目前主流的車載芯片、智能家居SoC，甚至是你手中最新的旗艦手機，留給NPU的專用內存往往只有幾GB，摳門一點的入門級芯片甚至只有幾百MB。

要把140GB的龐然大物，塞進幾百MB的狹小空間里，這不僅是“把大象裝進冰箱”，簡直是“把整個國家圖書館的藏書，強行塞進一個隨身攜帶的公文包里”。而且，用戶還提出了一個更變態(tài)的要求：你必須在0.1秒內，從這個公文包里精準地翻出任意一本書的第32頁。

這就是端側AI面臨的不可能三角：高智商、低延遲、低功耗，三者難以兼得。

為了打破這個悖論，行業(yè)目前普遍達成了一個共識：未來的AI架構必須是“人格分裂”的——也就是“云-邊-端”三級分層架構。

單一的云端不夠快，單一的端側不夠強。未來的智能系統(tǒng)會像人類的神經系統(tǒng)一樣分工：云端是“大腦皮層”，部署千億級參數(shù)的Teacher Model，負責處理極其復雜的、不著急的長尾問題，比如寫一篇論文或者規(guī)劃一次長途旅行。端側是“脊髓”和“小腦”，直接運行在傳感器旁邊的芯片上，負責高頻、實時、隱私敏感的任務，比如語音喚醒、急救避障。

但問題來了：即便只做“脊髓”，現(xiàn)在的芯片也常常跑不動。如何在極小的參數(shù)規(guī)模下保留大模型的涌現(xiàn)能力？這成為了算法工程師面臨的頭號難題。

三把手術刀下的暴力美學

要在端側跑通大模型，算法工程師們不得不干起外科醫(yī)生的活，對模型進行一場精密的手術。這其實是一門關于“妥協(xié)”的藝術，在精度和速度之間尋找那個微妙的平衡點。目前的行業(yè)主流路徑，主要包含三把手術刀。

第一把刀是知識蒸餾。這是端側模型保持高智商的關鍵。我們不需要端側模型去閱讀所有的原始互聯(lián)網數(shù)據，那需要海量算力，我們只需要它學會“怎么思考”。所以，工程師讓云端的超大模型Teacher先學一遍，提煉出核心邏輯、特征分布和推理路徑，再“傳授”給端側的小模型Student。這就像是把一本百萬字的學術巨著，由教授濃縮成了一本幾千字的“學霸筆記”。行業(yè)內的一線實踐表明，通過這種方式，一個0.5B參數(shù)的小模型，在特定的垂直場景如座艙控制、家電指令中，其表現(xiàn)甚至能逼近通用的百億參數(shù)模型。它也許不會寫詩，但它絕對聽得懂“把空調調高兩度”。

第二把刀是極致量化。這可以說是工程界最“暴力”的美學。通用大模型通常使用FP16甚至FP32進行運算，精度極高，小數(shù)點后十幾位都保留著。但在端側，每一比特的存儲和傳輸都消耗電量。工程師們發(fā)現(xiàn)，大模型其實極其“魯棒”，砍掉一些精度并不影響大局。于是，他們通過PTQ訓練后量化或QAT量化感知訓練，將模型權重從FP16直接壓縮到INT8甚至INT4。這意味著，原本需要16車道的高速公路，現(xiàn)在只需要4車道就能跑通。模型體積瞬間壓縮了4倍以上，推理速度成倍提升。但這其中的難點在于“校準”——如何在壓縮精度的同時，不破壞模型的語義理解能力？這需要極其精細的數(shù)學調優(yōu)，防止某些關鍵的離群值被誤殺。

第三把刀是結構剪枝。神經網絡中存在大量“冗余”的連接，就像人類大腦中有些神經元并不活躍一樣。通過結構化剪枝，可以直接剔除那些對輸出結果影響微乎其微的參數(shù)，從而在物理層面減少計算量。

推倒那堵阻擋數(shù)據的內存墻

軟件層面的“瘦身”只是第一步，真正的硬仗在于硬件，也就是芯片架構。

如果你去問芯片設計師，大模型最讓他們頭疼的是什么？他們大概率不會說是“計算”，而是“訪存”。在傳統(tǒng)的馮·諾依曼架構下，計算單元和存儲單元是分離的。大模型跑起來時，數(shù)據就像早高峰的車輛，在內存DRAM和計算單元之間瘋狂往返。

這就好比一個廚師切菜速度極快，但他每切一刀，都要跑去隔壁房間的冰箱里拿一根蔥。結果就是，廚師大部分時間都在跑路，而不是在切菜。這就是著名的“內存墻”危機。在端側大模型推理中，甚至有超過80%的功耗不是花在計算上，而是花在“搬運數(shù)據”的路上。

這種尷尬逼出了全新的架構思路：DSA領域專用架構。

我們觀察到，像云知聲、地平線這些在端側深耕多年的硬科技企業(yè)，之所以能把芯片出貨量做到上億顆，核心就是不再迷信通用的CPU或GPU架構，而是針對Transformer模型搞起了“特權設計”。

首先是存算一體化的探索。既然廚師跑路太累，那就把冰箱搬進廚房，甚至直接把案板裝在冰箱門上。通過盡可能拉近存儲單元與計算單元的物理距離，甚至在SRAM中直接進行計算，極大地減少了數(shù)據搬運的“過路費”。

其次是異構計算調度。在SoC內部，搞起了精細分工：CPU負責流程控制，DSP負責信號處理如降噪，而將最繁重的矩陣乘法運算交給高度定制的NPU。

最關鍵的是算子硬化。針對大模型核心的Attention機制算法，芯片設計團隊直接在硅片上“刻死”了加速電路。這種做法雖然犧牲了通用性，但在處理大模型推理時，效率高得嚇人。這種“算法定義芯片”的策略，使得端側方案在處理語音喚醒、指令識別時，能夠做到毫秒級響應。這不僅是某一家企業(yè)的技術選擇，更是整個端側AI芯片行業(yè)為了突破摩爾定律瓶頸而達成的“妥協(xié)后的最優(yōu)解”。

從全知上帝到熟練工匠

除了在硬件上死磕，另一個更務實的路徑是：承認AI的局限性，從“通用”走向“專用”。

通用大模型往往因為什么都懂，導致什么都不精。它容易產生“幻覺”，一本正經地胡說八道。在寫科幻小說時這是創(chuàng)意，但在醫(yī)療診斷或工業(yè)控制中，這是災難。

這時候，像商湯醫(yī)療這類廠商的“平臺化”策略就顯得非常聰明。面對醫(yī)療行業(yè)數(shù)據復雜、算力受限的痛點，他們沒有試圖做一個全知全能的“AI醫(yī)生”，而是搭建了一個流水線，生產各種專精的“特種兵”。

通過將技術封裝為“模型生產平臺”，讓醫(yī)院基于自己的高質量數(shù)據，訓練出針對特定病種的專用模型。這種思路本質上是將AI從“全能博士”變成了“熟練技工”。

這種“小而美”的垂直智能體，需要的算力更少，但給出的診斷建議卻更靠譜。醫(yī)生不需要一個能寫代碼、能畫圖的AI，他們需要一個能精準讀懂CT片子、能快速整理病歷的助手。

同樣的邏輯也發(fā)生在云知聲的產業(yè)路徑中：不在通用大模型的紅海里燒錢，而是通過在醫(yī)療、家居等垂直領域的深耕，打磨端側技術與芯片，賺取數(shù)據反饋，進而反哺基礎研究。

這殊途同歸的背后，是整個中國AI產業(yè)的集體覺醒：不再盲目追求參數(shù)規(guī)模的“大”，而是轉向追求應用落地的“實”。

最后

在媒體的聚光燈下，大家熱衷于討論OpenAI的Sora如何震驚世界，或者為GPT-5何時通過圖靈測試而爭論不休，并總將AGI與‘毀滅人類’的宏大敘事綁定。

但在聚光燈照不到的角落，在深圳的華強北，在蘇州的工業(yè)園，在上海的張江，成千上萬的工程師正在做著更枯燥、但或許更具顛覆性的工作：將AI的價格打下來，將AI的體積縮下去。

從云端到端側，從通用到垂直，這不僅是技術架構的演進，更是AI價值觀的回歸。

真正的“萬物智能”，不是每個人都必須要時刻連接到一個全知全能的上帝般的云端大腦。而是萬物——無論是你手邊的空調、車里的儀表盤，還是醫(yī)院里的CT機，都擁有一顆雖然微小、但足夠聰明、足夠獨立的“芯”。

當一顆幾十塊錢的芯片，能跑得動擁有邏輯推理能力的大模型，且不再依賴那根脆弱的網線時，智能時代的奇點才算真正到來。

科技不應該只是服務器里的幽靈，它應該以最硬核、最靜默的方式，嵌入我們生活的每一塊玻璃、每一顆芯片里，靜水流深。

聲明：個人原創(chuàng)，僅供參考

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.