![]()
推理經(jīng)濟(jì)的最終受益者,不是擁有最強(qiáng)芯片的人,而是擁有最多 Token 消耗場景的人,這對中國是個(gè)好消息。
Token 經(jīng)濟(jì)賣的每一個(gè) Token,都是一次推理調(diào)用。不是訓(xùn)練,不是微調(diào)——是推理。
4 月 8 日,阿里成立集團(tuán)技術(shù)委員會(huì),三個(gè) CTO 級別的角色分管模型、基礎(chǔ)設(shè)施和推理平臺,推理平臺的負(fù)責(zé)人吳澤明同時(shí)擔(dān)任召集人——日常調(diào)度權(quán)在他手上。三周前,阿里剛剛組建了 Alibaba Token Hub 事業(yè)群,要求所有關(guān)聯(lián)業(yè)務(wù)圍繞 Token 進(jìn)行商業(yè)化。兩件事放在一起看,指向同一個(gè)判斷:在 Token 經(jīng)濟(jì)的鏈條上,推理是最緊迫的瓶頸。
這個(gè)判斷的經(jīng)濟(jì)學(xué)很簡單。訓(xùn)練是資本開支——花幾億美元跑幾個(gè)月,產(chǎn)出一組權(quán)重參數(shù),完事。推理是運(yùn)營成本——每一個(gè)用戶的每一次提問、每一個(gè) Agent 的每一步執(zhí)行,都要消耗推理算力。訓(xùn)練像修路,推理像收費(fèi)站。路修一次,收費(fèi)站永遠(yuǎn)開著。
阿里不是唯一得出這個(gè)結(jié)論的人。黃仁勛在 GTC 2026 上提出"Token 工廠經(jīng)濟(jì)學(xué)",稱 Token 將成為新的大宗商品,數(shù)據(jù)中心是生產(chǎn) Token 的工廠,每瓦吞吐量決定商業(yè)競爭力。他甚至說,未來工程師的薪酬將包含 Token 配額。
一家中國互聯(lián)網(wǎng)公司用組織架構(gòu)來回應(yīng)"推理優(yōu)先",NVIDIA 用產(chǎn)品路線圖來回應(yīng)"推理優(yōu)先"。兩個(gè)完全不同的物種,得出了同一個(gè)結(jié)論。這已經(jīng)超出了技術(shù)迭代的范疇——AI 產(chǎn)業(yè)鏈的利潤分配方式正在被重寫。
![]()
推理成本在暴跌。a16z 的研究給這個(gè)趨勢取了個(gè)名字叫 LLMflation:同等性能的模型,推理成本每年下降約 10 倍。GPT-3 水平的推理,2021 年每百萬 Token 要 60 美元,到 2024 年降到了 0.06 美元——三年降了 1000 倍。Epoch AI 的數(shù)據(jù)更細(xì)致:不同任務(wù)的推理價(jià)格下降速度從每年 9 倍到 900 倍不等,取決于任務(wù)難度和模型更新節(jié)奏。
NVIDIA 的產(chǎn)品路線圖直接映射了這個(gè)趨勢。Blackwell 平臺把推理成本比上一代 Hopper 降了約 10 倍。2026 年下半年量產(chǎn)的 Vera Rubin 平臺承諾再降 10 倍——核心賣點(diǎn)不再是峰值算力,而是每 Token 成本。當(dāng)全球最大的 AI 芯片公司把定價(jià)敘事從"算力密度"轉(zhuǎn)向"Token 成本",競爭維度已經(jīng)換了坐標(biāo)系。
但這里有一個(gè)反直覺的悖論:單位 Token 價(jià)格暴跌,企業(yè) AI 總支出反而在飆升。原因是 Agent。傳統(tǒng) chatbot 一輪對話消耗幾百個(gè) Token,一個(gè) Agent 工作流可能要消耗幾萬甚至幾十萬個(gè) Token——它需要多步推理、工具調(diào)用、上下文維護(hù)、錯(cuò)誤重試。OpenClaw 引爆的 Agent 浪潮讓 Token 消耗量以數(shù)量級上升。OpenRouter 平臺的數(shù)據(jù)顯示,2026 年初 Agent 類應(yīng)用的周度 Token 調(diào)用量出現(xiàn)了翻倍級增長,貢獻(xiàn)了平臺絕大部分增量。
![]()
Token 價(jià)格降了三個(gè)數(shù)量級,Token 消耗量升了三個(gè)數(shù)量級,兩條曲線對沖之后,企業(yè)的 AI 總賬單反而在變厚。推理已經(jīng)從成本項(xiàng)變成了核心基礎(chǔ)設(shè)施開支——就像電力之于工廠,你不會(huì)因?yàn)殡妰r(jià)下降就減少用電量,你會(huì)用更多電來跑更多機(jī)器。
推理產(chǎn)能因此成了整個(gè)行業(yè)的命門。關(guān)鍵問題不再是誰的模型最聰明,而是誰能以最低成本、最高效率、最穩(wěn)定地供應(yīng)推理算力。AWS 推 Inferentia 和 Trainium,Google 把 TPU v6e 做到讓 Midjourney 的月支出從 210 萬美元降到 70 萬美元,所有云廠商都在自研推理芯片——因?yàn)橥评硎浅掷m(xù)的運(yùn)營成本,誰能壓低這個(gè)成本,誰就在 Token 經(jīng)濟(jì)里占據(jù)優(yōu)勢位。
這個(gè)趨勢在中國有完全不同的含義。
![]()
美國對中國 AI 芯片的出口管制,打在了訓(xùn)練上,沒有完全打在推理上。
這不是偶然的。訓(xùn)練大模型需要最先進(jìn)制程的芯片、最高的算力密度、最大的顯存帶寬,需要成千上萬張卡通過高速互聯(lián)組成集群一起跑。制裁的每一條限制——算力上限、互聯(lián)帶寬限制、先進(jìn)制程封鎖——都精準(zhǔn)卡住了訓(xùn)練場景的關(guān)鍵瓶頸。
推理不一樣。推理對峰值算力的要求遠(yuǎn)低于訓(xùn)練,對成本效率和能效比的要求更高。一張訓(xùn)練卡要跑幾個(gè)月,一張推理卡可能同時(shí)服務(wù)幾千個(gè)用戶的請求。推理場景更看重吞吐量、延遲、每瓦性能——這些維度上的差距,比峰值算力的差距要小得多。
推理,是國產(chǎn)芯片替代最可能跑通的賽道。
本文僅供會(huì)員閱讀
后續(xù)內(nèi)容包括:
國產(chǎn)芯片的非對稱競爭策略 推理經(jīng)濟(jì)重構(gòu) AI 產(chǎn)業(yè)利潤分配 中國的優(yōu)勢在哪里
歡迎來我的知識星球
周二到周四,我將每天提供一份互聯(lián)網(wǎng)/科技/消費(fèi)等行業(yè)的觀察,可能是獨(dú)家消息,可能是趨勢分析,也可能是不方便在其他渠道公開的內(nèi)容。
星球初建,前 20 名成員將享受系統(tǒng)可能設(shè)定的最低價(jià) 50/年,之后隨著內(nèi)容增多,價(jià)格也會(huì)提高。
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.