推理變得比訓(xùn)練更重要：阿里 AI 調(diào)整背后的技術(shù)趨勢

2026-04-09 11:24:57　來源: 灑家君澤

上海舉報(bào)

分享至

推理經(jīng)濟(jì)的最終受益者，不是擁有最強(qiáng)芯片的人，而是擁有最多 Token 消耗場景的人，這對中國是個(gè)好消息。

Token 經(jīng)濟(jì)賣的每一個(gè) Token，都是一次推理調(diào)用。不是訓(xùn)練，不是微調(diào)——是推理。

4 月 8 日，阿里成立集團(tuán)技術(shù)委員會(huì)，三個(gè) CTO 級別的角色分管模型、基礎(chǔ)設(shè)施和推理平臺，推理平臺的負(fù)責(zé)人吳澤明同時(shí)擔(dān)任召集人——日常調(diào)度權(quán)在他手上。三周前，阿里剛剛組建了 Alibaba Token Hub 事業(yè)群，要求所有關(guān)聯(lián)業(yè)務(wù)圍繞 Token 進(jìn)行商業(yè)化。兩件事放在一起看，指向同一個(gè)判斷：在 Token 經(jīng)濟(jì)的鏈條上，推理是最緊迫的瓶頸。

這個(gè)判斷的經(jīng)濟(jì)學(xué)很簡單。訓(xùn)練是資本開支——花幾億美元跑幾個(gè)月，產(chǎn)出一組權(quán)重參數(shù)，完事。推理是運(yùn)營成本——每一個(gè)用戶的每一次提問、每一個(gè) Agent 的每一步執(zhí)行，都要消耗推理算力。訓(xùn)練像修路，推理像收費(fèi)站。路修一次，收費(fèi)站永遠(yuǎn)開著。

阿里不是唯一得出這個(gè)結(jié)論的人。黃仁勛在 GTC 2026 上提出"Token 工廠經(jīng)濟(jì)學(xué)"，稱 Token 將成為新的大宗商品，數(shù)據(jù)中心是生產(chǎn) Token 的工廠，每瓦吞吐量決定商業(yè)競爭力。他甚至說，未來工程師的薪酬將包含 Token 配額。

一家中國互聯(lián)網(wǎng)公司用組織架構(gòu)來回應(yīng)"推理優(yōu)先"，NVIDIA 用產(chǎn)品路線圖來回應(yīng)"推理優(yōu)先"。兩個(gè)完全不同的物種，得出了同一個(gè)結(jié)論。這已經(jīng)超出了技術(shù)迭代的范疇——AI 產(chǎn)業(yè)鏈的利潤分配方式正在被重寫。

推理成本在暴跌。a16z 的研究給這個(gè)趨勢取了個(gè)名字叫 LLMflation：同等性能的模型，推理成本每年下降約 10 倍。GPT-3 水平的推理，2021 年每百萬 Token 要 60 美元，到 2024 年降到了 0.06 美元——三年降了 1000 倍。Epoch AI 的數(shù)據(jù)更細(xì)致：不同任務(wù)的推理價(jià)格下降速度從每年 9 倍到 900 倍不等，取決于任務(wù)難度和模型更新節(jié)奏。

NVIDIA 的產(chǎn)品路線圖直接映射了這個(gè)趨勢。Blackwell 平臺把推理成本比上一代 Hopper 降了約 10 倍。2026 年下半年量產(chǎn)的 Vera Rubin 平臺承諾再降 10 倍——核心賣點(diǎn)不再是峰值算力，而是每 Token 成本。當(dāng)全球最大的 AI 芯片公司把定價(jià)敘事從"算力密度"轉(zhuǎn)向"Token 成本"，競爭維度已經(jīng)換了坐標(biāo)系。

但這里有一個(gè)反直覺的悖論：單位 Token 價(jià)格暴跌，企業(yè) AI 總支出反而在飆升。原因是 Agent。傳統(tǒng) chatbot 一輪對話消耗幾百個(gè) Token，一個(gè) Agent 工作流可能要消耗幾萬甚至幾十萬個(gè) Token——它需要多步推理、工具調(diào)用、上下文維護(hù)、錯(cuò)誤重試。OpenClaw 引爆的 Agent 浪潮讓 Token 消耗量以數(shù)量級上升。OpenRouter 平臺的數(shù)據(jù)顯示，2026 年初 Agent 類應(yīng)用的周度 Token 調(diào)用量出現(xiàn)了翻倍級增長，貢獻(xiàn)了平臺絕大部分增量。

Token 價(jià)格降了三個(gè)數(shù)量級，Token 消耗量升了三個(gè)數(shù)量級，兩條曲線對沖之后，企業(yè)的 AI 總賬單反而在變厚。推理已經(jīng)從成本項(xiàng)變成了核心基礎(chǔ)設(shè)施開支——就像電力之于工廠，你不會(huì)因?yàn)殡妰r(jià)下降就減少用電量，你會(huì)用更多電來跑更多機(jī)器。

推理產(chǎn)能因此成了整個(gè)行業(yè)的命門。關(guān)鍵問題不再是誰的模型最聰明，而是誰能以最低成本、最高效率、最穩(wěn)定地供應(yīng)推理算力。AWS 推 Inferentia 和 Trainium，Google 把 TPU v6e 做到讓 Midjourney 的月支出從 210 萬美元降到 70 萬美元，所有云廠商都在自研推理芯片——因?yàn)橥评硎浅掷m(xù)的運(yùn)營成本，誰能壓低這個(gè)成本，誰就在 Token 經(jīng)濟(jì)里占據(jù)優(yōu)勢位。

這個(gè)趨勢在中國有完全不同的含義。

美國對中國 AI 芯片的出口管制，打在了訓(xùn)練上，沒有完全打在推理上。

這不是偶然的。訓(xùn)練大模型需要最先進(jìn)制程的芯片、最高的算力密度、最大的顯存帶寬，需要成千上萬張卡通過高速互聯(lián)組成集群一起跑。制裁的每一條限制——算力上限、互聯(lián)帶寬限制、先進(jìn)制程封鎖——都精準(zhǔn)卡住了訓(xùn)練場景的關(guān)鍵瓶頸。

推理不一樣。推理對峰值算力的要求遠(yuǎn)低于訓(xùn)練，對成本效率和能效比的要求更高。一張訓(xùn)練卡要跑幾個(gè)月，一張推理卡可能同時(shí)服務(wù)幾千個(gè)用戶的請求。推理場景更看重吞吐量、延遲、每瓦性能——這些維度上的差距，比峰值算力的差距要小得多。

推理，是國產(chǎn)芯片替代最可能跑通的賽道。

本文僅供會(huì)員閱讀

后續(xù)內(nèi)容包括：

國產(chǎn)芯片的非對稱競爭策略推理經(jīng)濟(jì)重構(gòu) AI 產(chǎn)業(yè)利潤分配中國的優(yōu)勢在哪里

歡迎來我的知識星球

周二到周四，我將每天提供一份互聯(lián)網(wǎng)/科技/消費(fèi)等行業(yè)的觀察，可能是獨(dú)家消息，可能是趨勢分析，也可能是不方便在其他渠道公開的內(nèi)容。

星球初建，前 20 名成員將享受系統(tǒng)可能設(shè)定的最低價(jià) 50/年，之后隨著內(nèi)容增多，價(jià)格也會(huì)提高。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.