![]()
圖文原創(chuàng):親愛的數(shù)據(jù)
AI已經(jīng)是一個(gè)徹底圍繞Token的生意了,
或者說,Token經(jīng)濟(jì)學(xué)就是推理經(jīng)濟(jì)學(xué),
我認(rèn)為,今時(shí)今日的AI,
連這種基礎(chǔ)設(shè)施層的東西(比如網(wǎng)絡(luò)),
都和業(yè)務(wù)理念融為一體了,
這真是一個(gè)大趨勢。
而TPN本身就是這個(gè)趨勢的產(chǎn)物。
TPN架構(gòu)的全稱是:
Token Performance Network。
怎么描述我的感受呢?
一個(gè)網(wǎng)絡(luò)架構(gòu)用業(yè)務(wù)術(shù)語—
Token來命名自己,
這在以前是不可想象的。
只能說,阿里云的TPN,
是一個(gè)現(xiàn)象級(jí)的事件。
TPN 的命名本身就很有意思,
網(wǎng)絡(luò)團(tuán)隊(duì)不再說"我的帶寬是多少",
開始說"我的Token產(chǎn)能是多少"。
文章開頭那么只能解釋這么多了,
趕緊上車吧。
![]()
為什么大神Jeff Dean在GTC 2026上,
會(huì)強(qiáng)調(diào)這樣一句話?
『Agent一旦開始長時(shí)間自主運(yùn)行,
超低時(shí)延的推理就會(huì)變得關(guān)鍵。』
這里有個(gè)技術(shù)術(shù)語,
超低時(shí)延是Ultra-low-latency inference。
這話啥意思?
作為寫了AI基礎(chǔ)設(shè)施九年的人,
我恨不得,
把Jeff Dean大神說的每一句技術(shù)評(píng)價(jià),
都盡可能的理解了。
![]()
你問一個(gè)問題,模型想了想,總要花點(diǎn)時(shí)間。
只要?jiǎng)e太磨蹭,都能接受。
現(xiàn)在換成Agent,
則是另一個(gè)游戲規(guī)則。
Agent一旦長時(shí)間自己跑起來,
每一步的"思考速度"就變得生死攸關(guān)。
比如,一個(gè)任務(wù)可能跑200輪。
中間都是它自己玩,
每一輪都有延遲,
直接疊加成總時(shí)間,
反正時(shí)間總是越加越長。
如果每一輪推理需要2秒,
200輪就是400秒。
7分鐘光花在"思考"上。
真是太棒了,
這時(shí)候人類老板就會(huì)說,
你能不能干?
不能干有的是智能體能干。
再看"超低時(shí)延(ultra-low-latency)"這個(gè)詞。
為什么他用這個(gè)詞,
不是"低延遲就行",而是"必須超低延遲"。
我贊成使勁卷AI,
以免來卷我。
看看英偉達(dá)的Bill哥(BillDally)怎么回應(yīng)的,
Bill哥說,大部分延遲實(shí)際上來自通信。
Bill哥還說,"推理不是剛剛開始變得重要。
推理現(xiàn)在就是核心任務(wù)。
數(shù)據(jù)中心里90%的機(jī)器都花在推理上了。
反正在AI市場上,
英偉達(dá)公司高管說啥都有幾份道理。
你就湊合聽一聽,
觀察和獨(dú)立判斷更重要。
比如,你看,英偉達(dá)的Groq 3 LPU芯片,
是專門為其中一個(gè)階段(Decode)設(shè)計(jì)的,
而不是AI生產(chǎn)的全階段。
于是,市場上有了"為特定推理階段定制的芯片"。
所以,這個(gè)趨勢不只發(fā)生在網(wǎng)絡(luò)層,
其實(shí)整個(gè)AI全棧都在經(jīng)歷同樣的融合。
![]()
為什么2026年突然冒出一個(gè)TPN?
因?yàn)橛螒蛞?guī)則變了。
2022到2025年,行業(yè)的核心焦慮是:
"模型能不能訓(xùn)出來"。
所以以前(HPN)的哲學(xué)是,
"不惜代價(jià)把性能拉滿",
現(xiàn)在(TPN)的哲學(xué)是,
"在保住Token產(chǎn)(性)能的前提下,
把成本壓下來"。
所以TPN不是HPN的升級(jí)版,
是另一個(gè)物種。
TPN是網(wǎng)絡(luò)層的證據(jù),
Groq LPU是芯片層的證據(jù),
KV-Cache分層存儲(chǔ)是存儲(chǔ)層的證據(jù)。
整個(gè)AI Infra軟件棧,
收斂成"一切為Token服務(wù)"。
這真是一場深刻的變化。
你不細(xì)看,確實(shí)會(huì)錯(cuò)過。
再看組織團(tuán)隊(duì)的KPI變化,
長久以來,
網(wǎng)絡(luò)團(tuán)隊(duì)的KPI是帶寬、時(shí)延、丟包率。
推理業(yè)務(wù)團(tuán)隊(duì)的KPI是三個(gè)新指標(biāo),
TPOT,是Token之間延遲
Goodput,有效Token吞吐
Cost perToken,每個(gè)Token成本。
在下一節(jié)會(huì)展開。
我看到,新指標(biāo)把所有人的目標(biāo)都統(tǒng)一了。
老掉牙的故事是,
兩撥人目標(biāo)不同,開不同的會(huì),各干各的。
但是,有一天坐下來一起開會(huì)的時(shí)候,
發(fā)現(xiàn)一個(gè)問題:
網(wǎng)絡(luò)團(tuán)隊(duì)說:"我們把交換機(jī)升級(jí)了,
帶寬翻倍了"。
推理業(yè)務(wù)團(tuán)隊(duì)說:"用戶還是覺得慢"。
兩邊看著對方,陷入沉默中。
這肯定是不行。
阿里云已經(jīng)回應(yīng)這種變化了,
TPN就是直接證據(jù),
網(wǎng)絡(luò)團(tuán)隊(duì)不再說"我的帶寬是多少",
而是開始說:"我的Token產(chǎn)能是多少"。
網(wǎng)絡(luò)的度量單位從比特變成了Token。
這不是換個(gè)名詞的問題,
是新故事的邏輯全部重寫了,
邏輯包括優(yōu)化目標(biāo)、架構(gòu)設(shè)計(jì)、資源調(diào)度。
以前網(wǎng)絡(luò)優(yōu)化一條鏈路,
不需要知道上面跑的是什么業(yè)務(wù)。
現(xiàn)在網(wǎng)絡(luò)必須知道,
這條鏈路搬的是KV-Cache嗎?
這是在推理prefill,還是在推理decoding?
![]()
回到討論的主線,
為什么要看新指標(biāo)?
第一,TPOT(Token之間延遲),
第二,Goodput(有效Token吞吐),
第三,Cost per Token(每個(gè)Token成本)
舊陣營要邁往新陣營,就是靠指標(biāo)來導(dǎo)向。
這些指標(biāo)并不是以前完全沒有,
而是重要性今非昔比。
第一個(gè)指標(biāo):TPOT,是Token之間延遲。
一個(gè)Agent跑一個(gè)任務(wù),
燒1000個(gè)Token,
每個(gè)Token之間隔一小段時(shí)間,
這就是TPOT。
TPOT長,任務(wù)就慢;
TPOT短,任務(wù)就快。
就這么簡單。
原來跑完要一小時(shí),TPOT壓縮一半,半小時(shí)干完。
怎么搞呢?
其中一個(gè)關(guān)鍵就是KV-Cache搬得快。
PD分離之后,這些東西不在一起了,
要通過網(wǎng)絡(luò)從另一臺(tái)機(jī)器搬過來。
搬得慢,就等著。
第二個(gè)指標(biāo)Goodput,
是有效Token吞吐。
"有效"這個(gè)詞確實(shí)有兩層含義,不能混在一起。
第1層:基礎(chǔ)設(shè)施層面的"有效"
這個(gè)"有效"關(guān)注的是,
"Token 吐得夠不夠快、夠不夠穩(wěn)"。
跟網(wǎng)絡(luò)強(qiáng)相關(guān),網(wǎng)絡(luò)抖動(dòng)一次,
Goodput就低一分。
第2層:業(yè)務(wù)層面的"有效"
你說的是另一個(gè)維度,
生成出來的Token 是不是用戶真正需要的。
『喂妖妖零嗎?
這個(gè)AI動(dòng)不動(dòng)給我1000個(gè)字的廢話。
我要取消訂閱』。
對于Agent來說,100個(gè)Agent 里面,
有15個(gè)跑得慢,
但要100個(gè)Agent全部跑完才能下一步,
這也拖慢了業(yè)務(wù),
Goodput 對網(wǎng)絡(luò)的要求不是『平均快』,
是『每一次都快』。
第三個(gè)指標(biāo)Cost per Token,
就是每個(gè)Token成本。
和錢有關(guān)好理解,
就是直播間里的主播說的,把價(jià)格打下來。
就一句話:同樣的電費(fèi)、同樣的卡,
能多吐幾個(gè)Token,
每個(gè)Token就便宜幾分錢。
GPU上電就燒錢,
不管它在算Token還是在等數(shù)據(jù),
電表都在轉(zhuǎn)。
所以Cost per Token的關(guān)鍵,
不是GPU貴不貴,
是GPU閑不閑。
單位產(chǎn)能高,成本就越低。
同樣的時(shí)間下,總產(chǎn)能上不去,
單位產(chǎn)能不可能高。
![]()
三個(gè)指標(biāo)的屬性是啥?
1.TPOT(Token之間延遲)
是體驗(yàn)指標(biāo),度量用戶感受。
2.Goodput(有效Token吞吐)是效率指標(biāo),
體驗(yàn)達(dá)標(biāo)前提下的最大承載量。
3.Cost per Token是經(jīng)濟(jì)指標(biāo),商業(yè)可行性。
終極優(yōu)化目標(biāo):
在Cost per Token最低的前提下,
最大化有效Token的吞吐(Goodput)。
舊思路是:
假設(shè)網(wǎng)絡(luò)性能強(qiáng)了,用戶體驗(yàn)就好了。
新思路是:
先定義用戶需要什么體感,
反推網(wǎng)絡(luò)需要做到什么。
比如,文本的TPOT小于50ms,
語音的TPOT小于10ms。
舊思路下網(wǎng)絡(luò)團(tuán)隊(duì)可以自己猛猛優(yōu)化。
新思路下必須跟推理業(yè)務(wù)坐在一起。
即便是以前老指標(biāo)都上了新臺(tái)階,
并不代表推理業(yè)務(wù)部門,
也就是推理集群使用者的用戶體驗(yàn),
我們現(xiàn)在要和他們一起共同制定指標(biāo)。
網(wǎng)絡(luò)很牛逼,使用者無體感。
思路徹底轉(zhuǎn)向關(guān)注于『體感』,
先做到體感優(yōu),再此基礎(chǔ)上降低成本。
結(jié)論很清楚了,這是一個(gè)Token為中心的世界。
網(wǎng)絡(luò)的技術(shù)考量都融進(jìn)去了。
![]()
按這個(gè)趨勢,
AI基礎(chǔ)設(shè)施團(tuán)隊(duì)?wèi)?yīng)該長這樣:
不再有孤島似的,
"網(wǎng)絡(luò)團(tuán)隊(duì)""存儲(chǔ)團(tuán)隊(duì)""計(jì)算團(tuán)隊(duì)"。
取而代之的是"Token生產(chǎn)團(tuán)隊(duì)"
你看,順著我的邏輯,
是不是覺得阿里這次組織架構(gòu)調(diào)整,
是如此的順理成章。
這是一個(gè)在AI浪潮下激流勇進(jìn)的團(tuán)隊(duì)。
26年3月16日,
阿里巴巴正式成立ATH事業(yè)群,
目標(biāo):創(chuàng)造Token(通義模型訓(xùn)練),
輸送Token(MaaS模型推理),
應(yīng)用Token(千問+悟空+創(chuàng)新),
AI的基礎(chǔ)設(shè)施是阿里云與平頭哥。
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.