網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

萬字解讀 | Token 要成新貨幣了，但你真的知道它是什么嗎？

2026-03-30 09:15:12　來源: 灑家君澤

上海舉報(bào)

分享至

黃仁勛說，Token 會(huì)是一個(gè)萬億美元產(chǎn)業(yè)的基礎(chǔ)，但很少人真的理解，到底什么是 Token。

馬俊杰是中國內(nèi)地知名男藝人，現(xiàn)為時(shí)代少年團(tuán)隊(duì)長(zhǎng)、主場(chǎng)兼 C 位，2002 年 12 月 12 日出生于河南鄭州。

剛剛那段話是從某個(gè) AI 大模型工具里復(fù)制粘貼下來的，是關(guān)于問題「馬嘉祺是誰」的回答。

沒錯(cuò)，是馬嘉祺，但 AI 會(huì)自動(dòng)替換成「馬俊杰」，有時(shí)候也會(huì)替換成「馬杰倫」、「馬祺祺」等。

可能有朋友說，這就是 AI 在胡編亂造。還真不是，除了名字以外，其他的信息都非常正確。

作為人類我們也會(huì)有類似的事情，經(jīng)常我們會(huì)說，「你記不記得那個(gè)誰，就那個(gè)誰，練習(xí)時(shí)長(zhǎng)兩年半，喜歡唱、跳、Rap、籃球，哎叫啥來著」。

就是你能說出很多精準(zhǔn)的細(xì)節(jié)，但就是想不起那個(gè)名字，這在心理學(xué)上叫「舌尖現(xiàn)象」。

我們說話時(shí)大腦要走兩個(gè)步驟：第一步，語義提取——大腦鎖定了這個(gè)「東西」的所有屬性，長(zhǎng)相、功能、感覺。第二步，音韻提取——大腦去「檔案柜」里找對(duì)應(yīng)的那個(gè)名字發(fā)音。

舌尖現(xiàn)象的核心在于：你已經(jīng)完成了第一步（理解了它），但卡在了第二步（沒找到那個(gè)詞）。因?yàn)槲覀內(nèi)祟惥褪且热ダ斫馐澜纾缓蟛拍苋ケ磉_(dá)世界。

這個(gè)事情再繼續(xù)討論下去，就是維特根斯坦那句「我語言的局限，意味著我世界的局限。」這就會(huì)變得很復(fù)雜，但我想知道的是，那 AI 呢？「馬嘉祺」這樣的錯(cuò)誤，是不是也跟它如何理解世界有關(guān)系？

AI 理解世界，跟人差不多是正好相反的。我特別簡(jiǎn)化地來說，人是得先有具體的東西，然后才有一張?jiān)~匯表；AI 是先有一張?jiān)~匯表，然后去找對(duì)應(yīng)的描述和概念。

這么說比較抽象，我舉個(gè)例子。

小時(shí)候，你看到一個(gè)紅色的、帶小點(diǎn)的東西。你摸到它坑洼的表皮，聞到那股特殊的清香，咬下去感受到酸甜的汁水。你的大腦里形成了一個(gè)關(guān)于這個(gè)事物的完整綜合體——顏色、形狀、氣味、味覺、手感。大人們告訴你，這個(gè)綜合體叫「草莓」。

當(dāng)你突然說不出「草莓」這兩個(gè)字時(shí)，你腦子里依然有那個(gè)紅色的影子、那個(gè)味道、那種口感。

但 AI 不一樣。

AI 的「大腦」——也就是模型——里先有一張巨大的清單，里面有個(gè)詞匯叫「草莓」，或者 strawberry。AI 在訓(xùn)練中讀了億萬次帶有 strawberry 的句子，它發(fā)現(xiàn) strawberry 經(jīng)常和 red、sweet、fruit 出現(xiàn)在一起。通過這些統(tǒng)計(jì)概率，AI 在自己的數(shù)學(xué)模型里「拼湊」出了一個(gè)關(guān)于草莓的描述。它并沒有真的見過、聞過、嘗過草莓，它只是通過這個(gè)標(biāo)簽背后的數(shù)據(jù)關(guān)聯(lián)，「模擬」出了它應(yīng)該是什么樣子。

甚至，在 AI 的詞匯表里，都沒有「草莓」或者「strawberry」這個(gè)詞，它有的只是一串編號(hào)，我隨便說，這個(gè)編號(hào)可能是 23764。這個(gè)編號(hào)，就叫做 Token，也就是大模型理解世界的開始。

用大模型，尤其最近裝小龍蝦 OpenClaw 的人，對(duì)這個(gè)詞肯定非常熟悉。不管你在 AI 里做什么，都需要消耗 Token，很多大模型也都是按 Token 計(jì)費(fèi)的。每次你跟 ChatGPT 對(duì)話、用 Claude Code 寫代碼、讓 AI 幫你翻譯一段話，你消耗的就是 Token。你買的會(huì)員，本質(zhì)上是在買 Token 的額度。

現(xiàn)在 Token 這個(gè)詞已經(jīng)大大超過了科技里的含義，有的人說 Token 可以當(dāng)員工福利，還有的人說 Token 可以當(dāng)工資——當(dāng)然了，說這話的無一例外都是老板。而更大的老板，NVIDIA 的 CEO 黃仁勛在 2026 年 3 月 17 號(hào) GTC 大會(huì)上說了一句話：Token 將會(huì)是一個(gè)萬億美元市場(chǎng)的基礎(chǔ)。萬億。Trillion.

最近，Token 也有了中文譯名，叫詞元。這個(gè)翻譯我覺得并不好，原因后面會(huì)說。不過為 Token 尋找中文譯名這個(gè)行為本身，說明這個(gè)詞的影響正在超出從業(yè)人士而走向大眾——一個(gè)中文名字總比英文名字用起來方便，而且更方便出現(xiàn)在各類政策、規(guī)定甚至法律當(dāng)中。

為了方便，在這里我們依然還是叫 Token。那問題是，Token 到底是什么？

現(xiàn)在常見的用法，Token 有三個(gè)含義。

一個(gè)是令牌的意思，就是你登錄一個(gè)網(wǎng)站之后，服務(wù)器發(fā)給你的一串隨機(jī)字符，證明「這個(gè)人驗(yàn)證過了」。它本身沒有任何含義，但代表了你的身份。這個(gè)概念從 1970 年代就有了。

第二個(gè)是加密貨幣里的 Token，也就是代幣。2017 年 ICO 熱潮的時(shí)候，這個(gè)詞幾乎天天上新聞。各種加密貨幣、數(shù)字代幣，本質(zhì)上就是一串代碼，沒有任何物理實(shí)體，但代表了某種價(jià)值。

第三個(gè)，就是我們今天要聊的——AI 大模型里的 Token。如果用最簡(jiǎn)單的話來概括，Token 是語言的替代物。

要搞清楚 Token 是怎么變成今天這個(gè)樣子的，我們得從頭講起。

1906 年，美國哲學(xué)家查爾斯·桑德斯·皮爾士（Charles Sanders Peirce）在一篇論文里提出了一個(gè)區(qū)分，叫 Type-Token distinction（類型-標(biāo)記區(qū)分）。

皮爾士是干什么的呢？他是美國符號(hào)學(xué)的奠基人，也是一個(gè)邏輯學(xué)家。他當(dāng)時(shí)在做一件很有野心的事情：發(fā)明一套用圖形來做邏輯推理的系統(tǒng)，他管它叫「存在圖」（Existential Graphs）。

這個(gè)理論極其復(fù)雜，沒辦法在這里展開講。簡(jiǎn)單來說，皮爾士試圖把人類的邏輯都用圖示的方式表達(dá)出來。就像將軍打仗要看地圖一樣——皮爾士自己就舉過這個(gè)例子——你不會(huì)說「國土就在那里啊，要地圖干什么？」地圖讓你看到地形里隱藏的關(guān)系，邏輯圖讓你看到思維里隱藏的關(guān)系。

在存在圖里，基本上就是圈圈套圈圈的形式，但它遇到一個(gè)問題。比如他在圖上畫了一個(gè)圓圈，代表「否定」。然后他在另一個(gè)地方又畫了一個(gè)圓圈，也代表「否定」。現(xiàn)在問題來了——這是「兩個(gè)圓圈」還是「同一個(gè)圓圈出現(xiàn)了兩次」？

如果你說是兩個(gè)圓圈，那它們之間是什么關(guān)系？它們?yōu)槭裁匆馑家粯樱咳绻阏f是同一個(gè)圓圈出現(xiàn)了兩次，那那個(gè)「同一個(gè)」的圓圈在哪里？它不在紙上的任何一個(gè)具體位置。

這不是在抬杠。對(duì)于一個(gè)試圖把邏輯推理嚴(yán)格形式化的人來說，這是一個(gè)地基級(jí)別的問題。如果你連「這個(gè)圖上有幾個(gè)東西」都說不清楚，你怎么去定義推理規(guī)則？

皮爾士用了一個(gè)很日常的例子來解釋他的解決方案。他說，你翻開一本書，一頁紙上大概有二十個(gè) 「the」。如果你在數(shù)這本書有多少字，那這二十個(gè) the 就是二十個(gè)詞。但從另一個(gè)意義上說，英語里只有一個(gè) 「the」。那二十個(gè)只是它的二十次出現(xiàn)。

那個(gè)唯一的、抽象的「the」——不存在于任何一頁紙上、不能被任何聲音說出來的那個(gè) 「the」——皮爾士叫它 Type（類型）。而紙上每一個(gè)具體的、印在那個(gè)位置的 the，他叫它 Token（標(biāo)記）。

Type 是規(guī)則，Token 是實(shí)例。Type 是抽象的形式，Token 是那個(gè)形式每一次具體的、物理的顯現(xiàn)。

用他自己的話說——Type 不存在，但它決定了存在的東西。

這個(gè)區(qū)分解決了他的問題。從此他可以精確地說：邏輯圖上的一個(gè)符號(hào)是一個(gè) Token——一個(gè)特定位置上的具體實(shí)例；而這個(gè)符號(hào)所遵循的規(guī)則是一個(gè) Type——一個(gè)不依賴于任何具體位置的一般法則。兩個(gè)圓圈是兩個(gè) Token，但它們是同一個(gè) Type 的兩次出現(xiàn)。

那這個(gè)區(qū)分的效果怎么樣？

說實(shí)話，皮爾士的存在圖在他活著的時(shí)候幾乎沒有引起什么反響。他的論文寫得太晦澀了，而且那個(gè)年代數(shù)學(xué)家和邏輯學(xué)家們更習(xí)慣用線性的代數(shù)符號(hào)來做推理，覺得畫圖是繞遠(yuǎn)路。

但皮爾士無意間抓住了一個(gè)比邏輯圖更根本的問題：任何符號(hào)系統(tǒng)——不管是語言、代碼還是邏輯——都同時(shí)存在于兩個(gè)層面。一個(gè)是抽象的規(guī)則層面，一個(gè)是具體的實(shí)例層面。你必須同時(shí)追蹤這兩個(gè)層面，否則你什么都說不清楚。

于是 Type-Token 這對(duì)概念被其他領(lǐng)域的人拿走了。1930 年代，哈佛的語言學(xué)家齊普夫（George Zipf）用 Token 來數(shù)每一個(gè)詞每一次出現(xiàn)，用 Type 來分類每一個(gè)不重復(fù)的詞形，然后把詞按頻率從高到低排列。

他發(fā)現(xiàn)了一個(gè)規(guī)律——排名第一的詞出現(xiàn)的次數(shù)，大約是排名第二的兩倍，是排名第三的三倍，是排名第一百的一百倍。排名乘以頻率，幾乎是一個(gè)常數(shù)。這就是齊普夫定律（Zipf‘s Law）。它不只是英語的規(guī)律——中文、法語、日語、拉丁語，幾乎所有人類語言都服從同一個(gè)分布。

緊接著，1944 年，心理學(xué)家約翰遜提出了 Type-Token Ratio（類型-標(biāo)記比）——用來衡量一段文本的詞匯豐富度。這個(gè)指標(biāo)到今天還在用。皮爾士那個(gè)「一頁紙上有幾個(gè) the」的哲學(xué)問題，就這樣變成了可以量化、可以畫曲線、可以發(fā)現(xiàn)規(guī)律的科學(xué)工具。

然后，計(jì)算機(jī)來了。

1960 年代，編譯原理。這是 Token 在數(shù)字世界的第一次生命——它成了語法的替身。

當(dāng)你寫下一行代碼——比如「int x = 5;」——計(jì)算機(jī)并不能直接讀懂它。編譯器做的第一件事，就是把這行代碼切碎。「int」是一個(gè) Token，代表「整數(shù)類型」。「x」是一個(gè) Token，代表變量名。「=」是一個(gè) Token，代表賦值。「;」也是一個(gè) Token，代表語句結(jié)束。

編譯器不理解代碼的「意思」。它只需要把連續(xù)的字符流切成一個(gè)個(gè)有身份的小單元，再按規(guī)則組裝。這個(gè)過程就叫 tokenization（詞法分析）。

有意思的是，編譯器里的 tokenization 和皮爾士的 Type-Token 完全對(duì)應(yīng)。編譯器先定義一套 Type——關(guān)鍵字、加減乘除這些運(yùn)算符號(hào)、變量名這些類別——然后在代碼中識(shí)別出每一個(gè) Token，也就是這些 Type 的每一次具體出現(xiàn)。第一個(gè)「int」和第一百個(gè)「int」是同一個(gè) Type 的不同 Token——和皮爾士數(shù) 「the」的邏輯一模一樣。

到這里，就和我們現(xiàn)在使用的 Token 意思基本差不多了——都是把一種語言分割，然后方便計(jì)算機(jī)識(shí)別。但還有一個(gè)問題是之前沒有遇到的：到底怎么分割自然語言？

編譯器切代碼，其實(shí)是很幸福的一件事。因?yàn)榇a是人造的，它有嚴(yán)格的語法規(guī)則。「int」就是「int」，分號(hào)就是分號(hào)，空格就是分隔符。你不需要猜，規(guī)則——也就是那個(gè) Type——已經(jīng)預(yù)先確定好了，替你決定了從哪里切。

但自然語言不是人造的。或者說，它是幾十億人在幾萬年里「合造」的，沒有人坐下來寫過一份規(guī)格說明書。

英語還好一點(diǎn)。單詞之間有空格，你至少知道從哪里切。「I love cats」三個(gè)詞，三個(gè) Token，清清楚楚。

但這個(gè)「按空格切」的方案，一碰到現(xiàn)實(shí)就碎了。三堵墻同時(shí)堵在路上。

第一堵墻：詞表爆炸。英語里 cat 是一個(gè)詞，cats 是一個(gè)詞，love、loved、loving 也都各是一個(gè)詞。如果每個(gè)詞形都算一個(gè)獨(dú)立的 Token，英語光是有記錄的詞形就有幾十萬個(gè)。德語更夸張，它可以把幾個(gè)詞黏在一起變成一個(gè)超長(zhǎng)的復(fù)合詞——你可能見過那個(gè)著名的例子，Rindfleischetikettierungsüberwachungsaufgabenübertragungsgesetz。這是一個(gè)關(guān)于牛肉標(biāo)簽監(jiān)管職責(zé)轉(zhuǎn)讓的法律用語，六十三個(gè)字母黏在一起算一個(gè)詞。你的詞表要不要收錄它？如果要收錄，那類似的復(fù)合詞有多少個(gè)？詞表需要無限大。

第二堵墻：未登錄詞。你用訓(xùn)練數(shù)據(jù)建了一張?jiān)~表，里面有十萬個(gè)詞。然后用戶輸入了一個(gè)不在詞表里的詞——一個(gè)品牌名、一個(gè)網(wǎng)絡(luò)流行語、一個(gè)拼寫錯(cuò)誤。怎么辦？早期的做法是把所有不認(rèn)識(shí)的詞統(tǒng)一標(biāo)記成一個(gè)特殊符號(hào)「UNK」，意思是「未知」。這就形成了一個(gè)悖論：比如「蔡徐坤」不在詞表里，你去問 AI「我想了解蔡徐坤」，AI 看到的是「我想了解 UNK 」。你整句話里最關(guān)鍵的那個(gè)信息，對(duì) AI 來說是一片空白。

第三堵墻：很多語言沒有空格。中文沒有空格，日語沒有空格，泰語沒有空格。全世界大多數(shù)人說的語言，詞和詞之間是不分開寫的。比如「乒乓球拍賣了多少錢」，從哪里切？乒乓球、拍、賣，還是乒乓球、拍賣？「了」算一個(gè)詞還是一個(gè)語法標(biāo)記？這不是一個(gè)有標(biāo)準(zhǔn)答案的問題。中文分詞到今天都是自然語言處理里的經(jīng)典難題。

所以你看，「按空格切」這個(gè)最直覺的方案，只在很有限的條件下管用。

大家想了別的辦法。往上走，詞干提取，把 cats 還原成 cat，把 loving 還原成 love，這樣詞表就小了。但你得為每種語言手寫規(guī)則，英語的不適用于德語，德語的不適用于中文，對(duì)非歐洲語言基本沒用。往下走，按字母切。「hello」切成 h、e、l、l、o，詞表只有 26 個(gè)字母加一些符號(hào)，絕對(duì)不會(huì)爆炸，也絕對(duì)不會(huì)碰到未登錄詞。但代價(jià)巨大——序列太長(zhǎng)了。一個(gè)句子按詞切只有 50 個(gè) Token，按字母切可能有 300 個(gè)。序列越長(zhǎng)，訓(xùn)練越慢，效果越差。

上也不通，下也不通，中間也沒有通用的方案。

直到 2016 年。

2015 年到 2016 年，神經(jīng)機(jī)器翻譯——就是用深度學(xué)習(xí)做翻譯——正在快速崛起。Google、百度都在押注這個(gè)方向。效果比傳統(tǒng)的統(tǒng)計(jì)翻譯好了一大截，但有一個(gè)問題始終解決不了：生詞。

神經(jīng)翻譯模型需要一張固定的詞表，通常是三萬到五萬個(gè)詞。但翻譯天生就是一個(gè)開放詞匯的問題——你永遠(yuǎn)不知道用戶會(huì)輸入什么。一個(gè)德國城市的名字、一個(gè)新成立公司的名字、一個(gè)剛發(fā)明的科學(xué)術(shù)語，只要它不在詞表里，模型就只能輸出「UNK」——「我不認(rèn)識(shí)」。

之前的解決辦法是「查詞典兜底」——碰到不認(rèn)識(shí)的詞，就去詞典里找對(duì)應(yīng)的翻譯硬塞進(jìn)去。但這個(gè)做法很笨拙。首先你得有詞典，其次詞典里也不一定有這個(gè)詞，最后硬塞進(jìn)去的翻譯經(jīng)常和前后文格格不入。

愛丁堡大學(xué)的 Rico Sennrich 和他的同事——Barry Haddow 和 Alexandra Birch——意識(shí)到一件事：其實(shí)很多「生詞」并不是真的全新的。人名可以通過音譯處理，復(fù)合詞可以拆開翻譯，同源詞可以通過形態(tài)變換識(shí)別。也就是說，很多詞的翻譯可以在比「詞」更小的單位上完成。

問題是：這個(gè)「更小的單位」是什么？怎么切？

Sennrich 的思路很簡(jiǎn)單：別讓人來決定怎么切了，讓數(shù)據(jù)自己決定。他用了一個(gè)叫 BPE 的算法——Byte Pair Encoding（字節(jié)對(duì)編碼）。

這個(gè)算法也不是 Sennrich 的原創(chuàng)，事實(shí)上在 1994 年就有人提出來了，作者叫 Philip Gage，文章發(fā)表在《The C Users Journal》雜志上。這不是一個(gè)學(xué)術(shù)期刊，而是一本面向 C 語言程序員的實(shí)用技術(shù)雜志，主要刊登編程技巧和小工具。放在今天大概相當(dāng)于在 Medium 或者某個(gè)技術(shù)博客上發(fā)了篇帖子。

這也不是一個(gè)很好的壓縮方案。Gage 在論文里自己就承認(rèn)，BPE 的壓縮率不如當(dāng)時(shí)已經(jīng)廣泛使用的 LZW 算法——就是 zip 文件使用的那種算法。

他說 BPE 的優(yōu)勢(shì)是解壓程序特別小、解壓速度特別快，適合一些內(nèi)存有限的場(chǎng)景。多有限呢？比如早期的工業(yè)控制器、某些專用儀器、資源極其受限的微處理器。這些設(shè)備可能只有幾 KB 的內(nèi)存，一個(gè)標(biāo)準(zhǔn)的 LZW 解壓庫放不進(jìn)去，但 BPE 的解壓代碼幾十行 C 就能搞定。

但更廣泛的場(chǎng)景——也就是個(gè)人電腦里——雖然內(nèi)存遠(yuǎn)遠(yuǎn)不能跟現(xiàn)在相比，但也已經(jīng)是 MB 級(jí)別的了，反而硬盤空間和網(wǎng)絡(luò)帶寬緊張，需要更高的壓縮率。

它的唯一優(yōu)勢(shì)（解壓程序小）只在極少數(shù)人關(guān)心的場(chǎng)景里有意義，而它的劣勢(shì)（壓縮率不如主流方案）在大多數(shù)人關(guān)心的場(chǎng)景里很明顯。

這就好比說，你有一臺(tái)冰箱，制冷不行，耗電也不行，唯一的優(yōu)勢(shì)是這是個(gè)大象形狀的，方便把大象裝進(jìn)去。

現(xiàn)在大象來了。

整個(gè)人類的語言庫，就是那頭巨大無比的大象。Sennrich 看出了一個(gè)關(guān)鍵的類比：數(shù)據(jù)壓縮在做的事情——找到重復(fù)出現(xiàn)的模式，用更短的符號(hào)代替它——和語言切分需要做的事情，在結(jié)構(gòu)上是一樣的。一個(gè)在極小眾場(chǎng)景里發(fā)明的壓縮算法，就這樣被搬到了自然語言處理。

把這頭大象裝進(jìn)去，總共分三步：

第一步：把所有文字打散成最小的單位——字節(jié)。英文字母一個(gè)字節(jié)，中文漢字在 UTF-8 編碼（一種通用的字符編碼標(biāo)準(zhǔn)）下通常是三個(gè)字節(jié)。這一步不需要任何語言學(xué)知識(shí)，不管你是什么語言，到了字節(jié)這一層，大家都一樣。

第二步：掃描整個(gè)訓(xùn)練語料，統(tǒng)計(jì)哪兩個(gè)相鄰的字節(jié)出現(xiàn)在一起的次數(shù)最多。比如在英文里，t 和 h 經(jīng)常挨著出現(xiàn)，因?yàn)?the、that、this、think 這些高頻詞都以 th 開頭。好，把 t 和 h 合并成一個(gè)新的符號(hào) th，分配一個(gè)新的編號(hào)。因?yàn)?0 到 255 已經(jīng)被基礎(chǔ)字節(jié)占了，所以第一個(gè)新符號(hào)從 256 開始。

第三步：在合并之后的基礎(chǔ)上，再統(tǒng)計(jì)。th 和 e 經(jīng)常一起出現(xiàn)——合并成 the，編號(hào) 257。th 和 a 也經(jīng)常一起——合并成 tha，編號(hào) 258。

如此反復(fù)，迭代幾萬次。每一次迭代，都把當(dāng)前出現(xiàn)頻率最高的一對(duì)合并成一個(gè)新的符號(hào)。

原理就是如此。沒有語法分析，沒有詞典，沒有任何人類對(duì)語言的理解。就是數(shù)數(shù)。

最終你會(huì)得到一張?jiān)~表——通常是幾萬到十幾萬個(gè) Token。這張?jiān)~表里有什么？常見的英文單詞，比如 the、and、is，各自是一個(gè)完整的 Token。常見的中文漢字，比如「的」、「是」、「我」，也各自是一個(gè)完整的 Token。

但不常見的字、不常見的詞、不常見的組合——它們沒有攢夠足夠的頻率被合并成獨(dú)立的 Token，就只能留在碎片狀態(tài)。比如「Krzyzewski」——前杜克大學(xué)籃球主教練老 K 的姓——會(huì)被拆成五六個(gè)碎片。

但關(guān)鍵是：它不會(huì)消失。不管多生僻的詞，BPE 都能把它拆成已有的小碎片來表示。永遠(yuǎn)不會(huì)輸出「UNK」。

還記得前面的三堵墻嗎？詞表爆炸、未登錄詞、沒有空格——BPE 一次性全部推倒。詞表大小可控，幾萬個(gè)就夠；任何新詞都能用現(xiàn)有碎片拼出來；不需要空格，因?yàn)榍蟹滞耆山y(tǒng)計(jì)驅(qū)動(dòng)。

如果你還記得前面說的齊普夫定律——少數(shù)詞出現(xiàn)頻率極高，大量詞出現(xiàn)頻率極低——你就會(huì)發(fā)現(xiàn) BPE 在做的事情，本質(zhì)上就是把齊普夫定律翻譯成了一張編碼表：高頻組合變成短編碼，低頻組合留在長(zhǎng)編碼。和信息論的精神一脈相承：常見的東西應(yīng)該占更少的空間。

講到這里，值得思考一個(gè)問題：BPE 和之前拆 Token 的方式，最本質(zhì)的不同是什么？

從皮爾士到齊普夫到編譯器，我們都首先需要去理解規(guī)則，也就是理解 Type，才能去做分析和拆分。皮爾士說「the」是一個(gè)詞，那是人類的語言規(guī)范。編譯器說 `int` 是關(guān)鍵字，那是程序語言設(shè)計(jì)者寫下的規(guī)則。

一百一十年來，Token 可以是任何東西的替身，但 Type——那個(gè)定義「什么是一個(gè)有意義的單位」的權(quán)力——始終在人類手里。

但 BPE 不一樣。

BPE 根本不問「什么是一個(gè)詞」。它不關(guān)心語法，不關(guān)心詞根，不關(guān)心任何人類對(duì)語言的理解。它只做一件事：數(shù)字節(jié)對(duì)出現(xiàn)了多少次。the 成為一個(gè) Token，不是因?yàn)橛腥烁嬖V系統(tǒng) 「the 是英語里的定冠詞」，而僅僅是因?yàn)?t-h-e 這三個(gè)字節(jié)碰巧在訓(xùn)練數(shù)據(jù)里反復(fù)挨在一起。

換句話說——BPE 的詞表里沒有 Type。或者更準(zhǔn)確地說，BPE 用 Token 的統(tǒng)計(jì)分布取代了 Type。它不需要人類來定義什么是一個(gè)有意義的語言單位，它讓頻率自己「涌現(xiàn)」出有意義的單位。

這也是為什么 BPE 是一件極其強(qiáng)大的武器——它不依賴任何語言學(xué)知識(shí)就能處理所有語言，因?yàn)樗静恍枰朗裁词恰冈~」。Sennrich 在論文里解決的那個(gè)問題——生詞——也因此被徹底消解了：當(dāng)你的系統(tǒng)不再以「詞」為單位，就不存在「詞表里沒有的詞」這回事。任何文本都可以被拆到字節(jié)層面，然后從字節(jié)往上合并到它在詞表里能達(dá)到的最高層級(jí)。

但這還不是終點(diǎn)。

2018 年，OpenAI 發(fā)布 GPT-2 的時(shí)候，對(duì) Sennrich 的 BPE 做了一個(gè)重要的改進(jìn)。

Sennrich 原版的 BPE，起點(diǎn)是字符——英文字母、中文漢字、標(biāo)點(diǎn)符號(hào)這些。這意味著你得先告訴系統(tǒng)「這些是英文字符、這些是中文字符、這些是阿拉伯文字符」——雖然比「告訴系統(tǒng)什么是一個(gè)詞」要簡(jiǎn)單得多，但你仍然需要一套字符表，而且不同語言的字符表不一樣。

OpenAI 的做法是再往下走一層：不從字符出發(fā)，從字節(jié)出發(fā)。

什么是字節(jié)？計(jì)算機(jī)里所有的東西——文字、圖片、音樂、視頻——在最底層都是 0 和 1。每 8 個(gè) 0 和 1 組成一個(gè)字節(jié)。一個(gè)字節(jié)能表示 256 種不同的狀態(tài)，從 0 到 255。

在 UTF-8 編碼下，一個(gè)英文字母恰好是一個(gè)字節(jié)。字母 A 是字節(jié) 65，B 是 66，z 是 122。一個(gè)中文漢字需要三個(gè)字節(jié)。比如「馬」這個(gè)字，在 UTF-8 里是三個(gè)字節(jié)：229、184、172。不是一個(gè)數(shù)字，是三個(gè)數(shù)字拼在一起。

改進(jìn)版被稱作 Byte-level BPE，簡(jiǎn)稱 BBPE，起點(diǎn)就是這 256 個(gè)基礎(chǔ)字節(jié)。不管你輸入的是英文、中文、阿拉伯文、緬甸文還是 emoji，到了字節(jié)這一層，大家都是 0 到 255 之間的數(shù)字，沒有區(qū)別。然后 BPE 在這個(gè)基礎(chǔ)上做合并——高頻的字節(jié)對(duì)合并成新符號(hào)，再合并，再合并，迭代幾萬次，生成最終的詞表。

BPE 的處理對(duì)象還是自然詞匯，但 BBPE 不再需要知道世界上有多少種文字。它不需要一張字符表，不需要知道中文和英文的區(qū)別，不需要任何關(guān)于語言的先驗(yàn)知識(shí)。萬物皆字節(jié)，字節(jié)皆可合并。

這就是為什么 GPT 系列模型能「處理任何語言」——不是因?yàn)樗鼘W(xué)過所有語言，而是因?yàn)樗钠瘘c(diǎn)足夠低。低到了字節(jié)。在字節(jié)面前，所有語言一律平等。

聽起來很美好，美好到不現(xiàn)實(shí)，對(duì)吧？

不平等在訓(xùn)練之前已經(jīng)發(fā)生了。

英文字母一個(gè)字節(jié)就是一個(gè)字符，BPE 從一開始就在處理有意義的單位。而中文漢字需要三個(gè)字節(jié)，BPE 得先把這三個(gè)碎片合并回一個(gè)字，才能開始處理「有意義」的東西——它的起跑線就比英文靠后了一步。

再加上訓(xùn)練數(shù)據(jù)里英文內(nèi)容占絕對(duì)多數(shù)，英文的字節(jié)組合有大量的統(tǒng)計(jì)支撐去合并成完整的單詞甚至短語，而中文的字節(jié)組合能合并回單字就不錯(cuò)了，更別說詞組。

舉個(gè)例子。在 GPT-5 的 Tokenizer 里，「字節(jié)跳動(dòng)的短視頻平臺(tái)抖音」，總共 12 個(gè)漢字，需要用 11 個(gè) Token；而英文版「ByteDance‘s short video platform Douyin」有 40 個(gè)字母，只需要 9 個(gè) Token——要注意，ByteDance 和 Douyin 甚至都不是真正的英文單詞，但在英文里依然效率更高。

我們可以仔細(xì)看一下「字節(jié)跳動(dòng)的短視頻平臺(tái)抖音」是怎么變成 Token 的。「視頻」和「平臺(tái)」都是一個(gè) Token，「抖」占了兩個(gè) Token。

這里多解釋一下，為什么一個(gè)漢字會(huì)占據(jù)兩個(gè) Token。像前面所說，BBPE 不是面向字符編碼，而是面向字節(jié)編碼。「抖」對(duì)應(yīng)的編碼是 230、138、150，很可能在數(shù)據(jù)庫里，230 與 138 的組合是高頻的，但再加上 150 的話頻率就沒那么高了，所以編碼 230、138 對(duì)應(yīng)了一個(gè) Token，而編碼 150 單獨(dú)對(duì)應(yīng)一個(gè) Token。

每個(gè)字單獨(dú)編碼，偶爾兩個(gè)字能合并，但也有些字需要拆分。總體上，中文的 Token 消耗就是比英文高。

那這意味著什么呢？

大模型是按 Token 計(jì)費(fèi)的。OpenAI 的 API，每一千個(gè) Token 收多少錢，白紙黑字寫在價(jià)格表上。你消耗更多的 Token，你就付更多的錢。

而且不只是付錢的問題。大模型有上下文窗口（context window，模型一次能「記住」的內(nèi)容量）——就是它一次能處理的 Token 總量上限。GPT-4 的上下文窗口是 128k 個(gè) Token。

這意味著如果你用英文，你可以在一次對(duì)話里塞進(jìn)去大約十萬個(gè)英文單詞——差不多一本中等篇幅的小說。但如果你用中文，同樣的 128k 個(gè) Token，你能塞進(jìn)去的內(nèi)容就要少很多。

同樣的窗口，中文用戶能說的話更少。

付更多的錢，得到更少的空間，獲得更短的回答。這就是 Token 不平等的經(jīng)濟(jì)學(xué)。

但中文至少還算「大語言」。訓(xùn)練數(shù)據(jù)里中文內(nèi)容雖然不如英文多，但也有相當(dāng)?shù)囊?guī)模，足以讓常用漢字被合并成獨(dú)立的 Token。

真正慘的是那些小語種。

近年來，多項(xiàng)研究對(duì)這個(gè)問題做了系統(tǒng)的測(cè)算。他們發(fā)現(xiàn)，同樣的語義內(nèi)容，用不同語言表達(dá)所消耗的 Token 數(shù)量差異可以達(dá)到十幾倍。

英文是基準(zhǔn)——消耗最少的 Token，中文大約是英文的 1.5 到 2 倍，日語、韓語類似，緬甸語、藏語、阿姆哈拉語等語言，同樣的內(nèi)容可能需要英文 5 到 10 倍的 Token

為什么？因?yàn)檫@些語言在訓(xùn)練數(shù)據(jù)里幾乎不存在。BPE 在訓(xùn)練的時(shí)候沒有見過足夠多的緬甸文，所以緬甸文的字節(jié)組合從來沒有機(jī)會(huì)被合并——它們永遠(yuǎn)停留在最碎的碎片狀態(tài)，每一個(gè)字都被拆成三四個(gè)字節(jié)碎片，每個(gè)碎片各占一個(gè) Token。

想象一下：一個(gè)緬甸語用戶和一個(gè)英文用戶買同樣的 API 額度，但緬甸語用戶只能用英文用戶五分之一的信息量。同樣的錢，五分之一的服務(wù)。

這跟電報(bào)很像。

電報(bào)編碼——莫爾斯碼——是這樣設(shè)計(jì)的：最常用的字母用最短的編碼。E 是一個(gè)點(diǎn)，T 是一個(gè)劃，A 是一點(diǎn)一劃。而不常用的字母用更長(zhǎng)的編碼——Q 是兩劃一點(diǎn)一劃，Z 是兩劃兩點(diǎn)。

但莫爾斯碼是基于英文字母頻率設(shè)計(jì)的。當(dāng)電報(bào)技術(shù)推廣到全世界的時(shí)候，其他語言怎么辦？中文怎么發(fā)電報(bào)？漢字不是字母，你不能直接用點(diǎn)和劃來編碼。

解決方案是：給每個(gè)漢字分配一個(gè)四位數(shù)字編碼——0001 到 9999。發(fā)電報(bào)的時(shí)候，先把漢字翻譯成數(shù)字，再把數(shù)字翻譯成莫爾斯碼發(fā)出去。一個(gè)漢字就是四個(gè)數(shù)字，每個(gè)數(shù)字都要用莫爾斯碼逐個(gè)發(fā)送。

一個(gè)英文字母平均需要 2 到 3 個(gè)莫爾斯碼信號(hào)。一個(gè)漢字呢？四個(gè)數(shù)字，每個(gè)數(shù)字平均需要 5 個(gè)信號(hào)——總共大約 20 個(gè)信號(hào)。

同樣一個(gè)意思，中文電報(bào)的信號(hào)量是英文的七八倍。電報(bào)是按字?jǐn)?shù)或者按信號(hào)量計(jì)費(fèi)的，所以中文電報(bào)比英文電報(bào)貴得多。直到八九十年代，小學(xué)生寫作文還有個(gè)練習(xí)，就是寫電報(bào)，看誰能用最少的字把事情說清楚。

類似的事情不停在重復(fù)。

打字機(jī)在 1870 年代發(fā)明，但卻是為拉丁字母設(shè)計(jì)的。最早的中文打字機(jī)是什么樣子？一個(gè)金屬托盤上排著幾千個(gè)鉛字，打字員用小桿子一個(gè)一個(gè)找，速度是英文的十分之一。當(dāng)時(shí)很多人，包括魯迅在內(nèi)，得出結(jié)論說中文是落后的文字，中國想要走向文明，漢字就得拉丁化。

對(duì)這段歷史有興趣的朋友，可以看看墨磊寧的《中文打字機(jī)》這本書，我就不展開了。我想說的是，近現(xiàn)代以來，每一次人類發(fā)明一種新的信息編碼系統(tǒng)——電報(bào)、打字機(jī)、計(jì)算機(jī)、AI——都會(huì)重新制造一次語言不平等。而且這種不平等的方向幾乎每一次都是一樣的：英文最便宜、最高效、最方便，然后按語言與英文的「距離」遞減。拉丁字母語言其次，東亞語言再次，南亞和非洲語言最末。

誰的語言最先被編碼，誰就是標(biāo)準(zhǔn)；后來者永遠(yuǎn)在適配。

當(dāng)然，你可能說，技術(shù)是中立的，這不是故意歧視。BPE 不是故意歧視中文或者緬甸語，它只是按頻率統(tǒng)計(jì)做了最優(yōu)壓縮。

對(duì)。完全對(duì)。沒有人故意歧視。你不需要故意歧視，你只需要選擇一個(gè)「合理的」起點(diǎn)——比如「按頻率統(tǒng)計(jì)」——然后讓系統(tǒng)自動(dòng)運(yùn)行。不平等會(huì)自己涌現(xiàn)出來。

因?yàn)椤割l率」不是一個(gè)客觀的自然屬性。它是由誰在生產(chǎn)內(nèi)容、誰的語言在互聯(lián)網(wǎng)上有最多的文字、誰的文化有最發(fā)達(dá)的出版和傳播體系來決定的。

BPE 把這種歷史性的權(quán)力不對(duì)稱，通過一個(gè)看似中性的算法，編碼進(jìn)了 AI 系統(tǒng)的最底層。然后這個(gè)系統(tǒng)給全世界所有人使用。每一個(gè)人，每說一句話，都在為這種不平等付費(fèi)。而他們中的大多數(shù)人甚至不知道 Token 是什么。

當(dāng)然這個(gè)事情也在改善。

我做了一個(gè)測(cè)試。打開 OpenAI 的 tokenizer 工具，輸入同一句中文：「馬嘉祺是時(shí)代少年團(tuán)隊(duì)長(zhǎng)，蔡徐坤不是。」然后切換不同版本的 tokenizer 看看各需要多少 Token：

GPT-3.0 的 tokenizer：38 個(gè) Token， GPT-3.5 和 GPT-4.0 的 tokenizer：26 個(gè) Token， GPT-5 的 tokenizer：15 個(gè) Token

同一句話，三代模型，Token 消耗從 38 降到了 15，降了 60%。

這說明 OpenAI 在每一代模型中都在給中文更多的詞表席位，讓更多的漢字和常見詞組被完整保留，而不是拆成碎片。

中文用戶有十幾億人。市場(chǎng)夠大，商業(yè)動(dòng)力夠強(qiáng)，所以 OpenAI 愿意優(yōu)化。中國自己的 AI 公司也在做同樣的事。豆包、千問、月之暗面等等——這些國產(chǎn)大模型都在自己訓(xùn)練 tokenizer，策略很簡(jiǎn)單：在詞表里給中文更多的「席位」，讓更多的中文字符組合被合并成獨(dú)立的 Token，減少中文被拆碎的概率。

但詞表總?cè)萘渴怯邢薜摹PT-5 的詞表大約 20 萬個(gè) Token。你給中文多一個(gè)席位，就得給其他語言少一個(gè)。中文有大公司撐腰。但前面提到的那些小語種，沒有人為它們做這件事。

緬甸語有五千多萬人在說。藏語呢？宗卡語呢？這些語言的 tokenizer 效率，從 GPT-3 到 GPT-5，大概率沒有同等幅度的改善。因?yàn)闆]有商業(yè)動(dòng)力，沒有十幾億用戶的市場(chǎng)在那里等著。

語料配比——用多少英文、多少中文、多少緬甸文來訓(xùn)練 BPE——本質(zhì)上是一個(gè)隱性的決策：誰的語言更值得被高效表示？這個(gè)決策沒有人公開討論過。它埋在技術(shù)文檔的某一行參數(shù)里。但它決定了數(shù)十億人使用 AI 的成本和體驗(yàn)。

BPE 用頻率取代了 Type。它不再由人類來定義什么是一個(gè)有意義的單位，而是讓統(tǒng)計(jì)數(shù)據(jù)自己決定。這個(gè)選擇帶來了語言不平等——高頻的語言被完整保留，低頻的語言被碎成碎片。

但這個(gè)后果不只發(fā)生在語言和語言之間，它同樣發(fā)生在同一種語言內(nèi)部。

回到馬嘉祺。

我還是不能給出確切的結(jié)論，究竟為什么大模型不認(rèn)識(shí)「馬嘉祺」，但可以肯定與 Token 生成有關(guān)。想象你在玩拼圖游戲。常見的圖案——比如「天安門」、「長(zhǎng)城」——廠家會(huì)給你完整的大塊拼圖，一塊就能拼出來。但生僻的圖案——比如某個(gè)小眾景點(diǎn)——廠家沒有專門的大塊，你只能用很多小碎片拼湊。

「祺」這個(gè)字就是那個(gè)小眾景點(diǎn)。它在訓(xùn)練數(shù)據(jù)里出現(xiàn)的頻率不夠高，BPE 算法沒有給它分配一個(gè)完整的 Token，而是把它拆成了兩個(gè)小碎片。這兩個(gè)碎片單獨(dú)看都沒什么意義，就像拼圖的邊角料。

現(xiàn)在問題來了。當(dāng) AI 要生成「馬嘉祺」這個(gè)名字時(shí)，它需要先找到「馬」，再找到「嘉」，最后找到「祺」的那兩個(gè)小碎片，把它們按正確順序組裝起來。但 AI 在訓(xùn)練時(shí)很少見過這個(gè)組合——「馬嘉」加上那兩個(gè)特定碎片——出現(xiàn)的次數(shù)太少了。

相反，「馬俊杰」、「馬杰倫」這些組合，每個(gè)字都是完整的大塊 Token，而且這些組合在訓(xùn)練數(shù)據(jù)里出現(xiàn)過更多次。對(duì) AI 來說，這些組合就像是一條被走過很多遍的路，路面平整、標(biāo)記清晰。而「馬嘉祺」就像是一條幾乎沒人走過的小路，路標(biāo)模糊、碎石遍地。

當(dāng) AI 要生成答案時(shí)，它會(huì)自然而然地選擇那條更平整的路。不是因?yàn)樗覆徽J(rèn)識(shí)」馬嘉祺，而是因?yàn)樵谒?Token 系統(tǒng)里，「馬嘉祺」這條路從一開始就沒有被修好。

類似的問題還有很多，在大模型領(lǐng)域有個(gè)專門的名詞，就叫 Glitch Tokens（故障詞元），意思是那些會(huì)讓大模型運(yùn)行出問題的 Token。

你可能會(huì)想：那把模型做大一點(diǎn)、做強(qiáng)一點(diǎn)，不就解決了？剛剛不也說，從 GPT-3 到 GPT-5，確實(shí)中文 Token 效率在提高。

很不幸，不能。

2026 年 1 月有一篇關(guān)于 Token 的論文《Say Anything but This: When Tokenizer Betrays Reasoning in LLMs（什么都能說，就是不能說這個(gè)：當(dāng) Tokenizer 背叛了大模型的推理能力）》。

研究者發(fā)現(xiàn)了一件事：tokenizer 給模型提供了一條「阻力最小的路徑」。當(dāng)模型需要生成某個(gè)答案的時(shí)候，如果詞表里恰好有一個(gè)現(xiàn)成的 Token 能直接輸出，模型就會(huì)走這條捷徑，而不是真正去推理。

我舉個(gè)例子讓你感受一下。假設(shè)模型需要回答「52 加 37 等于多少」。正確答案是 89。但如果詞表里恰好有一個(gè) Token 對(duì)應(yīng) 「88」，而且這個(gè) Token 在模型的內(nèi)部空間里離「89」很近、出現(xiàn)頻率很高——模型可能就會(huì)滑向「88」。不是因?yàn)樗粫?huì)算，而是因?yàn)?「88」這條路更絲滑。

研究者做了一件反直覺的事：他們把這些捷徑堵住了——強(qiáng)制移除那些容易造成混淆的 Token，逼模型走推理的路。

結(jié)果呢？模型反而表現(xiàn)更好了。

這說明什么？說明模型本身有推理能力。問題不在「腦子」——在「眼睛」。Tokenizer 是在模型訓(xùn)練之前就凍結(jié)的感知器官，模型再強(qiáng)也改不了它。

這就好比你給一個(gè)天才畫家戴上一副度數(shù)不對(duì)的眼鏡，而且這副眼鏡焊死在臉上了，這輩子摘不下來。他畫技高超，構(gòu)圖、色彩、光影都對(duì)，但遠(yuǎn)處那個(gè)人名字里的生僻字，他就是看不清。

不是腦子的問題，是眼睛的問題。

論文得出結(jié)論：模型變大不能解決這個(gè)問題，Scaling 無效。因?yàn)閱栴}在架構(gòu)層面——tokenizer 在模型訓(xùn)練之前就固定了，模型再大、參數(shù)再多，也是在一個(gè)被固定的感知框架里訓(xùn)練出來的。

眼睛的分辨率，在出生前就定了。這就是 BPE 放棄 Type 的真正代價(jià)。

當(dāng) Type 是人定義的時(shí)候——比如在編譯器里——人可以確保每一個(gè)被定義的類別都是完整的、精確的、沒有歧義的。`int` 就是 `int`，絕不會(huì)和 `integer` 混淆，因?yàn)樵O(shè)計(jì)者明確規(guī)定了它們的區(qū)別。

但當(dāng)你把 Type 的定義權(quán)交給頻率統(tǒng)計(jì)，你得到的「類別」就不再有這種保證了。高頻的組合被識(shí)別得又快又準(zhǔn)，低頻的組合就模糊、破碎、容易混淆。

不是均勻的不完美，而是有一條清晰的斷裂線——沿著頻率分布的長(zhǎng)尾畫下去。

這意味著什么？

意味著你叫「張偉」，AI 不會(huì)寫錯(cuò)你的名字。但你叫「馬嘉祺」，它可能每次都寫錯(cuò)。你用英文問它問題，它的回答精準(zhǔn)而流暢。你用緬甸語問同一個(gè)問題，它的回答碎片化、不連貫、甚至可能是錯(cuò)的。

這不是兩種不同的 AI。是同一個(gè) AI，用同一個(gè) tokenizer，在頻率曲線的兩端展現(xiàn)出的兩張面孔。

在高頻的那一端——英文、常用詞、熱門話題——它看起來無所不知、無所不能。這是你在社交媒體上看到的那個(gè) AI，是科技公司在發(fā)布會(huì)上展示的那個(gè) AI，是黃仁勛說價(jià)值萬億美元的那個(gè) AI。

在低頻的那一端——小語種、生僻字、冷門知識(shí)——它變得遲鈍、模糊、不可靠。但這一端的用戶，恰好是那些最缺少替代信息來源的人。

在 Token 的世界里，「罕見」和「不重要」在統(tǒng)計(jì)上是同一件事。

這就是為什么法律文本用 AI 輔助的時(shí)候，罕見的術(shù)語可能會(huì)被模糊處理。醫(yī)療診斷用 AI 輔助的時(shí)候，罕見病的名字可能會(huì)變成碎片。教育內(nèi)容用 AI 生成的時(shí)候，少數(shù)語言的知識(shí)可能會(huì)被磕磕絆絆地拼湊。不是有人故意忽略了這些——而是這個(gè)系統(tǒng)從一開始就沒有能力區(qū)分「罕見」和「不重要」。

AI 最不準(zhǔn)確的地方，恰好是人們最需要它準(zhǔn)確的地方。

這也是為什么我在開頭說，「詞元」不是一個(gè)好的翻譯。

「詞」字暗示 Token 是一個(gè)「詞」層面的單位。但你現(xiàn)在已經(jīng)知道了，Token 不是詞。它可以是一個(gè)完整的詞，也可以是半個(gè)字，也可以是一串毫無意義的字節(jié)碎片。BPE 生成的 Token 不遵循任何語言學(xué)上對(duì)「詞」的定義——事實(shí)上，BPE 的全部意義就在于放棄了「詞」這個(gè)概念。

「元」字有「基本單位」的意思——元素、單元、元件。這暗示 Token 是一個(gè)穩(wěn)定的、自然的、有明確邊界的基本粒子，好像它是語言內(nèi)在結(jié)構(gòu)的一部分，甚至是詞的某種本質(zhì)特征。但 Token 的邊界不是由語言的自然結(jié)構(gòu)決定的，而是由訓(xùn)練數(shù)據(jù)的頻率分布決定的。換一批訓(xùn)練數(shù)據(jù)，同一個(gè)字可能從一個(gè) Token 變成兩個(gè) Token，或者從兩個(gè)變成一個(gè)。它是一個(gè)統(tǒng)計(jì)產(chǎn)物，不是一個(gè)語言學(xué)概念。

前面說過，Token 是語言的替代物——它不是語言本身，更不是語言的某種本質(zhì)，它只是一個(gè)代替語言被計(jì)算機(jī)處理的編號(hào)。但「詞元」這個(gè)譯名恰恰把這層關(guān)系遮蔽了。這就好比你造了一輛沒有方向盤的自動(dòng)駕駛汽車，然后給它起名叫「方向盤號(hào)」。

但不管叫它什么，Token 已經(jīng)在這里了，還成了黃仁勛口中所說的「萬億美元市場(chǎng)的基礎(chǔ)」。他說，NVIDIA 的 AI 芯片是「Token 的鑄造機(jī)」。

你可能會(huì)想：既然 Token 有這么多問題——bug、不平等、幻覺——為什么它還能成為萬億美元市場(chǎng)的基礎(chǔ)？

因?yàn)闄?quán)力的基礎(chǔ)，從來就不是完美的東西。

美元。1971 年之前，美元和黃金掛鉤——一盎司黃金 35 美元，白紙黑字。那時(shí)候美元有一個(gè)「本體」在支撐它：黃金。1971 年，尼克松取消了金本位。從那以后，美元靠什么？靠大家相信它有價(jià)值。

2008 年金融危機(jī)，全世界發(fā)現(xiàn)——度量衡沒變，但桶里是空的。那些評(píng)級(jí)為 AAA 的金融產(chǎn)品，底下是一層一層的次級(jí)貸款。替身看著光鮮亮麗，本體早就爛了。

但美元崩潰了嗎？沒有。它繼續(xù)是全球儲(chǔ)備貨幣。為什么？因?yàn)樵谒罎⒅埃娲某杀疽呀?jīng)高到?jīng)]人承受得起。全世界的貿(mào)易合同用美元結(jié)算，全世界的央行用美元儲(chǔ)備，全世界的大宗商品用美元定價(jià)。你可以說美元有問題，但你拿什么替代它？歐元？人民幣？每一種替代方案的切換成本都是天文數(shù)字。

比特幣。一個(gè)算法加一群人的信仰。能耗荒謬，價(jià)格劇烈波動(dòng)，每秒處理的交易量還不如一家縣城超市的收銀臺(tái)。但沒有阻止它成為一種權(quán)力載體。

甚至語言本身。漢字筆畫順序誰規(guī)定的？英語拼寫為什么這么不規(guī)則？為什么 Wednesday 中間有一個(gè)不發(fā)音的 d？為什么 island 里有一個(gè)不發(fā)音的 s？沒有人「設(shè)計(jì)」了這些。都是歷史偶然的層層累積——某個(gè)世紀(jì)的某個(gè)抄寫員寫錯(cuò)了一個(gè)字，后人將錯(cuò)就錯(cuò)，錯(cuò)誤凝固成了規(guī)范。但語言照樣運(yùn)轉(zhuǎn)，照樣承載了人類全部的文明。

Token 的故事不是一個(gè)騙局，也不是一個(gè)幻覺，它只是一個(gè)偶然中誕生又在歷史里起起伏伏最終擁有了權(quán)力的詞語。

1906 年，皮爾士在研究邏輯圖時(shí)提出了 Type-Token 區(qū)分，他只是想數(shù)清楚紙上有幾個(gè)圓圈。

1994 年，Philip Gage 在《C Users Journal》上發(fā)表了一個(gè)壓縮小工具，他只是想在內(nèi)存有限的工控設(shè)備上節(jié)省幾個(gè)字節(jié)。

2016 年，Rico Sennrich 把這個(gè)壓縮算法用到了神經(jīng)機(jī)器翻譯，他只是想解決翻譯中的生詞問題。

2018 年，OpenAI 把 BPE 改成了 Byte-level，他們只是想讓 GPT-2 能處理更多語言。

每一步都是合理的。每一步都是局部的。每一步都解決了當(dāng)時(shí)的問題。

這就是權(quán)力最常見的誕生方式，不是有人坐下來精心設(shè)計(jì)了一個(gè)統(tǒng)治系統(tǒng)——而是一連串當(dāng)時(shí)看起來合理甚至無關(guān)緊要的選擇，在沒人注意的情況下，凝固成了新的秩序。

我們都知道，現(xiàn)在是一個(gè)歷史轉(zhuǎn)折時(shí)刻，不僅僅是通用人工智能取代人類，也是人類正把什么是意義、什么是規(guī)則的定義權(quán)交給統(tǒng)計(jì)數(shù)據(jù)。

我們所有人，正站在這個(gè)轉(zhuǎn)折的中間，還沒來得及想清楚這意味著什么，就已經(jīng)在擁抱它了。

還可以看這些

歡迎來我的知識(shí)星球

周二到周四，我將每天提供一份互聯(lián)網(wǎng)/科技/消費(fèi)等行業(yè)的觀察，可能是獨(dú)家消息，可能是趨勢(shì)分析，也可能是不方便在其他渠道公開的內(nèi)容。

星球初建，前 20 名成員將享受系統(tǒng)可能設(shè)定的最低價(jià) 50/年，之后隨著內(nèi)容增多，價(jià)格也會(huì)提高。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.