![]()
黃仁勛說,Token 會(huì)是一個(gè)萬億美元產(chǎn)業(yè)的基礎(chǔ),但很少人真的理解,到底什么是 Token。
馬俊杰是中國內(nèi)地知名男藝人,現(xiàn)為時(shí)代少年團(tuán)隊(duì)長(zhǎng)、主場(chǎng)兼 C 位,2002 年 12 月 12 日出生于河南鄭州。
剛剛那段話是從某個(gè) AI 大模型工具里復(fù)制粘貼下來的,是關(guān)于問題「馬嘉祺是誰」的回答。
沒錯(cuò),是馬嘉祺,但 AI 會(huì)自動(dòng)替換成「馬俊杰」,有時(shí)候也會(huì)替換成「馬杰倫」、「馬祺祺」等。
可能有朋友說,這就是 AI 在胡編亂造。還真不是,除了名字以外,其他的信息都非常正確。
作為人類我們也會(huì)有類似的事情,經(jīng)常我們會(huì)說,「你記不記得那個(gè)誰,就那個(gè)誰,練習(xí)時(shí)長(zhǎng)兩年半,喜歡唱、跳、Rap、籃球,哎叫啥來著」。
就是你能說出很多精準(zhǔn)的細(xì)節(jié),但就是想不起那個(gè)名字,這在心理學(xué)上叫「舌尖現(xiàn)象」。
我們說話時(shí)大腦要走兩個(gè)步驟:第一步,語義提取——大腦鎖定了這個(gè)「東西」的所有屬性,長(zhǎng)相、功能、感覺。第二步,音韻提取——大腦去「檔案柜」里找對(duì)應(yīng)的那個(gè)名字發(fā)音。
舌尖現(xiàn)象的核心在于:你已經(jīng)完成了第一步(理解了它),但卡在了第二步(沒找到那個(gè)詞)。因?yàn)槲覀內(nèi)祟惥褪且热ダ斫馐澜纾缓蟛拍苋ケ磉_(dá)世界。
這個(gè)事情再繼續(xù)討論下去,就是維特根斯坦那句「我語言的局限,意味著我世界的局限。」這就會(huì)變得很復(fù)雜,但我想知道的是,那 AI 呢?「馬嘉祺」這樣的錯(cuò)誤,是不是也跟它如何理解世界有關(guān)系?
AI 理解世界,跟人差不多是正好相反的。我特別簡(jiǎn)化地來說,人是得先有具體的東西,然后才有一張?jiān)~匯表;AI 是先有一張?jiān)~匯表,然后去找對(duì)應(yīng)的描述和概念。
這么說比較抽象,我舉個(gè)例子。
小時(shí)候,你看到一個(gè)紅色的、帶小點(diǎn)的東西。你摸到它坑洼的表皮,聞到那股特殊的清香,咬下去感受到酸甜的汁水。你的大腦里形成了一個(gè)關(guān)于這個(gè)事物的完整綜合體——顏色、形狀、氣味、味覺、手感。大人們告訴你,這個(gè)綜合體叫「草莓」。
![]()
當(dāng)你突然說不出「草莓」這兩個(gè)字時(shí),你腦子里依然有那個(gè)紅色的影子、那個(gè)味道、那種口感。
但 AI 不一樣。
AI 的「大腦」——也就是模型——里先有一張巨大的清單,里面有個(gè)詞匯叫「草莓」,或者 strawberry。AI 在訓(xùn)練中讀了億萬次帶有 strawberry 的句子,它發(fā)現(xiàn) strawberry 經(jīng)常和 red、sweet、fruit 出現(xiàn)在一起。通過這些統(tǒng)計(jì)概率,AI 在自己的數(shù)學(xué)模型里「拼湊」出了一個(gè)關(guān)于草莓的描述。它并沒有真的見過、聞過、嘗過草莓,它只是通過這個(gè)標(biāo)簽背后的數(shù)據(jù)關(guān)聯(lián),「模擬」出了它應(yīng)該是什么樣子。
甚至,在 AI 的詞匯表里,都沒有「草莓」或者「strawberry」這個(gè)詞,它有的只是一串編號(hào),我隨便說,這個(gè)編號(hào)可能是 23764。這個(gè)編號(hào),就叫做 Token,也就是大模型理解世界的開始。
用大模型,尤其最近裝小龍蝦 OpenClaw 的人,對(duì)這個(gè)詞肯定非常熟悉。不管你在 AI 里做什么,都需要消耗 Token,很多大模型也都是按 Token 計(jì)費(fèi)的。每次你跟 ChatGPT 對(duì)話、用 Claude Code 寫代碼、讓 AI 幫你翻譯一段話,你消耗的就是 Token。你買的會(huì)員,本質(zhì)上是在買 Token 的額度。
現(xiàn)在 Token 這個(gè)詞已經(jīng)大大超過了科技里的含義,有的人說 Token 可以當(dāng)員工福利,還有的人說 Token 可以當(dāng)工資——當(dāng)然了,說這話的無一例外都是老板。而更大的老板,NVIDIA 的 CEO 黃仁勛在 2026 年 3 月 17 號(hào) GTC 大會(huì)上說了一句話:Token 將會(huì)是一個(gè)萬億美元市場(chǎng)的基礎(chǔ)。萬億。Trillion.
最近,Token 也有了中文譯名,叫詞元。這個(gè)翻譯我覺得并不好,原因后面會(huì)說。不過為 Token 尋找中文譯名這個(gè)行為本身,說明這個(gè)詞的影響正在超出從業(yè)人士而走向大眾——一個(gè)中文名字總比英文名字用起來方便,而且更方便出現(xiàn)在各類政策、規(guī)定甚至法律當(dāng)中。
為了方便,在這里我們依然還是叫 Token。那問題是,Token 到底是什么?
![]()
現(xiàn)在常見的用法,Token 有三個(gè)含義。
一個(gè)是令牌的意思,就是你登錄一個(gè)網(wǎng)站之后,服務(wù)器發(fā)給你的一串隨機(jī)字符,證明「這個(gè)人驗(yàn)證過了」。它本身沒有任何含義,但代表了你的身份。這個(gè)概念從 1970 年代就有了。
第二個(gè)是加密貨幣里的 Token,也就是代幣。2017 年 ICO 熱潮的時(shí)候,這個(gè)詞幾乎天天上新聞。各種加密貨幣、數(shù)字代幣,本質(zhì)上就是一串代碼,沒有任何物理實(shí)體,但代表了某種價(jià)值。
第三個(gè),就是我們今天要聊的——AI 大模型里的 Token。如果用最簡(jiǎn)單的話來概括,Token 是語言的替代物。
要搞清楚 Token 是怎么變成今天這個(gè)樣子的,我們得從頭講起。
1906 年,美國哲學(xué)家查爾斯·桑德斯·皮爾士(Charles Sanders Peirce)在一篇論文里提出了一個(gè)區(qū)分,叫 Type-Token distinction(類型-標(biāo)記區(qū)分)。
皮爾士是干什么的呢?他是美國符號(hào)學(xué)的奠基人,也是一個(gè)邏輯學(xué)家。他當(dāng)時(shí)在做一件很有野心的事情:發(fā)明一套用圖形來做邏輯推理的系統(tǒng),他管它叫「存在圖」(Existential Graphs)。
這個(gè)理論極其復(fù)雜,沒辦法在這里展開講。簡(jiǎn)單來說,皮爾士試圖把人類的邏輯都用圖示的方式表達(dá)出來。就像將軍打仗要看地圖一樣——皮爾士自己就舉過這個(gè)例子——你不會(huì)說「國土就在那里啊,要地圖干什么?」地圖讓你看到地形里隱藏的關(guān)系,邏輯圖讓你看到思維里隱藏的關(guān)系。
![]()
在存在圖里,基本上就是圈圈套圈圈的形式,但它遇到一個(gè)問題。比如他在圖上畫了一個(gè)圓圈,代表「否定」。然后他在另一個(gè)地方又畫了一個(gè)圓圈,也代表「否定」。現(xiàn)在問題來了——這是「兩個(gè)圓圈」還是「同一個(gè)圓圈出現(xiàn)了兩次」?
如果你說是兩個(gè)圓圈,那它們之間是什么關(guān)系?它們?yōu)槭裁匆馑家粯樱咳绻阏f是同一個(gè)圓圈出現(xiàn)了兩次,那那個(gè)「同一個(gè)」的圓圈在哪里?它不在紙上的任何一個(gè)具體位置。
這不是在抬杠。對(duì)于一個(gè)試圖把邏輯推理嚴(yán)格形式化的人來說,這是一個(gè)地基級(jí)別的問題。如果你連「這個(gè)圖上有幾個(gè)東西」都說不清楚,你怎么去定義推理規(guī)則?
皮爾士用了一個(gè)很日常的例子來解釋他的解決方案。他說,你翻開一本書,一頁紙上大概有二十個(gè) 「the」。如果你在數(shù)這本書有多少字,那這二十個(gè) the 就是二十個(gè)詞。但從另一個(gè)意義上說,英語里只有一個(gè) 「the」。那二十個(gè)只是它的二十次出現(xiàn)。
那個(gè)唯一的、抽象的 「the」——不存在于任何一頁紙上、不能被任何聲音說出來的那個(gè) 「the」——皮爾士叫它 Type(類型)。而紙上每一個(gè)具體的、印在那個(gè)位置的 the,他叫它 Token(標(biāo)記)。
Type 是規(guī)則,Token 是實(shí)例。Type 是抽象的形式,Token 是那個(gè)形式每一次具體的、物理的顯現(xiàn)。
用他自己的話說——Type 不存在,但它決定了存在的東西。
![]()
這個(gè)區(qū)分解決了他的問題。從此他可以精確地說:邏輯圖上的一個(gè)符號(hào)是一個(gè) Token——一個(gè)特定位置上的具體實(shí)例;而這個(gè)符號(hào)所遵循的規(guī)則是一個(gè) Type——一個(gè)不依賴于任何具體位置的一般法則。兩個(gè)圓圈是兩個(gè) Token,但它們是同一個(gè) Type 的兩次出現(xiàn)。
那這個(gè)區(qū)分的效果怎么樣?
說實(shí)話,皮爾士的存在圖在他活著的時(shí)候幾乎沒有引起什么反響。他的論文寫得太晦澀了,而且那個(gè)年代數(shù)學(xué)家和邏輯學(xué)家們更習(xí)慣用線性的代數(shù)符號(hào)來做推理,覺得畫圖是繞遠(yuǎn)路。
但皮爾士無意間抓住了一個(gè)比邏輯圖更根本的問題:任何符號(hào)系統(tǒng)——不管是語言、代碼還是邏輯——都同時(shí)存在于兩個(gè)層面。一個(gè)是抽象的規(guī)則層面,一個(gè)是具體的實(shí)例層面。你必須同時(shí)追蹤這兩個(gè)層面,否則你什么都說不清楚。
于是 Type-Token 這對(duì)概念被其他領(lǐng)域的人拿走了。1930 年代,哈佛的語言學(xué)家齊普夫(George Zipf)用 Token 來數(shù)每一個(gè)詞每一次出現(xiàn),用 Type 來分類每一個(gè)不重復(fù)的詞形,然后把詞按頻率從高到低排列。
他發(fā)現(xiàn)了一個(gè)規(guī)律——排名第一的詞出現(xiàn)的次數(shù),大約是排名第二的兩倍,是排名第三的三倍,是排名第一百的一百倍。排名乘以頻率,幾乎是一個(gè)常數(shù)。這就是齊普夫定律(Zipf‘s Law)。它不只是英語的規(guī)律——中文、法語、日語、拉丁語,幾乎所有人類語言都服從同一個(gè)分布。
緊接著,1944 年,心理學(xué)家約翰遜提出了 Type-Token Ratio(類型-標(biāo)記比)——用來衡量一段文本的詞匯豐富度。這個(gè)指標(biāo)到今天還在用。皮爾士那個(gè)「一頁紙上有幾個(gè) the」的哲學(xué)問題,就這樣變成了可以量化、可以畫曲線、可以發(fā)現(xiàn)規(guī)律的科學(xué)工具。
然后,計(jì)算機(jī)來了。
![]()
1960 年代,編譯原理。這是 Token 在數(shù)字世界的第一次生命——它成了語法的替身。
當(dāng)你寫下一行代碼——比如「int x = 5;」——計(jì)算機(jī)并不能直接讀懂它。編譯器做的第一件事,就是把這行代碼切碎。「int」是一個(gè) Token,代表「整數(shù)類型」。「x」是一個(gè) Token,代表變量名。「=」是一個(gè) Token,代表賦值。「;」也是一個(gè) Token,代表語句結(jié)束。
編譯器不理解代碼的「意思」。它只需要把連續(xù)的字符流切成一個(gè)個(gè)有身份的小單元,再按規(guī)則組裝。這個(gè)過程就叫 tokenization(詞法分析)。
有意思的是,編譯器里的 tokenization 和皮爾士的 Type-Token 完全對(duì)應(yīng)。編譯器先定義一套 Type——關(guān)鍵字、加減乘除這些運(yùn)算符號(hào)、變量名這些類別——然后在代碼中識(shí)別出每一個(gè) Token,也就是這些 Type 的每一次具體出現(xiàn)。第一個(gè)「int」和第一百個(gè)「int」是同一個(gè) Type 的不同 Token——和皮爾士數(shù) 「the」 的邏輯一模一樣。
到這里,就和我們現(xiàn)在使用的 Token 意思基本差不多了——都是把一種語言分割,然后方便計(jì)算機(jī)識(shí)別。但還有一個(gè)問題是之前沒有遇到的:到底怎么分割自然語言?
編譯器切代碼,其實(shí)是很幸福的一件事。因?yàn)榇a是人造的,它有嚴(yán)格的語法規(guī)則。「int」就是「int」,分號(hào)就是分號(hào),空格就是分隔符。你不需要猜,規(guī)則——也就是那個(gè) Type——已經(jīng)預(yù)先確定好了,替你決定了從哪里切。
但自然語言不是人造的。或者說,它是幾十億人在幾萬年里「合造」的,沒有人坐下來寫過一份規(guī)格說明書。
![]()
英語還好一點(diǎn)。單詞之間有空格,你至少知道從哪里切。「I love cats」 三個(gè)詞,三個(gè) Token,清清楚楚。
但這個(gè)「按空格切」的方案,一碰到現(xiàn)實(shí)就碎了。三堵墻同時(shí)堵在路上。
第一堵墻:詞表爆炸。英語里 cat 是一個(gè)詞,cats 是一個(gè)詞,love、loved、loving 也都各是一個(gè)詞。如果每個(gè)詞形都算一個(gè)獨(dú)立的 Token,英語光是有記錄的詞形就有幾十萬個(gè)。德語更夸張,它可以把幾個(gè)詞黏在一起變成一個(gè)超長(zhǎng)的復(fù)合詞——你可能見過那個(gè)著名的例子,Rindfleischetikettierungsüberwachungsaufgabenübertragungsgesetz。這是一個(gè)關(guān)于牛肉標(biāo)簽監(jiān)管職責(zé)轉(zhuǎn)讓的法律用語,六十三個(gè)字母黏在一起算一個(gè)詞。你的詞表要不要收錄它?如果要收錄,那類似的復(fù)合詞有多少個(gè)?詞表需要無限大。
第二堵墻:未登錄詞。你用訓(xùn)練數(shù)據(jù)建了一張?jiān)~表,里面有十萬個(gè)詞。然后用戶輸入了一個(gè)不在詞表里的詞——一個(gè)品牌名、一個(gè)網(wǎng)絡(luò)流行語、一個(gè)拼寫錯(cuò)誤。怎么辦?早期的做法是把所有不認(rèn)識(shí)的詞統(tǒng)一標(biāo)記成一個(gè)特殊符號(hào)「UNK」,意思是「未知」。這就形成了一個(gè)悖論:比如「蔡徐坤」不在詞表里,你去問 AI「我想了解蔡徐坤」,AI 看到的是「我想了解 UNK 」。你整句話里最關(guān)鍵的那個(gè)信息,對(duì) AI 來說是一片空白。
第三堵墻:很多語言沒有空格。中文沒有空格,日語沒有空格,泰語沒有空格。全世界大多數(shù)人說的語言,詞和詞之間是不分開寫的。比如「乒乓球拍賣了多少錢」,從哪里切?乒乓球、拍、賣,還是乒乓球、拍賣?「了」算一個(gè)詞還是一個(gè)語法標(biāo)記?這不是一個(gè)有標(biāo)準(zhǔn)答案的問題。中文分詞到今天都是自然語言處理里的經(jīng)典難題。
所以你看,「按空格切」這個(gè)最直覺的方案,只在很有限的條件下管用。
大家想了別的辦法。往上走,詞干提取,把 cats 還原成 cat,把 loving 還原成 love,這樣詞表就小了。但你得為每種語言手寫規(guī)則,英語的不適用于德語,德語的不適用于中文,對(duì)非歐洲語言基本沒用。往下走,按字母切。「hello」 切成 h、e、l、l、o,詞表只有 26 個(gè)字母加一些符號(hào),絕對(duì)不會(huì)爆炸,也絕對(duì)不會(huì)碰到未登錄詞。但代價(jià)巨大——序列太長(zhǎng)了。一個(gè)句子按詞切只有 50 個(gè) Token,按字母切可能有 300 個(gè)。序列越長(zhǎng),訓(xùn)練越慢,效果越差。
上也不通,下也不通,中間也沒有通用的方案。
直到 2016 年。
![]()
2015 年到 2016 年,神經(jīng)機(jī)器翻譯——就是用深度學(xué)習(xí)做翻譯——正在快速崛起。Google、百度都在押注這個(gè)方向。效果比傳統(tǒng)的統(tǒng)計(jì)翻譯好了一大截,但有一個(gè)問題始終解決不了:生詞。
神經(jīng)翻譯模型需要一張固定的詞表,通常是三萬到五萬個(gè)詞。但翻譯天生就是一個(gè)開放詞匯的問題——你永遠(yuǎn)不知道用戶會(huì)輸入什么。一個(gè)德國城市的名字、一個(gè)新成立公司的名字、一個(gè)剛發(fā)明的科學(xué)術(shù)語,只要它不在詞表里,模型就只能輸出 「UNK」——「我不認(rèn)識(shí)」。
之前的解決辦法是「查詞典兜底」——碰到不認(rèn)識(shí)的詞,就去詞典里找對(duì)應(yīng)的翻譯硬塞進(jìn)去。但這個(gè)做法很笨拙。首先你得有詞典,其次詞典里也不一定有這個(gè)詞,最后硬塞進(jìn)去的翻譯經(jīng)常和前后文格格不入。
愛丁堡大學(xué)的 Rico Sennrich 和他的同事——Barry Haddow 和 Alexandra Birch——意識(shí)到一件事:其實(shí)很多「生詞」并不是真的全新的。人名可以通過音譯處理,復(fù)合詞可以拆開翻譯,同源詞可以通過形態(tài)變換識(shí)別。也就是說,很多詞的翻譯可以在比「詞」更小的單位上完成。
問題是:這個(gè)「更小的單位」是什么?怎么切?
Sennrich 的思路很簡(jiǎn)單:別讓人來決定怎么切了,讓數(shù)據(jù)自己決定。他用了一個(gè)叫 BPE 的算法——Byte Pair Encoding(字節(jié)對(duì)編碼)。
這個(gè)算法也不是 Sennrich 的原創(chuàng),事實(shí)上在 1994 年就有人提出來了,作者叫 Philip Gage,文章發(fā)表在 《The C Users Journal》雜志上。這不是一個(gè)學(xué)術(shù)期刊,而是一本面向 C 語言程序員的實(shí)用技術(shù)雜志,主要刊登編程技巧和小工具。放在今天大概相當(dāng)于在 Medium 或者某個(gè)技術(shù)博客上發(fā)了篇帖子。
這也不是一個(gè)很好的壓縮方案。Gage 在論文里自己就承認(rèn),BPE 的壓縮率不如當(dāng)時(shí)已經(jīng)廣泛使用的 LZW 算法——就是 zip 文件使用的那種算法。
他說 BPE 的優(yōu)勢(shì)是解壓程序特別小、解壓速度特別快,適合一些內(nèi)存有限的場(chǎng)景。多有限呢?比如早期的工業(yè)控制器、某些專用儀器、資源極其受限的微處理器。這些設(shè)備可能只有幾 KB 的內(nèi)存,一個(gè)標(biāo)準(zhǔn)的 LZW 解壓庫放不進(jìn)去,但 BPE 的解壓代碼幾十行 C 就能搞定。
但更廣泛的場(chǎng)景——也就是個(gè)人電腦里——雖然內(nèi)存遠(yuǎn)遠(yuǎn)不能跟現(xiàn)在相比,但也已經(jīng)是 MB 級(jí)別的了,反而硬盤空間和網(wǎng)絡(luò)帶寬緊張,需要更高的壓縮率。
它的唯一優(yōu)勢(shì)(解壓程序小)只在極少數(shù)人關(guān)心的場(chǎng)景里有意義,而它的劣勢(shì)(壓縮率不如主流方案)在大多數(shù)人關(guān)心的場(chǎng)景里很明顯。
這就好比說,你有一臺(tái)冰箱,制冷不行,耗電也不行,唯一的優(yōu)勢(shì)是這是個(gè)大象形狀的,方便把大象裝進(jìn)去。
現(xiàn)在大象來了。
整個(gè)人類的語言庫,就是那頭巨大無比的大象。Sennrich 看出了一個(gè)關(guān)鍵的類比:數(shù)據(jù)壓縮在做的事情——找到重復(fù)出現(xiàn)的模式,用更短的符號(hào)代替它——和語言切分需要做的事情,在結(jié)構(gòu)上是一樣的。一個(gè)在極小眾場(chǎng)景里發(fā)明的壓縮算法,就這樣被搬到了自然語言處理。
![]()
把這頭大象裝進(jìn)去,總共分三步:
第一步:把所有文字打散成最小的單位——字節(jié)。英文字母一個(gè)字節(jié),中文漢字在 UTF-8 編碼(一種通用的字符編碼標(biāo)準(zhǔn))下通常是三個(gè)字節(jié)。這一步不需要任何語言學(xué)知識(shí),不管你是什么語言,到了字節(jié)這一層,大家都一樣。
第二步:掃描整個(gè)訓(xùn)練語料,統(tǒng)計(jì)哪兩個(gè)相鄰的字節(jié)出現(xiàn)在一起的次數(shù)最多。比如在英文里,t 和 h 經(jīng)常挨著出現(xiàn),因?yàn)?the、that、this、think 這些高頻詞都以 th 開頭。好,把 t 和 h 合并成一個(gè)新的符號(hào) th,分配一個(gè)新的編號(hào)。因?yàn)?0 到 255 已經(jīng)被基礎(chǔ)字節(jié)占了,所以第一個(gè)新符號(hào)從 256 開始。
第三步:在合并之后的基礎(chǔ)上,再統(tǒng)計(jì)。th 和 e 經(jīng)常一起出現(xiàn)——合并成 the,編號(hào) 257。th 和 a 也經(jīng)常一起——合并成 tha,編號(hào) 258。
如此反復(fù),迭代幾萬次。每一次迭代,都把當(dāng)前出現(xiàn)頻率最高的一對(duì)合并成一個(gè)新的符號(hào)。
原理就是如此。沒有語法分析,沒有詞典,沒有任何人類對(duì)語言的理解。就是數(shù)數(shù)。
最終你會(huì)得到一張?jiān)~表——通常是幾萬到十幾萬個(gè) Token。這張?jiān)~表里有什么?常見的英文單詞,比如 the、and、is,各自是一個(gè)完整的 Token。常見的中文漢字,比如「的」、「是」、「我」,也各自是一個(gè)完整的 Token。
但不常見的字、不常見的詞、不常見的組合——它們沒有攢夠足夠的頻率被合并成獨(dú)立的 Token,就只能留在碎片狀態(tài)。比如 「Krzyzewski」——前杜克大學(xué)籃球主教練老 K 的姓——會(huì)被拆成五六個(gè)碎片。
但關(guān)鍵是:它不會(huì)消失。不管多生僻的詞,BPE 都能把它拆成已有的小碎片來表示。永遠(yuǎn)不會(huì)輸出「UNK」。
還記得前面的三堵墻嗎?詞表爆炸、未登錄詞、沒有空格——BPE 一次性全部推倒。詞表大小可控,幾萬個(gè)就夠;任何新詞都能用現(xiàn)有碎片拼出來;不需要空格,因?yàn)榍蟹滞耆山y(tǒng)計(jì)驅(qū)動(dòng)。
如果你還記得前面說的齊普夫定律——少數(shù)詞出現(xiàn)頻率極高,大量詞出現(xiàn)頻率極低——你就會(huì)發(fā)現(xiàn) BPE 在做的事情,本質(zhì)上就是把齊普夫定律翻譯成了一張編碼表:高頻組合變成短編碼,低頻組合留在長(zhǎng)編碼。和信息論的精神一脈相承:常見的東西應(yīng)該占更少的空間。
![]()
講到這里,值得思考一個(gè)問題:BPE 和之前拆 Token 的方式,最本質(zhì)的不同是什么?
從皮爾士到齊普夫到編譯器,我們都首先需要去理解規(guī)則,也就是理解 Type,才能去做分析和拆分。皮爾士說 「the」 是一個(gè)詞,那是人類的語言規(guī)范。編譯器說 `int` 是關(guān)鍵字,那是程序語言設(shè)計(jì)者寫下的規(guī)則。
一百一十年來,Token 可以是任何東西的替身,但 Type——那個(gè)定義「什么是一個(gè)有意義的單位」的權(quán)力——始終在人類手里。
但 BPE 不一樣。
BPE 根本不問「什么是一個(gè)詞」。它不關(guān)心語法,不關(guān)心詞根,不關(guān)心任何人類對(duì)語言的理解。它只做一件事:數(shù)字節(jié)對(duì)出現(xiàn)了多少次。the 成為一個(gè) Token,不是因?yàn)橛腥烁嬖V系統(tǒng) 「the 是英語里的定冠詞」,而僅僅是因?yàn)?t-h-e 這三個(gè)字節(jié)碰巧在訓(xùn)練數(shù)據(jù)里反復(fù)挨在一起。
換句話說——BPE 的詞表里沒有 Type。或者更準(zhǔn)確地說,BPE 用 Token 的統(tǒng)計(jì)分布取代了 Type。它不需要人類來定義什么是一個(gè)有意義的語言單位,它讓頻率自己「涌現(xiàn)」出有意義的單位。
這也是為什么 BPE 是一件極其強(qiáng)大的武器——它不依賴任何語言學(xué)知識(shí)就能處理所有語言,因?yàn)樗静恍枰朗裁词恰冈~」。Sennrich 在論文里解決的那個(gè)問題——生詞——也因此被徹底消解了:當(dāng)你的系統(tǒng)不再以「詞」為單位,就不存在「詞表里沒有的詞」這回事。任何文本都可以被拆到字節(jié)層面,然后從字節(jié)往上合并到它在詞表里能達(dá)到的最高層級(jí)。
![]()
但這還不是終點(diǎn)。
2018 年,OpenAI 發(fā)布 GPT-2 的時(shí)候,對(duì) Sennrich 的 BPE 做了一個(gè)重要的改進(jìn)。
Sennrich 原版的 BPE,起點(diǎn)是字符——英文字母、中文漢字、標(biāo)點(diǎn)符號(hào)這些。這意味著你得先告訴系統(tǒng)「這些是英文字符、這些是中文字符、這些是阿拉伯文字符」——雖然比「告訴系統(tǒng)什么是一個(gè)詞」要簡(jiǎn)單得多,但你仍然需要一套字符表,而且不同語言的字符表不一樣。
OpenAI 的做法是再往下走一層:不從字符出發(fā),從字節(jié)出發(fā)。
![]()
什么是字節(jié)?計(jì)算機(jī)里所有的東西——文字、圖片、音樂、視頻——在最底層都是 0 和 1。每 8 個(gè) 0 和 1 組成一個(gè)字節(jié)。一個(gè)字節(jié)能表示 256 種不同的狀態(tài),從 0 到 255。
在 UTF-8 編碼下,一個(gè)英文字母恰好是一個(gè)字節(jié)。字母 A 是字節(jié) 65,B 是 66,z 是 122。一個(gè)中文漢字需要三個(gè)字節(jié)。比如「馬」這個(gè)字,在 UTF-8 里是三個(gè)字節(jié):229、184、172。不是一個(gè)數(shù)字,是三個(gè)數(shù)字拼在一起。
改進(jìn)版被稱作 Byte-level BPE,簡(jiǎn)稱 BBPE,起點(diǎn)就是這 256 個(gè)基礎(chǔ)字節(jié)。不管你輸入的是英文、中文、阿拉伯文、緬甸文還是 emoji,到了字節(jié)這一層,大家都是 0 到 255 之間的數(shù)字,沒有區(qū)別。然后 BPE 在這個(gè)基礎(chǔ)上做合并——高頻的字節(jié)對(duì)合并成新符號(hào),再合并,再合并,迭代幾萬次,生成最終的詞表。
BPE 的處理對(duì)象還是自然詞匯,但 BBPE 不再需要知道世界上有多少種文字。它不需要一張字符表,不需要知道中文和英文的區(qū)別,不需要任何關(guān)于語言的先驗(yàn)知識(shí)。萬物皆字節(jié),字節(jié)皆可合并。
這就是為什么 GPT 系列模型能「處理任何語言」——不是因?yàn)樗鼘W(xué)過所有語言,而是因?yàn)樗钠瘘c(diǎn)足夠低。低到了字節(jié)。在字節(jié)面前,所有語言一律平等。
聽起來很美好,美好到不現(xiàn)實(shí),對(duì)吧?
![]()
不平等在訓(xùn)練之前已經(jīng)發(fā)生了。
英文字母一個(gè)字節(jié)就是一個(gè)字符,BPE 從一開始就在處理有意義的單位。而中文漢字需要三個(gè)字節(jié),BPE 得先把這三個(gè)碎片合并回一個(gè)字,才能開始處理「有意義」的東西——它的起跑線就比英文靠后了一步。
再加上訓(xùn)練數(shù)據(jù)里英文內(nèi)容占絕對(duì)多數(shù),英文的字節(jié)組合有大量的統(tǒng)計(jì)支撐去合并成完整的單詞甚至短語,而中文的字節(jié)組合能合并回單字就不錯(cuò)了,更別說詞組。
舉個(gè)例子。在 GPT-5 的 Tokenizer 里,「字節(jié)跳動(dòng)的短視頻平臺(tái)抖音」,總共 12 個(gè)漢字,需要用 11 個(gè) Token;而英文版 「ByteDance‘s short video platform Douyin」 有 40 個(gè)字母,只需要 9 個(gè) Token——要注意,ByteDance 和 Douyin 甚至都不是真正的英文單詞,但在英文里依然效率更高。
我們可以仔細(xì)看一下「字節(jié)跳動(dòng)的短視頻平臺(tái)抖音」是怎么變成 Token 的。「視頻」和「平臺(tái)」都是一個(gè) Token,「抖」占了兩個(gè) Token。
這里多解釋一下,為什么一個(gè)漢字會(huì)占據(jù)兩個(gè) Token。像前面所說,BBPE 不是面向字符編碼,而是面向字節(jié)編碼。「抖」對(duì)應(yīng)的編碼是 230、138、150,很可能在數(shù)據(jù)庫里,230 與 138 的組合是高頻的,但再加上 150 的話頻率就沒那么高了,所以編碼 230、138 對(duì)應(yīng)了一個(gè) Token,而編碼 150 單獨(dú)對(duì)應(yīng)一個(gè) Token。
每個(gè)字單獨(dú)編碼,偶爾兩個(gè)字能合并,但也有些字需要拆分。總體上,中文的 Token 消耗就是比英文高。
那這意味著什么呢?
大模型是按 Token 計(jì)費(fèi)的。OpenAI 的 API,每一千個(gè) Token 收多少錢,白紙黑字寫在價(jià)格表上。你消耗更多的 Token,你就付更多的錢。
![]()
而且不只是付錢的問題。大模型有上下文窗口(context window,模型一次能「記住」的內(nèi)容量)——就是它一次能處理的 Token 總量上限。GPT-4 的上下文窗口是 128k 個(gè) Token。
這意味著如果你用英文,你可以在一次對(duì)話里塞進(jìn)去大約十萬個(gè)英文單詞——差不多一本中等篇幅的小說。但如果你用中文,同樣的 128k 個(gè) Token,你能塞進(jìn)去的內(nèi)容就要少很多。
同樣的窗口,中文用戶能說的話更少。
付更多的錢,得到更少的空間,獲得更短的回答。這就是 Token 不平等的經(jīng)濟(jì)學(xué)。
但中文至少還算「大語言」。訓(xùn)練數(shù)據(jù)里中文內(nèi)容雖然不如英文多,但也有相當(dāng)?shù)囊?guī)模,足以讓常用漢字被合并成獨(dú)立的 Token。
真正慘的是那些小語種。
近年來,多項(xiàng)研究對(duì)這個(gè)問題做了系統(tǒng)的測(cè)算。他們發(fā)現(xiàn),同樣的語義內(nèi)容,用不同語言表達(dá)所消耗的 Token 數(shù)量差異可以達(dá)到十幾倍。
英文是基準(zhǔn)——消耗最少的 Token,中文大約是英文的 1.5 到 2 倍,日語、韓語類似,緬甸語、藏語、阿姆哈拉語等語言,同樣的內(nèi)容可能需要英文 5 到 10 倍的 Token
為什么?因?yàn)檫@些語言在訓(xùn)練數(shù)據(jù)里幾乎不存在。BPE 在訓(xùn)練的時(shí)候沒有見過足夠多的緬甸文,所以緬甸文的字節(jié)組合從來沒有機(jī)會(huì)被合并——它們永遠(yuǎn)停留在最碎的碎片狀態(tài),每一個(gè)字都被拆成三四個(gè)字節(jié)碎片,每個(gè)碎片各占一個(gè) Token。
想象一下:一個(gè)緬甸語用戶和一個(gè)英文用戶買同樣的 API 額度,但緬甸語用戶只能用英文用戶五分之一的信息量。同樣的錢,五分之一的服務(wù)。
![]()
這跟電報(bào)很像。
電報(bào)編碼——莫爾斯碼——是這樣設(shè)計(jì)的:最常用的字母用最短的編碼。E 是一個(gè)點(diǎn),T 是一個(gè)劃,A 是一點(diǎn)一劃。而不常用的字母用更長(zhǎng)的編碼——Q 是兩劃一點(diǎn)一劃,Z 是兩劃兩點(diǎn)。
但莫爾斯碼是基于英文字母頻率設(shè)計(jì)的。當(dāng)電報(bào)技術(shù)推廣到全世界的時(shí)候,其他語言怎么辦?中文怎么發(fā)電報(bào)?漢字不是字母,你不能直接用點(diǎn)和劃來編碼。
解決方案是:給每個(gè)漢字分配一個(gè)四位數(shù)字編碼——0001 到 9999。發(fā)電報(bào)的時(shí)候,先把漢字翻譯成數(shù)字,再把數(shù)字翻譯成莫爾斯碼發(fā)出去。一個(gè)漢字就是四個(gè)數(shù)字,每個(gè)數(shù)字都要用莫爾斯碼逐個(gè)發(fā)送。
一個(gè)英文字母平均需要 2 到 3 個(gè)莫爾斯碼信號(hào)。一個(gè)漢字呢?四個(gè)數(shù)字,每個(gè)數(shù)字平均需要 5 個(gè)信號(hào)——總共大約 20 個(gè)信號(hào)。
同樣一個(gè)意思,中文電報(bào)的信號(hào)量是英文的七八倍。電報(bào)是按字?jǐn)?shù)或者按信號(hào)量計(jì)費(fèi)的,所以中文電報(bào)比英文電報(bào)貴得多。直到八九十年代,小學(xué)生寫作文還有個(gè)練習(xí),就是寫電報(bào),看誰能用最少的字把事情說清楚。
類似的事情不停在重復(fù)。
打字機(jī)在 1870 年代發(fā)明,但卻是為拉丁字母設(shè)計(jì)的。最早的中文打字機(jī)是什么樣子?一個(gè)金屬托盤上排著幾千個(gè)鉛字,打字員用小桿子一個(gè)一個(gè)找,速度是英文的十分之一。當(dāng)時(shí)很多人,包括魯迅在內(nèi),得出結(jié)論說中文是落后的文字,中國想要走向文明,漢字就得拉丁化。
對(duì)這段歷史有興趣的朋友,可以看看墨磊寧的《中文打字機(jī)》這本書,我就不展開了。我想說的是,近現(xiàn)代以來,每一次人類發(fā)明一種新的信息編碼系統(tǒng)——電報(bào)、打字機(jī)、計(jì)算機(jī)、AI——都會(huì)重新制造一次語言不平等。而且這種不平等的方向幾乎每一次都是一樣的:英文最便宜、最高效、最方便,然后按語言與英文的「距離」遞減。拉丁字母語言其次,東亞語言再次,南亞和非洲語言最末。
誰的語言最先被編碼,誰就是標(biāo)準(zhǔn);后來者永遠(yuǎn)在適配。
當(dāng)然,你可能說,技術(shù)是中立的,這不是故意歧視。BPE 不是故意歧視中文或者緬甸語,它只是按頻率統(tǒng)計(jì)做了最優(yōu)壓縮。
對(duì)。完全對(duì)。沒有人故意歧視。你不需要故意歧視,你只需要選擇一個(gè)「合理的」起點(diǎn)——比如「按頻率統(tǒng)計(jì)」——然后讓系統(tǒng)自動(dòng)運(yùn)行。不平等會(huì)自己涌現(xiàn)出來。
因?yàn)椤割l率」不是一個(gè)客觀的自然屬性。它是由誰在生產(chǎn)內(nèi)容、誰的語言在互聯(lián)網(wǎng)上有最多的文字、誰的文化有最發(fā)達(dá)的出版和傳播體系來決定的。
BPE 把這種歷史性的權(quán)力不對(duì)稱,通過一個(gè)看似中性的算法,編碼進(jìn)了 AI 系統(tǒng)的最底層。然后這個(gè)系統(tǒng)給全世界所有人使用。每一個(gè)人,每說一句話,都在為這種不平等付費(fèi)。而他們中的大多數(shù)人甚至不知道 Token 是什么。
![]()
當(dāng)然這個(gè)事情也在改善。
我做了一個(gè)測(cè)試。打開 OpenAI 的 tokenizer 工具,輸入同一句中文:「馬嘉祺是時(shí)代少年團(tuán)隊(duì)長(zhǎng),蔡徐坤不是。」然后切換不同版本的 tokenizer 看看各需要多少 Token:
GPT-3.0 的 tokenizer:38 個(gè) Token, GPT-3.5 和 GPT-4.0 的 tokenizer:26 個(gè) Token, GPT-5 的 tokenizer:15 個(gè) Token
同一句話,三代模型,Token 消耗從 38 降到了 15,降了 60%。
這說明 OpenAI 在每一代模型中都在給中文更多的詞表席位,讓更多的漢字和常見詞組被完整保留,而不是拆成碎片。
中文用戶有十幾億人。市場(chǎng)夠大,商業(yè)動(dòng)力夠強(qiáng),所以 OpenAI 愿意優(yōu)化。中國自己的 AI 公司也在做同樣的事。豆包、千問、月之暗面等等——這些國產(chǎn)大模型都在自己訓(xùn)練 tokenizer,策略很簡(jiǎn)單:在詞表里給中文更多的「席位」,讓更多的中文字符組合被合并成獨(dú)立的 Token,減少中文被拆碎的概率。
但詞表總?cè)萘渴怯邢薜摹PT-5 的詞表大約 20 萬個(gè) Token。你給中文多一個(gè)席位,就得給其他語言少一個(gè)。中文有大公司撐腰。但前面提到的那些小語種,沒有人為它們做這件事。
緬甸語有五千多萬人在說。藏語呢?宗卡語呢?這些語言的 tokenizer 效率,從 GPT-3 到 GPT-5,大概率沒有同等幅度的改善。因?yàn)闆]有商業(yè)動(dòng)力,沒有十幾億用戶的市場(chǎng)在那里等著。
語料配比——用多少英文、多少中文、多少緬甸文來訓(xùn)練 BPE——本質(zhì)上是一個(gè)隱性的決策:誰的語言更值得被高效表示?這個(gè)決策沒有人公開討論過。它埋在技術(shù)文檔的某一行參數(shù)里。但它決定了數(shù)十億人使用 AI 的成本和體驗(yàn)。
BPE 用頻率取代了 Type。它不再由人類來定義什么是一個(gè)有意義的單位,而是讓統(tǒng)計(jì)數(shù)據(jù)自己決定。這個(gè)選擇帶來了語言不平等——高頻的語言被完整保留,低頻的語言被碎成碎片。
但這個(gè)后果不只發(fā)生在語言和語言之間,它同樣發(fā)生在同一種語言內(nèi)部。
![]()
回到馬嘉祺。
我還是不能給出確切的結(jié)論,究竟為什么大模型不認(rèn)識(shí)「馬嘉祺」,但可以肯定與 Token 生成有關(guān)。想象你在玩拼圖游戲。常見的圖案——比如「天安門」、「長(zhǎng)城」——廠家會(huì)給你完整的大塊拼圖,一塊就能拼出來。但生僻的圖案——比如某個(gè)小眾景點(diǎn)——廠家沒有專門的大塊,你只能用很多小碎片拼湊。
「祺」這個(gè)字就是那個(gè)小眾景點(diǎn)。它在訓(xùn)練數(shù)據(jù)里出現(xiàn)的頻率不夠高,BPE 算法沒有給它分配一個(gè)完整的 Token,而是把它拆成了兩個(gè)小碎片。這兩個(gè)碎片單獨(dú)看都沒什么意義,就像拼圖的邊角料。
現(xiàn)在問題來了。當(dāng) AI 要生成「馬嘉祺」這個(gè)名字時(shí),它需要先找到「馬」,再找到「嘉」,最后找到「祺」的那兩個(gè)小碎片,把它們按正確順序組裝起來。但 AI 在訓(xùn)練時(shí)很少見過這個(gè)組合——「馬嘉」加上那兩個(gè)特定碎片——出現(xiàn)的次數(shù)太少了。
相反,「馬俊杰」、「馬杰倫」這些組合,每個(gè)字都是完整的大塊 Token,而且這些組合在訓(xùn)練數(shù)據(jù)里出現(xiàn)過更多次。對(duì) AI 來說,這些組合就像是一條被走過很多遍的路,路面平整、標(biāo)記清晰。而「馬嘉祺」就像是一條幾乎沒人走過的小路,路標(biāo)模糊、碎石遍地。
當(dāng) AI 要生成答案時(shí),它會(huì)自然而然地選擇那條更平整的路。不是因?yàn)樗覆徽J(rèn)識(shí)」馬嘉祺,而是因?yàn)樵谒?Token 系統(tǒng)里,「馬嘉祺」這條路從一開始就沒有被修好。
![]()
類似的問題還有很多,在大模型領(lǐng)域有個(gè)專門的名詞,就叫 Glitch Tokens(故障詞元),意思是那些會(huì)讓大模型運(yùn)行出問題的 Token。
你可能會(huì)想:那把模型做大一點(diǎn)、做強(qiáng)一點(diǎn),不就解決了?剛剛不也說,從 GPT-3 到 GPT-5,確實(shí)中文 Token 效率在提高。
很不幸,不能。
2026 年 1 月有一篇關(guān)于 Token 的論文《Say Anything but This: When Tokenizer Betrays Reasoning in LLMs(什么都能說,就是不能說這個(gè):當(dāng) Tokenizer 背叛了大模型的推理能力)》。
研究者發(fā)現(xiàn)了一件事:tokenizer 給模型提供了一條「阻力最小的路徑」。當(dāng)模型需要生成某個(gè)答案的時(shí)候,如果詞表里恰好有一個(gè)現(xiàn)成的 Token 能直接輸出,模型就會(huì)走這條捷徑,而不是真正去推理。
我舉個(gè)例子讓你感受一下。假設(shè)模型需要回答「52 加 37 等于多少」。正確答案是 89。但如果詞表里恰好有一個(gè) Token 對(duì)應(yīng) 「88」,而且這個(gè) Token 在模型的內(nèi)部空間里離 「89」 很近、出現(xiàn)頻率很高——模型可能就會(huì)滑向 「88」。不是因?yàn)樗粫?huì)算,而是因?yàn)?「88」 這條路更絲滑。
研究者做了一件反直覺的事:他們把這些捷徑堵住了——強(qiáng)制移除那些容易造成混淆的 Token,逼模型走推理的路。
結(jié)果呢?模型反而表現(xiàn)更好了。
這說明什么?說明模型本身有推理能力。問題不在「腦子」——在「眼睛」。Tokenizer 是在模型訓(xùn)練之前就凍結(jié)的感知器官,模型再強(qiáng)也改不了它。
這就好比你給一個(gè)天才畫家戴上一副度數(shù)不對(duì)的眼鏡,而且這副眼鏡焊死在臉上了,這輩子摘不下來。他畫技高超,構(gòu)圖、色彩、光影都對(duì),但遠(yuǎn)處那個(gè)人名字里的生僻字,他就是看不清。
不是腦子的問題,是眼睛的問題。
論文得出結(jié)論:模型變大不能解決這個(gè)問題,Scaling 無效。因?yàn)閱栴}在架構(gòu)層面——tokenizer 在模型訓(xùn)練之前就固定了,模型再大、參數(shù)再多,也是在一個(gè)被固定的感知框架里訓(xùn)練出來的。
眼睛的分辨率,在出生前就定了。這就是 BPE 放棄 Type 的真正代價(jià)。
![]()
當(dāng) Type 是人定義的時(shí)候——比如在編譯器里——人可以確保每一個(gè)被定義的類別都是完整的、精確的、沒有歧義的。`int` 就是 `int`,絕不會(huì)和 `integer` 混淆,因?yàn)樵O(shè)計(jì)者明確規(guī)定了它們的區(qū)別。
但當(dāng)你把 Type 的定義權(quán)交給頻率統(tǒng)計(jì),你得到的「類別」就不再有這種保證了。高頻的組合被識(shí)別得又快又準(zhǔn),低頻的組合就模糊、破碎、容易混淆。
不是均勻的不完美,而是有一條清晰的斷裂線——沿著頻率分布的長(zhǎng)尾畫下去。
這意味著什么?
意味著你叫「張偉」,AI 不會(huì)寫錯(cuò)你的名字。但你叫「馬嘉祺」,它可能每次都寫錯(cuò)。你用英文問它問題,它的回答精準(zhǔn)而流暢。你用緬甸語問同一個(gè)問題,它的回答碎片化、不連貫、甚至可能是錯(cuò)的。
這不是兩種不同的 AI。是同一個(gè) AI,用同一個(gè) tokenizer,在頻率曲線的兩端展現(xiàn)出的兩張面孔。
在高頻的那一端——英文、常用詞、熱門話題——它看起來無所不知、無所不能。這是你在社交媒體上看到的那個(gè) AI,是科技公司在發(fā)布會(huì)上展示的那個(gè) AI,是黃仁勛說價(jià)值萬億美元的那個(gè) AI。
在低頻的那一端——小語種、生僻字、冷門知識(shí)——它變得遲鈍、模糊、不可靠。但這一端的用戶,恰好是那些最缺少替代信息來源的人。
在 Token 的世界里,「罕見」和「不重要」在統(tǒng)計(jì)上是同一件事。
這就是為什么法律文本用 AI 輔助的時(shí)候,罕見的術(shù)語可能會(huì)被模糊處理。醫(yī)療診斷用 AI 輔助的時(shí)候,罕見病的名字可能會(huì)變成碎片。教育內(nèi)容用 AI 生成的時(shí)候,少數(shù)語言的知識(shí)可能會(huì)被磕磕絆絆地拼湊。不是有人故意忽略了這些——而是這個(gè)系統(tǒng)從一開始就沒有能力區(qū)分「罕見」和「不重要」。
AI 最不準(zhǔn)確的地方,恰好是人們最需要它準(zhǔn)確的地方。
![]()
這也是為什么我在開頭說,「詞元」不是一個(gè)好的翻譯。
「詞」字暗示 Token 是一個(gè)「詞」層面的單位。但你現(xiàn)在已經(jīng)知道了,Token 不是詞。它可以是一個(gè)完整的詞,也可以是半個(gè)字,也可以是一串毫無意義的字節(jié)碎片。BPE 生成的 Token 不遵循任何語言學(xué)上對(duì)「詞」的定義——事實(shí)上,BPE 的全部意義就在于放棄了「詞」這個(gè)概念。
「元」字有「基本單位」的意思——元素、單元、元件。這暗示 Token 是一個(gè)穩(wěn)定的、自然的、有明確邊界的基本粒子,好像它是語言內(nèi)在結(jié)構(gòu)的一部分,甚至是詞的某種本質(zhì)特征。但 Token 的邊界不是由語言的自然結(jié)構(gòu)決定的,而是由訓(xùn)練數(shù)據(jù)的頻率分布決定的。換一批訓(xùn)練數(shù)據(jù),同一個(gè)字可能從一個(gè) Token 變成兩個(gè) Token,或者從兩個(gè)變成一個(gè)。它是一個(gè)統(tǒng)計(jì)產(chǎn)物,不是一個(gè)語言學(xué)概念。
前面說過,Token 是語言的替代物——它不是語言本身,更不是語言的某種本質(zhì),它只是一個(gè)代替語言被計(jì)算機(jī)處理的編號(hào)。但「詞元」這個(gè)譯名恰恰把這層關(guān)系遮蔽了。這就好比你造了一輛沒有方向盤的自動(dòng)駕駛汽車,然后給它起名叫「方向盤號(hào)」。
但不管叫它什么,Token 已經(jīng)在這里了,還成了黃仁勛口中所說的「萬億美元市場(chǎng)的基礎(chǔ)」。他說,NVIDIA 的 AI 芯片是「Token 的鑄造機(jī)」。
你可能會(huì)想:既然 Token 有這么多問題——bug、不平等、幻覺——為什么它還能成為萬億美元市場(chǎng)的基礎(chǔ)?
因?yàn)闄?quán)力的基礎(chǔ),從來就不是完美的東西。
![]()
美元。1971 年之前,美元和黃金掛鉤——一盎司黃金 35 美元,白紙黑字。那時(shí)候美元有一個(gè)「本體」在支撐它:黃金。1971 年,尼克松取消了金本位。從那以后,美元靠什么?靠大家相信它有價(jià)值。
2008 年金融危機(jī),全世界發(fā)現(xiàn)——度量衡沒變,但桶里是空的。那些評(píng)級(jí)為 AAA 的金融產(chǎn)品,底下是一層一層的次級(jí)貸款。替身看著光鮮亮麗,本體早就爛了。
但美元崩潰了嗎?沒有。它繼續(xù)是全球儲(chǔ)備貨幣。為什么?因?yàn)樵谒罎⒅埃娲某杀疽呀?jīng)高到?jīng)]人承受得起。全世界的貿(mào)易合同用美元結(jié)算,全世界的央行用美元儲(chǔ)備,全世界的大宗商品用美元定價(jià)。你可以說美元有問題,但你拿什么替代它?歐元?人民幣?每一種替代方案的切換成本都是天文數(shù)字。
比特幣。一個(gè)算法加一群人的信仰。能耗荒謬,價(jià)格劇烈波動(dòng),每秒處理的交易量還不如一家縣城超市的收銀臺(tái)。但沒有阻止它成為一種權(quán)力載體。
甚至語言本身。漢字筆畫順序誰規(guī)定的?英語拼寫為什么這么不規(guī)則?為什么 Wednesday 中間有一個(gè)不發(fā)音的 d?為什么 island 里有一個(gè)不發(fā)音的 s?沒有人「設(shè)計(jì)」了這些。都是歷史偶然的層層累積——某個(gè)世紀(jì)的某個(gè)抄寫員寫錯(cuò)了一個(gè)字,后人將錯(cuò)就錯(cuò),錯(cuò)誤凝固成了規(guī)范。但語言照樣運(yùn)轉(zhuǎn),照樣承載了人類全部的文明。
Token 的故事不是一個(gè)騙局,也不是一個(gè)幻覺,它只是一個(gè)偶然中誕生又在歷史里起起伏伏最終擁有了權(quán)力的詞語。
![]()
1906 年,皮爾士在研究邏輯圖時(shí)提出了 Type-Token 區(qū)分,他只是想數(shù)清楚紙上有幾個(gè)圓圈。
1994 年,Philip Gage 在《C Users Journal》上發(fā)表了一個(gè)壓縮小工具,他只是想在內(nèi)存有限的工控設(shè)備上節(jié)省幾個(gè)字節(jié)。
2016 年,Rico Sennrich 把這個(gè)壓縮算法用到了神經(jīng)機(jī)器翻譯,他只是想解決翻譯中的生詞問題。
2018 年,OpenAI 把 BPE 改成了 Byte-level,他們只是想讓 GPT-2 能處理更多語言。
每一步都是合理的。每一步都是局部的。每一步都解決了當(dāng)時(shí)的問題。
這就是權(quán)力最常見的誕生方式,不是有人坐下來精心設(shè)計(jì)了一個(gè)統(tǒng)治系統(tǒng)——而是一連串當(dāng)時(shí)看起來合理甚至無關(guān)緊要的選擇,在沒人注意的情況下,凝固成了新的秩序。
我們都知道,現(xiàn)在是一個(gè)歷史轉(zhuǎn)折時(shí)刻,不僅僅是通用人工智能取代人類,也是人類正把什么是意義、什么是規(guī)則的定義權(quán)交給統(tǒng)計(jì)數(shù)據(jù)。
我們所有人,正站在這個(gè)轉(zhuǎn)折的中間,還沒來得及想清楚這意味著什么,就已經(jīng)在擁抱它了。
還可以看這些
歡迎來我的知識(shí)星球
周二到周四,我將每天提供一份互聯(lián)網(wǎng)/科技/消費(fèi)等行業(yè)的觀察,可能是獨(dú)家消息,可能是趨勢(shì)分析,也可能是不方便在其他渠道公開的內(nèi)容。
星球初建,前 20 名成員將享受系統(tǒng)可能設(shè)定的最低價(jià) 50/年,之后隨著內(nèi)容增多,價(jià)格也會(huì)提高。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.