想象一下,你正在經(jīng)營一家智能養(yǎng)蝦場(OpenClaw),通過AI系統(tǒng)管理數(shù)千畝龍蝦池塘。清晨,你對AI助手說:“幫我訂個披薩。”系統(tǒng)迅速響應(yīng),后臺計費系統(tǒng)記錄下這簡單的6個字。到了中午,你換了一種說法:“幫我預(yù)訂一份意大利薄底薩拉斯米腸披薩。”同樣的需求,更詳細(xì)的描述,但這一次,計費系統(tǒng)記錄的“詞元”數(shù)量其實大不相同。
![]()
圖片來源:AI生成
這不是科幻場景,而是每天都在發(fā)生的真實計費邏輯。在AI大模型時代,token是人工智能(尤其是大語言模型)處理中信息的最小單位,也是模型計費和處理的基本單位。2026年3月25日,全國科學(xué)技術(shù)名詞審定委員會正式發(fā)布《關(guān)于發(fā)布試用人工智能領(lǐng)域名詞token中文名“詞元”的公告》,將這個困擾業(yè)界多年的術(shù)語統(tǒng)一命名為“詞元”,標(biāo)志著這一概念正式進入國家規(guī)范術(shù)語體系。
詞元(Token)是大模型處理信息的最小信息單元,具有智能時代可計量、可定價、可交易的特征。
從“字”到“詞元”:計費單位的革命
傳統(tǒng)認(rèn)知中,我們按字?jǐn)?shù)計費——寫多少字付多少錢。但在AI世界里,這個邏輯被徹底顛覆。
大模型廠商的計費公式可以簡化為:
plain
費用=(輸入詞元數(shù)×輸入單價+輸出詞元數(shù)×輸出單價)/1,000,000
國家數(shù)據(jù)局最新數(shù)據(jù)顯示,截至2026年3月,我國日均詞元調(diào)用量已突破140萬億,相比2024年初的1000億增長超過1000倍。如此龐大的調(diào)用量背后,是一個精密的計費系統(tǒng)。以阿里云百煉平臺為例,Qwen3.6-Plus最低輸入價格2元/每百萬Tokens,最低輸出價格12元/每百萬Tokens。看似微小的差異,在大規(guī)模調(diào)用場景下,會被顯著放大,從而帶來明顯的成本差異。
![]()
Qwen3.6-Plus推理服務(wù)價格
圖片來源:阿里云官網(wǎng)
BPE算法:打包常用字,拆分生僻詞
要理解為什么“幫我訂個披薩”和“幫我預(yù)訂一份意大利薄底薩拉斯米腸披薩”會產(chǎn)生不同的詞元數(shù)量,需要深入字節(jié)對編碼(Byte Pair Encoding,BPE)算法的核心機制。(除了BPE算法外,常見的還有WordPiece、Unigram等算法,本文將以BPE算法為例。)
BPE算法最早由Philip Gage于1994年提出,用于數(shù)據(jù)壓縮。2016年,瑞士蘇黎世大學(xué)的Rico Sennrich等人將其引入自然語言處理領(lǐng)域,發(fā)表了奠基性論文《Neural Machine Translation of Rare Words with Subword Units》,開創(chuàng)了子詞分詞的新紀(jì)元。
BPE算法的運作原理可以概括為:不斷合并訓(xùn)練語料中出現(xiàn)頻率最高的符號對,直到達(dá)到預(yù)定詞匯表大小。
讓我們用一個簡化示例說明,假設(shè)訓(xùn)練語料包含以下詞匯及出現(xiàn)頻率:
“hug”:10次
“pug”:5次
“pun”:12次
“bun”:4次
“hugs”:5次
第一步:將所有詞拆分為字符,添加結(jié)束符
“hug” → “h u g ”
“pug” → “p u g ”
“pun” → “p u n ”
“bun” → “b u n ”
“hugs” → “h u g s ”
初始詞匯表僅包含基礎(chǔ)字符:{b, g, h, n, p, s, u, }
第二步:統(tǒng)計相鄰字符對的出現(xiàn)頻率
“u g”:15次(來自“hug”的10次 + “hugs”的5次)
“u n”:16次(來自“pun”的12次 + “bun”的4次)
“p u”:17次(來自“pug”的5次 + “pun”的12次)
第三步:合并最高頻字符對
假設(shè)“p u”頻率最高(17次),創(chuàng)建新符號“pu”,
詞匯表擴展為:{b, g, h, n, p, s, u, , pu}
第四步:迭代重復(fù)
繼續(xù)統(tǒng)計新語料中的字符對頻率,合并下一個最高頻對,直到達(dá)到預(yù)設(shè)的詞匯表大小(如GPT-2為50,257個token)。
多個常用字被打包成單個詞元
像“的”“是”“了”“在”等超高頻漢字,在訓(xùn)練語料中反復(fù)出現(xiàn),BPE算法會將它們與相鄰高頻字組合成固定詞元。例如:
“的” → 單獨1個token
“中國” → 1個token(高頻組合)
“人工智能” → 2個token(“人工”+“智能”)
單個生僻字和長詞被拆解成多個詞元
對于低頻字或?qū)I(yè)術(shù)語,BPE算法缺乏足夠的合并動力,只能拆分為基礎(chǔ)字符甚至UTF-8字節(jié):
“薹”(生僻字)→ 可能被拆為2-3個token
“意大利薄底薩拉斯米腸披薩” → 可能被拆為10+個token
這種差異直接體現(xiàn)在計費上。實測數(shù)據(jù)顯示,同樣長度的內(nèi)容,中文消耗的token數(shù)約為英文的2-2.7倍。以GPT-4o計費標(biāo)準(zhǔn)計算,處理100萬字符的中文文本比英文貴約50%。
高計費差異背后的經(jīng)濟邏輯
理解BPE算法后,我們就能解釋開頭養(yǎng)蝦場的計費差異:
![]()
圖片來源:作者制作
這種計費機制有其合理性:低頻詞需要模型進行更多計算來理解和生成,消耗更多算力資源。但從用戶角度看,這意味著表達(dá)越精確,成本越高。
那如何降低詞元成本呢?對于普通用戶和開發(fā)者,理解BPE算法可以顯著降低使用成本:
1. 精簡表達(dá)
避免冗余修飾詞。“訂披薩”比“預(yù)定一份意大利薄底薩拉斯米腸披薩”可顯著減少詞元消耗。
2.使用高頻詞匯
BPE算法偏愛高頻組合。用“電腦”而非“電子計算機”,用“手機”而非“移動電話”。
3.善用緩存
阿里云百煉等平臺支持上下文緩存,命中緩存的輸入token價格通常只有普通輸入的1/10。對于重復(fù)性查詢,保持上下文連貫可大幅降低成本。
4.選擇中文優(yōu)化模型
通義千問、DeepSeek等國產(chǎn)模型針對中文優(yōu)化,同等內(nèi)容下token消耗比國際模型少30%-50%。
5.監(jiān)控token使用
使用tiktoken等工具預(yù)先計算token數(shù)量,避免超出預(yù)算。OpenAI的tiktoken庫基于Rust實現(xiàn),可精確統(tǒng)計各模型的token消耗。
詞元的定名不僅是一個術(shù)語的統(tǒng)一,更標(biāo)志著AI產(chǎn)業(yè)進入精細(xì)化運營階段。當(dāng)“幫我訂個披薩”和“幫我預(yù)定一份意大利薄底薩拉斯米腸披薩”產(chǎn)生不同的賬單時,我們實際上見證了一種新的語言經(jīng)濟學(xué)誕生——表達(dá)的精確度與計算成本直接掛鉤。
BPE算法通過頻率統(tǒng)計實現(xiàn)的“打包”與“拆分”機制,本質(zhì)上是用統(tǒng)計學(xué)方法模擬人類語言的層級結(jié)構(gòu)。常用字“廉價”,生僻詞更“高價”,這種看似不均衡的分配,實則是大數(shù)據(jù)時代效率與成本的平衡之道。
![]()
圖片來源:AI生成
正如全國科技名詞委公告所言,“詞元”一詞“符合單義性、科學(xué)性、簡明性、協(xié)調(diào)性等科技名詞審定原則”。當(dāng)我們下次與AI對話時,或許可以多想一想:這句話,值多少個詞元?
參考文獻:
1.Sennrich, R., Haddow, B., & Birch, A. (2016). Neural Machine Translation of Rare Words with Subword Units. arXiv:1508.07909.
2.Radford, A., et al. (2019). Language Models are Unsupervised Multitask Learners. OpenAI.
3.http://www.cnterm.cn/news/mtsm/202603/t20260327_828265.html
4.http://www.cnterm.cn/news/mtsm/202603/t20260327_828253.html
5.http://finance.people.com.cn/n1/2026/0330/c1004-40691865.html
6.https://tech.cnr.cn/gstj/20260327/t20260327_527564025.shtml
7.http://www.cnterm.cn/news/tzgg/202603/t20260325_827999.html
來源:蝌蚪五線譜
編輯:小鹿
轉(zhuǎn)載內(nèi)容僅代表作者觀點
不代表中科院物理所立場
如需轉(zhuǎn)載請聯(lián)系原公眾號
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.