亚洲中文字幕乱码亚洲-蜜桃成熟视频在线观看-免费中文字幕视频在线-中国五十路熟妇洗澡视频-亚洲av伊人啪啪c-国产精品成人一区二区-国产自拍视频一区在线观看-成人一区不卡二区三区四区-亚洲情精品中文字幕99在线

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

用AI點外賣,少說倆字或許能省錢?

0
分享至

想象一下,你正在經(jīng)營一家智能養(yǎng)蝦場(OpenClaw),通過AI系統(tǒng)管理數(shù)千畝龍蝦池塘。清晨,你對AI助手說:“幫我訂個披薩。”系統(tǒng)迅速響應(yīng),后臺計費系統(tǒng)記錄下這簡單的6個字。到了中午,你換了一種說法:“幫我預(yù)訂一份意大利薄底薩拉斯米腸披薩。”同樣的需求,更詳細(xì)的描述,但這一次,計費系統(tǒng)記錄的“詞元”數(shù)量其實大不相同。


圖片來源:AI生成

這不是科幻場景,而是每天都在發(fā)生的真實計費邏輯。在AI大模型時代,token是人工智能(尤其是大語言模型)處理中信息的最小單位,也是模型計費和處理的基本單位。2026年3月25日,全國科學(xué)技術(shù)名詞審定委員會正式發(fā)布《關(guān)于發(fā)布試用人工智能領(lǐng)域名詞token中文名“詞元”的公告》,將這個困擾業(yè)界多年的術(shù)語統(tǒng)一命名為“詞元”,標(biāo)志著這一概念正式進入國家規(guī)范術(shù)語體系。

詞元(Token)是大模型處理信息的最小信息單元,具有智能時代可計量、可定價、可交易的特征。

從“字”到“詞元”:計費單位的革命

傳統(tǒng)認(rèn)知中,我們按字?jǐn)?shù)計費——寫多少字付多少錢。但在AI世界里,這個邏輯被徹底顛覆。

大模型廠商的計費公式可以簡化為:

plain

費用=(輸入詞元數(shù)×輸入單價+輸出詞元數(shù)×輸出單價)/1,000,000

國家數(shù)據(jù)局最新數(shù)據(jù)顯示,截至2026年3月,我國日均詞元調(diào)用量已突破140萬億,相比2024年初的1000億增長超過1000倍。如此龐大的調(diào)用量背后,是一個精密的計費系統(tǒng)。以阿里云百煉平臺為例,Qwen3.6-Plus最低輸入價格2元/每百萬Tokens,最低輸出價格12元/每百萬Tokens。看似微小的差異,在大規(guī)模調(diào)用場景下,會被顯著放大,從而帶來明顯的成本差異。


Qwen3.6-Plus推理服務(wù)價格

圖片來源:阿里云官網(wǎng)

BPE算法:打包常用字,拆分生僻詞

要理解為什么“幫我訂個披薩”和“幫我預(yù)訂一份意大利薄底薩拉斯米腸披薩”會產(chǎn)生不同的詞元數(shù)量,需要深入字節(jié)對編碼(Byte Pair Encoding,BPE)算法的核心機制。(除了BPE算法外,常見的還有WordPiece、Unigram等算法,本文將以BPE算法為例。)

BPE算法最早由Philip Gage于1994年提出,用于數(shù)據(jù)壓縮。2016年,瑞士蘇黎世大學(xué)的Rico Sennrich等人將其引入自然語言處理領(lǐng)域,發(fā)表了奠基性論文《Neural Machine Translation of Rare Words with Subword Units》,開創(chuàng)了子詞分詞的新紀(jì)元。

BPE算法的運作原理可以概括為:不斷合并訓(xùn)練語料中出現(xiàn)頻率最高的符號對,直到達(dá)到預(yù)定詞匯表大小。

讓我們用一個簡化示例說明,假設(shè)訓(xùn)練語料包含以下詞匯及出現(xiàn)頻率:

“hug”:10次

“pug”:5次

“pun”:12次

“bun”:4次

“hugs”:5次

第一步:將所有詞拆分為字符,添加結(jié)束符

“hug” → “h u g ”

“pug” → “p u g ”

“pun” → “p u n ”

“bun” → “b u n ”

“hugs” → “h u g s ”

初始詞匯表僅包含基礎(chǔ)字符:{b, g, h, n, p, s, u, }

第二步:統(tǒng)計相鄰字符對的出現(xiàn)頻率

“u g”:15次(來自“hug”的10次 + “hugs”的5次)

“u n”:16次(來自“pun”的12次 + “bun”的4次)

“p u”:17次(來自“pug”的5次 + “pun”的12次)

第三步:合并最高頻字符對

假設(shè)“p u”頻率最高(17次),創(chuàng)建新符號“pu”,

詞匯表擴展為:{b, g, h, n, p, s, u, , pu}

第四步:迭代重復(fù)

繼續(xù)統(tǒng)計新語料中的字符對頻率,合并下一個最高頻對,直到達(dá)到預(yù)設(shè)的詞匯表大小(如GPT-2為50,257個token)。

多個常用字被打包成單個詞元

像“的”“是”“了”“在”等超高頻漢字,在訓(xùn)練語料中反復(fù)出現(xiàn),BPE算法會將它們與相鄰高頻字組合成固定詞元。例如:

“的” → 單獨1個token

“中國” → 1個token(高頻組合)

“人工智能” → 2個token(“人工”+“智能”)

單個生僻字和長詞被拆解成多個詞元

對于低頻字或?qū)I(yè)術(shù)語,BPE算法缺乏足夠的合并動力,只能拆分為基礎(chǔ)字符甚至UTF-8字節(jié):

“薹”(生僻字)→ 可能被拆為2-3個token

“意大利薄底薩拉斯米腸披薩” → 可能被拆為10+個token

這種差異直接體現(xiàn)在計費上。實測數(shù)據(jù)顯示,同樣長度的內(nèi)容,中文消耗的token數(shù)約為英文的2-2.7倍。以GPT-4o計費標(biāo)準(zhǔn)計算,處理100萬字符的中文文本比英文貴約50%。

高計費差異背后的經(jīng)濟邏輯

理解BPE算法后,我們就能解釋開頭養(yǎng)蝦場的計費差異:


圖片來源:作者制作

這種計費機制有其合理性:低頻詞需要模型進行更多計算來理解和生成,消耗更多算力資源。但從用戶角度看,這意味著表達(dá)越精確,成本越高。

那如何降低詞元成本呢?對于普通用戶和開發(fā)者,理解BPE算法可以顯著降低使用成本:

1. 精簡表達(dá)

避免冗余修飾詞。“訂披薩”比“預(yù)定一份意大利薄底薩拉斯米腸披薩”可顯著減少詞元消耗。

2.使用高頻詞匯

BPE算法偏愛高頻組合。用“電腦”而非“電子計算機”,用“手機”而非“移動電話”。

3.善用緩存

阿里云百煉等平臺支持上下文緩存,命中緩存的輸入token價格通常只有普通輸入的1/10。對于重復(fù)性查詢,保持上下文連貫可大幅降低成本。

4.選擇中文優(yōu)化模型

通義千問、DeepSeek等國產(chǎn)模型針對中文優(yōu)化,同等內(nèi)容下token消耗比國際模型少30%-50%

5.監(jiān)控token使用

使用tiktoken等工具預(yù)先計算token數(shù)量,避免超出預(yù)算。OpenAI的tiktoken庫基于Rust實現(xiàn),可精確統(tǒng)計各模型的token消耗。

詞元的定名不僅是一個術(shù)語的統(tǒng)一,更標(biāo)志著AI產(chǎn)業(yè)進入精細(xì)化運營階段。當(dāng)“幫我訂個披薩”和“幫我預(yù)定一份意大利薄底薩拉斯米腸披薩”產(chǎn)生不同的賬單時,我們實際上見證了一種新的語言經(jīng)濟學(xué)誕生——表達(dá)的精確度與計算成本直接掛鉤。

BPE算法通過頻率統(tǒng)計實現(xiàn)的“打包”與“拆分”機制,本質(zhì)上是用統(tǒng)計學(xué)方法模擬人類語言的層級結(jié)構(gòu)。常用字“廉價”,生僻詞更“高價”,這種看似不均衡的分配,實則是大數(shù)據(jù)時代效率與成本的平衡之道。


圖片來源:AI生成

正如全國科技名詞委公告所言,“詞元”一詞“符合單義性、科學(xué)性、簡明性、協(xié)調(diào)性等科技名詞審定原則”。當(dāng)我們下次與AI對話時,或許可以多想一想:這句話,值多少個詞元?

參考文獻:

1.Sennrich, R., Haddow, B., & Birch, A. (2016). Neural Machine Translation of Rare Words with Subword Units. arXiv:1508.07909.

2.Radford, A., et al. (2019). Language Models are Unsupervised Multitask Learners. OpenAI.

3.http://www.cnterm.cn/news/mtsm/202603/t20260327_828265.html

4.http://www.cnterm.cn/news/mtsm/202603/t20260327_828253.html

5.http://finance.people.com.cn/n1/2026/0330/c1004-40691865.html

6.https://tech.cnr.cn/gstj/20260327/t20260327_527564025.shtml

7.http://www.cnterm.cn/news/tzgg/202603/t20260325_827999.html

來源:蝌蚪五線譜

編輯:小鹿

轉(zhuǎn)載內(nèi)容僅代表作者觀點

不代表中科院物理所立場

如需轉(zhuǎn)載請聯(lián)系原公眾號

聲明:包含AI生成內(nèi)容

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
剛簽德國大單就后悔?越南670億高鐵成爛攤子,蘇林轉(zhuǎn)身赴華求救

剛簽德國大單就后悔?越南670億高鐵成爛攤子,蘇林轉(zhuǎn)身赴華求救

史智文道
2026-04-18 09:37:07
1985年,國安叛徒藏身南美,中國6名兵王萬里鋤奸,F(xiàn)BI顏面盡失

1985年,國安叛徒藏身南美,中國6名兵王萬里鋤奸,F(xiàn)BI顏面盡失

干史人
2026-04-14 21:10:03
11年前優(yōu)衣庫男女主現(xiàn)狀曝光,他們還在一起生了兩個孩子

11年前優(yōu)衣庫男女主現(xiàn)狀曝光,他們還在一起生了兩個孩子

半糖甜而不膩
2026-04-06 12:09:15
156.9元收了157元 廣東一餐廳“反向抹零”多收0.1元 系統(tǒng)設(shè)置金額向上取整 被立案查處

156.9元收了157元 廣東一餐廳“反向抹零”多收0.1元 系統(tǒng)設(shè)置金額向上取整 被立案查處

閃電新聞
2026-04-17 10:38:59
真強!一個上演絕殺,一個7投7中,宮魯鳴醒醒吧,她倆不該被棄用

真強!一個上演絕殺,一個7投7中,宮魯鳴醒醒吧,她倆不該被棄用

萌蘭聊個球
2026-04-18 07:12:14
國防部:敦促日方同軍國主義徹底切割

國防部:敦促日方同軍國主義徹底切割

新京報
2026-04-17 15:31:12
黎筍長子曾坦言:越南當(dāng)年敢打中國有3個原因,結(jié)果發(fā)現(xiàn)全是錯覺

黎筍長子曾坦言:越南當(dāng)年敢打中國有3個原因,結(jié)果發(fā)現(xiàn)全是錯覺

顧史
2026-04-18 09:17:19
張豆豆曝孫楊干涉自己交友:他被好幾個朋友重創(chuàng)過

張豆豆曝孫楊干涉自己交友:他被好幾個朋友重創(chuàng)過

懂球帝
2026-04-17 10:55:07
伊朗宣布重開霍爾木茲海峽后,國際油價大跌,金價銀價大漲!WTI5月原油期貨收跌10.84美元,跌幅11.45%

伊朗宣布重開霍爾木茲海峽后,國際油價大跌,金價銀價大漲!WTI5月原油期貨收跌10.84美元,跌幅11.45%

每日經(jīng)濟新聞
2026-04-18 11:35:13
李想把“理想平替”喂成了狼

李想把“理想平替”喂成了狼

市象
2026-04-17 16:42:52
藍(lán)營優(yōu)勢僅剩1%!新北選情藍(lán)綠徹底易位,李四川支持率從62%暴跌

藍(lán)營優(yōu)勢僅剩1%!新北選情藍(lán)綠徹底易位,李四川支持率從62%暴跌

米果說識
2026-04-18 11:51:38
謝娜爆料:浪姐為保效果廁所全程上鎖!姐姐無奈配合憋到爆

謝娜爆料:浪姐為保效果廁所全程上鎖!姐姐無奈配合憋到爆

娛文速遞
2026-04-18 11:10:44
79年越軍假冒我軍電臺索要坐標(biāo),通訊兵反問蕎面價格后作出個決定

79年越軍假冒我軍電臺索要坐標(biāo),通訊兵反問蕎面價格后作出個決定

睡前講故事
2026-04-15 17:56:35
世錦賽前16合影:趙心童C位,中國5人,火箭小特缺席,罰款引爭議

世錦賽前16合影:趙心童C位,中國5人,火箭小特缺席,罰款引爭議

劉姚堯的文字城堡
2026-04-18 08:05:07
胡錫進給沃爾沃汽車做廣告,評論區(qū)全翻車了……

胡錫進給沃爾沃汽車做廣告,評論區(qū)全翻車了……

麥杰遜
2026-04-17 11:51:26
賭注越押越大 希臘船東派出其迄今最大油輪穿越霍爾木茲海峽

賭注越押越大 希臘船東派出其迄今最大油輪穿越霍爾木茲海峽

財聯(lián)社
2026-04-17 20:42:11
華誼虧損超82億,不放棄事業(yè)不整容的羅海瓊,才是最清醒的老板娘

華誼虧損超82億,不放棄事業(yè)不整容的羅海瓊,才是最清醒的老板娘

一盅情懷
2026-04-18 08:08:54
詹姆斯:迪倫-哈珀非常出色,但他父親羅恩-哈珀啥也不是

詹姆斯:迪倫-哈珀非常出色,但他父親羅恩-哈珀啥也不是

懂球帝
2026-04-18 09:19:08
貴州省紀(jì)委監(jiān)委案件審理室原主任桂芳被查

貴州省紀(jì)委監(jiān)委案件審理室原主任桂芳被查

21世紀(jì)經(jīng)濟報道
2026-04-18 16:20:57
花2000塊買張高鐵票,就是為了在眾目睽睽之下脫鞋?

花2000塊買張高鐵票,就是為了在眾目睽睽之下脫鞋?

周哥一影視
2026-04-17 11:04:50
2026-04-18 17:56:49
中科院物理所 incentive-icons
中科院物理所
愛上物理,改變世界。
10081文章數(shù) 136524關(guān)注度
往期回顧 全部

科技要聞

傳Meta下月擬裁8000 大舉清退人力為AI騰位

頭條要聞

小車在高速上跑100碼 車主突然接到電話"你車輪沒了"

頭條要聞

小車在高速上跑100碼 車主突然接到電話"你車輪沒了"

體育要聞

時隔25年重返英超!沒有人再嘲笑他了

娛樂要聞

《穿普拉達(dá)的女王2》疑似辱華?

財經(jīng)要聞

"影子萬科"2.0:管理層如何吸血萬物云?

汽車要聞

奇瑞威麟R08 PRO正式上市 售價14.48萬元起

態(tài)度原創(chuàng)

教育
時尚
家居
手機
房產(chǎn)

教育要聞

不規(guī)則圖形的面積計算,原來這么簡單!一分鐘掌握!

今天流行的冰藍(lán)色太適合春夏了,誰穿誰美!

家居要聞

法式線條 時光靜淌

手機要聞

入門手機市場雪上加霜,消息稱三星停產(chǎn)LPDDR4內(nèi)存

房產(chǎn)要聞

官宣簽約最強城更!海口樓市,突然殺入神秘房企!

無障礙瀏覽 進入關(guān)懷版