![]()
當(dāng)我們在大模型界面看到“支持上下文百萬Token”“單日耗費(fèi)5000萬Token”的提示;在加密市場看到某個項目的所謂“Token經(jīng)濟(jì)模型”;在語言學(xué)課堂上辨析“Token”與“Type”的核心差異時;我們面對的是同一個英文單詞“Token”,卻指向了截然不同的語義內(nèi)涵。
而隨著數(shù)字技術(shù)的全面滲透,“Token”已經(jīng)從專業(yè)領(lǐng)域的小眾術(shù)語,變成了全民日常接觸的高頻詞匯,但其中文譯法卻長期處于混亂狀態(tài)。不同領(lǐng)域的譯法交叉混用,造成了嚴(yán)重的認(rèn)知歧義。如何為這個跨領(lǐng)域的核心詞匯,找到適配中文語境、貼合場景本質(zhì)的精準(zhǔn)定名,已經(jīng)成為學(xué)界與產(chǎn)業(yè)界共同面對的現(xiàn)實(shí)問題。
在傳統(tǒng)學(xué)術(shù)與技術(shù)領(lǐng)域,“Token”的中文譯法已形成穩(wěn)固的行業(yè)共識,無需再做調(diào)整。在語言學(xué)領(lǐng)域,OED將其定義為文本中出現(xiàn)的單個語言單位,與表示“詞型”的“type”相對,國內(nèi)學(xué)界已將其定譯為“語符”,這一譯法被納入主流語言學(xué)教材,歷經(jīng)數(shù)十年的學(xué)術(shù)檢驗(yàn),語義精準(zhǔn),沒有爭議。
而在傳統(tǒng)計算機(jī)領(lǐng)域,OED記錄的“令牌、標(biāo)記”譯法,已成為行業(yè)標(biāo)準(zhǔn),最經(jīng)典的“token ring(令牌環(huán))”網(wǎng)絡(luò)技術(shù),其譯法已經(jīng)成為計算機(jī)學(xué)科的基礎(chǔ)術(shù)語,沿用至今仍具備極強(qiáng)的穩(wěn)定性。這些成熟領(lǐng)域的譯法共識,也為我們處理新興場景的定名問題,確立了“貼合場景核心語義”的核心原則。
在區(qū)塊鏈與虛擬貨幣領(lǐng)域,“Token”的譯法有“通證”與“代幣”之分,但從語義本質(zhì)與行業(yè)應(yīng)用來看,“代幣”是最精準(zhǔn)、最具普適性的定名。區(qū)塊鏈場景下的Token,承載著鏈上價值流通、權(quán)益分配、社區(qū)治理的核心功能,其最核心的屬性是貨幣屬性與流通屬性。“代幣”二字,直接點(diǎn)明了其“替代法定貨幣完成鏈上價值流轉(zhuǎn)”的核心功能,無論是行業(yè)從業(yè)者還是普通用戶,都能快速理解其內(nèi)涵。
當(dāng)前譯法混亂最嚴(yán)重、定名需求最迫切的,是人工智能大模型領(lǐng)域。隨著大模型的全民普及,Token已經(jīng)從AI行業(yè)的內(nèi)部黑話,變成了普通用戶都會接觸到的高頻詞匯——大模型的上下文窗口以Token為計量基準(zhǔn),API接口的調(diào)用按Token計費(fèi),模型訓(xùn)練的核心規(guī)模指標(biāo)是Token處理量。但時至今日,這個核心詞匯在中文人工智能領(lǐng)域,始終沒有形成統(tǒng)一、精準(zhǔn)的定名。
要找到適配的譯法,首先要明確人工智能語境下“Token”的本質(zhì):它是大模型進(jìn)行文本處理、語義理解、內(nèi)容生成的最小智能運(yùn)算單元,與人工智能的核心要素“算力”深度綁定。基于這一本質(zhì),我們可以對當(dāng)前主流的定名方案逐一辨析。
行業(yè)內(nèi)最常用的處理方式,是直接沿用英文Token不做翻譯。這種方式雖能規(guī)避跨場景的語義歧義,但缺陷也十分明顯:對于中文語境下的普通用戶、政策規(guī)范文本、基礎(chǔ)教育與科普場景而言,純英文詞匯的認(rèn)知門檻極高,不利于大模型技術(shù)的全民普及。同時,中文的官方文件、學(xué)科教材體系中,不可能長期大量使用未經(jīng)本土化翻譯的外來詞,這只是行業(yè)發(fā)展初期的權(quán)宜之計,絕非長久之策。
清華大學(xué)楊斌教授提出“模元”這一翻譯,抓住了Token是“大模型最小基本單元”的屬性,“元”字也精準(zhǔn)契合了其“最小單元”的底層內(nèi)涵,具備一定的合理性。但這一方案的短板同樣突出:它僅覆蓋了Token作為模型組成部分的靜態(tài)載體屬性,卻忽略了其核心的動態(tài)智能運(yùn)算功能,更無法體現(xiàn)其與算力的強(qiáng)綁定關(guān)系,與人工智能的核心術(shù)語體系適配性不足。
萬商天勤律師事務(wù)所合伙人張烽提出“籌”這一單字譯法,既契合了Token作為計量單元的屬性,也呼應(yīng)了其古義中“信物、憑證”的內(nèi)涵,符合中文單字術(shù)語的凝練表達(dá)習(xí)慣。但這一方案的不足在于,它與人工智能領(lǐng)域“算力、算法”的核心術(shù)語體系沒有保持一致,在專業(yè)場景中的辨識度有限,也難以讓普通用戶快速關(guān)聯(lián)到其在大模型中的核心功能。
基于以上辨析,筆者認(rèn)為,在人工智能大模型領(lǐng)域,將Token定譯為 “算元”,是當(dāng)前最貼合其本質(zhì)、最適配中文語境的方案。“算元”二字,精準(zhǔn)覆蓋了AI語境下Token的核心屬性:“算”直接錨定了其“智能運(yùn)算”的核心功能,與人工智能的核心要素“算力、算法”形成了完整的術(shù)語閉環(huán)——算力是運(yùn)算的能力,算法是運(yùn)算的規(guī)則,而算元正是運(yùn)算的最小基本單元;“元”對應(yīng)了“最小、不可拆分的基礎(chǔ)單元”的底層內(nèi)核。同時,這一譯法辨識度極高,不會與現(xiàn)有中文詞匯產(chǎn)生歧義,既適配AI行業(yè)的專業(yè)應(yīng)用場景,也便于大眾理解與科普傳播,具備極強(qiáng)的落地推廣價值。
對此,您有什么看法,歡迎留言。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.