大模型的Token到底是什么?一句話給你點透就是:Token其實就是大模型“理解”這個世界的最小單位。就像我們?nèi)祟惱斫馐澜缈康氖歉鞣N“概念”一樣,大模型理解世界靠的就是這個token。你可以把它想象成:大模型不是在處理某個“字”,而是在處理各種“有意義的片段”。
![]()
第一、 Token它不是字,而是一種“語義原子。
我們可以將一個token理解為:
? 一個英文單詞(比如“hello”);
?一個中文詞語(比如“你好”);
?一個詞的一部分(比如“unbelievable”可能被拆成“un"+"believ"+"able”);
?某一個標(biāo)點符號;
★小結(jié):大模型訓(xùn)練時,在自然語言處理領(lǐng)域中,機(jī)器學(xué)習(xí)模型通常以Token作為其輸入單位,人類就把海量文本切分成這些“語義原子”喂給它,然后讓模型學(xué)習(xí)它們之間的關(guān)系。所以你也可以理解為模型訓(xùn)練不是在“背書”,而是在學(xué)習(xí)這些token之間的各種“連接規(guī)律”。
![]()
第二、可以把Token理解為它是AI世界的“貨幣”。
1、在 AI 世界里,token就像一種計量貨幣。——1 個 token大約等于 4-5 個英文字符,100 萬token相當(dāng)于約 75 萬個單詞,也就是一本 3500 頁的大部頭書的樣子。
2、其實我們用AI的成本一直在下降。比較同級別模型的每百萬 token價格,在短短兩年內(nèi)下降了 99.7%。隨著科技的發(fā)展和AI技術(shù)的逐步成熟,相信以后的AI技術(shù)的服務(wù)費用會越來越低。
★小結(jié):這就像電費一樣。在工業(yè)革命時期,19世紀(jì)初人們獲得同樣照明的成本是現(xiàn)在的照明成本400倍之多。同理,AI以后也會從“奢侈品”變成人們生活中的“基礎(chǔ)設(shè)施”。
![]()
第三、以目前的情況來看,在用token的計量下,中文比英文“更貴”。
這個可能很多人沒有注意到:
通常1個中文詞語、1個英文單詞、1個數(shù)字或1個符號計為1個token。一般情況下,模型中token和字?jǐn)?shù)的換算比例大致如下:1個英文字符 ≈ 0.3個token。1個中文字符 ≈ 0.6個token。
因為英文用空格分詞很自然,中文需要更復(fù)雜的分詞算法。通常token如果增加一倍,那么計算量會變?yōu)閺那暗乃谋叮@種算力增長不是線性的,而是呈現(xiàn)平方式的增長,所以理論上,同樣一個問題,處理中文比處理英文,在大語言模型上通常要消耗更多算力。在GPT-3推出時,1000個token相當(dāng)于750個英文單詞,或者500個漢字。
我們不能忽略一個事實,就是在全球人工智能領(lǐng)域,中國的研發(fā)實力是絕對第二的,遠(yuǎn)遠(yuǎn)領(lǐng)先于第三名,又因為這個絕對第二名的母語是中文,所以針對中文消耗更多token的問題也能做大幅優(yōu)化。
![]()
★小結(jié):
?寫提示詞時,英文通常比中文更“經(jīng)濟(jì),但中文可能在表達(dá)上更精準(zhǔn)。
?在計算成本時,中文內(nèi)容要預(yù)留更多token預(yù)算。
?當(dāng)AI在“思考”時,它不是在“思考字”,而是在“處理token之間的各種關(guān)系。
![]()
總結(jié):Token的本質(zhì),是人類語言被“數(shù)字化”后的最小載體。大模型的智能,就藏在這些token之間錯綜復(fù)雜的關(guān)系連接網(wǎng)絡(luò)里。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.