一個漢字到底"值"多少信息?這個問題聽起來玄,真要較真起來,牽扯的是兩千多年的造字史,也牽扯到上世紀那場差一點把漢字推下懸崖的大討論。漢語今天能穩(wěn)穩(wěn)坐上"全球最緊湊書面語"這把交椅,背后到底搭進去了什么、又留下了什么?
![]()
2026年4月,國內(nèi)幾家大模型團隊在公開的技術白皮書里都提到一個細節(jié):訓練同樣規(guī)模的語料,中文版本占用的token數(shù)只有英文的六成左右。換句話說,機器讀一份中文文檔,比讀對應的英文版要省力氣、省錢。這件事讓不少做AI的工程師重新打量起方塊字,原來曾經(jīng)被嫌"笨重"的漢字,在算力時代成了省錢利器。
![]()
這種密度優(yōu)勢并不是憑空冒出來的。1948年,貝爾實驗室的香農(nóng)寫了一篇《通信的數(shù)學理論》,把"信息熵"這個工具遞給了全世界的語言學家。后來有人拿這把尺子量過,平均一個漢字承載的信息量,大約是一個英文字母的好幾倍。聯(lián)合國六種工作語言的同一份決議印出來擺在一起,中文那本永遠是最薄的。
為什么差這么多?根子在于漢字是"表意"的,而不是"表音"的。每一個字本身就是一個意義單元,自己能站住,搭配別的字又能生出新詞。"風骨""山河""破曉",兩個字撐起來的畫面感,英文得繞一圈解釋。一句"己所不欲,勿施于人",八個字說完的事,翻成英文得多用一倍篇幅。
![]()
這種本事不是天上掉下來的。公元前221年秦統(tǒng)一六國之后,李斯主持"書同文",以秦國小篆為標準把六國雜七雜八的寫法統(tǒng)一過來。要知道在那之前,光一個"馬"字就有幾十種異體,商人跨郡做生意,合同上的字兩邊都得猜半天。
文字一統(tǒng),帶來一個意想不到的紅利——方言可以千差萬別,文字卻始終一脈相承。一個潮汕人說話廣東人都未必聽懂,但寫下來,兩千公里外的東北老鄉(xiāng)照樣能讀。這一點是拉丁系文字望塵莫及的,當年羅馬帝國一散,拉丁文很快碎成法語、意大利語、西班牙語、葡萄牙語,而漢字兩千年沒有分家。
![]()
不過這條路也不是一直順風順水。1840年以后中國挨打太狠,知識分子一邊救國一邊反思,反思到最后,連漢字都被推上了被告席。魯迅寫過那句"漢字不滅,中國必亡",今天讀著扎耳朵,放回當年的國情里,代表的是對識字率長期低迷的真實焦慮。
![]()
二十世紀二三十年代,錢玄同、瞿秋白、趙元任輪番上陣,主張廢掉漢字、改用拼音文字。1931年召開的中國新文字第一次代表大會,通過了《北方話拉丁化新文字方案》,這套方案后來在一些根據(jù)地試過水,意思就是把漢語徹底拼音化。
![]()
新中國成立之后,這條思路沒有立刻剎車。1954年中國文字改革委員會成立,1956年公布簡化字方案,1958年《漢語拼音方案》出臺。在早期的設計里,簡化字被定位成通向拼音化的"過渡橋梁",拼音化才是終點。這樁"過渡"能不能修成,得看一個繞不開的門檻——機器。
19世紀末打字機普及以后,英文一個26鍵的鍵盤搞定所有事,中文怎么辦?1916年前后,留美學生祁暄做了一臺拼合式中文打字機,把漢字拆成部件再拼,創(chuàng)意有了,效率沒了,打一個字得敲好幾下。
![]()
真正在中國辦公室扎根的,是1919年舒震東在商務印書館改進的"舒式華文打字機"。它把幾千個最常用的鉛字鋪在一個大字盤上,打字員靠一只機械手在字海里"撈"。熟練工一分鐘也就二三十字,手指頭要磨出繭子,但這玩意兒后來撐起了民國幾十年的公文系統(tǒng)。
最讓人心里發(fā)酸的,是林語堂的故事。1947年,他在紐約把畢生積蓄砸進去的"明快中文打字機"做了出來,本來談好合作的雷明頓公司臨陣退縮,演示當天機器又掉鏈子。這位寫《京華煙云》的大才子,差點被債務壓垮。漢字過不了機器這道關,在當年看起來真的就是死局。
![]()
鉛字印刷同樣苦。一家普通報社的字模庫七八千個起步,排字工拎著字盤在車間里走來走去,一個版面排一通宵很正常。如果漢字始終擺不平機械化這件事,被拼音文字替代似乎只是時間問題。
![]()
轉(zhuǎn)彎發(fā)生在1970年代末。北京大學的王選,長期帶病工作,帶著團隊搞漢字激光照排,直接繞開了別人正在死磕的"二代""三代"機械照排,跳到第四代,用數(shù)學方法把字形高倍壓縮,再用激光在膠片上還原。這一招業(yè)內(nèi)后來叫"跳代攻關"。
![]()
1981年華光Ⅰ型樣機通過鑒定,1987年《經(jīng)濟日報》成為全球第一家用計算機激光照排出報的中文報紙。鉛與火,被光與電換了出去。王選后來被業(yè)界稱作"當代畢昇",這個稱號背后,是漢字從機械時代整體抬腿邁進了數(shù)字時代。
進了互聯(lián)網(wǎng)時代,情況又翻了個個兒。Unicode把漢字收進統(tǒng)一框架,GB18030收錄了七萬多個字,拼音輸入法、五筆、再到智能聯(lián)想,中文錄入速度甚至反超了英文。到了手機屏幕上,一段中文顯示出來只占英文一半的位置,密度優(yōu)勢變成實實在在的便利。
![]()
因而當大模型按token計費,中文的緊湊直接換算成成本節(jié)省。當年被嫌"難"的方塊字,如今成了AI時代一筆不動聲色的資產(chǎn)。
那么,漢語為了走到今天這一步,究竟犧牲掉了什么?認真盤下來,核心的東西其實一樣沒丟。被舍棄的,是筆畫繁復到?jīng)]人愿意寫的異體字,是鉛字車間里的體力活,是一段被低估了幾十年的文化自信。秦朝那次"書同文"算第一次瘦身,二十世紀的簡化字算第二次,王選那一代人做的事,是把它整個從鉛字時代抬進了數(shù)字屏幕。
![]()
幾千年里,漢字三次走到懸崖邊,三次都沒掉下去。今天能被稱作"最緊湊、最高效",不是某一刀砍出來的結果,而是一代代人在歷史的窄路上,一邊沒扔掉字形里藏著的文化密碼,一邊沒拒絕新工具遞過來的手。這條路不算好走,但終究走通了。
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.