![]()
古籍整理向來(lái)被視為一門“慢功夫”:辨版本、校文字、斷句讀、定體例,往往需要學(xué)者經(jīng)年累月伏案用力。如今,這項(xiàng)高度專業(yè)化的工作在人工智能的助力下發(fā)生新變化。全國(guó)高等院校古籍整理研究工作委員會(huì)(以下簡(jiǎn)稱“古委會(huì)”)通過(guò)“我用AI校古籍——我是‘校書官’古籍大眾智能整理計(jì)劃”,把人工智能、專業(yè)學(xué)術(shù)訓(xùn)練和大眾志愿參與結(jié)合起來(lái),讓更多高校學(xué)生和社會(huì)公眾在人工智能平臺(tái)上參與古籍?dāng)?shù)字化整理。該計(jì)劃啟動(dòng)兩年來(lái),已吸引全國(guó)千余所高校的數(shù)萬(wàn)名學(xué)子與社會(huì)公眾參與,累計(jì)完成3萬(wàn)余部古籍、約19億字的粗校整理。這組數(shù)字背后,是一場(chǎng)古籍整理范式的深層變革。科技能否真正賦能人文?大眾參與會(huì)不會(huì)削弱學(xué)術(shù)性?在數(shù)智時(shí)代,古籍整理的主體究竟是人還是機(jī)器?帶著這些問(wèn)題,本報(bào)記者近日深入采訪了多位參與該計(jì)劃的學(xué)者與志愿者。
AI為古籍整理按下“提效鍵”
傳統(tǒng)古籍整理長(zhǎng)期深陷“人力牢籠”。以新中國(guó)成立以來(lái)規(guī)模最大的儒學(xué)典籍系統(tǒng)整理工程《儒藏》為例,僅《儒藏》精華編就動(dòng)員了400余位專家,歷時(shí)18年完成510種書稿的整理出版,年均整理約28種。長(zhǎng)期參與《儒藏》編纂的北京大學(xué)數(shù)字人文研究中心副主任楊浩對(duì)此深有體會(huì)。他告訴記者,專家學(xué)者將大量時(shí)間耗費(fèi)在文字錄入、標(biāo)點(diǎn)校對(duì)、文字校勘等基礎(chǔ)工作上,而對(duì)真正需要深厚學(xué)養(yǎng)解決的疑難問(wèn)題,反而難以投入足夠精力。
北京大學(xué)《儒藏》編纂與研究中心研究員李暢然向記者回憶AI引入前的困境:“不僅編纂進(jìn)展較慢,而且難以及時(shí)掌握合作方的工作進(jìn)度,各環(huán)節(jié)之間缺乏實(shí)時(shí)溝通,導(dǎo)致一些問(wèn)題甚至體例偏好反復(fù)出現(xiàn)。”
改變始于2022年。北京大學(xué)數(shù)字人文研究中心聯(lián)合字節(jié)跳動(dòng)打造“識(shí)典古籍”平臺(tái),借助計(jì)算機(jī)視覺(jué)和人工智能技術(shù),將古籍圖像轉(zhuǎn)化為可編輯、可校對(duì)、可檢索的數(shù)字文本,并在此基礎(chǔ)上開展自動(dòng)標(biāo)點(diǎn)、自動(dòng)校勘、命名實(shí)體識(shí)別等工作。
這種變化在《儒藏》項(xiàng)目中尤為直觀。“最明顯的變化是錄排和標(biāo)點(diǎn)初步實(shí)現(xiàn)自動(dòng)化。”李暢然說(shuō),其自動(dòng)標(biāo)點(diǎn)準(zhǔn)確率“超出預(yù)期”,整體達(dá)到《儒藏》精華編校點(diǎn)者中的中上游水平。效率提升更具革命性。在平臺(tái)支持下,北京大學(xué)《儒藏》編纂與研究中心12位編委用不到一年時(shí)間便完成了50種書稿的整理編纂。鮮明對(duì)比之下,AI技術(shù)對(duì)古籍整理生產(chǎn)力的釋放效果一目了然。
武漢大學(xué)古籍整理研究所教授于亭對(duì)此同樣感觸頗深。他曾參與《故訓(xùn)匯纂》編纂,經(jīng)歷過(guò)“16個(gè)人、18年、40萬(wàn)張手工卡片”的艱辛。1998年,他在共同主持編纂《古音匯纂》時(shí),力主引入計(jì)算機(jī)技術(shù)。“計(jì)算機(jī)能夠不知疲倦地高速運(yùn)算,數(shù)字技術(shù)擅長(zhǎng)處理大數(shù)據(jù),可以應(yīng)對(duì)海量材料。”于亭表示,在人工智能平臺(tái)輔助下,古籍整理正由傳統(tǒng)單線性模式轉(zhuǎn)向多線程、并發(fā)式處理,團(tuán)隊(duì)協(xié)作效率顯著提高。
山東大學(xué)承擔(dān)的“全球漢籍合璧工程”也與“識(shí)典古籍”平臺(tái)開展合作。山東大學(xué)古典文獻(xiàn)研究所所長(zhǎng)王承略介紹,該工程致力于推動(dòng)境外中華古籍再生性回歸,AI的OCR識(shí)別、自動(dòng)標(biāo)點(diǎn)、版本比勘、知識(shí)關(guān)聯(lián)等功能,顯著提升了電子文本生成速度和整理效率。目前,“全球漢籍合璧工程”已向“識(shí)典古籍”平臺(tái)提供俄羅斯、英國(guó)、法國(guó)所藏漢籍珍本80余部。這些文獻(xiàn)經(jīng)OCR智能掃描后,進(jìn)入人工校準(zhǔn)和自動(dòng)標(biāo)點(diǎn)環(huán)節(jié)。據(jù)悉,北京大學(xué)、武漢大學(xué)、山東大學(xué)等高校已有5700多個(gè)團(tuán)隊(duì)借助“識(shí)典古籍”平臺(tái)開展整理工作。
“AI讓古籍整理的呈現(xiàn)方式既可以‘小眾’,也可以‘大眾’。”古委會(huì)副秘書長(zhǎng)吳國(guó)武告訴記者,AI的價(jià)值不僅體現(xiàn)在整理端,也體現(xiàn)在閱讀端。
據(jù)字節(jié)跳動(dòng)公益相關(guān)負(fù)責(zé)人介紹,“識(shí)典古籍”在閱讀端提供AI譯文、AI朗讀、AI播客講解、AI深度研究助手等功能。截至2026年5月,平臺(tái)已免費(fèi)公開近6萬(wàn)部古籍,月均讀者超過(guò)240萬(wàn)人,總訪問(wèn)量突破2.8億次。
當(dāng)古籍從線裝書、影印本走向屏幕,從少數(shù)專家的書齋走向普通用戶的手機(jī),技術(shù)改變的不僅是整理效率,也改變了古籍與公眾相遇的方式。楊浩表示,自動(dòng)標(biāo)點(diǎn)降低了閱讀門檻,實(shí)體識(shí)別功能讓讀者點(diǎn)擊人名、地名即可獲得相關(guān)解釋,AI白話翻譯和講解則幫助初學(xué)者更容易進(jìn)入古籍世界。換言之,AI不僅幫助學(xué)者“做得更快”,也讓普通人“讀得進(jìn)去”。
大眾成為古籍整理事業(yè)參與者
AI在《儒藏》等項(xiàng)目中的應(yīng)用,改變了古籍整理的生產(chǎn)方式。隨著技術(shù)持續(xù)降低整理門檻,古籍整理的參與主體也發(fā)生了變化。依托技術(shù)已較為成熟的“識(shí)典古籍”平臺(tái),古委會(huì)于2024年啟動(dòng)“我用AI校古籍”計(jì)劃,將大眾帶進(jìn)古籍整理現(xiàn)場(chǎng)。“我用AI校古籍”基本方式是組織高校學(xué)生和社會(huì)志愿者依托“識(shí)典古籍”智能整理平臺(tái),像“校書官”一樣在線校對(duì)古籍。
吳國(guó)武表示,推動(dòng)這項(xiàng)活動(dòng)主要基于三方面考慮:一是國(guó)家高度重視新時(shí)代古籍工作,明確提出推進(jìn)古籍?dāng)?shù)字化;二是人工智能時(shí)代的信息技術(shù)發(fā)展,要求古籍工作者主動(dòng)擁抱新技術(shù);三是高校古籍整理數(shù)字化建設(shè)已具備長(zhǎng)期積累和實(shí)踐基礎(chǔ)。
項(xiàng)目從試行到常態(tài)化推進(jìn),參與規(guī)模迅速擴(kuò)大。第一期暑期試行階段就有700余所高校、2500余人參與,完成約26萬(wàn)頁(yè)、4490萬(wàn)字古籍校對(duì)工作。
“隨著項(xiàng)目逐漸成熟,越來(lái)越多對(duì)古籍感興趣的普通人被吸引進(jìn)來(lái)。”吳國(guó)武介紹,參與者既有中文、歷史、古典文獻(xiàn)等相關(guān)專業(yè)學(xué)生,也有理工科學(xué)生;既有企業(yè)職員,也有退休老人。到2025年總結(jié)階段,活動(dòng)已吸引全國(guó)1450余所高校的3.7萬(wàn)名大學(xué)生和志愿者參與,累計(jì)完成15億字粗校,覆蓋古籍約2萬(wàn)部。
“我用AI校古籍”并非簡(jiǎn)單地將專業(yè)工作外包給公眾,而是圍繞古籍整理不同環(huán)節(jié),重新設(shè)計(jì)人機(jī)協(xié)作與人際分工。楊浩向記者介紹,“我用AI校古籍”計(jì)劃構(gòu)建了“AI預(yù)處理—大眾初校—進(jìn)階組精校—專家終審”的多層協(xié)作體系作為質(zhì)量保障機(jī)制。“參與者被分為大眾組和進(jìn)階組。大眾組負(fù)責(zé)OCR文字識(shí)別粗校,實(shí)現(xiàn)零門檻參與;進(jìn)階組則由具備文史哲背景的學(xué)生承擔(dān)標(biāo)點(diǎn)校對(duì)和文字精校。這種分層機(jī)制,讓嚴(yán)謹(jǐn)性和大眾參與并不矛盾。”截至2025年11月,進(jìn)階組已完成480部古籍精校,總字?jǐn)?shù)近1億字,包括《四部叢刊》全部整理工作和《永樂(lè)大典》精校工作。
“我用AI校古籍”計(jì)劃通過(guò)任務(wù)拆分、圖文對(duì)照、AI預(yù)處理、在線校對(duì)等產(chǎn)品設(shè)計(jì),使沒(méi)有專業(yè)背景的參與者也能從最基礎(chǔ)的OCR粗校做起;同時(shí)配套課程培訓(xùn)、等級(jí)激勵(lì)和專家指導(dǎo)機(jī)制,引導(dǎo)參與者逐步從“會(huì)操作”走向“懂規(guī)范”。
楊浩介紹,他在項(xiàng)目中主要承擔(dān)課程建設(shè)和專家指導(dǎo)工作,與北京大學(xué)古典文獻(xiàn)專業(yè)主任楊海崢等共同開發(fā)古籍大眾整理通識(shí)課程,并主講古籍智能整理實(shí)訓(xùn)課,系統(tǒng)講解從OCR識(shí)別到文字精校的全流程操作。王承略表示,山東大學(xué)漢籍整理團(tuán)隊(duì)將在平臺(tái)建設(shè)、整理標(biāo)準(zhǔn)制定、志愿者培訓(xùn)等方面發(fā)揮作用,通過(guò)OCR處理、自動(dòng)標(biāo)點(diǎn)、人工校準(zhǔn)、專家把關(guān)等環(huán)節(jié),保障整理質(zhì)量。
在“以校帶學(xué)”的過(guò)程中,一些動(dòng)人的故事不斷涌現(xiàn)。有人在春節(jié)期間每天花數(shù)小時(shí)校對(duì)古籍,把整理任務(wù)變成沉浸式的假期生活;有人在平臺(tái)上發(fā)現(xiàn)與家中長(zhǎng)輩手抄本相同版本的《聊齋志異》,由此開啟一場(chǎng)跨代際閱讀對(duì)話;還有人因?yàn)樾?duì)地方志,重新認(rèn)識(shí)了自己生活過(guò)的土地。
“古籍整理不只是學(xué)術(shù)生產(chǎn)鏈條中的一個(gè)環(huán)節(jié),也成為公眾理解歷史、連接個(gè)人經(jīng)驗(yàn)、參與文化傳承的重要入口。”吳國(guó)武說(shuō)。
2026年,“我用AI校古籍——我是‘校書官’ 古籍大眾智能整理計(jì)劃”進(jìn)一步擴(kuò)大規(guī)模。清華大學(xué)、山東大學(xué)等68所高校的76個(gè)學(xué)院深度參與承辦。王承略認(rèn)為,古籍如果不經(jīng)過(guò)整理,只能服務(wù)于少數(shù)專業(yè)研究者;而通過(guò)數(shù)字化和大眾化傳播,則能夠服務(wù)更多研究者、使用者和愛好者。
人依然是古籍整理的主體
在這場(chǎng)技術(shù)賦能文化傳承的浪潮中,一個(gè)無(wú)法回避的問(wèn)題逐漸浮出水面:AI的邊界究竟在哪里?當(dāng)古籍整理從少數(shù)專家的案頭工作發(fā)展為數(shù)萬(wàn)人參與的公共事業(yè),專業(yè)古籍整理與研究人才培養(yǎng)的意義是否會(huì)被削弱?
采訪中,有老一輩學(xué)者對(duì)平臺(tái)宣稱的“正確率”持謹(jǐn)慎態(tài)度,認(rèn)為評(píng)價(jià)標(biāo)準(zhǔn)應(yīng)由學(xué)術(shù)共同體界定;也有資深專家擔(dān)憂,過(guò)度依賴AI可能影響對(duì)年輕學(xué)者的培養(yǎng)。
對(duì)此,吳國(guó)武認(rèn)為,人工智能時(shí)代既要主動(dòng)擁抱新技術(shù),也要正確使用新技術(shù)。古籍整理具有特殊性,當(dāng)前大模型尚無(wú)法完整、精準(zhǔn)理解古代漢語(yǔ)。未來(lái)既需要通用大語(yǔ)言模型與古籍垂直模型相結(jié)合,也需要古籍整理工作者不斷提升數(shù)字人文素養(yǎng),培養(yǎng)跨學(xué)科、復(fù)合型人才。
山東大學(xué)古典文獻(xiàn)研究所教授王小婷表示,AI應(yīng)用于古籍整理是必然趨勢(shì),但絕非萬(wàn)能。技術(shù)局限在實(shí)踐中依然明顯。她舉例說(shuō),目前系統(tǒng)仍無(wú)法自動(dòng)標(biāo)注書名號(hào)和引號(hào),而對(duì)于考據(jù)性較強(qiáng)的古籍而言,書名號(hào)和引號(hào)甚至可能占到全部標(biāo)點(diǎn)量的一半左右。這一功能缺失,一定程度弱化了“自動(dòng)標(biāo)點(diǎn)”的優(yōu)勢(shì)。李暢然在利用“識(shí)典古籍”平臺(tái)整理《儒藏》時(shí)也發(fā)現(xiàn),其錄排和校對(duì)效果距離正式出版標(biāo)準(zhǔn)仍存在差距。
楊浩則對(duì)AI能力邊界進(jìn)行了更為清晰的劃分。他認(rèn)為,古籍整理至少包括基礎(chǔ)文本整理、結(jié)構(gòu)性重組和研究性整理三個(gè)層次。目前AI主要能夠賦能第一層,對(duì)后兩層雖有輔助作用,但遠(yuǎn)談不上替代。大量異體字、俗體字和手寫文獻(xiàn)的識(shí)讀,仍然依賴文字學(xué)、版本學(xué)、書法學(xué)等長(zhǎng)期訓(xùn)練。自動(dòng)標(biāo)點(diǎn)基于統(tǒng)計(jì)模型,只能讓文本“可讀”,并不意味著真正“讀懂”古文,在具體語(yǔ)境中仍可能出現(xiàn)低級(jí)錯(cuò)誤。
于亭也強(qiáng)調(diào),AI仍缺乏對(duì)古代文獻(xiàn)形成過(guò)程、語(yǔ)境脈絡(luò)、語(yǔ)言文字形音義內(nèi)涵以及義例邏輯、思想結(jié)構(gòu)復(fù)雜關(guān)系的深入理解。它更多是基于既有數(shù)據(jù)進(jìn)行集成與綜合,形成淺層次、拼接式的知識(shí)表述。這樣的成果或許能夠滿足部分人的新奇感,卻遠(yuǎn)不能稱為真正的學(xué)術(shù)創(chuàng)造。人文學(xué)術(shù)本質(zhì)上仍是心智思考和創(chuàng)造的過(guò)程,優(yōu)秀成果最終必須依靠人的智慧產(chǎn)生。AI能夠提高效率,提供數(shù)據(jù)支持和初步分析,卻無(wú)法替代人對(duì)文本意涵、版本價(jià)值和學(xué)術(shù)問(wèn)題的整體判斷。
多位受訪者提醒,AI帶來(lái)的效率提升并不意味著可以省略學(xué)術(shù)判斷。古籍整理的關(guān)鍵不在于“快”,而在于“準(zhǔn)”;不是讓機(jī)器替代人,而是讓人從重復(fù)性勞動(dòng)中解放出來(lái),承擔(dān)更高層次的學(xué)術(shù)判斷。
吳國(guó)武特別強(qiáng)調(diào),活動(dòng)名稱最終確定為“我用AI校古籍”,正是為了突出“我”的主體地位。“再?gòu)?qiáng)大的技術(shù)也只是工具,或者說(shuō)工具性的合作者,校書的主體始終是人。”
王承略認(rèn)為,古籍整理數(shù)字化與大眾化的深度融合,必須以學(xué)術(shù)嚴(yán)謹(jǐn)性為前提。關(guān)鍵在于充分發(fā)揮學(xué)者的積極性與主動(dòng)性。平臺(tái)推出的整理成果,最終仍應(yīng)由專業(yè)對(duì)口、經(jīng)驗(yàn)豐富的古籍整理學(xué)者完成把關(guān),形成“全民參與、學(xué)者把關(guān)”的良性格局。
如何在效率與質(zhì)量、普及與學(xué)術(shù)、技術(shù)與人文之間取得平衡,正是“我用AI校古籍”留給數(shù)智時(shí)代古籍事業(yè)的一道新課題。
中國(guó)社會(huì)科學(xué)報(bào)記者 張清俐 班曉悅
來(lái)源:中國(guó)社會(huì)科學(xué)報(bào)
新媒體編輯:程可心
如需交流可聯(lián)系我們
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.