近日,《2024字節(jié)跳動(dòng)企業(yè)社會(huì)責(zé)任報(bào)告(中國(guó))》發(fā)布。這份報(bào)告圍繞“科技讓生活更美好”,介紹了過去一年字節(jié)跳動(dòng)用科技連接社會(huì)善意的實(shí)踐成效。近年來,字節(jié)跳動(dòng)運(yùn)用AI等技術(shù)持續(xù)推動(dòng)古籍?dāng)?shù)字化進(jìn)程。
中華文明擁有數(shù)千年的悠久歷史,典籍是傳承中華文明最重要的載體。它們是中國(guó)古典學(xué)不可或缺的研究基礎(chǔ),是社會(huì)大眾繼承和發(fā)揚(yáng)傳統(tǒng)文化的寶貴資源,同時(shí)也是世界理解中華文明的重要途徑。
國(guó)際著名圖書館學(xué)家錢存訓(xùn)先生判斷:“至于中國(guó)書籍的產(chǎn)量,直到十五世紀(jì)末,比世界上各國(guó)書籍的總數(shù)還要豐富!蓖ㄟ^“中華古籍保護(hù)計(jì)劃”十余年的普查,第一次估算出中華典籍文化遺產(chǎn)總量,即傳世古籍大約有20萬(wàn)種,50萬(wàn)個(gè)版本。從1999年“文淵閣四庫(kù)全書”數(shù)據(jù)庫(kù)發(fā)布以來,古籍?dāng)?shù)據(jù)庫(kù)已經(jīng)成為中國(guó)古典研究不可或缺的基礎(chǔ)設(shè)施,同時(shí)大多數(shù)的重要典籍也都已經(jīng)數(shù)字化。但由于最方便使用的古籍圖文庫(kù)基本上都是商業(yè)數(shù)據(jù)庫(kù),這就限制了普通公眾的訪問。另一方面,隨著人力校對(duì)成本越來越高,新加工典籍品種的重要性越來越低,那么擴(kuò)容商業(yè)古籍庫(kù)的邊際收益會(huì)斷崖式下跌。這就導(dǎo)致現(xiàn)階段古籍?dāng)?shù)字化工作成果有些“養(yǎng)在深閨人未識(shí)”,不能被公眾充分利用,并且發(fā)展建設(shè)難以為繼。
2022年10月,字節(jié)跳動(dòng)公益上線了識(shí)典古籍平臺(tái)——一個(gè)完全公益的古籍智能閱讀和整理平臺(tái)。首先,識(shí)典古籍充分吸納了人工智能等新技術(shù)在古籍?dāng)?shù)字化方面的成果,創(chuàng)建大字符集解決方案,利用OCR(光學(xué)字符識(shí)別)技術(shù)識(shí)別古籍圖像文本,再通過人工校對(duì)快速高效地持續(xù)擴(kuò)容古籍圖文庫(kù)。據(jù)了解,目前識(shí)典古籍已免費(fèi)公開1.6萬(wàn)余部古籍,每月有超240萬(wàn)用戶訪問量,平臺(tái)計(jì)劃到2025年底發(fā)布3—4萬(wàn)部古籍。按這一速度,預(yù)計(jì)在2026年底,平臺(tái)發(fā)布的古籍品種數(shù)量就會(huì)達(dá)到甚至超過目前所有商業(yè)和公益古籍圖文庫(kù)的總和,這必將給社會(huì)公眾及海內(nèi)外學(xué)者利用古籍帶來極大便利。
識(shí)典古籍飛快的建設(shè)速度得益于人工智能等科技的力量與大眾的力量!氨娀I建設(shè)”是公益古籍?dāng)?shù)字化項(xiàng)目的重要路徑之一。識(shí)典古籍采用了同樣的動(dòng)員愛好者力量的方法,2024年,在全國(guó)高等院校古籍整理研究工作委員會(huì)的指導(dǎo)下,聯(lián)合字節(jié)跳動(dòng)公益以及國(guó)內(nèi)多家古籍研究機(jī)構(gòu)發(fā)起了“我是校書官”活動(dòng),1000余所高校1萬(wàn)余名學(xué)生報(bào)名參加,整理1600余部古籍,校對(duì)總字?jǐn)?shù)超過6億,這一字?jǐn)?shù)相當(dāng)于一部《四庫(kù)全書》的四分之三。2025年3月,“我用AI校古籍”活動(dòng)發(fā)起機(jī)構(gòu)擴(kuò)大到全國(guó)20余所高校,倡議社會(huì)公眾和學(xué)生能夠以“人人都校一卷書”的熱情參與進(jìn)來。
在當(dāng)今時(shí)代,要完成這項(xiàng)壯舉,向數(shù)字技術(shù)借力無疑是必由之路。識(shí)典古籍除了古籍文本識(shí)別校對(duì)功能以外,還充分利用自動(dòng)標(biāo)點(diǎn)、自動(dòng)分段、自動(dòng)?、自動(dòng)結(jié)構(gòu)整理等AI技術(shù),使其成為古籍整理和研究的數(shù)字人文平臺(tái)。在傳統(tǒng)古籍整理過程中,文本的錄入和校勘是耗費(fèi)工作量最大的環(huán)節(jié),而且還極容易出錯(cuò),而引入數(shù)字整理平臺(tái)之后,據(jù)專家測(cè)算,至少可以提高五倍效率,將極大加快古籍整理工作的進(jìn)程。同時(shí)數(shù)字整理平臺(tái)可以方便保留所有過程文檔,易于追溯和查證!度宀亍饭こ淌切轮袊(guó)成立以來最大規(guī)模地系統(tǒng)整理海內(nèi)外儒學(xué)典籍的一項(xiàng)基礎(chǔ)性文化建設(shè)工程,收錄自先秦至清末重要儒學(xué)文獻(xiàn)。2024年12月,《儒藏》數(shù)字化項(xiàng)目啟動(dòng),字節(jié)跳動(dòng)公益捐贈(zèng)2500萬(wàn)元,支持北京大學(xué)開展《儒藏》編纂與研究工作!度宀亍贰按笕帯睂⒁詳(shù)字化方式整理,后續(xù)相關(guān)成果也將在識(shí)典古籍上線,面對(duì)公眾開放。
在新時(shí)代的大背景下,做好古籍工作,做好傳統(tǒng)文化的創(chuàng)造性轉(zhuǎn)化,數(shù)字科技是必須要憑借的先進(jìn)手段。而乘數(shù)智時(shí)代的大潮,也正可以助力古籍等文化瑰寶的存續(xù)傳承,以待進(jìn)一步發(fā)掘與發(fā)展。翻看《2024字節(jié)跳動(dòng)企業(yè)社會(huì)責(zé)任報(bào)告(中國(guó))》,可以發(fā)現(xiàn)除了古籍?dāng)?shù)字化,字節(jié)跳動(dòng)在煥發(fā)文化活力方面還有不少作為。當(dāng)下,新技術(shù)正在為傳統(tǒng)文化的挖掘和再創(chuàng)作提供新工具和新思路。在非遺傳承方面,過去一年,有上千名非遺代表性傳承人活躍在抖音,1379萬(wàn)網(wǎng)友在抖音分享自己的非遺體驗(yàn),非遺團(tuán)購(gòu)商品訂單量同比增長(zhǎng)了356%。在文物保護(hù)與活化方面,字節(jié)跳動(dòng)聯(lián)動(dòng)全國(guó)各大博物館、創(chuàng)作者,通過直播、短視頻等方式普及文物知識(shí),F(xiàn)在,大多數(shù)國(guó)家三級(jí)以上博物館的內(nèi)容都能在抖音找到。
近日,教育部等九部門發(fā)布《關(guān)于加快推進(jìn)教育數(shù)字化的意見》,指出“聚焦集成化、智能化、國(guó)際化,擴(kuò)大優(yōu)質(zhì)教育資源受益面,促進(jìn)人工智能助力教育變革”。無論從繼承和發(fā)揚(yáng)中華優(yōu)秀傳統(tǒng)文化,還是迎接數(shù)智時(shí)代的挑戰(zhàn)來說,識(shí)典古籍都值得全民的廣泛關(guān)注和參與。
從去年風(fēng)靡全球的游戲“黑神話悟空”,到今年的動(dòng)畫電影《哪吒2》,都是傳統(tǒng)文化創(chuàng)造性轉(zhuǎn)化的極佳案例,而浩瀚的典籍文化遺產(chǎn)正是文化產(chǎn)業(yè)取之不盡的素材資源。如何更好地利用它們,等待我們給出令時(shí)代滿意的答卷。(中國(guó)科學(xué)院自然科學(xué)史研究員 孫顯斌)