美章网 资料文库 中文古籍数字化建设的实践范文

中文古籍数字化建设的实践范文

时间:2022-08-28 04:07:44

中文古籍数字化建设的实践

摘要:域外汉籍数字化建设是将具有学术价值、研究价值和艺术价值的海外汉字文献予以数字化,形成一定规模,方便国内外读者使用的数字资料,由此可以通过数据库出版物提供给国内外有需要的图书馆和科研院所,为历史文化项目创造经济价值起到探索与示范作用。

关键词:域外汉籍;数字化;传统文化

古籍数字化是当前颇受人们重视的一种古籍整理方式,它以存储量大、使用方便等优点为人们所欢迎,随着信息化时代的到来,古籍文献的数字化作为新型的文献保护举措,将有极大的发展应用空间。

一、国内外关于古籍数字化建设的现状

针对古籍文件的数字化整理虽起步较晚,但发展十分迅速,近几年国内外多家图书馆、数字出版商推出了各类文献数字化产品,各有优劣。在海外,影响力较大的有美国国会图书馆倡导的“世界图书馆(WDL)”工程,该项目于2005年6月提出,2009年4月向公众开放。迄今为止已有168家世界各地的图书馆加入。其建设意义在于让读者可以从世界任意地方通过浏览网页发现、学习、研究不同地区的文化珍宝,包括名人手稿、古代地图、珍本文集等内容。但该系统的缺憾在于中文文献的资料尚较缺乏,汉字古文献不足200种。在港澳台,有基于保护古籍避免重复借阅而造成损毁的目的而推出的台湾“国家图书馆”古籍影像检索系统,主要起典藏和利用的双重目的。目前该系统总计著录条目已达42069种,有数字影像的达10930种。但出于资源保护的目的,目前该系统的影像仅在馆内开放使用,馆外只能查询书目数据及阅览卷端书影。对于馆外读者而言,仍然非常不便。在中国大陆,影响力比较大的文献数字化工程当属“大学图书馆国际合作计划”,也被称作“中美百万册书数字图书馆”(China-AmericaDigitalAcademicLibrary,简称CADAL)项目。[1]该项目是由国家投资建设美国合作方投入软硬件系统支持,浙江大学图书馆和中国科学院研究生院负责具体实施建设的平台系统。该系统包括古籍190405册、绘画3427件、英文图书95751册,与“中国高等教育文献保障系统(CALIS)”一起,共同构成中国高等教育数字图书馆的框架。此外,还有北京时代瀚堂科技有限公司推出的瀚堂典藏古籍数据库,该数据库是目前国内唯一采用国际通用的八万二千汉字之超大字符集进行加工校勘的古籍数据库,收录了中国从夏商至民国的历代文献18000多种,汉字总量超50亿,该数据库在国内多家图书馆内可以使用。总体可见,古籍数字化在海内外都被认为是一项方兴未艾的文化事业,受到高度重视。但是,通过我们的调查和以上国内外古籍数字化产品的介绍,国内外的公立机构和出版商仍较少涉及域外所藏汉籍领域,而大陆系统绝大部分为中国境内典藏的文献,仅包含少数已经被国内学者引介回归并影印出版的域外文献。可见域外汉籍的整理和数字化工作仍是一个亟待开发的领域,由西南师范大学出版社主导建设的“域外汉籍数字服务平台”的推出无疑是一项填补空白的举措。

二、域外汉籍数字化建设的意义

全面整理域外书目文献,完成域外汉籍数字化工程,这是一件很艰难的工作,也是一件很有意义的工作。

(一)见证中国文化对世界的影响党的报告指出:“文化是一个国家、一个民族的灵魂。没有高度的文化自信,没有文化的繁荣兴盛,就没有中华民族伟大复兴。”[2]中华文明在悠久的历史进程中创造了无数的文化成果,如汉字、造纸术、印刷术等,汉字典籍则是将多种文化成果结合在一起的、最具中华文明特征的智慧结晶,也是将中华文明传承下来的物质载体。时至今日,周边国家、欧美国家乃至世界的其他角落,均保存了为数众多的汉籍。仅以2002年由中国大陆、台湾和越南学者共同编纂的《越南汉喃文献目录提要》为例,该文共著录河内汉喃研究院和法国远东学院所藏的越南汉籍5027种,[3]海外所藏汉籍数目之巨,由此可见一斑。

(二)有益于我国文化软实力的提升域外汉籍中有大量中国佚失而留存海外的华夏旧籍。如1900年,敦煌藏经洞被人发掘之后,其中的数万件经卷、文书、绘画等文物被盗走,流失在世界各地,促使海内外众多学者投身研究行列,敦煌学便由此而诞生。再拿音韵学来说,晚清时期,中土佚书《韵镜》在日本重新被发现,黎庶昌将其刻入《古逸丛书》,国内学人才逐渐接触到该书,这件事在音韵学的发展史上具有里程碑式的意义。从历史上可以看到,在东亚地区,汉字就是东亚诸国的文化支柱,也是东亚未来合作成功的文化基础。研究这些汉字文献,我们可以了解古代东亚各国的文化往来,为未来的国际合作提供镜鉴;整理这些汉字文献,我们可以吸引各国的学者关注东亚各国的历史姻缘、重视彼此的同质的文化根基,取长补短,共同促进,让汉文化在未来得以再度复兴。因此,通过对域外汉籍的数字化加工,利用新兴的传媒技术,构建和发展现代传播体系,让中华民族优秀文化得以更好地传承、发扬,大力提升我国文化的软实力。

(三)有助于域外汉籍的回归、整理和保护域外汉籍虽然存量巨大,但随着时光流逝,这些散布在全球各地的东方古文献因为各个国家保存条件、保护力度的不一致而出现不同程度的损坏情况。比如,在梵蒂冈图书馆,由于欧洲人缺乏对东方古籍的保护意识,大量的汉籍古本被拆开黏贴在硬纸板上,由于两种纸质酸碱性不同,而致使原书出现字迹模糊、墨色脱落的现象,令人十分心痛。另外,由于国外图书馆缺乏汉籍整理的专业人才和经费,大量的汉籍仍然被弃之一旁,任由自然侵蚀。比如俄罗斯科学院东方手稿所内,大批的中国清代至民国时期的俗文学唱本,未曾整理,放置在无人问津的角落里。[4]古籍整理是我们继承中华民族优秀传统、发扬中华文明璀璨文化的一项卓有成效的举措,也是一项功在当代、利在千秋的伟业。从南北朝时期到清末、民国时期,不断有有识之士通过各种渠道搜求海外中土佚书、汉籍珍本,多有斩获,在知识界屡次掀起巨大反响,也为相关领域的研究提供了巨大便利。新中国成立之后,域外汉籍的收罗与整理工作更是硕果累累。北京大学、南京大学、复旦大学、上海师范大学等院校在此领域做出突出贡献,获得了大批中国所未见的新资料,极大地拓展了中国学者的研究视野,催生了一批新的学术成果。数字化与信息技术是资料整理、保存、传播的有效手段,因此,建立一个长期、经济高效、具有开放性、应用性强的数字化平台对中文古籍的整理和保护将起到非常重要的作用。正因为如此,西南师范大学出版社与时俱进,积极倡导建设“域外汉籍数字服务平台”项目。通过制定收集、整理标准,将具有版本价值、研究价值和艺术价值的海外汉字文献予以数字化,形成一定规模,方便国内读者的使用,弘扬中华优秀的传统文化;同时,“域外汉籍数字服务平台”的应用,能够让国内外研究学者便捷查询、使用,以免除舟车劳顿,客观上促进了中华文化的对外推广和汉字文化的传承复兴,是一件非常有意义的事情。

三、“域外汉籍数字服务平台”设计概述

该项目共著录了近40个国家的近百家图书馆及个人所收藏的汉文文献,约有71000余汉籍条目,如何将为数众多的汉籍条目管理好、展示好,是我们需要着重考虑的地方。

(一)产品概述“域外汉籍数字服务平台”是利用西南师范大学出版社已出版的《域外汉籍珍本文库》系列丛书构建的一个适合国内外图书馆、历史研究所等科研机构使用的数字服务平台,涵盖了近40个国家的近百家图书馆及个人所收藏的汉文文献,约有71000余汉籍条目。通过数字服务平台,读者可以通过著录内容、类别、书名、册数、著述者、版本信息、行款形式(附装帧)、藏印、纸质、存藏地、索书号、图像、备注等十余项信息进行直接检索,精确找到自己所需要的文档。同时,主界面设置人性化,方便读者的阅读使用。例如:在主界面上设置有说明、检索、浏览、凡例、联系我们、数据导出、退出等多个功能按钮。这些按钮还会显示在检索、浏览、说明等分界面的顶端,随时可以切换到用户想要查看的其他界面。此外,数字服务平台还提供简体中文和繁体中文两种版本,满足海内外学者的需求。

(二)产品特色为将众多的汉籍条目管理好、展示好,为用户提供准确、迅速的检索环境,并且满足未来平台资源不断增长的需要,我们在设计过程中就着重从操作实用性、平台开放性、资源检索准确性等多个方面进行考虑。在操作实用性方面,为方便非计算机专业人员的使用,满足个人用户和机构用户的日常使用,平台操作以操作简便、快捷实用为主,界面设计注重人性化,并且提供丰富多样的帮助文档和灵活的配置手段等。在平台开放性方面,充分考虑了多种应用场景的使用,给用户提供了多终端登录、查询的功能;还从规范项目内部程序设计、项目内部与外部接口和用户操作界面做起,构建规范的数据流程,并将平台按照资源传递分为标引、上传、检索以及服务器管理四大模块,保证数据的合理传递,如图1所示。其中,资源标引模块主要功能是对已出版的文档拆分出来的条目进行内容审核、格式转换、属性标引等操作。资源上传模块主要功能是按照事先制定的分类体系标准,将标引好的资源系进行分类并上传。资源检索模块主要功能是对著录内容、类别、书名、册数、著述者、版本信息、行款形式(附装帧)、藏印、纸质、存藏地、索书号、图像、备注等十余项信息进行检索,满足用户查询方便。服务器管理模块主要功能是对系统的后台管理和维护工作。每个模块对应不同的平台使用群体,各负其责,方便后续资源便捷增加到平台,不断丰富其内容。在资源检索准确性方面,一是通过构建标准化的分类体系,帮助用户快速定位所需的资源。该项目按四部分类法,分为经、史、子、集四部,并增加丛部,同时根据文献的性质,对类别做了适当的增删,比如在集部别集类中增加韩国-朝鲜类、日本类、越南类,将以上国家历史上的汉文文集按国别分类。其余文献则按照内容性质和时间顺序分别放入对应的类别中。碑帖、文书等散见的文件分别汇集成一类。在浏览界面的左侧,有树形目录。点击每个类别,均可在右侧方框内显示出该类别的所有书目数据,满足用户查询方便。二是尽可能完善条目的标引属性,在对资源进行条目化拆分的时候,就尽可能设置更全面的资源标引属性,包括著录内容、类别、书名、册数、著述者、版本信息、行款形式(附装帧)、藏印、纸质、存藏地、索书号、图像、备注等十余项,以便读者在使用过程中更快、更好地找到需要的资源。

(三)关键技术1.资源在线预览技术系统支持用户无须下载文件、直接在线预览。通过提前预览资源、直接判断资源是否符合需要,无需浪费时间下载文件,大大提升了用户的使用体验。2.基于全文检索的快速查询技术全文检索系统是指可以对资料源的全部文本内容进行检索的系统,比起传统的标音、主题词检索来,全文检索技术提供了全新的、强大的检索功能以达到迅速、准确、全面定位文档资源信息。可以解决“域外汉籍数字服务平台”海量数据定位不准、查询效率低下问题,提高查询系统工作效率和工作质量。[5]3.负载均衡技术随着网络核心业务发展和访问量不断提高,使得单一的服务器设备无法承担。通过负载均衡技术有效解决网络设备和服务器带宽不足等问题,提升用户的满意度。4.大数据技术中文数据中操作对象的属性标引复杂、种类繁多、古籍校本混乱,为获取全面、准确的信息,需综合多个数据源进行综合分析,目前业界已有成熟且实践中得到广泛验证的解决方案,因而可以借鉴大数据技术解决中文古籍的信息管理工作。

四、域外汉籍数字化建设的思考

随着计算机与信息技术的迅猛发展,古籍数字化已成为对古籍文献资源进行有效保护和广泛利用的重要手段,但在实施过程中还面临一些问题。

(一)内容风险由于域外内容年代久远、来源类型多样,内容上不可避免会出现政治性、科学性、权威性等方面的疏漏。因此,在项目建设过程中,我们首先从图书出版的源头上制订相应的制度和流程,保障文章和标引正确性。例如,在文章的收集过程中,便组织一批知名专家通过索引、校勘、注释等方式对古籍进行加工整理和标注,同时,调集社内业务精深的编辑团队对专家的标注进行审核,层层把关。最终,将标引版本和原始版本进行统一。西师出版社近年来出版的《日藏宋元禅僧墨迹选编》《木氏宗谱》等书即采用这种办法,将专家对古籍的整理、标注成果和古籍原典全部展现,方便国内外学者使用。同时,我们也利用数字化建设来反哺图书出版工作,比如我们可以把《域外汉籍珍本文库》第一辑和第二辑的书目,放入本数字服务平台检索核查,再比照国内图书目录,能很方便剔除国内有存藏或已出版的书目,从而保证《域外汉籍珍本文库》所收文献的珍稀性、唯一性和权威性。

(二)古籍处理智能化程度不高域外汉籍数字化处理实质是对古籍的整理,而古籍整理又对整理者的知识水平提出了很高的要求,因此,现时的计算机软件、手写识别OCR技术等还无法对古籍进行全文自适应分类整理,大部分工作还依赖于传统图书的专家和编辑,使得整个项目在对古籍全文字符编码化方面还有所欠缺。为此,我们将积极探索建立一套域外汉籍资源自评价体系,实现系统自动对学者上传的古籍图片进行文字识别,建立全文检索索引,并提取关键字段作为标引属性,为项目的二期工程———域外古籍数字化资源的共建、共享打好基础。

(三)专业人才队伍的建立域外汉籍数字化是传统文化与现代技术的结合,在整个加工过程中,需要有高水平的专家对文档内容进行审定、把关。同时,在数字化处理、数据库设计、平台开发等方面也需要具有计算机网络知识和多媒体技术的专业人员进行通力协作。因此,加强人才队伍的建立,打造高素质的复合型人才,将是推进中文古籍数字化建设的有力保障。

参考文献

[1]万军.整合科学与人文精神建设图书馆特色馆藏[J].图书馆理论与实践,2012(5).

[2]黄小华.党的报告的四大亮点及其理论贡献[J].探索,2017(6).

[3]刘玉珺.《越南汉喃文献目录提要》商榷[J].新国学,2006(00).

[4]徐林平.以书为径,寻找中华文化之魂魄[N/OL].文艺报,2014-05-21.

[5]杨丽.科研院所知识管理系统构建研究[D].北京交通大学,2011.

作者:罗渝;黄璜

被举报文档标题:中文古籍数字化建设的实践

被举报文档地址:

https://www.meizhang.comhttps://www.meizhang.com/shekezazhi/gjzlyjxkzz/718963.html
我确定以上信息无误

举报类型:

非法(文档涉及政治、宗教、色情或其他违反国家法律法规的内容)

侵权

其他

验证码:

点击换图

举报理由:
   (必填)