顾青:真正的古籍数字化是建立一套综合的知识服务体系
【编按】2013年中文数字出版与数字图书馆国际研讨会上,中华书局副总编辑顾青指出:理所当然的文物性善本不一定是文本性的善本。古籍数字化,依据的主要是文字,而不是文物。设想中的真正的古籍数字化,应该是将古籍文献和出土文献以及学术研究成果有机关联而建立的一套综合知识服务体系,能够提供检索、类聚、信息链接、知识提示、乃至跨学科跨领域的知识比对的服务功能。
中文古籍数字化建设,自上个世纪80年代开始,至今超过了30年,业界经过多年的努力,有不少产品面世并进入商业化应用,有许多机构和企业准备投入其中,成绩显而易见。但也存在不少问题,比如内容重复建设严重,知识产权侵权多见,数字化产品内容错误很多,质量明显低于纸质产品,技术更新缓慢等等。
中华书局从事古籍整理工作持续了近百年。1958年成为古籍整理专业出版社。2003年起,开始进行中文古籍数字化工作,至今也已经10年了,期间实施了一系列实验性的数字化工程:“中华古籍语料库”,“二十四史分析系统”,“国家数字图书馆汉字信息标准”等,目前正参与“中华字库”工程。由此,我们积累了较为丰富的中文古籍数字化建设的经验教训,也逐步形成了中华书局对中文古籍数字化建设的一些基本理念。
一、中文古籍数字化必须以古籍整理为基础。
目前不少古籍数字化产品,致力于数据量的累积,或所谓技术的更新,但往往都存在一个致命伤:质量。学者用来检索可以,但不敢直接引用,写论文时,还需要直接核对纸质整理本,出处也只能依据纸质整理本。原因就是错误太多。
这就涉及到几个久为业界和学界忽略的常识:
常识一:几千年流传下来的古籍造成大量遗失、讹误、错乱,时代和语言的变化,使得古籍未经认真整理,当代人是很难直接阅读使用的。
比如善本问题。
现在很多人迷信善本。似乎善本就一定好,未必!
善本有两个概念:一个是文物性的“善”,越早(宋元本),越稀见(孤本稿本)、越值钱(拍卖),就越“善”。现在普遍通行的使用的是这个概念。
另一个概念是文本性的“善”,内容完整准确,精校精刻,经过认真的整理。比如“二十四史”整理本,就比百衲本、殿本要“善”得多。
越早的版本未必是内容最好的本子。一个宋元的残本,是理所当然的文物性善本,但一定不是文本性的善本。古籍数字化,依据的主要是文字,而不是文物。除非我们是为文献学家提供版本影像。
常识二:近百年来的古籍整理实践,整理了数千种古籍,数百种精品,其内容质量远超前代;并且形成了一系列成熟的古籍整理规范。
这套古籍整理规范,总结几千年文献学、传统小学的成果,符合当代学术的需求,从选择版本、标点、校勘、定字,到辑佚、汇编、影印等,包括古籍整理的完整程序和各个细节,涵盖从出土文献到抄本时代和刻本时代的各种文献,涉及古代文化的各个学术领域和学科。符合古籍整理规范进行整理,质量就有基本保证。否则,必然错误百出。
常识三:古籍整理作品是有知识产权的,是受到著作权法的确认和保护的,也是被司法实践所证明的。
所谓古籍整理作品没有著作权的观点,是错误的。
基于以上的常识,我们可以说,古籍数字化建设,必须以古籍整理为基础,需要有懂得古籍整理的专业人士来参与,必须充分利用已有的古籍整理的成果,必须尊重整理者的著作权,获得法律的保护。离开了古籍整理基础的古籍数字化,必然是先天不足,难以健康地成长。
二、中文古籍数字化建设必须依托一系列符合古代汉语文字特点和传统知识体系的行业标准。
当我们把大量的文本数据汇集之后,如果简单地进行字符串的检索,一方面会出现大量的冗余数据,另一方面又会丢失大量的有效数据,其原因就在于没有建立健全的数据处理标准。没有经过处理(清洗,标注,关联等)的数据是不合格的。这些标准,包括古籍及传统文献数字化用字标准(规范汉字字表),整理本古籍元数据标准及标注标准,整理本古籍主题词标准(规范主题词词表)等等。
比如,目前业界普遍使用的七万多字的Unicode字符集,在古籍数字化中显然不够用。在我们的古籍整理实践中,还涉及大量汉字的本字未收入,大量的异体字、通假字、避讳字,也包括繁简字和日、韩的汉字,都需要做清晰准确的规范。没有一个符合古代汉字使用规范的汉字字表,显然不行。
又比如,人名曹操,还有很多称谓:孟德、吉利、阿瞒、曹东郡、曹使君、武平侯、魏王、魏武帝、魏太祖等等,仅《三国志》一书中就另有25个,更不要说历代文献的各种称谓了,会更多。最熟悉曹操的专家在检索“曹操”时,大概也不会把几十个不同称谓都输入一次。如果有了主题词表,输入一次“曹操”,不仅读者所有不同的称谓所在的文献都检索出来,而且系统还能提示和曹操有关联的主题。主题词表的建设具有很强的专业性,应该包括时间、地点、人物、书目、职官、名物、语词等等各类专题词汇,并且有规范准确的归类。
建立标准,需要对这个行业的深刻理解,需要经历古籍整理和学术研究的长期积累,需要经过古籍数字化产品的检验校正,并在使用中不断完善。这是一项基于现代信息技术的、严谨而艰苦的学术工作。
三、真正的古籍数字化产品,不仅仅是古籍文本的数字化,更应该是中华文化知识贡献的数字化,其本质是基于现代信息技术的对各类不同用户的服务。
目前很多古籍数字化产品,还仅仅停留在数据仓库和字符串检索的层面,既没有充分利用现代古籍整理成果和研究成果,也没有充分发挥当代信息技术的优势,应该说,还处于探索阶段。
我们设想中的真正的古籍数字化,应该是将古籍文献和出土文献以及学术研究成果有机关联而建立的一套综合知识服务体系,能够提供检索、类聚、信息链接、知识提示、乃至跨学科跨领域的知识比对的服务功能,让专家学者和普通大众都能够共享中华文化的伟大贡献。
中华书局目前正在做的古籍数字化工作:一方面,基于和纸质图书同步开发的电子书,我们采取与各个优质平台和渠道合作的方式,即将推出。另一方面,我们正在做的,有两个数据库产品:
一是“中华经典古籍库”,精选近300种中国文化基本典籍,包括十二五史、通鉴系列、诸子集成、史料笔记丛刊等诸多经典系列,全部解决版权问题,全都经过高水平的古籍整理,质量与中华版纸质版本一样,是可供征引的,质量是可以信任的。数据进行了文本标引处理,对书中的正文、注释、校勘、专名、书名等都做了标注,可以分类检索。同时,还附加原书的版面图像,并将文字与图像按页码一一对应,为核查和引用提供了方便。在收录数据的基础上,该产品还添加了电子字典、历史年表、笺注书签等工具,极大地增强了古籍阅读服务。
二是“中华基本史籍知识库”,是利用先进的信息技术手段,通过传统文化知识元的关联,将古籍文献、学术著作、知识条目有机结合而建立的立体化知识系统。作为知识分析的先导性成果,中华书局已经在“二十四史”上建立了基于本体的知识检索模型,不仅能够实现时间、地点、人物的知识关联检索,还可以通过可视化的形式展示,反映人物、时间、地点和事件之间的语义关系。“中华基本史籍知识库”能够提供传统纸质图书无法实现的知识检索、类聚、链接以及知识提示等服务功能,比目前已有的古籍数字化系统有进一步的加强和创新,呈现了古籍文献知识线索,破除了信息孤岛现象,打通了书的界限,建立了图书之间的联系。同时“中华基本史籍知识库”打破专家与广大读者之间的知识与信息壁垒,读者不再是单纯的使用者,他们与系统能够形成互动,贡献自己的知识。
这是中华书局同仁的一个理想,是中华书局从事古籍数字化的梦想,需要大家的共同努力。
来源:百道网