中华文字将全面数字化“中华字库”工程启动涵盖全部汉字和少数民族文字
7月26日,“中华字库”工程研发工作启动大会在京召开。这标志着“中华字库”工程从筹备阶段正式进入全面研发建设阶段。
作为新闻出版总署重大科技工程项目的“中华字库”工程,是《国家“十一五”时期文化发展规划纲要》的重大建设项目,也是国家《文化产业振兴规划》中特别指出的具有带动作用的重大文化建设项目。
工程以对文字学的深入研究为基础,充分利用新技术,开发相应的软件工具,探索人—机结合的文字收集、整理、筛选、比对和认同的操作与管理流程,从数千年流传下来的文字载体中,尽可能将所有出现过的汉字形体和少数民族文字形体汇聚起来,建立字际间的相互联系,最终按照出版印刷及网络数字化需求,制作出符合各种应用的汉字和少数民族文字的编码及主要字体字符库。为满足数字化的各种需求,通过该工程,还将研发超大规模字库的输入输出、存储传播以及相互兼容等关键技术。
据了解,1985年开始分卷定稿的《汉语大字典》,共收列楷书汉字5.6万左右,是中国汉字的一次全面梳理与检视,是当时条件下最优秀的汉字科研成果。随着电子技术的快速发展,我国现有字库已经收入7万多字,但古汉字及许多少数民族文字都没有被纳入,远远满足不了总结和传承文献、传播中华文化的需要。现有字库除藏文、维哈克文、蒙文等几个较大少数民族的文字已经编码,傣文、彝文正在编码外,仍有大部分少数民族文字没有整理出来,其中包括不少海外收藏的少数民族古文献文字。
完成后的“中华字库”预计可编码字符数在50万左右,包括汉字古文字约10万、楷书汉字约30万、各少数民族文字约10万。待整理的古文字包括甲骨文、金文、简牍文、玺印文、碑刻文、手书文字、图书。其中,数以万计的玺印文对研究当时的历史、文化、职官具有重要意义。工程的最终成果,将形成我国多语种文字的数字化处理技术体系,将实现中华民族文字的大团圆。
国家新闻出版总署副署长、新闻出版重大科技工程项目领导小组副组长孙寿山表示, “中华字库”工程是实施国家文化发展战略的必然要求。通过“中华字库”建立的各类文档或数据库,将会实现历代中华文献的电子典藏和网络传播,在继承和发扬中华优秀传统文化的基础上实现中华文化的创新,带动我国文化产业的发展,为国家文化发展战略奠定稳固的基础。
“中华字库”工程总体组专职副组长张力伟介绍说,欧美一些国家已经对本国文字进行编码,如希腊古文字、加拿大土著文字等已进行国际编码,使本民族的古文献能够在网络上流传,展现国家文化实力。我国的古文字与现代文字一脉相承,加上有大量出土文物支撑,整合现有的研究成果,并在文字编码上进行研究,极为必要。
工程完成后所形成的我国多语种文字数字化处理技术体系,能够对我国各种出土、传世文献和当代文字作品进行数字化处理,也能够满足社会数字化服务和数字化监管的需要,如国土资源管理、公民身份管理、银行管理、海关管理等需要。
据悉,“中华字库”工程由中国出版集团公司牵头组建总体组,中国文字学会第一届会长裘锡圭教授担任项目首席专家。工程共分为28个包,预计5年内完成,有近30家高校、研究院所和企业参与工程的研发。
来源:《中国社会科学报》2011年08月04日