中国古籍出版数字化展望
中国是世界上唯一有持续不间断文献记载的文明古国,因而古籍存佚数量也是最多最大,号称“浩如烟海”、“汗牛充栋”,实不为过。从古迄今,先哲存留下来的文献整理与研究便是后人绵延不绝的一项基本工作,也是海外汉学得以昌盛不衰的基础课题。历史经验证明,昌明盛世的一个显着标志,便是对古代文献编纂、整理的总量递进以及大型古籍集成性成果的界标式出版(问世)。随着时代的进步,古籍整理出版借助网络数字技术的平台得以更迅捷的发展,为人类文明成果的集结与分析研究提供了更新颖的视角、更广阔的领域和无以超越的可能。
古籍数字化 是延续文化传统的重要手段
数字内容出版(digital content publishing)是内容出版与信息技术结合的新型出版模式,是将传统出版中的图像、文字、视频、声频等内容进行数字化和数字资源整合,并在数字信息技术平台上呈现、发布和应用。自20世纪90年代以来,新兴信息网络通信技术给传统出版业带来挑战,古籍出版同样受到冲击。数字出版经历了桌面印刷、电子出版、网络出版、复合出版(跨媒体平台)等过程。从数字出版的样式变化来看,包括:软件读物与数据库、多媒体光盘产品、电子与网络游戏、电子书与电子纸、网络书店、按需印刷、移动出版等形式。
古籍数字化就是利用现代信息技术对古代文献进行整理、研究与保护,并以电子数据的方式传播与使用。中国古籍是中华民族历史发展和思想智慧集聚的珍贵文献,是传统文化的重要载体,而数字化正是延续文化传统的重要手段。近20年来,古籍产品的数字化与数据资源整合开发方兴未艾,兹列举大型项目如下:
1.《国学宝典》,收录古籍4000余种,逾10亿字,还有历代笔记、小说备览等,由国学时代文化传播有限公司制作。
2.《文渊阁四库全书》、《四部丛刊》全文检索光盘版,由香港迪志文化出版有限公司投资,书同文数字有限公司制作。
3.《中国古籍基本库》,收录古籍1万种,全文18亿字,1200万页影像,由北京爱如生数字化技术研究中心制作,黄山书社出版发行。
4.“宋元善本全文数据库”,由上海图书馆1996年启动全部数字化,并分期实现上网服务。
5.“中国历代典籍总目分析系统”(Historical Book Catalogue of China,简称HBCC)。2008年,由国家图书馆与北京大学资料分析中心联合制作,国家图书馆出版社出版发行。
6.“中华字库工程”,是国家“十一五”重大建设项目,建立汉字及少数民族文字的编码和主要字体字符库,新闻出版总署组织实施,项目总体组由中国出版集团承担,裘锡圭先生为首席专家。
7.“日本所藏中文古籍数据库”,由日本京都大学人文科学研究所等多家机构企划设计,有55个图书馆加入数据库,数据总数达748585笔。
8.《汉及以前全部传世文献电脑化资料库》和《魏晋南北朝全部传世文献电脑化资料库》,由香港中文大学中国文化研究所中国古籍研究中心研制,其前身为汉达中国古代传世文献电脑化资料库,1988年~2005年建设了上述项目。将扫描魏晋南北朝之前的全部传世文献悉数输入数据库。数据库输入文献所据版本,均为未经后人恣意改动的旧刻善本,然后由研究人员重新标点、校勘;凡经校改之处,均加上校改符号,以此建立原始文献资料库。
9.《汉籍全文资料库》,由台湾中研院史语所研制,始建于1984年,是目前台湾地区最具规模、资料统整最为严谨的中文全文资料库。资料库内容包括经、史、子、集四部,其中以史部为主,经、子、集为辅。从类别上讲又可分为宗教文献、医药文献、文学与文集、政书、类书与史料汇编等,20余年来累计收录历代典籍已达460多种、3.91亿字,内容几乎涵括了所有重要的典籍。并附有比较完备的检索工具可供利用。
10.“中华古籍语料库”,2002年立项,前期收录350种,约2亿字,差错率在万分之一以下,将中华书局古籍资源的主体部分数字化,并开发建设了“资治通鉴知识分析系统”,可以对《资治通鉴》全文进行关键字检索,基于时间、人物、地名、事件等文本信息重组,并以图形方式展现分析成果。待今明年结项,推出部分数字化产品。
11.《中国口头文学遗产数据库》。“中国口头文学遗产”是中国文联民间文艺家协会60年来征集、记录、整理的我国民间口述文学的成果集合,统计有8.4亿字。《中国口头文学遗产数据库》是将全部5000余种口头文学资料数字化,保留原文图像,以原始分类为依据,建立文本资料库。它具有各种形式的检索、统计、分类浏览等功能。该数据库是“中国口头文学遗产”的第一次大规模数字化整理,具有重要资料价值和学术价值。目前与中华书局合作正在开发中。