摘要
全文数字化是信息资源建设的方向,研究型资源的全文化检索尤其重要。计算器现有系统能处理的汉字,对于中文古籍、辞书、人名地名系统、报刊出版远不够用。几年前,国际标准ISO/IEC10646:2003(即Unicode4.0)编码汉字字符集已经拥有7万余汉字,但其中有4万2千多个汉字是4字节编码,在应用领域的处理方面有一定难度。文章介绍中易公司处理4字节编码汉字的技术成果,并结合在古籍数字化项目中的实际应用,着重说明用自行开发的7万汉字的应用系统,支持数字化工程和全文检索发布的技术特点,强调超大字符集、XML开放数据等标准技术的应用等。通过实践,总结出一套基于支持超大字符集4字节编码汉字的数字化的应用技术,以及信息全文检索发布的可行方法,解决了古籍和文献的数字化工程中的技术难点。
出处
《数字图书馆论坛》
2007年第5期60-67,共8页
Digital Library Forum