基于支持4字节编码汉字的数字化及全文检索发布系统

下载PDF

导出

摘要全文数字化是信息资源建设的方向，研究型资源的全文化检索尤其重要。计算器现有系统能处理的汉字，对于中文古籍、辞书、人名地名系统、报刊出版远不够用。几年前，国际标准ISO／IEC10646：2003（即Unicode4．0）编码汉字字符集已经拥有7万余汉字，但其中有4万2千多个汉字是4字节编码，在应用领域的处理方面有一定难度。文章介绍中易公司处理4字节编码汉字的技术成果，并结合在古籍数字化项目中的实际应用，着重说明用自行开发的7万汉字的应用系统，支持数字化工程和全文检索发布的技术特点，强调超大字符集、XML开放数据等标准技术的应用等。通过实践，总结出一套基于支持超大字符集4字节编码汉字的数字化的应用技术，以及信息全文检索发布的可行方法，解决了古籍和文献的数字化工程中的技术难点。

作者朱人杰蒋贤春郑珑

机构地区北京中易中标电子信息技术有限公司

出处《数字图书馆论坛》 2007年第5期60-67,共8页 Digital Library Forum

关键词超大字符集古籍数字化全文检索 ISO10646-2003 XML

分类号 G276 [文化科学—档案学]

引文网络
相关文献

1刘家树.浅谈字符基本集与大字符集在图书馆文字工作中的应用[J].北京高校图书馆学刊,1998(4):30-32.
2徐月红.浅谈高校图书馆网络信息资源的组织与管理[J].铜陵学院学报,2004,3(4):86-87. 被引量：1
3周彩云.论网络环境下档案信息资源的开发[J].当代教育论坛（学科教育研究）,2007(9):92-93. 被引量：2
4赵继海.电子书阅读器的发展及其对图书馆的影响[J].大学图书馆学报,2001,19(4):22-25. 被引量：33
5宫月红.档案数字化建设中应注意的问题[J].黑龙江档案,2012(1):88-88.
6刘曼丽.浅议古籍书目数据库之建设[J].情报杂志,2000,19(5):74-75. 被引量：5
7张仲春.《中国地名》力争办出自己的特色[J].中国地名,1997,0(3):46-47. 被引量：1
8郑鸥.关于档案全文数字化工作的思考[J].中国档案,2007(2):46-47. 被引量：10
9仇家倞.论图书馆地方文献数字资源平台建设[J].图书馆研究与工作,2007(3):70-71.
10Office X P中文版在中国隆重上市[J].中国电子与网络出版,2001,0(3):70-70.

数字图书馆论坛

2007年第5期

浏览历史

内容加载中请稍等...

基于支持4字节编码汉字的数字化及全文检索发布系统

相关作者

相关机构

相关主题

浏览历史