摘要
使用Lucene设计一个全文检索系统,系统由三大功能模块组成:索引模块、检索模块和存储模块。第二部分着重分析PDF数据转换,XML文档设计,索引的分词、建立及效率等技术难点,并对中文分词分析器、索引文件膨胀率、索引影响因子及检索系统并对检索响应时间进行测试。应关注XML数据库的安全性。
Using lucene design a full text retrieval system, including index module, retrieval module, and database module. Mainly analyze how to transform PDF to XML, designing of XML database, Chinese word segmentation, founding and efficiency of indexes, then tests analyzer, expansivity, factors of indexes and responding time of searching. The security of XML database should be paid attention to.
出处
《图书馆学研究》
CSSCI
北大核心
2009年第2期37-40,83,共5页
Research on Library Science
基金
国家社科基金重大项目“建设创新型国家的信息服务体制与信息保障体系研究”(项目编号:06&ZD031)课题成果之一