期刊文献+

基于Tika和Lucene的桌面搜索引擎研究与实现 被引量:3

Research and implementation of desktop search engine based on Tika and Lucene
下载PDF
导出
摘要 在桌面搜索引擎中,对于二进制文件格式的处理,通常需要针对每一种具体的文件格式编写独立的解析器,复杂度较高且不易维护。从分析开源搜索引擎Lucene出发,提出一种基于Tika和Lucene的桌面搜索引擎框架,能够使用统一的应用编程接口来处理不同二进制格式的文档。整个框架均为开放源代码形式,各模块间耦合度低,易于扩展。在实现方面,基于最新的Lucene4.1,实现了对桌面系统内文档的全文搜索;并在索引性能优化方面,相比于传统的参数配置优化和内存缓冲优化两方面,使用最新的DWPT(documents writer per thread)技术,使索引性能提升了35%。 To process of the binary file format in desktop search engine, writing separately for each specific file format parser is usually needed with a high degree of complexity, which difficult to maintain. By analyzing of the open source search engine Lu cene as a start, a desktop search engine framework based on Tika and Lucene is proposed, to use a unified application program ming interface to deal with different binary format documentation. The framework is open sourced, the degree of coupling be tween modules is low that is easy to extend. As the implementation aspects, this framework based on the latest Lucene4.1 and achieves the full-text search of documents in the desktop system. Besides, compared to traditional parameters configuration opti- mization and memory buffer optimization, the latest DWPT (documents writer per thread) technology is used to optimize index performance. The experimental results show that index performance is improvedly 35%.
出处 《计算机工程与设计》 CSCD 北大核心 2014年第1期310-314,共5页 Computer Engineering and Design
基金 国家自然科学基金项目(61272446) 北京市属高等学校人才强教深化计划"中青年骨干人才"基金项目(PHR201008083)
关键词 桌面搜索引擎 索引优化 索引片断 多线程索引 多线程写入 desktop search engine index optimization index segment multi-threaded index multi-threaded write
  • 相关文献

参考文献2

二级参考文献6

  • 1当前几个主要的Lucene中文分词器的比较[EB/OL].(2009-08-08).http://www.iteye.com/news/9637.
  • 2Tsai Chih-Hao. MMSEG: A Word Identification System for Mandarin Chinese Text Based on Two Variants of the Maximum Matching Algorithm[EB/OL]. (2000-03-12). http://teehnology. chtsai.org/mmseg.
  • 3Google Projet Hosting.imdiet-chinses-analyzer智能词典所采用的智能中文分词程序[EB/OL].(2011-01-15).http://code.google.corvdp/imdict-chinese-analyzer/.
  • 4Gospodnetic O, Hatcher E. Lucene in Action[M]. Greenwich, UK: Manning Press, 2004.
  • 5胡长春,刘功申.面向搜索引擎Lucene的中文分析器[J].计算机工程与应用,2009,45(12):157-159. 被引量:8
  • 6闻玉彪,贾时银,邓世昆,李远方.一种改进的最大匹配中文分词算法[J].计算机技术与发展,2011,21(10):92-94. 被引量:16

共引文献23

同被引文献20

  • 1百度百科.Heritrix.[2014-07-02].http://baike.baidu.com/view/1571189.hlm?fr=aladdin.
  • 2郭艳芬.利用Heritrix构建特定站点爬虫[EB/OL].2010.http://www.ibm.com/developerworks/cn/opensource/os-cn-heritrix/.
  • 3Heritrix使用小结.[2009-10-14].http://www.cnblogs.com/phishine/articles/1599258.html.
  • 4李亮.基于Lucene和Heritrix的职位垂直搜索引擎的设计与实现[J].北京:中国地质大学,2010.
  • 5Mccandless M, Hatcher E,Gospodnetic O. Lucene in action. Manning Publication C0,2010.
  • 6廖程峰.一种基于元数据的搜索引擎的设计与实现[D].长沙:中南大学,2004.
  • 7金昊.数据资源描述与组织的元数据方法[D].天津:天津大学,2005:20-25.
  • 8宋佳,诸云强,刘润达.一种基于Lucene改进的全文检索工具包[J].计算机工程与应用,2008,44(4):172-175. 被引量:15
  • 9郑榕增,林世平.基于Lucene的中文倒排索引技术的研究[J].计算机技术与发展,2010,20(3):80-83. 被引量:50
  • 10夏天,黄文,马骏涛,李光伟.Lucene全文检索软件及其在学科信息服务平台中的应用[J].图书情报工作,2011,55(21):106-109. 被引量:8

引证文献3

二级引证文献2

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部