期刊文献+

基于Lucene的中文分词模块的设计和实现 被引量:3

Design and Implementation of Chinese Words Segmentation Based on Lucene
原文传递
导出
摘要 基于当前最流行的全文检索引擎架构Lucene,文章设计并实现了一个中文分词模块。分词模块中的核心算法是基于字符串匹配与统计相结合的中文分词算法,其主要研究目的在于寻找更为有效的中文词汇处理方法,提高全文检索系统的中文处理能力。通过实验发现,该模块的分词准确率较高,分词速度有进一步的提升空间。下一步我们将通过多种改进措施,来完善该分词模块,最终构建出一个高效的中文全文检索系统。 Based on the most popular Lucene Information Retrieval Library, the design and implementation of a new Tokenizer targeted at Chinese are described in this article. The core algorithm of this Tokenizer is the Chinese word segmentation algorithm based on the matching of string and the combination with statistical & probability model. The main purpose of this research is to find a more efficient Tokenizer for Chinese language, thus increase the processing ability of the full text retrieval in Chinese. The experiments verify the high performance and accuracy of this Tokenizer in certain areas(e-Commerce) compared with other popular Tokenizer used for Chinese language. The algorithm will be further improved to get a more efficient Chinese Tokenizer for general purpose.
出处 《电子技术(上海)》 2012年第9期54-56,共3页 Electronic Technology
关键词 搜索引擎 中文分词 LUCENE 哈希索引 search engine Chinese word segmentation Lucene Hash index
  • 相关文献

参考文献4

  • 1第29次中国互联网络发展状况调查统计报告[EB/OL].[2012—01-16].http:∥www.cnnfc.net.cn/dtygg/dtgg/20120l/t20120116—23667.html.
  • 2Gospodnetic O, Hatcher E. Lucene in Action [M].北京:电子工业出版社,2007.
  • 3中文分词概述[EB/OL].http://baike.baidu.eom/view/19109.htm.
  • 4罗桂琼,费洪晓,戴弋.基于反序词典的中文分词技术研究[J].计算机技术与发展,2008,18(1):80-83. 被引量:18

二级参考文献10

共引文献21

同被引文献23

引证文献3

二级引证文献4

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部