摘要
伴随着信息技术的日新月异,互联网上的信息呈现出爆炸式的增长,为了满足人们快速而准确地获取信息,Lucene检索技术便应运而生。由于Lucene自带的分析器对中文分词效果不明显,切分出很多无用词,而且切分出的词失去原有意义。针对此问题,在基于字符串的正向最大匹配分词方法的基础上,提出改进的方法,从而提高分词的准确性。最后,通过实验验证改进后的方法对分词的效果。
This paper proposes an improved method based on the character of the forward maximum matching word segmentation method based on the string,so as to improve the accuracy of segmentation.Finally,the effect of the improved method is verified by experiments.
出处
《工业控制计算机》
2016年第2期115-116,119,共3页
Industrial Control Computer
关键词
LUCENE
中文分词
正向最大匹配算法
Lucene
Chinese word segmentation
forward maximum matching algorithm