期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
基于Lucene的自定义中文分词器的设计与实现 被引量:1
1
作者 王桐 王韵婷 《电脑知识与技术(过刊)》 2014年第1X期430-433,共4页
该文设计了一个基于复杂形式最大匹配算法(MMSeg_Complex)的自定义中文分词器,该分词器采用四种歧义消除规则,并实现了用户自定义词库、自定义同义词和停用词的功能,可方便地集成到Lucene中,从而有效地提高了Lucene的中文处理能力。通... 该文设计了一个基于复杂形式最大匹配算法(MMSeg_Complex)的自定义中文分词器,该分词器采用四种歧义消除规则,并实现了用户自定义词库、自定义同义词和停用词的功能,可方便地集成到Lucene中,从而有效地提高了Lucene的中文处理能力。通过实验测试表明,该分词器的分词性能跟Lucene自带的中文分词器相比有了极大的提高,并最终构建出了一个高效的中文全文检索系统。 展开更多
关键词 中文分词 复杂最大匹配 LUCENE 分词器
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部