-
题名Lucene.net中文分词算法分析
被引量:3
- 1
-
-
作者
周拴龙
-
机构
郑州大学信息管理系
-
出处
《郑州大学学报(理学版)》
CAS
北大核心
2011年第3期73-77,共5页
-
文摘
Lucene.net实现中文分词依靠的是Analyzer类,但通过分析其内置的Keyword Analyzer,Standard Analyzer,Sto-pAnalyzer,Simple Analyzer,Whitespace Analyzer5个分词类发现,它们几乎都是按单字的标准进行切分的,为更好处理中文信息,必须引用外部独立开发的中文分词包.在对Chinese Analyzer,CJK Analyzer和IK Analyzer这3种典型的中文分词包分别测试后,发现采用字典分词以及正反双向搜索方法的IK Analyzer分词器的分词效果更胜一筹.
-
关键词
LUCENE
中文分词
analyzer类
-
Keywords
Lucene
Chinese word segment
Class analyzer
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-