Lucene.net中文分词算法分析被引量：3

Analysis on Chinese Segmentation Algorithm of Lucene.net

下载PDF

导出

摘要 Lucene.net实现中文分词依靠的是Analyzer类,但通过分析其内置的Keyword Analyzer,Standard Analyzer,Sto-pAnalyzer,Simple Analyzer,Whitespace Analyzer5个分词类发现,它们几乎都是按单字的标准进行切分的,为更好处理中文信息,必须引用外部独立开发的中文分词包.在对Chinese Analyzer,CJK Analyzer和IK Analyzer这3种典型的中文分词包分别测试后,发现采用字典分词以及正反双向搜索方法的IK Analyzer分词器的分词效果更胜一筹. The segment of Chinese word relies on the Class Analyzer. By analyzing the five built-in analyzers of Lucene. net, it was found that their segment were based on the single character of KeywordAnalyzer, StandardAnalyzer, StopAnalyzer, SimpleAnalyzer and WhitespaceAnalyzer. An improted segment kit for a better Chinese information disposal was added. By testing the three typical kits, ChineseAnalyzer, CJKAnalyzer and IKAnalyzer, it was found that IKAnalyzer which uses Dictionary participle and the positive and nezative two-way search method, worked well.

作者周拴龙

机构地区郑州大学信息管理系

出处《郑州大学学报（理学版）》 CAS 北大核心 2011年第3期73-77,共5页 Journal of Zhengzhou University:Natural Science Edition

关键词 LUCENE 中文分词 Analyzer类 Lucene Chinese word segment Class Analyzer

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献4

1赵峰.基于Lucene的全文检索系统初探[J].黑龙江科技信息,2007(06X):62-62. 被引量：1
2孙咏波,郭红锋.天文文献全文检索系统的研究与实现[J].天文研究与技术,2007,4(3):296-300. 被引量：3
3蔡建超,郭一平,王亮.基于Lucene.Net校园网搜索引擎的设计与实现[J].计算机技术与发展,2006,16(11):73-75. 被引量：14
4赵汀,孟祥武.基于LUCENEAPI的中文全文数据库设计与实现[J].计算机工程与应用,2003,39(20):179-181. 被引量：24

二级参考文献23

1颜维龙,盖杰,武港山,袁春风.面向网络的全文检索中索引文件的组织[J].计算机应用研究,2002,19(11):124-126. 被引量：12
2张校乾,金玉玲,侯丽波.一种基于Lucene检索引擎的全文数据库的研究与实现[J].现代图书情报技术,2005(2):40-43. 被引量：30
3郎小伟,王申康.基于Lucene的全文检索系统研究与开发[J].计算机工程,2006,32(4):94-96. 被引量：68
4吴胜远.一种汉语分词方法[J].计算机研究与发展,1996,33(4):306-311. 被引量：49
5胡盈盈.单汉字标引与检索技术综析[M].南京大学信息管理系,..
6张政保.全文数据库研究[M].中山大学,1995..
7杨沛.全文数据库索引机制的比较研究[M].中国科技信息研究所,1995..
8Lucene 1.2-RC4 API.http://jakarta.apache.org/lucene/docs/api/index.html, 2002.
9java offical web site.http://java.sun.com/,2002.
10车东.在应用中加入全文检索功能--基于Java的全文索引引擎Lucene简介[EB/OL].http://www.chedong.com/tech/lucene.html,2002-08.

共引文献36

1韩正服,杨喜权,张一鸣,丛荣华.基于特征码的大规模XML文档去重研究[J].中国管理信息化（综合版）,2006,9(7):75-77. 被引量：1
2周强.用Lucene实现MARC记录全文索引之探索[J].图书馆学刊,2005,27(2):22-24. 被引量：2
3郭一平,向晖,王亮.基于Lucene的Ftp搜索引擎的设计[J].高校图书情报论坛,2005,4(4):7-9.
4郭一平,向晖,王亮.基于Lucene的Ftp搜索引擎的设计[J].图书情报工作,2006,50(4):122-125. 被引量：3
5蒋国瑞,孙明.基于Lucene的TBT文档管理Agent系统研究[J].情报杂志,2006,25(5):37-40. 被引量：1
6向晖,郭一平,王亮.基于Lucene的中文字典分词模块的设计与实现[J].现代图书情报技术,2006(8):46-50. 被引量：27
7蔡建超,郭一平,王亮.基于Lucene.Net校园网搜索引擎的设计与实现[J].计算机技术与发展,2006,16(11):73-75. 被引量：14
8张晓卫,朱巧明.一种基于Lucene的Web全文信息检索系统的设计与实现[J].计算机与现代化,2006(12):111-115. 被引量：6
9温艳鸿.基于lucene的文件搜索引擎的设计与扩展[J].福建电脑,2007,23(8):144-144. 被引量：4
10孙素芬,罗长寿,张峻峰,于峰,张树亮.农业信息资源整合系统研究与应用[J].安徽农业科学,2007,35(22):6993-6994. 被引量：3

同被引文献23

1周伟涛,许婷,张海涛,张书亮.跨平台互操作的地图注记对象的设计与实现[J].测绘信息与工程,2005,30(3):28-29. 被引量：2
2凌善金,金世胜.地图上的文字设计探讨[J].装饰,2007(4):102-103. 被引量：5
3Google Project Hosting.http://code.google.com/p/imdict-chi-nese-analyzer/,2012-02-27.
4Chih-Hao Tsai.MMSEG:A Word Identification System forMandarin Chinese Text Based on Two Variants of the Maximum Match-ing Algorithm.http://technology.chtsai.org/mmseg/,2012-03-02.
5Google Project Hosting.http://code.google.com/p/mmseg4j/,2012-02-25.
6凌善金,黄淑玲,梁栋栋.地图注记设计研究[J].安徽师范大学学报（自然科学版）,2007,30(5):603-606. 被引量：22
7沈嘉懿,李芳,徐飞玉,Hans Uszkoreit.中文组织机构名称与简称的识别[J].中文信息学报,2007,21(6):17-21. 被引量：31
8贺彪,李霖,朱海红.数字制图中面状注记自动配置的研究[J].测绘信息与工程,2007,32(6):12-14. 被引量：8
9张贤,周娅.基于Lucene网页排序算法的改进[J].计算机系统应用,2009,18(2):155-158. 被引量：12
10李永春,丁华福.Lucene的全文检索的研究与应用[J].计算机技术与发展,2010,20(2):12-15. 被引量：55

引证文献3

1黄翼彪.实现Lucene接口的中文分词器的比较研究[J].科技信息,2012(12):246-247. 被引量：11
2陈德权.基于中文分词的地名兴趣点简称的研究[J].测绘地理信息,2017,42(6):91-93. 被引量：4
3许雪晶,陈捷,林辰玮.基于Lucene的医疗搜索引擎排序算法的研究[J].长春师范大学学报,2020,39(6):54-58. 被引量：3

二级引证文献18

1宋凯丽,李云岭,姚露露.基于条件随机场的分词标注一体化地址解析方法[J].测绘地理信息,2021,46(S01):185-187. 被引量：4
2姚露露,李云岭,宋凯丽.中文地名地址标注方法研究[J].测绘地理信息,2021,46(S01):182-184. 被引量：1
3马健,杜泽宇,李树青.基于多兴趣特征分析的图书馆个性化图书推荐方法[J].现代图书情报技术,2012(6):1-8. 被引量：14
4徐淑彩.建立基于Solr平台的环境污染网络舆情监测系统[J].信息安全与技术,2013,4(10):89-91. 被引量：3
5王泽贤.Lucene中文分析器在书目搜索应用中的比较研究[J].现代情报,2014,34(4):132-136. 被引量：3
6耿锐.图书在版编目自动辅助标引方案初探[J].中国科技产业,2015(10):65-67.
7张弘弦,田玉玲.Web垂直搜索引擎实现过程的研究[J].现代电子技术,2016,39(8):55-59. 被引量：4
8陈楚云,周厚明,洪佳明,李丽霞,谢丽琴.基于搜索引擎技术分析《神应经》灸法特点[J].辽宁中医杂志,2016,43(4):812-814. 被引量：4
9邓晓枫,蒋廷耀.基于Lucene和MMSEG算法的中文分词器研究[J].信息通信,2017,30(9):146-148. 被引量：1
10李梦伟,董正宏,杨帆.基于Android的信息系统故障查询App的设计与实现[J].计算机科学,2017,44(B11):561-564. 被引量：6

1刘凯宇,刘渊,王晓锋.面向拓扑聚焦的网络流量模拟方法[J].计算机工程与应用,2016,52(23):123-129.
2Chris,Sanders,hackicer（译）.利用包分析技术解决网络故障[J].黑客防线,2008(6):44-47.
3卢建华,蒋明,陈淑芳.网络数据包捕获及分析[J].网络安全技术与应用,2009(2):16-17. 被引量：20
4盘善荣,傅明,史长琼.支持向量机在P2P流量识别中的应用[J].计算机工程与科学,2010,32(2):38-40. 被引量：1
5危蓉,麦永浩,廖振松.一种基于安卓系统的手机侧抓包分析方法[J].信息安全研究,2016,2(4):339-342. 被引量：2
6黄胜,吴震,许江华,滕明埝.NDN中基于相交路径的多径数据传输策略[J].计算机工程与设计,2016,37(3):581-585. 被引量：1
7赵鑫玺,郑春厚,王春芳.基于SNORT体系的实时入侵检测研究[J].计算机安全,2010(2):28-31.
8沈美杰,赵龙章,周兵,周崇明.基于PSO优化的RBF网络液压泵故障诊断研究[J].液压与气动,2016,40(5):87-92. 被引量：15
9万军,蒋世祥,蔡智勇.旋转机械振动信号的小波包分解及故障检测[J].汽轮机技术,2002,44(2):95-97. 被引量：3
10张俊清,王汝传,李致远.基于模糊识别的P2P流量检测方法[J].信息化研究,2011,37(5):62-66. 被引量：2

郑州大学学报（理学版）

2011年第3期

浏览历史

内容加载中请稍等...

Lucene.net中文分词算法分析被引量：3

参考文献4

二级参考文献23

共引文献36

同被引文献23

引证文献3

二级引证文献18

相关作者

相关机构

相关主题

浏览历史

Lucene.net中文分词算法分析 被引量：3

参考文献4

二级参考文献23

共引文献36

同被引文献23

引证文献3

二级引证文献18

相关作者

相关机构

相关主题

浏览历史

Lucene.net中文分词算法分析被引量：3