一种基于Lucene的中文分词的设计与测试被引量：6

A design and test of Chinese word segmentation based on Lucene

下载PDF

导出

摘要设计实现了一个基于Lucene的中文分词模块,提出了一种更为有效的中文词处理方法,提高全文检索系统的中文处理能力。整个模块基于当前使用较为广泛的全文检索引擎工具包Lucene,结合正向最大匹配算法以及经过优化的中文分词词典,以实现更高效率和准确度的中文分词功能。在系统评测方面,通过实验仿真比较了该模块与StandardAnalyzer和CJKAnalyzer在功能和效率上的差异。对于如何构建一个高效的中文检索系统,提出了一种实现方案。 This paper designs and implements a Chinese words segmentation module,which mainly deals with Chinese words to improve the ability of full text search system.The whole module based on the most widely used architecture Lucene,and combines the maximum matching algorithm and optimized Chinese words dictionary to achieve a high efficiency and accuracy of Chinese words segmentation.The paper also compares the module with StandardAnalyze and CJKAnalyzer in function and efficiency by the experiment,and brings forward a implementation about how to construct a high efficiency Chinese searching system.

作者王志嘉薛质

机构地区上海交通大学信息安全工程学院

出处《信息技术》 2010年第12期50-54,共5页 Information Technology

关键词中文分词搜索引擎 LUCENE 正向最大匹配算法 Chinese word segmentation search engine Lucene forwards maximum match algorithm

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献8

1车东.在应用中加入全文检索功能--基于JAVA的全文索引引擎Lucene简介[EB/OL].http://www.chedong.com/tech/lucene.html,2009.
2湛燕,陈昊,袁方,王熙照.基于中文文本分类的分词方法研究[J].计算机工程与应用,2003,39(23):87-88. 被引量：22
3殷杰,董佳蓉.论自然语言处理的发展趋势[J].自然辩证法研究,2008,24(3):31-37. 被引量：9
4熊回香,夏立新.自然语言处理技术在中文全文检索中的应用[J].情报理论与实践,2008,31(3):432-435. 被引量：10
5骆正清,陈增武,胡上序.一种改进的MM分词方法的算法设计[J].中文信息学报,1996,10(3):30-36. 被引量：28
6宋柔,等.基于语料库和规则库的人名识别法.计算机语言学研究与应用[M].北京语言学院出版社,1993.
7孙茂松,黄昌宁,高海燕,方捷.中文姓名的自动辨识[J].中文信息学报,1995,9(2):16-27. 被引量：87
8冯书晓,徐新,杨春梅.国内中文分词技术研究新进展[J].情报杂志,2002,21(11):29-30. 被引量：25

二级参考文献68

1耿骞,汤艳莉.面向网络信息资源的自然语言检索[J].情报科学,2004,22(7):845-849. 被引量：3
2汤艳莉,赖茂生.Ontology在自然语言检索中的应用研究[J].现代图书情报技术,2005(2):33-36. 被引量：21
3董建设,任丽,周燕玲.中文自动文摘在搜索引擎中的应用[J].情报科学,2006,24(2):267-269. 被引量：2
4张世红,胡佳佳,宋继华,刘会霞,琚文胜.网络环境下的自然语言检索[J].医学情报工作,2005,26(6):434-436. 被引量：4
5钱兵,王永成,高凯.面向搜索引擎的自然语言理解的设计与实现[J].计算机应用研究,2006,23(12):260-262. 被引量：9
6冯志伟.基于经验主义的语料库研究[J].术语标准化与信息技术,2007(1):29-36. 被引量：13
7《中图法》编委会.中国分类主题词表[M].北京:华艺出版社,1994..
8熊回香,夏立新.基于词索引的中文全文检索关键技术及其发展方向[J].中国图书馆学报,2007,33(4):45-49. 被引量：6
9Ji He,Ah-Hwee Tan,Chew-Lim Tan.A comparative Study on Chinese Text Categorization Methods[C].In:PRICAI 2000 Workshop on Text and Web Mining, Melbourne, 2000-08 : 24--25.
10Ronen Feldman et al.Text Mining via Information Extraction[J].Principles of Data Mining and Knowledge Discover, 1999 : 165-174.

共引文献174

1段小斌,林雯,阮百尧,陈基漓.一种基于三级索引词库结构的中文分词方法研究[J].计算机与数字工程,2007,35(7):47-49. 被引量：5
2周蕾,朱巧明,李培峰.一种基于统计和规则的未登录词识别方法[J].南京大学学报（自然科学版）,2005,41(z1):819-825. 被引量：1
3王睿,张洁,张由仪,于禛,姚天昉.基于混合模型的中文命名实体抽取系统[J].清华大学学报（自然科学版）,2005,45(S1):1908-1914. 被引量：10
4张素香,高国洋,戚银城.基于条件随机场的中国人名识别方法[J].郑州大学学报（理学版）,2009,41(2):40-43. 被引量：7
5郑炜冬.多种方法融合的中文自动分词系统的设计与实现[J].韩山师范学院学报,2009,30(6):37-43.
6任成义.基于网页的知识元挖掘[J].图书情报工作,2010,54(S1):278-281.
7陈小荷.自动分词中未登录词问题的一揽子解决方案[J].语言文字应用,1999(3):103-109. 被引量：26
8黄昌宁,孙茂松.中文信息处理最新成果的检阅——记新加坡中文电脑国际会议ICCC’96[J].当代语言学,1996(4):44-48. 被引量：1
9陈淑珍.Web文本挖掘中的特征表示与特征提取技术[J].三明高等专科学校学报,2004,21(2):53-57. 被引量：2
10邵晓良,刘红.Web信息采集中军事主题信息的识别[J].情报杂志,2004,23(7):14-16. 被引量：2

同被引文献42

1苏武华.汉语自动分词和自动标引方法研究[J].农业图书情报学刊,2004,15(7):103-105. 被引量：4
2高琰,谷士文,谭立球,费耀平.基于Lucene的搜索引擎设计与实现[J].微机发展,2004,14(10):27-30. 被引量：23
3章成敏,章成志.国外农业搜索引擎评析[J].农业网络信息,2004(11):31-34. 被引量：8
4张春霞,郝天永.汉语自动分词的研究现状与困难[J].系统仿真学报,2005,17(1):138-143. 被引量：60
5夏天,樊孝忠,刘林.利用JNI实现ICTCLAS系统的Java调用[J].计算机应用,2004,24(B12):177-178. 被引量：24
6费洪晓,康松林,朱小娟,谢文彪.基于词频统计的中文分词的研究[J].计算机工程与应用,2005,41(7):67-68. 被引量：68
7杨鸿雁,尚俊平,徐延华,王萌,张宇.农业专业搜索引擎建设探讨[J].农业图书情报学刊,2005,17(4):83-84. 被引量：8
8文庭孝.汉语自动分词研究进展[J].图书与情报,2005(5):54-63. 被引量：20
9刘迁,贾惠波.中文信息处理中自动分词技术的研究与展望[J].计算机工程与应用,2006,42(3):175-177. 被引量：68
10郎小伟,王申康.基于Lucene的全文检索系统研究与开发[J].计算机工程,2006,32(4):94-96. 被引量：68

引证文献6

1黄翼彪.实现Lucene接口的中文分词器的比较研究[J].科技信息,2012(12):246-247. 被引量：11
2吴代文.Lucene在办公室文档资料检索中的应用研究[J].网友世界,2013(18):11-11.
3耿锐.图书在版编目自动辅助标引方案初探[J].中国科技产业,2015(10):65-67.
4赵涛,张太红.农业搜索引擎中文分词工具对比[J].计算机系统应用,2016,25(4):226-231. 被引量：2
5张中耀,葛万成,汪亮友,林佳燕.基于MMSEG算法的中文分词技术的研究与设计[J].信息技术,2016,40(6):17-20. 被引量：5
6姜利群.基于朴素贝叶斯分类的Java课程网络答疑反馈系统[J].电脑知识与技术（过刊）,2016,22(8X):206-208. 被引量：5

二级引证文献22

1马健,杜泽宇,李树青.基于多兴趣特征分析的图书馆个性化图书推荐方法[J].现代图书情报技术,2012(6):1-8. 被引量：14
2徐淑彩.建立基于Solr平台的环境污染网络舆情监测系统[J].信息安全与技术,2013,4(10):89-91. 被引量：3
3王泽贤.Lucene中文分析器在书目搜索应用中的比较研究[J].现代情报,2014,34(4):132-136. 被引量：3
4耿锐.图书在版编目自动辅助标引方案初探[J].中国科技产业,2015(10):65-67.
5张弘弦,田玉玲.Web垂直搜索引擎实现过程的研究[J].现代电子技术,2016,39(8):55-59. 被引量：4
6陈楚云,周厚明,洪佳明,李丽霞,谢丽琴.基于搜索引擎技术分析《神应经》灸法特点[J].辽宁中医杂志,2016,43(4):812-814. 被引量：4
7张兴厅,文栋,雷健波.中文消费者健康词的发现方法研究[J].医学信息学杂志,2017,38(5):2-6.
8邓晓枫,蒋廷耀.基于Lucene和MMSEG算法的中文分词器研究[J].信息通信,2017,30(9):146-148. 被引量：1
9李梦伟,董正宏,杨帆.基于Android的信息系统故障查询App的设计与实现[J].计算机科学,2017,44(B11):561-564. 被引量：6
10邓海剑,胡琦伟.MMSEG算法与统计方法结合的中文分词模型研究[J].岭南学术研究,2017,12(1):66-69.

1李颖,李志蜀,邓欢.基于Lucene的中文分词方法设计与实现[J].四川大学学报（自然科学版）,2008,45(5):1095-1099. 被引量：13
2周钦强,孙炳达,王义.文本自动分类系统文本预处理方法的研究[J].计算机应用研究,2005,22(2):85-86. 被引量：15
3王永成,苏海菊,莫燕.中文词的自动办理[J].中文信息学报,1990,4(4):1-11. 被引量：13
4胡莉.中文“词”的语言模型识别研究方法综述[J].北方文学（下）,2011(3):90-90.
5闫超,朱景福,李雪.基于Arachnode.net的全文搜索引擎搭建[J].黑龙江八一农垦大学学报,2014,26(1):88-91. 被引量：1
6张雷.基于Heritrix与Lucene的垂直搜索引擎研究[J].黑龙江科技信息,2011(29):102-102.
7刘建湘,杨文涛.基于Lucene的搜索引擎在Struts中的应用[J].软件导刊,2007,6(2):53-55. 被引量：2
8刘昌明,王丛林.基于Lucene的自动答疑系统的研究与设计[J].电脑编程技巧与维护,2009(S1):42-44.
9袁蕾.论基于Lucene的全文索引的功能和应用[J].中国西部科技,2012,11(5):37-38. 被引量：2
10李沫南.Coreseek：中文检索系统[J].程序员,2012(8):60-63.

信息技术

2010年第12期

浏览历史

内容加载中请稍等...

一种基于Lucene的中文分词的设计与测试被引量：6

参考文献8

二级参考文献68

共引文献174

同被引文献42

引证文献6

二级引证文献22

相关作者

相关机构

相关主题

浏览历史

一种基于Lucene的中文分词的设计与测试 被引量：6

参考文献8

二级参考文献68

共引文献174

同被引文献42

引证文献6

二级引证文献22

相关作者

相关机构

相关主题

浏览历史

一种基于Lucene的中文分词的设计与测试被引量：6