一种基于LUCENE的中文分词算法研究被引量：4

Algorithm Research of Chinese Word Based on LUCENE

下载PDF

导出

摘要由于Lucene自带的ChineseAnalyzer和CJKAnalyzer两种中文分析器不能够满足全文检索系统的应用,本文给出了一种新的中文分词算法,用于改进Lucene中文分析器。该算法基于字符串匹配原理,实现了正向和逆向相结合的最大增字匹配分词算法。通过实验仿真,比较改进后的分析器与Lucene自带的两种分析器在分词效果和效率上的差异。结果显示,改进后的分析器分词效果明显优于Lucene自带的两种分析器,提高了全文检索系统的中文处理能力,系统的查全率和查准率都达到用户的需求。 A new Chinese algorithm to improve Lucene Chinese analyzer is proposed, since Chinese Analyzer and CJK Analyzer cannot meet the requirement of full-text searching application. This algorithm is based on the character string rule and combines the forward and reverse to achieve the largest adding word matching algorithm. The difference between improved analyzer and the two Lucene analyzers is compared through experiment simulation. It can be concluded that the improved analyzer is more effective than the other two analyzers. The system ratio and precision ratio meet the users＇ requirement.

作者戴洪蒋静樊程于雪丽

机构地区青岛大学信息工程学院

出处《青岛大学学报（自然科学版）》 CAS 2011年第3期53-58,共6页 Journal of Qingdao University(Natural Science Edition)

基金国家支撑计划项目(2006BA111B07)

关键词全文检索 LUCENE 中文分词 Full text Retrieval Lucene Chinese Parting-words

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献6

1孙西全,马瑞芳,李燕灵.基于Lucene的信息检索的研究与应用[J].情报理论与实践,2006,29(1):125-128. 被引量：20
2Gospodnetic O, Hatcher E. Lucene in Action [M]. [s. 1. ]: Manning Publications Co. , 2005.
3The Apache Jakarta Project: Lucene [EB/OL]. http://Jakarta. Apache. Org/Lucene/, 2005-05.
4厉子闰.基于Lucene搜索引擎的中文全文信息检索技术的研究[D].上海:华东师范大学,2009.
5孙巍.一种面向中文信息检索的汉语自动分词方法[J].现代图书情报技术,2006(7):33-36. 被引量：7
6揭春雨,刘源,梁南元.论汉语自动分词方法[J].中文信息学报,1989,3(1):1-9. 被引量：55

二级参考文献14

1黄昌宁.中文信息处理中的分词问题[J].语言文字应用,1997(1):74-80. 被引量：83
2郑逢斌,付征叶,乔保军,毋琳.HENU汉语自动分词系统中歧义字段消除算法[J].河南大学学报（自然科学版）,2004,34(4):49-52. 被引量：5
3费洪晓,康松林,朱小娟,谢文彪.基于词频统计的中文分词的研究[J].计算机工程与应用,2005,41(7):67-68. 被引量：68
4孙宾．现代汉语文本的词语切分技术．http ://www. ce86. com/lunwen/computer/ai/3814, html ( Accessed Feb. 10,2006 )
5Gospodnetic O, Hatcher E.Lucene in Action. [s.l.] : Manning Publications Co., 2005.
6The Apache Jakarta Project: Lucene. http: //Jakarta. apache. org/Lucene/, 2005-05.
7杨沛.全文数据库索引机制的比较研究[Z].北京:中国科技信息研究所,1995..
8梁南元.书面汉语自动分词综述[J]计算机应用与软件,1987(03).
9刘源,梁南元.汉语处理的基础工程——现代汉语词频统计[J]中文信息学报,1986(01).
10关英春,秦蓓.汉语文字自动统计系统CWSS[J]中文信息学报,1986(01).

共引文献79

1王军辉.汉语自动分词研究进展[J].魅力中国,2009(30):333-333.
2施建军.用计算机对日语进行研究的基础——浅谈机器单词辞典和单词的自动切分[J].解放军外国语学院学报,1991,14(3):25-28.
3洪虹,李波.汉语自动分词研究进展[J].魅力中国,2009,0(22):114-114.
4李强,李侯润.半自动分词技术[J].计算机工程与设计,1992,13(1):37-40.
5曹倩,丁艳,王超,潘金贵.汉语自动分词研究及其在信息检索中的应用[J].计算机应用研究,2004,21(5):71-74. 被引量：18
6何静,刘海燕.基于向量空间模型的实时内容过滤[J].计算机工程,2004,30(15):26-27. 被引量：2
7孙茂松,邹嘉彦.汉语自动分词研究评述[J].当代语言学,2001,3(1):22-32. 被引量：101
8张春霞,郝天永.汉语自动分词的研究现状与困难[J].系统仿真学报,2005,17(1):138-143. 被引量：60
9吴建胜,战学刚,迟呈英.一种基于自动机的分词方法[J].计算机工程与应用,2005,41(8):81-82. 被引量：8
10陈耀东,王挺.基于有向图的双向匹配分词算法及实现[J].计算机应用,2005,25(6):1442-1444. 被引量：7

同被引文献27

1马志强,刘利民,苏依拉,马瑞明.基于Lucene的站内搜索引擎研究[J].内蒙古工业大学学报（自然科学版）,2009,28(1):52-57. 被引量：7
2程淼,胡圣,袁正午,葛君伟,裴海英.时空数据库中多个最近邻对象的查询算法[J].计算机工程,2006,32(19):60-61. 被引量：7
3车东.Lucene:基于Java的全文检索引擎简介[EB/OL].http://www.chedong.com/tech/lucene.html,2002-08-06,2009-03-20.
4HATCHER E. Otis Gospodnetic ,Lucene in action[M]. New York:Manning, 2005: 682230.
5Jacob Napieralski, Nick Nalepa. The application of control charts to determine the effect of grid cell size on landform morphometry[J].Computers & geosciences, 2010(2):222- 230.
6Salton G, Wong A, Yang C S.A vector space model for automatic indexing[J].Communieation of the ACM, 1975.
7Yang Y, Pederson J O.A comparative study on feature selection in text categorization[A].NashviUe:Morgan Kaufinann Publishers. 1997.
8Shoushan Li,R.ui Xia,Chengqing Zong,Chu-R.en Huang.A Framework of Feature Selection Methods for Text Categorization.ACL/IJCNLP 2009.
9Friedman N,Geiger D,Goldszmidt M.Bayesian network classifiers [J].Machine Learning,1997.
10Langley P,Iba W,Thompson K.An analysis of Bayesian classifiers[A].Menlo Park: AAAI Press,1992.

引证文献4

1温颖,陈云志,曹斌.基于Lucene的智能地图搜索引擎的设计与实现[J].科技通报,2012,28(11):170-174. 被引量：2
2杨小明.电子地图兴趣点分类自动标注算法研究[J].网络安全技术与应用,2015(3):13-15. 被引量：2
3许雪晶,陈捷,林辰玮.基于Lucene的医疗搜索引擎排序算法的研究[J].长春师范大学学报,2020,39(6):54-58. 被引量：3
4徐有健.基于Lucene的中文分词算法研究与实现[J].电子测试,2014,25(12X):5-7.

二级引证文献7

1王玲,王慧青.基于Lucene的图斑快速检索技术[J].测绘与空间地理信息,2017,40(2):49-51.
2王乃生,曹建成,王凯,张哲,王文杰.电子地图海量专题要素麻点图技术研究[J].测绘科学,2017,42(11):129-134. 被引量：3
3柏峰,李宁,施运梅.一种政府公文智能辅助写作系统[J].北京信息科技大学学报（自然科学版）,2021,36(5):28-32.
4刘伟,杨冯天赐,胡为,杨进傲,吴星瑾.杏林搜索:中医药垂直搜索引擎的设计与实现[J].电脑编程技巧与维护,2021(12):21-23.
5武学鸿,朱建平,李建华.面向临床数据中心的信息检索研究与应用[J].医学信息,2022,35(2):10-14.
6翟静,魏巍,柳亚威.电子地图自动化编制通用框架体系设计[J].工程建设与设计,2022(18):82-84. 被引量：1
7禹文豪,魏铖,陈佳鑫.面向不平衡POI类别分布的电子地图多层次标签预测模型[J].测绘学报,2023,52(2):318-328.

1陈凤娇.基于Lucene的搜索引擎技术的研究与改进[J].现代计算机,2011,17(15):18-20.
2陶荣,陈燕.基于Lucene小型搜索引擎的研究与实现[J].大众科技,2010,12(2):19-21. 被引量：1
3胡长春,刘功申.面向搜索引擎Lucene的中文分析器[J].计算机工程与应用,2009,45(12):157-159. 被引量：8
4徐有健.基于Lucene的中文分词算法研究与实现[J].电子测试,2014,25(12X):5-7.
5义天鹏,陈启安.基于Lucene的中文分析器分词性能比较研究[J].计算机工程,2012,38(22):279-282. 被引量：24
6吴杰平.SCO携UnixWare 7.1.3中文版再闯江湖[J].信息系统工程,2003,16(5):52-52.
7SCO UnixWare7.1.3中文版发布会在各地举行[J].中国数据通信,2003,5(5):124-124.
8方方.金山皓月——Windows环境下的新中文平台[J].电脑爱好者,1995,0(7):36-36.
9李文江,陈诗琴.基于Lucene.net全文检索在文档管理中的应用[J].现代图书情报技术,2010(11):84-89. 被引量：5
10王志嘉,薛质.一种基于Lucene的中文分词的设计与测试[J].信息技术,2010,34(12):50-54. 被引量：6

青岛大学学报（自然科学版）

2011年第3期

浏览历史

内容加载中请稍等...

一种基于LUCENE的中文分词算法研究被引量：4

参考文献6

二级参考文献14

共引文献79

同被引文献27

引证文献4

二级引证文献7

相关作者

相关机构

相关主题

浏览历史

一种基于LUCENE的中文分词算法研究 被引量：4

参考文献6

二级参考文献14

共引文献79

同被引文献27

引证文献4

二级引证文献7

相关作者

相关机构

相关主题

浏览历史

一种基于LUCENE的中文分词算法研究被引量：4