期刊文献+

一种基于LUCENE的中文分词算法研究 被引量:4

Algorithm Research of Chinese Word Based on LUCENE
下载PDF
导出
摘要 由于Lucene自带的ChineseAnalyzer和CJKAnalyzer两种中文分析器不能够满足全文检索系统的应用,本文给出了一种新的中文分词算法,用于改进Lucene中文分析器。该算法基于字符串匹配原理,实现了正向和逆向相结合的最大增字匹配分词算法。通过实验仿真,比较改进后的分析器与Lucene自带的两种分析器在分词效果和效率上的差异。结果显示,改进后的分析器分词效果明显优于Lucene自带的两种分析器,提高了全文检索系统的中文处理能力,系统的查全率和查准率都达到用户的需求。 A new Chinese algorithm to improve Lucene Chinese analyzer is proposed, since Chinese Analyzer and CJK Analyzer cannot meet the requirement of full-text searching application. This algorithm is based on the character string rule and combines the forward and reverse to achieve the largest adding word matching algorithm. The difference between improved analyzer and the two Lucene analyzers is compared through experiment simulation. It can be concluded that the improved analyzer is more effective than the other two analyzers. The system ratio and precision ratio meet the users' requirement.
出处 《青岛大学学报(自然科学版)》 CAS 2011年第3期53-58,共6页 Journal of Qingdao University(Natural Science Edition)
基金 国家支撑计划项目(2006BA111B07)
关键词 全文检索 LUCENE 中文分词 Full text Retrieval Lucene Chinese Parting-words
  • 相关文献

参考文献6

二级参考文献14

  • 1黄昌宁.中文信息处理中的分词问题[J].语言文字应用,1997(1):74-80. 被引量:83
  • 2郑逢斌,付征叶,乔保军,毋琳.HENU汉语自动分词系统中歧义字段消除算法[J].河南大学学报(自然科学版),2004,34(4):49-52. 被引量:5
  • 3费洪晓,康松林,朱小娟,谢文彪.基于词频统计的中文分词的研究[J].计算机工程与应用,2005,41(7):67-68. 被引量:68
  • 4孙宾.现代汉语文本的词语切分技术.http ://www. ce86. com/lunwen/computer/ai/3814, html ( Accessed Feb. 10,2006 )
  • 5Gospodnetic O, Hatcher E.Lucene in Action. [s.l.] : Manning Publications Co., 2005.
  • 6The Apache Jakarta Project: Lucene. http: //Jakarta. apache. org/Lucene/, 2005-05.
  • 7杨沛.全文数据库索引机制的比较研究[Z].北京:中国科技信息研究所,1995..
  • 8梁南元.书面汉语自动分词综述[J]计算机应用与软件,1987(03).
  • 9刘源,梁南元.汉语处理的基础工程——现代汉语词频统计[J]中文信息学报,1986(01).
  • 10关英春,秦蓓.汉语文字自动统计系统CWSS[J]中文信息学报,1986(01).

共引文献79

同被引文献27

  • 1马志强,刘利民,苏依拉,马瑞明.基于Lucene的站内搜索引擎研究[J].内蒙古工业大学学报(自然科学版),2009,28(1):52-57. 被引量:7
  • 2程淼,胡圣,袁正午,葛君伟,裴海英.时空数据库中多个最近邻对象的查询算法[J].计算机工程,2006,32(19):60-61. 被引量:7
  • 3车东.Lucene:基于Java的全文检索引擎简介[EB/OL].http://www.chedong.com/tech/lucene.html,2002-08-06,2009-03-20.
  • 4HATCHER E. Otis Gospodnetic ,Lucene in action[M]. New York:Manning, 2005: 682230.
  • 5Jacob Napieralski, Nick Nalepa. The application of control charts to determine the effect of grid cell size on landform morphometry[J].Computers & geosciences, 2010(2):222- 230.
  • 6Salton G, Wong A, Yang C S.A vector space model for automatic indexing[J].Communieation of the ACM, 1975.
  • 7Yang Y, Pederson J O.A comparative study on feature selection in text categorization[A].NashviUe:Morgan Kaufinann Publishers. 1997.
  • 8Shoushan Li,R.ui Xia,Chengqing Zong,Chu-R.en Huang.A Framework of Feature Selection Methods for Text Categorization.ACL/IJCNLP 2009.
  • 9Friedman N,Geiger D,Goldszmidt M.Bayesian network classifiers [J].Machine Learning,1997.
  • 10Langley P,Iba W,Thompson K.An analysis of Bayesian classifiers[A].Menlo Park: AAAI Press,1992.

引证文献4

二级引证文献7

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部