基于Lucene的中文分词模块的设计和实现被引量：3

Design and Implementation of Chinese Words Segmentation Based on Lucene

导出

摘要基于当前最流行的全文检索引擎架构Lucene,文章设计并实现了一个中文分词模块。分词模块中的核心算法是基于字符串匹配与统计相结合的中文分词算法,其主要研究目的在于寻找更为有效的中文词汇处理方法,提高全文检索系统的中文处理能力。通过实验发现,该模块的分词准确率较高,分词速度有进一步的提升空间。下一步我们将通过多种改进措施,来完善该分词模块,最终构建出一个高效的中文全文检索系统。 Based on the most popular Lucene Information Retrieval Library, the design and implementation of a new Tokenizer targeted at Chinese are described in this article. The core algorithm of this Tokenizer is the Chinese word segmentation algorithm based on the matching of string and the combination with statistical ＆ probability model. The main purpose of this research is to find a more efficient Tokenizer for Chinese language, thus increase the processing ability of the full text retrieval in Chinese. The experiments verify the high performance and accuracy of this Tokenizer in certain areas（e-Commerce） compared with other popular Tokenizer used for Chinese language. The algorithm will be further improved to get a more efficient Chinese Tokenizer for general purpose.

作者罗宁徐俊刚郭洪韬

机构地区中国科学院研究生院首都信息发展股份有限公司

出处《电子技术（上海）》 2012年第9期54-56,共3页 Electronic Technology

关键词搜索引擎中文分词 LUCENE 哈希索引 search engine Chinese word segmentation Lucene Hash index

分类号 TP316 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献4

1第29次中国互联网络发展状况调查统计报告[EB/OL].[2012—01-16].http:∥www.cnnfc.net.cn/dtygg/dtgg/20120l/t20120116—23667.html.
2Gospodnetic O, Hatcher E. Lucene in Action [M].北京:电子工业出版社,2007.
3中文分词概述[EB/OL].http://baike.baidu.eom/view/19109.htm.
4罗桂琼,费洪晓,戴弋.基于反序词典的中文分词技术研究[J].计算机技术与发展,2008,18(1):80-83. 被引量：18

二级参考文献10

1文庭孝,邱均平,侯经川.汉语自动分词研究展望[J].现代图书情报技术,2004(7):6-10. 被引量：20
2文庭孝.汉语自动分词研究进展[J].图书与情报,2005(5):54-63. 被引量：20
3JieeSoft.OFBiz简单介绍[EB/OL],2004-04-16/2004-06-05,http://www.jieesoft.com/modules.php.
4吴岩,李秀坤,刘挺,王开铸.中文自动校对系统的研究与实现[J].哈尔滨工业大学学报,2001,33(1):60-64. 被引量：12
5郭辉,苏中义,王文,崔骏.一种改进的MM分词算法[J].微型电脑应用,2002,18(1):13-15. 被引量：39
6李家福,张亚非.一种基于概率模型的分词系统[J].系统仿真学报,2002,14(5):544-546. 被引量：16
7吕学强.机器翻译概述[J].辽宁师专学报（自然科学版）,2002,4(1):8-11. 被引量：7
8邹海山,吴勇,吴月珠,陈阵.中文搜索引擎中的中文信息处理技术[J].计算机应用研究,2000,17(12):21-24. 被引量：35
9冯书晓,徐新,杨春梅.国内中文分词技术研究新进展[J].情报杂志,2002,21(11):29-30. 被引量：25
10湛燕,陈昊,袁方,王熙照.基于中文文本分类的分词方法研究[J].计算机工程与应用,2003,39(23):87-88. 被引量：22

共引文献21

1周程远,朱敏,杨云.基于词典的中文分词算法研究[J].计算机与数字工程,2009,37(3):68-71. 被引量：22
2张劲松,袁健.回溯正向匹配中文分词算法[J].计算机工程与应用,2009,45(22):132-134. 被引量：16
3周克兰,张玉华.数码输入法字码本的自动获取技术[J].计算机技术与发展,2009,19(11):31-34.
4邢军,周鹏,蔡丽艳.浅析中文搜索引擎技术与研究趋势[J].牡丹江师范学院学报（自然科学版）,2009,35(4):5-7.
5都菁,熊海灵.基于论坛语料识别中文未登录词的方法[J].计算机工程与设计,2010,31(3):630-633. 被引量：10
6梁桢,李禹生.基于Hash结构词典的逆向回溯中文分词技术研究[J].计算机工程与设计,2010,31(23):5158-5160. 被引量：5
7韩月阳,邓世昆,贾时银,李远方.基于字分类的中文分词的研究[J].计算机技术与发展,2011,21(7):29-31. 被引量：10
8唐籍涛,李飞,郭昌松.网络舆情监控中新词识别问题的研究[J].计算机技术与发展,2012,22(1):119-121. 被引量：8
9周青建.微博在“985工程”高校图书馆应用的调查与分析[J].图书馆界,2012(5):44-49. 被引量：7
10岳强斌,欧渊,石倩.装备维修流程设计需求聚类分析[J].重庆理工大学学报（自然科学）,2012,26(12):65-69.

同被引文献23

1关丽,刘湘南.大庆市房产地理信息系统开发的若干关键技术研究[J].测绘科学,2005,30(4):89-91. 被引量：22
2郎小伟,王申康.基于Lucene的全文检索系统研究与开发[J].计算机工程,2006,32(4):94-96. 被引量：68
3周慧芳.AUTOCAD数据文件的跨平台应用模式[J].青海师范大学学报（自然科学版）,2006,22(4):50-53. 被引量：2
4马晖男,吴江宁,潘东华.一种基于同义词词典的模糊查询扩展方法[J].大连理工大学学报,2007,47(3):439-443. 被引量：17
5周登朋,谢康林.Lucene搜索引擎[J].计算机工程,2007,33(18):95-96. 被引量：23
6刘件,魏程.中文分词算法研究[J].微计算机应用,2008,29(8):11-16. 被引量：25
7索红光,孙鑫.针对中文检索的Lucene改进策略[J].计算机应用与软件,2009,26(6):175-177. 被引量：10
8白晓玲.Lucene全文检索系统的实现及其索引性能的提高[J].情报探索,2010(1):116-118. 被引量：2
9李永春,丁华福.Lucene的全文检索的研究与应用[J].计算机技术与发展,2010,20(2):12-15. 被引量：55
10张文,于野,吴演义,冯立建.一体化设计的温州市数字房产信息系统[J].中国建设信息,2010(21):48-51. 被引量：2

引证文献3

1陈宪章,樊建,许振华.基于ARX、GIS技术的房产测绘综合管理系统关键技术研究[J].信息技术与信息化,2015(10):143-145.
2钱柯.基于模糊匹配的Lucene检索应用[J].电子设计工程,2018,26(1):52-55. 被引量：3
3王桐,王韵婷.基于Lucene的自定义中文分词器的设计与实现[J].电脑知识与技术（过刊）,2014,20(1X):430-433. 被引量：1

二级引证文献4

1邓晓枫,蒋廷耀.基于Lucene和MMSEG算法的中文分词器研究[J].信息通信,2017,30(9):146-148. 被引量：1
2邱煌彬,郑超,阳加远,周畅.基于外场装备保障的移动终端虚拟助理[J].电子设计工程,2019,27(20):97-100. 被引量：2
3李宁.基于WordSmith软件的平行语料库加工处理系统设计[J].自动化与仪器仪表,2021(2):131-134.
4许贤慧,王淑营,曾文驱.面向工程数据检索的ElasticSearch索引优化策略[J].计算机与现代化,2022(2):79-84. 被引量：8

1李颖,李志蜀,邓欢.基于Lucene的中文分词方法设计与实现[J].四川大学学报（自然科学版）,2008,45(5):1095-1099. 被引量：13
2李展,李顺.智能搜索中中文分词模块的设计[J].福建电脑,2012,28(2):151-152.
3刘强强,余黎青,赵鹏,刘慧婷.基于移动平台的图像检索系统[J].计算机技术与发展,2016,26(11):10-13. 被引量：1
4王志嘉,薛质.一种基于Lucene的中文分词的设计与测试[J].信息技术,2010,34(12):50-54. 被引量：6
5索红光,孙鑫.基于Lucene的中文全文检索系统的研究与设计[J].计算机工程与设计,2008,29(19):5083-5086. 被引量：6
6都云程,施水才.WWW与中文全文检索系统[J].中国计算机用户,1996(12):17-20. 被引量：4
7张冬慧,孙波,徐照财,程显毅.文本自动分类关键技术研究[J].微计算机信息,2008,24(6):197-199. 被引量：12
8朱岸青,黄杰.基于Lucene的全文检索系统模型的研究和开发[J].暨南大学学报（自然科学与医学版）,2009,30(5):504-508. 被引量：4
9高晓芳,罗森林,吕英,罗志军,潘丽敏.双哈希索引的高精度大规模音频样例检索[J].声学学报,2015,40(6):886-893. 被引量：1
10唐伟,朱成荣,冯国富.基于内存数据库的VLR用户数据处理方法[J].微计算机信息,2008,24(27):146-148. 被引量：2

电子技术（上海）

2012年第9期

浏览历史

内容加载中请稍等...

基于Lucene的中文分词模块的设计和实现被引量：3

参考文献4

二级参考文献10

共引文献21

同被引文献23

引证文献3

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

基于Lucene的中文分词模块的设计和实现 被引量：3

参考文献4

二级参考文献10

共引文献21

同被引文献23

引证文献3

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

基于Lucene的中文分词模块的设计和实现被引量：3