面向搜索引擎Lucene的中文分析器被引量：8

Chinese analyzer for search engine-Lucene

下载PDF

导出

摘要针对目前应用于搜索引擎Lucene的中文分析器的分词不符合汉语习惯的现状，根据正向最大匹配切分算法和采用包括基本标准中文词语的词库，实现了自己的分析器。该分析器的分词结果更符合汉语的习惯，并且在分词、建立索引等方面的性能非常接近基于机械分词的分析器，另外在检索速度方面性能提升了2～4倍，在检索召回率方面性能提升了59％。 The word segmentation algorithm of most Chinese analyzers for the Lucene search engine does not meet the Chinese habit.In order to overcome such deficiency,this paper has proposed a new Chinese analyzer based on the maximal match algorithm and a standard dictionary.From the experimental results,the proposed word segmentation algorithm of our Chinese analyzer meets the Chinese habit.And its indexing performance is very close to that of the analyzers based on mechanical segmentation.In addition,the retrieval efficiency is greatly improved by 2-4 times and the rate of retrieval response is improved by 59%.

作者胡长春刘功申

机构地区上海交通大学信息安全工程学院

出处《计算机工程与应用》 CSCD 北大核心 2009年第12期157-159,共3页 Computer Engineering and Applications

基金国家自然科学基金~~

关键词分析器索引检索分词搜索引擎 analyzer index retrieval word segmentation search engine

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献4

1Gospodnetic Otis, Hatcher E. Lucene in action[M].北京:电子工业出版社,2007.
2Cutting D.Lucene lecture at pisa[EB/OL].[2004-11-24].http://lucene. sourceforge.net/talks/pisa/.
3陈燕娜,邵志清.基于全文搜索的中文搜索引擎设计技术[J].计算机工程与应用,2002,38(17):196-198. 被引量：10
4孙茂松,左正平,黄昌宁.汉语自动分词词典机制的实验研究[J].中文信息学报,2000,14(1):1-6. 被引量：118

二级参考文献7

1孙茂松,邹嘉彦.汉语自动分词研究中的苦干理论问题[J].语言文字应用,1995(4):40-46. 被引量：45
2梁南元.书面汉语自动分词系统—CDWS[J].中文信息学报,1987,(2):44-52.
3蒋澄,马范援,蒋思杰.中英文WWW搜索引擎的信息处理[J].计算机工程,1999,25(4):37-38. 被引量：20
4严威,赵政.开发中文搜索引擎汉语处理的关键技术[J].计算机工程,1999,25(6):5-6. 被引量：24
5孙茂松,左正平,黄昌宁.汉语自动分词词典机制的实验研究[J].中文信息学报,2000,14(1):1-6. 被引量：118
6林彤,江志军.Internet的搜索引擎[J].计算机工程与应用,2000,36(5):160-163. 被引量：23
7丁承,邵志清.基于字表的中文搜索引擎分词系统的设计与实现[J].计算机工程,2001,27(2):191-192. 被引量：15

共引文献126

1唐琳,郭崇慧,陈静锋.中文分词技术研究综述[J].数据分析与知识发现,2020,4(2):1-17. 被引量：43
2李丹宁,李丹,王保华,马新强.几种基于词典的中文分词算法评价[J].贵州科学,2008,26(3):1-8. 被引量：4
3马志强,刘利民,苏依拉,马瑞明.基于Lucene的站内搜索引擎研究[J].内蒙古工业大学学报（自然科学版）,2009,28(1):52-57. 被引量：7
4隋丽萍,徐承韬,李瑞芳.一个中文全文检索系统的设计与实现[J].科技资讯,2007,5(18):244-245. 被引量：1
5崔岩.脚本测试技术在列控中心开发测试中的运用[J].铁路通信信号工程技术,2013,10(S1):149-153. 被引量：2
6张春霞,郝天永.汉语自动分词的研究现状与困难[J].系统仿真学报,2005,17(1):138-143. 被引量：60
7邓曙光,曾朝晖.汉语分词中一种逐词匹配算法的研究[J].湖南城市学院学报（自然科学版）,2005,14(1):76-78. 被引量：6
8钱铁云,王元珍,冯小年.利用prefix-hash-tree实现从中文文本到事务数据的转换[J].计算机科学,2005,32(5):167-169.
9蒋斌,杨超,赵欢.基于二字词位图表的汉语自动分词词典机制[J].湖南大学学报（自然科学版）,2006,33(1):121-123. 被引量：3
10翟凤文,赫枫龄,左万利.基于统计规则的交集型歧义处理方法[J].吉林大学学报（理学版）,2006,44(2):223-228. 被引量：9

同被引文献58

1吴广君,王树鹏,陈明,李超.海量结构化数据存储检索系统[J].计算机研究与发展,2012,49(S1):1-5. 被引量：31
2周新栋,王挺.基于N元语言模型的文本分类方法[J].计算机应用,2005,25(1):11-13. 被引量：11
3郎小伟,王申康.基于Lucene的全文检索系统研究与开发[J].计算机工程,2006,32(4):94-96. 被引量：68
4张凤林,刘思峰.Huffman~*:一个改进的Huffman数据压缩算法[J].计算机工程与应用,2007,43(2):73-74. 被引量：19
5张科.多次Hash快速分词算法[J].计算机工程与设计,2007,28(7):1716-1718. 被引量：22
6Cafarella M, Cutting D. Building Nutch:Open source search [J]. ACM Queue,2004,2(2) :54-61.
7Cutting D. Lucene [ EB/OL ]. http ://Jakarta. apache, org/ lucene/,2009-11431.
8Cohen D,Amitay E,Camlal D. Lucene and jura at trec 2007:1- million queries track[ C ]//Proceedings of the 16th Text Retrieval Conference ( TREC 21X37 ). Gaithersburg, Washington, USA ,2007:321-327.
9fan H Witten, Alistair Moffat, Timothy C Bell. Managing Gigabytes: Compressing and Indexing Documents and Images(2 Edition) [M].梁斌译.北京:电子工业出版社,2009.
10Sproat R, Gale W, Shih C. A stochastic finite-state word-segmentation algorithm for Chinese[J ]. Computational Liguistics, 1996,22(3) :377-404.

引证文献8

1孙殿哲,魏海平,陈岩.Nutch中庖丁解牛中文分词的实现与评测[J].计算机与现代化,2010(6):187-190. 被引量：10
2姚全珠,彭程,宋志理,李薇.基于关联规则的搜索引擎方法[J].计算机工程与应用,2011,47(9):134-136. 被引量：4
3彭焕峰.基于Lucene的中文分词器的设计与实现[J].微型机与应用,2011,30(18):62-64. 被引量：5
4义天鹏,陈启安.基于Lucene的中文分析器分词性能比较研究[J].计算机工程,2012,38(22):279-282. 被引量：24
5白培发,王成良,徐玲.一种融合词语位置特征的Lucene相似度评分算法[J].计算机工程与应用,2014,50(2):129-132. 被引量：8
6吴新强,周娅,王如意,张敬伟,林煜明.基于Lucene的XML文件相似度检索系统[J].计算机系统应用,2015,24(2):134-139.
7胡杰,郭乔进,陈彬.基于Lucene全文检索技术的优化探讨[J].计算机时代,2017(11):16-19. 被引量：1
8邓晓枫,蒋廷耀.基于Lucene和MMSEG算法的中文分词器研究[J].信息通信,2017,30(9):146-148. 被引量：1

二级引证文献49

1刘劲松,张彬,柴文磊,魏建行,刘振鹏.校园网园区搜索引擎的设计与实现[J].河北大学学报（自然科学版）,2011,31(4):439-444. 被引量：1
2董亚则,王国春,张丽娟,彭馨仪.基于Web的个性化就业信息服务系统设计[J].长春工业大学学报,2011,32(6):548-553.
3许昊,王跃胜.基于Lucene的FTP搜索引擎的设计与实现[J].福建电脑,2012,28(7):133-135.
4时维元,林正英.复杂设备制造企业远程服务文档管理与检索系统研究[J].新技术新工艺,2013(2):42-45. 被引量：1
5彭金莲,胡祝华,郑兆华,陈显毅,钟杰卓,李淑.网络工程专业“3+1”模块化课程体系的创新研究[J].海南大学学报（自然科学版）,2013,31(1):74-79. 被引量：8
6闫娟,耿凯峰,刘丽.基于Hadoop平台的教育资源库建设[J].河南师范大学学报（自然科学版）,2013,41(2):161-164. 被引量：6
7李丽枝,陶振凯.基于Lucene全文检索的设计与实现[J].计算机光盘软件与应用,2013,16(19):279-279.
8聂金慧,李咏梅.面向企业文档的中文分词分析与研究[J].中国科技博览,2013(33):534-535.
9王旭仁,郑秋辉,何发镁,李娜,王彦丽.基于Tika和Lucene的桌面搜索引擎研究与实现[J].计算机工程与设计,2014,35(1):310-314. 被引量：3
10王璐,于超,王博,王国春,林金花,李辉.本体语义检索系统[J].长春工业大学学报,2013,34(6):726-730. 被引量：6

1戴洪,蒋静,樊程,于雪丽.一种基于LUCENE的中文分词算法研究[J].青岛大学学报（自然科学版）,2011,24(3):53-58. 被引量：4
2陈凤娇.基于Lucene的搜索引擎技术的研究与改进[J].现代计算机,2011,17(15):18-20.
3陶荣,陈燕.基于Lucene小型搜索引擎的研究与实现[J].大众科技,2010,12(2):19-21. 被引量：1
4徐有健.基于Lucene的中文分词算法研究与实现[J].电子测试,2014,25(12X):5-7.
5义天鹏,陈启安.基于Lucene的中文分析器分词性能比较研究[J].计算机工程,2012,38(22):279-282. 被引量：24
6李季,孙冀侠.标准中文问答系统的研究与实现[J].鞍山师范学院学报,2005,7(6):83-86.
7李文江,陈诗琴.基于Lucene.net全文检索在文档管理中的应用[J].现代图书情报技术,2010(11):84-89. 被引量：5
8卢军.符合汉语习惯的汉字排序方案[J].中文信息,1998,15(5):93-94.
9郭年琴,曹建坤.基于Lucene.net的有色冶金信息化服务平台文献检索系统的研究与实现[J].江西理工大学学报,2013,34(1):84-89.
10冀俊忠,张玲玲,吴晨生,吴金源.基于知识语义权重特征的朴素贝叶斯情感分类算法[J].北京工业大学学报,2014,40(12):1884-1890. 被引量：11

计算机工程与应用

2009年第12期

浏览历史

内容加载中请稍等...

面向搜索引擎Lucene的中文分析器被引量：8

参考文献4

二级参考文献7

共引文献126

同被引文献58

引证文献8

二级引证文献49

相关作者

相关机构

相关主题

浏览历史

面向搜索引擎Lucene的中文分析器 被引量：8

参考文献4

二级参考文献7

共引文献126

同被引文献58

引证文献8

二级引证文献49

相关作者

相关机构

相关主题

浏览历史

面向搜索引擎Lucene的中文分析器被引量：8