基于Lucene的中文分词器的设计与实现被引量：5

Design and implementation of Chinese words segmentation machine based on Lucene

下载PDF

导出

摘要针对Lucene自带中文分词器分词效果差的缺点,在分析现有分词词典机制的基础上,设计了基于全哈希整词二分算法的分词器,并集成到Lucene中,算法通过对整词进行哈希,减少词条匹配次数,提高分词效率。该分词器词典文件维护方便,可以根据不同应用的要求进行定制,从而提高了检索效率。 According to the low efficiency of the Chinese words segmentation machines of Lucene, this paper designs a new word segmentation machine based on all-Hash segmentation mechanism according to binary-seek-by-word by analyzing many old dictionary mechanisms. The new mechanism uses the word＇s Hash value to reduce the number of string findings. The maintenance of dictionary file is convenient, and the developers can customize the dictionary based on different application to improve search efficiency.

作者彭焕峰

机构地区南京工程学院计算机工程学院

出处《微型机与应用》 2011年第18期62-64,共3页 Microcomputer & Its Applications

基金南京工程学院科研青年基金项目(QKJB2009026)

关键词 LUCENE 哈希整词二分最大匹配 Lucene Hash binary-seek-by-word maximum matching

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献6

1胡长春,刘功申.面向搜索引擎Lucene的中文分析器[J].计算机工程与应用,2009,45(12):157-159. 被引量：8
2索红光,孙鑫.基于Lucene的中文全文检索系统的研究与设计[J].计算机工程与设计,2008,29(19):5083-5086. 被引量：6
3吴青,夏红霞,赵广辉,刘春燕.基于Lucene全文检索引擎的应用与改进[J].武汉理工大学学报,2008,30(7):145-148. 被引量：9
4孙茂松,左正平,黄昌宁.汉语自动分词词典机制的实验研究[J].中文信息学报,2000,14(1):1-6. 被引量：118
5李庆虎,陈玉健,孙家广.一种中文分词词典新机制——双字哈希机制[J].中文信息学报,2003,17(4):13-18. 被引量：107
6张科.多次Hash快速分词算法[J].计算机工程与设计,2007,28(7):1716-1718. 被引量：22

二级参考文献26

1孙茂松,邹嘉彦.汉语自动分词研究中的苦干理论问题[J].语言文字应用,1995(4):40-46. 被引量：45
2温滔,朱巧明,吕强.一种快速汉语分词算法[J].计算机工程,2004,30(19):119-120. 被引量：19
3文庭孝.汉语自动分词研究进展[J].图书与情报,2005(5):54-63. 被引量：20
4郎小伟,王申康.基于Lucene的全文检索系统研究与开发[J].计算机工程,2006,32(4):94-96. 被引量：68
5刘远超,王晓龙,徐志明,关毅.文档聚类综述[J].中文信息学报,2006,20(3):55-62. 被引量：65
6向晖,郭一平,王亮.基于Lucene的中文字典分词模块的设计与实现[J].现代图书情报技术,2006(8):46-50. 被引量：27
7胡骏,李星.校园网信息资源搜索引擎的研究与实现[J].计算机工程与设计,2006,27(24):4629-4631. 被引量：14
8胡燕,吴虎子,钟珞.中文文本分类中基于词性的特征提取方法研究[J].武汉理工大学学报,2007,29(4):132-135. 被引量：26
9钟珞,王辉,李锐弢,宋华珠.基于语义Web的网络学习资源库本体实现[J].计算机工程,2007,33(8):282-284. 被引量：16
10管建和,甘剑峰.基于Lucene全文检索引擎的应用研究与实现[J].计算机工程与设计,2007,28(2):489-491. 被引量：70

共引文献217

1唐琳,郭崇慧,陈静锋.中文分词技术研究综述[J].数据分析与知识发现,2020,4(2):1-17. 被引量：41
2段小斌,林雯,阮百尧,陈基漓.一种基于三级索引词库结构的中文分词方法研究[J].计算机与数字工程,2007,35(7):47-49. 被引量：5
3李丹宁,李丹,王保华,马新强.几种基于词典的中文分词算法评价[J].贵州科学,2008,26(3):1-8. 被引量：4
4范戈,廖碧成.一种基于词义分析的短信问答系统的设计与实现[J].山东通信技术,2009,29(1):18-21.
5马志强,刘利民,苏依拉,马瑞明.基于Lucene的站内搜索引擎研究[J].内蒙古工业大学学报（自然科学版）,2009,28(1):52-57. 被引量：7
6崔岩.脚本测试技术在列控中心开发测试中的运用[J].铁路通信信号工程技术,2013,10(S1):149-153. 被引量：2
7张春霞,郝天永.汉语自动分词的研究现状与困难[J].系统仿真学报,2005,17(1):138-143. 被引量：60
8邓曙光,曾朝晖.汉语分词中一种逐词匹配算法的研究[J].湖南城市学院学报（自然科学版）,2005,14(1):76-78. 被引量：6
9冯蜀茗,张小真,奚晓霞.支持CSCL中相关度监控的领域词典构建研究[J].西南师范大学学报（自然科学版）,2005,30(3):430-434. 被引量：1
10解析慧聪资讯有限公司的经营策略[J].人才资源开发,2005(8):39-40.

同被引文献38

1郎小伟,王申康.基于Lucene的全文检索系统研究与开发[J].计算机工程,2006,32(4):94-96. 被引量：68
2刘件,魏程.中文分词算法研究[J].微计算机应用,2008,29(8):11-16. 被引量：25
3索红光,孙鑫.针对中文检索的Lucene改进策略[J].计算机应用与软件,2009,26(6):175-177. 被引量：10
4李永春,丁华福.Lucene的全文检索的研究与应用[J].计算机技术与发展,2010,20(2):12-15. 被引量：55
5唐铁兵,陈林,祝伟华.基于Lucene的全文检索构件的研究与实现[J].计算机应用与软件,2010,27(2):197-199. 被引量：13
6郑榕增,林世平.基于Lucene的中文倒排索引技术的研究[J].计算机技术与发展,2010,20(3):80-83. 被引量：50
7丁兆贵,金敏.基于Lucene的个性化搜索引擎研究与实现[J].计算机技术与发展,2011,21(2):105-108. 被引量：9
8徐叶强,朱艳辉,栗春亮,王文华.基于Lucene的海量数据库全文检索的设计与实现[J].湖南工业大学学报,2011,25(2):81-84. 被引量：4
9吴代文,杨方琦.Lucene在数据库全文检索中的性能研究[J].微计算机应用,2011,32(6):53-59. 被引量：9
10赵珂,逯鹏,李永强.基于Lucene的搜索引擎设计与实现[J].计算机工程,2011,37(16):39-41. 被引量：26

引证文献5

1潘文富.基于lucene的人才网全文搜索系统设计及应用[J].电子技术与软件工程,2014(9):86-87.
2周敬才,胡华平,岳虹.基于Lucene全文检索系统的设计与实现[J].计算机工程与科学,2015,37(2):252-256. 被引量：27
3王桐,王韵婷.基于Lucene的自定义中文分词器的设计与实现[J].电脑知识与技术（过刊）,2014,20(1X):430-433. 被引量：1
4郭超年.基于银行关键字的Lucene测试用例检索系统[J].信息与电脑,2017,29(8):140-142.
5许贤慧,王淑营,曾文驱.面向工程数据检索的ElasticSearch索引优化策略[J].计算机与现代化,2022(2):79-84. 被引量：8

二级引证文献36

1闫博文,周兆国,文宏武.军事物流数据仓库建设研究[J].军事交通学报,2022(10):22-26.
2柏雪.基于Hadoop的分布式搜索引擎设计与实现[J].图书馆学刊,2016,38(2):108-111. 被引量：4
3张中耀,葛万成,汪亮友,林佳燕.基于MMSEG算法的中文分词技术的研究与设计[J].信息技术,2016,40(6):17-20. 被引量：5
4张书波,张引,张斌,孙达明.成果地质资料检索系统研究与实现[J].国土资源信息化,2016(2):38-44. 被引量：3
5高毅,任洪敏.Git版本库全文检索系统的设计与实现[J].现代计算机,2016,22(14):71-76. 被引量：1
6吴嘉楠,容振邦.基于Lucene的试卷查重系统设计与实现[J].信息技术与信息化,2016(5):32-35. 被引量：4
7顾乾斌,潘善亮.基于Zookeeper的国土资源档案分布式查询框架设计与实现[J].移动通信,2017,41(5):84-90. 被引量：1
8印奇,李青,黄鹏.基于Solr的飞机故障异构信息检索系统设计[J].航空科学技术,2017,28(4):30-36. 被引量：1
9林钰杰,吴丽贤.基于Lucene的企业电子文档搜索系统的开发研究[J].电子设计工程,2017,25(17):102-106. 被引量：2
10邓晓枫,蒋廷耀.基于Lucene和MMSEG算法的中文分词器研究[J].信息通信,2017,30(9):146-148. 被引量：1

1彭焕峰,丁宋涛.一种基于全Hash的整词二分词典机制[J].计算机工程,2011,37(21):40-42. 被引量：2
2周程远,朱敏,杨云.基于词典的中文分词算法研究[J].计算机与数字工程,2009,37(3):68-71. 被引量：22
3许华,刘勇.中文分词词典机制的研究[J].福建电脑,2010(3):42-43.
4马志强,苏依拉.基于次优查找树的词典机制研究[J].内蒙古工业大学学报（自然科学版）,2010,29(4):274-278.
5吴晓倩,胡学钢.基于N-最短路径的中文分词技术研究[J].安徽理工大学学报（自然科学版）,2014,34(1):72-75. 被引量：5
6李庆虎,陈玉健,孙家广.一种中文分词词典新机制——双字哈希机制[J].中文信息学报,2003,17(4):13-18. 被引量：107
7陈玉春,朱艳琴,刘月琴,王振中.亏格为2的超椭圆曲线上的二分算法及其优化[J].计算机应用与软件,2008,25(7):94-95. 被引量：1
8原佳丽,杨仁广,孟祥增.快速双向中文分词算法[J].山东师范大学学报（自然科学版）,2009,24(1):75-77.
9王民川.“C++”环境下的算法探讨[J].科技传播,2010,2(13):210-210.
10罗洋.一种基于双哈希二叉树的中文分词词典机制[J].计算机应用与软件,2013,30(5):251-253. 被引量：4

微型机与应用

2011年第18期

浏览历史

内容加载中请稍等...

基于Lucene的中文分词器的设计与实现被引量：5

参考文献6

二级参考文献26

共引文献217

同被引文献38

引证文献5

二级引证文献36

相关作者

相关机构

相关主题

浏览历史

基于Lucene的中文分词器的设计与实现 被引量：5

参考文献6

二级参考文献26

共引文献217

同被引文献38

引证文献5

二级引证文献36

相关作者

相关机构

相关主题

浏览历史

基于Lucene的中文分词器的设计与实现被引量：5