基于Lucene的中文字典分词模块的设计与实现被引量：27

Design and Implementation of Chinese Words Dictionary Segmentation Module Based on Lucene

下载PDF

导出

摘要在分析Lucene语言分析器结构的基础上,采用基于中文字典的正向最大匹配分词算法,设计实现能够在基于Lucene的搜索引擎中处理中文信息的中文分词模块。 This paper introduces the construction of language analyzer in Lucene, designs and implements Chinese words segmentation module which uses forwards maximum match algorithm （FMM）. This module can disposes Chinese information well and efficiently in the search engine based on Lucene.

作者向晖郭一平王亮

机构地区华中科技大学控制科学与工程系华中科技大学图书馆

出处《现代图书情报技术》 CSSCI 北大核心 2006年第8期46-50,共5页 New Technology of Library and Information Service

关键词搜索引擎 LUCENE 中文分词正向最大匹配算法 Search engine Lucene Chinese words segmentation Forwards maximum match algorithm

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献5

1赵汀,孟祥武.基于LUCENEAPI的中文全文数据库设计与实现[J].计算机工程与应用,2003,39(20):179-181. 被引量：24
2高琰,谷士文,谭立球,费耀平.基于Lucene的搜索引擎设计与实现[J].微机发展,2004,14(10):27-30. 被引量：23
3刘迁,贾惠波.中文信息处理中自动分词技术的研究与展望[J].计算机工程与应用,2006,42(3):175-177. 被引量：67
4郭辉,苏中义,王文,崔骏.一种改进的MM分词算法[J].微型电脑应用,2002,18(1):13-15. 被引量：39
5李庆虎,陈玉健,孙家广.一种中文分词词典新机制——双字哈希机制[J].中文信息学报,2003,17(4):13-18. 被引量：107

二级参考文献36

1黄昌宁.中文信息处理中的分词问题[J].语言文字应用,1997(1):74-80. 被引量：83
2孙茂松,邹嘉彦.汉语自动分词研究中的苦干理论问题[J].语言文字应用,1995(4):40-46. 被引量：45
3孙茂松,肖明,邹嘉彦.基于无指导学习策略的无词表条件下的汉语自动分词[J].计算机学报,2004,27(6):736-742. 被引量：37
4黄昌宁.统计语言模型能做什么?[J].语言文字应用,2002(1):77-84. 被引量：31
5亢临生,张永奎.基于标记的分词算法[J].山西大学学报（自然科学版）,1994,17(3):283-286. 被引量：4
6骆正清,陈增武,胡上序.一种改进的MM分词方法的算法设计[J].中文信息学报,1996,10(3):30-36. 被引量：28
7沈达阳,孙茂松,黄昌宁.汉语自动分词和词性标注一体化系统[J].中文信息,1996,13(5):17-19. 被引量：5
8黄萱菁,吴立德,王文欣,叶丹瑾.基于机器学习的无需人工编制词典的切词系统[J].模式识别与人工智能,1996,9(4):297-303. 被引量：24
9孙茂松,黄昌宁,邹嘉彦,陆方,沈达阳.利用汉字二元语法关系解决汉语自动分词中的交集型歧义[J].计算机研究与发展,1997,34(5):332-339. 被引量：66
10马晏.基于评价的汉语自动分词系统的研究与实现[A]..语言信息处理专论[C].北京:清华大学出版社,1996..

共引文献242

1孙宝刚,肖灵.计算机与数据库技术在舰船建造过程的节本与工时分析应用[J].舰船科学技术,2019,0(20):217-219. 被引量：2
2马钰淇.论警务工作的当代内核——基于《人民警察法》(修订草案稿)词频统计与分析[J].河南警察学院学报,2021(1):119-128.
3段小斌,林雯,阮百尧,陈基漓.一种基于三级索引词库结构的中文分词方法研究[J].计算机与数字工程,2007,35(7):47-49. 被引量：5
4向晖,郭一平,王亮.域内资源整合系统研究的现状及展望[J].高等工程教育研究,2006,54(S1):144-146.
5韩正服,杨喜权,张一鸣,丛荣华.基于特征码的大规模XML文档去重研究[J].中国管理信息化（综合版）,2006,9(7):75-77. 被引量：1
6李丹宁,李丹,王保华,马新强.几种基于词典的中文分词算法评价[J].贵州科学,2008,26(3):1-8. 被引量：4
7范戈,廖碧成.一种基于词义分析的短信问答系统的设计与实现[J].山东通信技术,2009,29(1):18-21.
8刘云吉,施晓秋.基于lucene的搜索引擎在Ajax中的应用[J].硅谷,2009,2(19).
9谢新吾.黄跃佳:北大失业生的三次跳跃[J].职业圈,2005(11):30-31.
10张茂元,卢正鼎,邹春燕.一种基于语境的中文分词方法研究[J].小型微型计算机系统,2005,26(1):129-133. 被引量：8

同被引文献153

1董慧,陈琮,雷瑛.基于J2EE规范的数字图书馆示范模型的设计与实现（下）——关键技术分析[J].情报学报,2004,23(3):289-296. 被引量：1
2文庭孝,邱均平,侯经川.汉语自动分词研究展望[J].现代图书情报技术,2004(7):6-10. 被引量：20
3姚建民,周明,赵铁军,李生.基于句子相似度的机器翻译评价方法及其有效性分析[J].计算机研究与发展,2004,41(7):1258-1265. 被引量：17
4高琰,谷士文,谭立球,费耀平.基于Lucene的搜索引擎设计与实现[J].微机发展,2004,14(10):27-30. 被引量：23
5章成敏,章成志.国外农业搜索引擎评析[J].农业网络信息,2004(11):31-34. 被引量：8
6张春霞,郝天永.汉语自动分词的研究现状与困难[J].系统仿真学报,2005,17(1):138-143. 被引量：60
7张校乾,金玉玲,侯丽波.一种基于Lucene检索引擎的全文数据库的研究与实现[J].现代图书情报技术,2005(2):40-43. 被引量：30
8夏天,樊孝忠,刘林.利用JNI实现ICTCLAS系统的Java调用[J].计算机应用,2004,24(B12):177-178. 被引量：24
9彭波,李晓明.搜索引擎倒排文件的一种分块组织技术[J].电子学报,2005,33(2):358-362. 被引量：9
10费洪晓,康松林,朱小娟,谢文彪.基于词频统计的中文分词的研究[J].计算机工程与应用,2005,41(7):67-68. 被引量：68

引证文献27

1叶云,梁京章.基于Lucene的搜索引擎在远程教育平台中的应用[J].现代计算机,2007,13(4):53-55. 被引量：2
2张弢,张成昱.一种数字教学资源聚类重构系统的实现[J].现代图书情报技术,2007(8):1-5.
3宋佳,诸云强,刘润达.一种基于Lucene改进的全文检索工具包[J].计算机工程与应用,2008,44(4):172-175. 被引量：15
4索红光,孙鑫.基于Lucene的中文全文检索系统的研究与设计[J].计算机工程与设计,2008,29(19):5083-5086. 被引量：6
5黄珏,黄志远.基于Lucene的语段模糊匹配中文检索系统设计与实现[J].浙江理工大学学报（自然科学版）,2009,26(1):109-113.
6汪涛.论基于Java的全文检索实现和索引性能提高[J].湖北民族学院学报（自然科学版）,2009,27(1):49-51. 被引量：1
7吴鹏飞,马凤娟,李文革,郭鹏.开源全文检索引擎Lucene本地化实践研究[J].现代图书情报技术,2009(4):19-22. 被引量：8
8索红光,孙鑫.针对中文检索的Lucene改进策略[J].计算机应用与软件,2009,26(6):175-177. 被引量：10
9熊定富.基于开源Lucene2.0的书目搜索引擎设计与实现[J].图书情报知识,2009,26(4):99-104. 被引量：1
10马凤娟,吴鹏飞.基于Lucene的中英文语言分析器的设计与实现[J].图书情报工作,2009,53(15):118-121. 被引量：1

二级引证文献123

1周锦程,王丹.基于Lucene的全文搜索引擎研究与应用[J].黔南民族师范学院学报,2009,29(3):7-12. 被引量：4
2李永春,丁华福.Lucene的全文检索的研究与应用[J].计算机技术与发展,2010,20(2):12-15. 被引量：55
3梁叶,梁京章,阳红,叶云.近似镜像检测算法在文本消重中的应用研究[J].广西大学学报（自然科学版）,2010,35(2):320-323. 被引量：2
4龚磊,武友新.Lucene全文检索系统的研究与实现[J].计算机与数字工程,2010,38(5):64-67. 被引量：5
5孙殿哲,魏海平,陈岩.Nutch中庖丁解牛中文分词的实现与评测[J].计算机与现代化,2010(6):187-190. 被引量：10
6余坦,王益民.一种基于用户属性的搜索算法[J].计算机系统应用,2010,19(7):201-203. 被引量：1
7王远定,梁久祯.利用关键词倒排表实时检索中文网页[J].计算机工程与应用,2010,46(28):135-137. 被引量：4
8谈国栋,江婷.基于Lucene信息检索库的电子词典的设计与实现[J].中国医学教育技术,2010,24(5):510-513. 被引量：1
9车庆男.基于Lucene的索引系统分析和研究[J].内蒙古石油化工,2010,36(18):7-8. 被引量：1
10薛萍.基于Lucene的全文检索系统研究[J].中国科技博览,2010(33):419-419.

1马凤娟,吴鹏飞.基于Lucene的中英文语言分析器的设计与实现[J].图书情报工作,2009,53(15):118-121. 被引量：1
2白如星,张成昱,王茜.基于缩略语转换的手机图书馆发布信息预处理机制初探[J].现代图书情报技术,2010(3):64-70. 被引量：1
3张春博,丁堃,刘盛博.科学基金项目视角下的我国图书馆、情报、文献与档案管理学的进展窥探[J].图书馆建设,2014(5):1-5. 被引量：17
4吴鹏飞,马凤娟,李文革,郭鹏.开源全文检索引擎Lucene本地化实践研究[J].现代图书情报技术,2009(4):19-22. 被引量：8
5李军.基于XML文档数据库的信息检索系统研究[J].江西图书馆学刊,2009,39(1):112-113.
6索红光,孙鑫.针对中文检索的Lucene改进策略[J].计算机应用与软件,2009,26(6):175-177. 被引量：10
7张海营.全二分快速自动分词算法构建[J].现代图书情报技术,2007(4):52-55. 被引量：6
8郭承坤,陈国松,阮怀军,陈英义,屠星月.基于Heritrix+Solr的农业信息垂直搜索引擎研究与设计[J].广东农业科学,2015,42(5):139-144.
9常智荣,马自卫,李高虎.基于Nutch的专题网页资源采集服务系统的设计与实现[J].现代图书情报技术,2010(3):19-26. 被引量：3

现代图书情报技术

2006年第8期

浏览历史

内容加载中请稍等...

基于Lucene的中文字典分词模块的设计与实现被引量：27

参考文献5

二级参考文献36

共引文献242

同被引文献153

引证文献27

二级引证文献123

相关作者

相关机构

相关主题

浏览历史

基于Lucene的中文字典分词模块的设计与实现 被引量：27

参考文献5

二级参考文献36

共引文献242

同被引文献153

引证文献27

二级引证文献123

相关作者

相关机构

相关主题

浏览历史

基于Lucene的中文字典分词模块的设计与实现被引量：27