基于Lucene的全文检索系统模型的研究和开发被引量：4

Research and development on a Lucene-based full-text retrieval model

下载PDF

导出

摘要设计实现了一个基于Lucene的全文检索系统模型.在该系统模型中,针对中文分词实现了基于词库的采用正向最大匹配算法的中文分词模块;针对多种格式文档的处理采用接口实现的方式和动态实例化的方法,实现了可以有效地处理txt、xml、html、pdf、doc和rtf等常见格式文档. A Lucene-based full-text retrieval model was designed and implemented. For Chinese words segmentation, a module which is based on word library and uses the positive direction maximum matching algorithm was presented. Further more, 1 for processing the documents of various formats, interfaces and dynamic instantiation are used in the system model, so it can effectively process common formatted documents such as txt, xml, html, pdf, doe and rtf, etc.

作者朱岸青黄杰

机构地区暨南大学管理学院暨南大学计算机系

出处《暨南大学学报（自然科学与医学版）》 CAS CSCD 北大核心 2009年第5期504-508,共5页 Journal of Jinan University(Natural Science & Medicine Edition)

基金国家自然科学基金-广东省科学基金联合重点项目(U0775001)

关键词全文检索中文分词格式文档 full-text retrieval Chinese words segmentation formatted documents

分类号 TP393 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献5

1郎小伟,王申康.基于Lucene的全文检索系统研究与开发[J].计算机工程,2006,32(4):94-96. 被引量：68
2陈士杰,张玥杰.基于Lucene的英汉跨语言信息检索[J].计算机工程,2005,31(13):62-64. 被引量：12
3GOSPODNETIC O, HATCHER E. Lucene in Action [ M]. Manning Publications Co, 2007 : 153 - 155.
4彭曙蓉,蔡蕾,王耀南.基于近似网页聚类的智能搜索系统[J].微计算机信息,2006,22(04X):283-285. 被引量：4
5孔伯煊,李祥.基于Lucene\XML技术的Web搜索引擎设计与实现[J].航空计算技术,2006,36(4):5-8. 被引量：6

二级参考文献20

1高琰,谷士文,谭立球,费耀平.基于Lucene的搜索引擎设计与实现[J].微机发展,2004,14(10):27-30. 被引量：23
2王羲,任琦梅.基于44B0平台的uC-Linux Web服务器实现方法研究[J].微计算机信息,2005,21(3):76-77. 被引量：10
3陈庆伟,刘军.基于Lucene的网站全文搜索的设计与实现[J].科技情报开发与经济,2005,15(15):242-244. 被引量：15
4Lucene Open Source Material[Z].http://jakarta.apache.org/lucene.
5Linwood J.Give Your Web Site Search Engine Using Lucene[Z].http:// builder.com,2003.
6IBM DevloperWorks.Parsing,Indexing,and Searching XML with Digester and Lucene[Z].2003.
7Cutting D.The Lucene Search Engine Powerful Flexible and Free:JavaWorld[M].John Wiley Sons,2000-09.
8Foo S, Li Hui. Chinese Word Segmentation and Its Effect on Information Retrieval. Information Processing & Management, 2002.
9Wu Z M, Tseng G. Chinese Text Segmentation for Text Retrieval:Achievements and Problems. Journal of the American Society for Information Science, 1993,44 (9): 532-542.
10Gao Jianfeng. An Empirical Study of CLIR at MSRCN. Shanghai:International Workshop ILT&CIP-2001 on Innovative Language Technology and Chinese Information Processing, 2001.

共引文献81

1吴泽彬,魏洁,李蔚清,吴慧中.面向服务架构的全文检索研究[J].华中科技大学学报（自然科学版）,2007,35(S1):202-205. 被引量：3
2吴家道,赵乃良.一种基于海量数据的智能信息检索系统实现[J].杭州电子科技大学学报（自然科学版）,2007,27(5):127-130.
3于静波,余敦一,陈秋月,胡文学.互联网新闻搜索设计[J].计算机系统应用,2008,17(7):18-20.
4刘高原,何伟娜,郑浩,刘觉夫.Nutch0.9中二分法中文分词的实现[J].计算机时代,2009(4):28-30.
5刘小强.二手转让及房产租售垂直搜索引擎的设计与实现[J].三门峡职业技术学院学报,2010,9(3):107-110. 被引量：2
6何晶.图书馆智能化信息推荐服务系统性能优化技术研究[J].自动化与仪器仪表,2016(2):116-117. 被引量：1
7栾静,李军锋.基于Lucene全文检索引擎的应用研究[J].计算机与数字工程,2010,38(12):184-186. 被引量：5
8张晓卫,朱巧明.一种基于Lucene的Web全文信息检索系统的设计与实现[J].计算机与现代化,2006(12):111-115. 被引量：6
9缪融.基于外文数据库的交叉语言信息检索系统的探讨[J].情报杂志,2007,26(3):118-120. 被引量：1
10叶云,梁京章.基于Lucene的搜索引擎在远程教育平台中的应用[J].现代计算机,2007,13(4):53-55. 被引量：2

同被引文献24

1吴泽彬,魏洁,李蔚清,吴慧中.面向服务架构的全文检索研究[J].华中科技大学学报（自然科学版）,2007,35(S1):202-205. 被引量：3
2许君,王朝坤,李瑞,王建民,刘璋.基于内容的分布式FTP搜索引擎的设计与实现[J].计算机研究与发展,2011,48(S3):430-434. 被引量：5
3张春霞,郝天永.汉语自动分词的研究现状与困难[J].系统仿真学报,2005,17(1):138-143. 被引量：60
4栾静,李军锋.基于Lucene全文检索引擎的应用研究[J].计算机与数字工程,2010,38(12):184-186. 被引量：5
5文庭孝.汉语自动分词研究进展[J].图书与情报,2005(5):54-63. 被引量：20
6何伟,薛素静,孔梦荣,杨正党.基于Lucene的全文搜索引擎的设计与实现[J].情报杂志,2006,25(9):88-90. 被引量：12
7李智超,熊风,富羽鹏,马少平.分布式大规模文本检索系统[J].广西师范大学学报（自然科学版）,2007,25(2):178-181. 被引量：5
8李沫南.Coreseek开源中文检索引擎功能和特性[EB/OL].(2013-11-26)[2014-04-25].http:∥WWW.coreseek.cn/products/ft_feature/.
9TsaiCH. MMSEG.. A word identification system for Mandarin Chinese text based on two variants of the maximum matching algorithm [EB/OL] (20l I - 09 - 25 ). [2014 - 04 - 21 ]. http..//technology, chtsai, org/mmseg/.
10楚乔.LibMMSeg简介[EB/0L].(2013—11—26)[2014—04—29].http;ffWWW.coreseek.com/opensource/mmseg.

引证文献4

1吴代文.Lucene文本分析器的改进[J].信息技术,2011,35(10):62-64.
2吴昊.基于Lucene技术的邮件取证技术研究[J].信息网络安全,2013(10):181-184.
3刘建委,赵驰,唐忠诚,刘琼.城市轨道交通线网全文检索系统的设计与实现[J].城市轨道交通研究,2015,18(12):135-139. 被引量：1
4张中耀,葛万成,汪亮友,林佳燕.基于MMSEG算法的中文分词技术的研究与设计[J].信息技术,2016,40(6):17-20. 被引量：5

二级引证文献6

1邓晓枫,蒋廷耀.基于Lucene和MMSEG算法的中文分词器研究[J].信息通信,2017,30(9):146-148. 被引量：1
2邓海剑,胡琦伟.MMSEG算法与统计方法结合的中文分词模型研究[J].岭南学术研究,2017,12(1):66-69.
3禹翔.城市轨道交通网络系统设计承载能力计算方法[J].电子设计工程,2019,27(21):127-130. 被引量：2
4隋在娟.基于分词算法的用户个性化推荐系统设计[J].数字通信世界,2020(12):115-116.
5柴琦.基于“位置微博”的热点事件挖掘[J].北京测绘,2023,37(4):508-512.
6刘毓彬,叶传奇,张少博,朱溪洋,秦梦雯,刘晓雨.拦截与清除恶意捆绑软件系统的研究与开发[J].现代计算机,2023,29(16):81-86.

1田边,戴冠中.构件模板动态实例化技术的研究与应用[J].小型微型计算机系统,2000,21(12):1286-1289. 被引量：3
2张冬慧,孙波,徐照财,程显毅.文本自动分类关键技术研究[J].微计算机信息,2008,24(6):197-199. 被引量：12
3黄传毅,唐金国,李彪,肖凡.基于XML的想定元素类管理的设计与实现[J].计算机仿真,2008,25(7):28-32. 被引量：5
4李展,李顺.智能搜索中中文分词模块的设计[J].福建电脑,2012,28(2):151-152.
5罗宁,徐俊刚,郭洪韬.基于Lucene的中文分词模块的设计和实现[J].电子技术（上海）,2012,39(9):54-56. 被引量：3
6索红光,孙鑫.基于Lucene的中文全文检索系统的研究与设计[J].计算机工程与设计,2008,29(19):5083-5086. 被引量：6
7李晓红.考试信息垂直搜索引擎设计与应用[J].邵阳学院学报（自然科学版）,2012,9(2):37-40.
8王志嘉,薛质.一种基于Lucene的中文分词的设计与测试[J].信息技术,2010,34(12):50-54. 被引量：6
9史梦安,马壮.一种基于Servlet的控制层软件框架设计[J].软件导刊,2017,16(3):83-85. 被引量：1
10李颖,李志蜀,邓欢.基于Lucene的中文分词方法设计与实现[J].四川大学学报（自然科学版）,2008,45(5):1095-1099. 被引量：13

暨南大学学报（自然科学与医学版）

2009年第5期

浏览历史

内容加载中请稍等...

基于Lucene的全文检索系统模型的研究和开发被引量：4

参考文献5

二级参考文献20

共引文献81

同被引文献24

引证文献4

二级引证文献6

相关作者

相关机构

相关主题

浏览历史

基于Lucene的全文检索系统模型的研究和开发 被引量：4

参考文献5

二级参考文献20

共引文献81

同被引文献24

引证文献4

二级引证文献6

相关作者

相关机构

相关主题

浏览历史

基于Lucene的全文检索系统模型的研究和开发被引量：4