基于Lucene的中文全文检索系统的研究与设计被引量：6

Research and development of Chinese full text search engine based on Lucene

下载PDF

导出

摘要提出了一种基于Lucene的中文全文检索系统模型。通过分析Lucene的系统结构,系统采用了基于统计的网页正文提取技术,并且加入了中文分词模块和索引文档预处理模块来提高检索系统的效率和精度。在检索结果的处理上,采用文本聚类的办法,使检索结果分类显示,提高了用户的查找的效率。实验数据表明,该系统在检索中文网页时,在效率、精度和结果处理等方面性能明显提高。 A system model for Chinese full text search engine based on Lucene is proposed. In order to improve the performance of Lucene system in searching Chinese web pages, the technique of web page text extraction based on statistics, Chinese word segmentation module and documents for indexing pretreatment module are added into the system by analyzing the structure of Lucene. In order to im- prove the efficiency of searching information people needed, document clustering is applied in processing the searching results. The experimental results show that the proposed system can effectively improve the performance of the Chinese full text search engine system.

作者索红光孙鑫

机构地区中国石油大学(华东)计算机与通信工程学院

出处《计算机工程与设计》 CSCD 北大核心 2008年第19期5083-5086,共4页 Computer Engineering and Design

关键词全文检索网页正文提取中文分词模块索引文档预处理文本聚类 full text search web page text extraction Chinese word segmentation documents for indexing pretreatment document clustering

分类号 TP393 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献6

1郎小伟,王申康.基于Lucene的全文检索系统研究与开发[J].计算机工程,2006,32(4):94-96. 被引量：68
2向晖,郭一平,王亮.基于Lucene的中文字典分词模块的设计与实现[J].现代图书情报技术,2006(8):46-50. 被引量：27
3Zhang Yuletide, Zhang Tao, Chen Shijie. Research on Lucene- based English-Chinese cross-language information retrieval[J]. Journal of Chinese Language and Computing,2005,15(I):25-32.
4刘远超,王晓龙,徐志明,关毅.文档聚类综述[J].中文信息学报,2006,20(3):55-62. 被引量：65
52005年863信息检索测评哈尔滨工业大学信息检索研究室技术报告[EB].http://www.863data.org.on/,2006.
6胡骏,李星.校园网信息资源搜索引擎的研究与实现[J].计算机工程与设计,2006,27(24):4629-4631. 被引量：14

二级参考文献56

1高琰,谷士文,谭立球,费耀平.基于Lucene的搜索引擎设计与实现[J].微机发展,2004,14(10):27-30. 被引量：23
2陈浩,何婷婷,姬东鸿.基于k-means聚类的无导词义消歧[J].中文信息学报,2005,19(4):10-16. 被引量：16
3赵仲孟,张选平.分布式检索中索引数据分布模型与求解方法[J].计算机工程与设计,2005,26(8):2164-2167. 被引量：2
4刘迁,贾惠波.中文信息处理中自动分词技术的研究与展望[J].计算机工程与应用,2006,42(3):175-177. 被引量：67
5Lucene Open Source Material[Z].http://jakarta.apache.org/lucene.
6Linwood J.Give Your Web Site Search Engine Using Lucene[Z].http:// builder.com,2003.
7IBM DevloperWorks.Parsing,Indexing,and Searching XML with Digester and Lucene[Z].2003.
8Cutting D.The Lucene Search Engine Powerful Flexible and Free:JavaWorld[M].John Wiley Sons,2000-09.
9Regina Barzilay,Min-Yen Kan,and Kathleen R.McKeown.Simfinder:A Flexible Clustering Tool for Summarization[A].In proceedings of the Workshop on Summarization in NAACL 01[C].Pittsburg,Pennsylvania,USA:June 2001.
10Zheng Chen,Wei-Ying Ma,Jinwen Ma.Learning to Cluster Web Search Results[A].In:proceedings of the 27th Annual International ACM SIGIR Conference[C].Sheffield,South Yorkshire,UK,July 2004,210 -217.

共引文献163

1吴英杰,李军莲,孙海霞,王蕾,陈颖.基于著者共现的CBM机构名称规范研究[J].医学信息学杂志,2019,40(12):48-53. 被引量：3
2李春妍,王勇.个性化服务中用户兴趣聚类算法研究[J].信息技术,2007,31(10):77-80. 被引量：3
3吴泽彬,魏洁,李蔚清,吴慧中.面向服务架构的全文检索研究[J].华中科技大学学报（自然科学版）,2007,35(S1):202-205. 被引量：3
4于静波,余敦一,陈秋月,胡文学.互联网新闻搜索设计[J].计算机系统应用,2008,17(7):18-20.
5庞秀丽,冯玉强,姜维.电子商务个性化文档推荐技术研究[J].中国管理科学,2008,16(S1):581-586. 被引量：10
6刘小强.二手转让及房产租售垂直搜索引擎的设计与实现[J].三门峡职业技术学院学报,2010,9(3):107-110. 被引量：2
7何晶.图书馆智能化信息推荐服务系统性能优化技术研究[J].自动化与仪器仪表,2016(2):116-117. 被引量：1
8栾静,李军锋.基于Lucene全文检索引擎的应用研究[J].计算机与数字工程,2010,38(12):184-186. 被引量：5
9叶云,梁京章.基于Lucene的搜索引擎在远程教育平台中的应用[J].现代计算机,2007,13(4):53-55. 被引量：2
10赵峰.基于Lucene的全文检索系统初探[J].黑龙江科技信息,2007(06X):62-62. 被引量：1

同被引文献60

1吴明礼,施水才.一种结合超链接分析的搜索引擎排序方法[J].计算机工程,2004,30(15):143-145. 被引量：10
2杨思洛.搜索引擎的排序技术研究[J].现代图书情报技术,2005(1):43-47. 被引量：23
3线福华.高等医学教育的特点及其相关问题的思考[J].医学教育,2005(3):5-7. 被引量：34
4孙西全,马瑞芳,李燕灵.基于Lucene的信息检索的研究与应用[J].情报理论与实践,2006,29(1):125-128. 被引量：20
5郎小伟,王申康.基于Lucene的全文检索系统研究与开发[J].计算机工程,2006,32(4):94-96. 被引量：68
6张榕玲,杨改学.网络环境下协作式学习模式的探讨[J].教书育人（学术理论）,2006,0(7):91-93. 被引量：3
7柯佳,程显毅,李晓薇.面向用户的智能搜索引擎模型UOISE的研究[J].计算机工程与应用,2006,42(35):175-177. 被引量：2
8林碧英,赵锐,陈良臣.基于Lucene的全文检索引擎研究与应用[J].计算机技术与发展,2007,17(5):184-186. 被引量：19
9张科.多次Hash快速分词算法[J].计算机工程与设计,2007,28(7):1716-1718. 被引量：22
10管建和,甘剑峰.基于Lucene全文检索引擎的应用研究与实现[J].计算机工程与设计,2007,28(2):489-491. 被引量：70

引证文献6

1李永春,丁华福.Lucene的全文检索的研究与应用[J].计算机技术与发展,2010,20(2):12-15. 被引量：55
2余坦,王益民.一种基于用户属性的搜索算法[J].计算机系统应用,2010,19(7):201-203. 被引量：1
3李浩.通用格式的Lucene文档解析器框架的构建[J].计算机与现代化,2011(3):127-130. 被引量：1
4孙海东,张力.基于Lucennee.t的医学教育视频垂直检索的设计与实现[J].开放教育研究,2011,17(2):105-112. 被引量：3
5彭焕峰.基于Lucene的中文分词器的设计与实现[J].微型机与应用,2011,30(18):62-64. 被引量：5
6樊同科,谢勇.一种混合搜索算法在智能Web中的应用[J].计算机技术与发展,2013,23(8):220-222. 被引量：1

二级引证文献63

1裴志松.基于Lucene的毕业论文相似性检测[J].长春工程学院学报（自然科学版）,2013,14(4):105-107.
2丁兆贵,金敏.基于Lucene的个性化搜索引擎研究与实现[J].计算机技术与发展,2011,21(2):105-108. 被引量：9
3李浩.通用格式的Lucene文档解析器框架的构建[J].计算机与现代化,2011(3):127-130. 被引量：1
4贾桂霞,李祥林,马宏锋.基于Lucene的中小型WEB应用全文检索引擎的研究[J].自动化与仪器仪表,2011(2):22-25.
5孙海东,张力.基于Lucennee.t的医学教育视频垂直检索的设计与实现[J].开放教育研究,2011,17(2):105-112. 被引量：3
6贺秀英.基于信息检索的整合检索系统设计与实现[J].商业时代,2011(14):37-38. 被引量：1
7谢贤明,吴庆波,谭郁松.基于搜索历史的密文检索系统研究[J].中国电子商情（通信市场）,2011(4):99-104.
8吴代文,詹海生.西安市数字方志全文检索系统的设计与实现[J].计算机技术与发展,2011,21(10):121-124. 被引量：1
9夏天,黄文,马骏涛,李光伟.Lucene全文检索软件及其在学科信息服务平台中的应用[J].图书情报工作,2011,55(21):106-109. 被引量：8
10姜鑫,余平.基于Lucene的音视频资源检索系统的研究与实现[J].计算机应用与软件,2011,28(11):245-248. 被引量：5

1苏潭英,郭宪勇,金鑫.一种基于Lucene的中文全文检索系统[J].计算机工程,2007,33(23):94-96. 被引量：22
2索红光,孙鑫.针对中文检索的Lucene改进策略[J].计算机应用与软件,2009,26(6):175-177. 被引量：10
3都云程,施水才.WWW与中文全文检索系统[J].中国计算机用户,1996(12):17-20. 被引量：4
4罗宁,徐俊刚,郭洪韬.基于Lucene的中文分词模块的设计和实现[J].电子技术（上海）,2012,39(9):54-56. 被引量：3
5曾元鉴,李孝明.一个中文全文检索系统的设计与实现[J].计算机与数字工程,2004,32(3):12-15. 被引量：3
6隋丽萍,徐承韬,李瑞芳.一个中文全文检索系统的设计与实现[J].科技资讯,2007,5(18):244-245. 被引量：1
7张冬慧,孙波,徐照财,程显毅.文本自动分类关键技术研究[J].微计算机信息,2008,24(6):197-199. 被引量：12
8聂妮,胡小克,杨志勇,张雅惠.基于lucene的桌面中文全文搜索引擎的设计[J].科技创业家,2012(15):64-64.
9刘畅,张猛.中文全文检索系统中基于分词技术的研究[J].吉林大学学报（信息科学版）,2013,31(3):320-323. 被引量：1
10贺胜.基于Lucene的中文全文检索系统[J].中国高校科技,2006(S3):143-145. 被引量：1

计算机工程与设计

2008年第19期

浏览历史

内容加载中请稍等...

基于Lucene的中文全文检索系统的研究与设计被引量：6

参考文献6

二级参考文献56

共引文献163

同被引文献60

引证文献6

二级引证文献63

相关作者

相关机构

相关主题

浏览历史

基于Lucene的中文全文检索系统的研究与设计 被引量：6

参考文献6

二级参考文献56

共引文献163

同被引文献60

引证文献6

二级引证文献63

相关作者

相关机构

相关主题

浏览历史

基于Lucene的中文全文检索系统的研究与设计被引量：6