基于Hadoop的信息检索系统研究被引量：4

Research on Hadoop-based Information Retrieval System

下载PDF

导出

摘要 [目的/意义]探讨分布式信息检索系统设计,解决大数据背景下传统信息检索系统效率低下而不能满足检索需求的问题。[方法/过程]从Hadoop框架着手,探讨基于Hadoop的分布式信息检索系统,提出改进构想,并通过实验验证其可行性。[结果/结论]提出对输入数据流采用预处理方式替代批处理方式的构想,实验验证了该构想的可行性。Hadoop框架已成功应用于多个领域,但是其中的Map Reduce算法及算法效率优化有待研究。 [Purpose/significance] The paper is to discuss design of distributed information retrieval system, to solve the problem of traditional information retrieval system＇s can＇t satisfying the requirements of people＇s needs due to its low efficiency in the context of big data.[Method/process] The paper begins with Hadoop framework to discuss Hadoop-based distributed information retrieval system, put forward some ideas of improvements, and verifies its feasibility through experiment. [Result/conclusion]The paper proposes the ideas of using pretreatment mode instead of batch mode for input data stream, and verifies its feasibility by experiment. The Hadoop framework has been successfully applied in many fields, but the Map Reduce algorithm and algorithm efficiency optimization in it remains to be studied.

作者孙永超

机构地区上海大学图书情报档案系

出处《情报探索》 2016年第8期125-130,共6页 Information Research

关键词 HADOOP MAPREDUCE 分布式处理信息检索键值对 Hadoop Mapreduce distributed processing information retrieval key-value pairs

分类号 TP391.3 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献7

1BAEZA-YATES R,RIBEIRO-NETO B. Modem in- formation retrieval[M]. New York : ACM press, 1999 : 1.
2TOM W.Hadoop权威指南[M].3版.华东师范大学数据科学与工程学院.译.北京:清华大学出版社,2015:23-25.
3Khaled Tannir.Hadoop Mapreduce性能优化[M].范欢动.译.北京:人民邮电出版社,2015:3-5.
4蔡斌,陈湘萍.Hadoop技术内幕[M].北京:机械工业出版,2013:216-217.
5LESKOVEC J.大数据:互联网大规模数据挖掘与分布式处理[M].王斌,译.北京:人民邮电出版社,2015:21.
6万川梅,谢正兰.深入云计算:Hadoop应用开发实战详解[M].北京:中国铁道出版社,2013:1-59.
7亓开元,赵卓峰,房俊,马强.针对高速数据流的大规模数据实时处理方法[J].计算机学报,2012,35(3):477-490. 被引量：95

共引文献99

1赵卓峰,魏文飞,马强.基于无共享架构的海量感知数据实时处理系统[J].微电子学与计算机,2012,29(9):9-14. 被引量：4
2张晓燕,赵卓峰.一种面向车辆实时数据并行处理的任务调度算法[J].计算机与数字工程,2012,40(11):14-17.
3孟培超,胡圣波,舒恒,曹瑞娟.基于Hash B+树RFID复杂事件检测算法[J].贵州师范大学学报（自然科学版）,2012,30(6):89-93.
4丰江帆,朱毅.云环境下的流式空间信息服务[J].重庆邮电大学学报（自然科学版）,2012,24(6):693-698. 被引量：6
5亓开元,韩燕波,赵卓峰,房俊.支持高并发数据流处理的MapReduce中间结果缓存[J].计算机研究与发展,2013,50(1):111-121. 被引量：21
6杨静,辛宇,谢志强.面向物联网传感器事件监测的双向反馈系统[J].计算机学报,2013,36(3):506-520. 被引量：19
7张晓龙,余海,边小勇.实时数据流在钢铁生产过程监控系统中的应用[J].计算机工程与设计,2013,34(6):2204-2211. 被引量：1
8蒋新华,陈宇,朱铨,邹复民.交通物联网的发展现状及趋势研究[J].计算机应用研究,2013,30(8):2256-2261. 被引量：31
9肖飞,齐立磊.大数据处理技术与探索[J].计算机与现代化,2013(9):75-77. 被引量：16
10邹复民,蒋新华,胡惠淳,朱铨,庄孝昆.云计算研究与应用现状综述[J].福建工程学院学报,2013,11(3):231-242. 被引量：20

同被引文献32

1沈泉飞,顾和和,张海荣,曹敏,钟立喜,房友东.矿产资源管理信息系统设计与开发[J].测绘与空间地理信息,2007,30(4):21-24. 被引量：11
2多雪松,张晶,高强.基于Hadoop的海量数据管理系统[J].微计算机信息,2010,26(13):202-204. 被引量：27
3曹宁,吴中海,刘宏志,张齐勋.HDFS下载效率的优化[J].计算机应用,2010,30(8):2060-2065. 被引量：23
4李彭军,陈光杰,郭文明.基于HDFS的区域医学影像分布式存储架构设计[J].南方医科大学学报,2011,31(3):495-498. 被引量：28
5王建强,仲晓伟,杨飞.数据挖掘在医疗临床路径中的应用[J].现代医院,2011,11(3):1-3. 被引量：8
6高林,宋相倩,王洁萍.云计算及其关键技术研究[J].微型机与应用,2011,30(10):5-7. 被引量：46
7冯贞贞,郑西川.区域医学影像信息共享的关键技术及实现方案[J].医疗卫生装备,2011,32(6):52-54. 被引量：6
8赵凯.基于云存储的医院PACS系统存储设计[J].信息安全与技术,2012,3(4):92-93. 被引量：7
9张渊源,张琴燕,蒋关富.面向Web电子产品信息分布式检索系统的设计与实现[J].计算机应用,2013,33(4):1026-1030. 被引量：8
10梁志刚,周永新,李坤成.基于PACS的远程医学影像会诊系统的初步探索[J].中国医疗设备,2013,28(6):11-13. 被引量：16

引证文献4

1郭文亮.Hadoop环境下医学影像存储的设计[J].中国医疗设备,2017,32(9):115-117. 被引量：2
2赵亚楠,朱月琴,李朝奎,肖克炎,范建福,李秋平.全国矿产资源潜力评价成果数据智能检索方法研究[J].中国矿业,2017,26(9):72-78. 被引量：1
3王红迁,汪鹏,王飞,黄荣,李理.海量医学数据检索系统的研发与应用[J].中国数字医学,2019,14(8):26-28. 被引量：4
4王思尧.基于Hadoop技术的Web电子产品信息检索系统研究[J].信息与电脑,2022,34(12):82-84. 被引量：3

二级引证文献10

1吴晓芬,董宁欣,李德成,周瑾,郑云硉,王培军.基于云存储的医院影像存储系统架构改造和应用[J].中国医疗设备,2018,33(9):132-135. 被引量：10
2夏培淞,杜兆宏.多维属性数据的循环检索模式仿真[J].计算机仿真,2019,36(7):441-444.
3胡冰,慕萍.移动医生查房系统临床实施应用研究[J].医学信息学杂志,2020,41(11):68-70. 被引量：2
4左锋,陈蜀虎,王红迁.PACS体系架构升级研究与应用[J].电脑与信息技术,2021,29(3):65-68. 被引量：1
5杨旭辉,张帆,胡涛.大数据环境下基于改进网格单元的DBSCAN算法[J].信息工程大学学报,2021,22(3):351-358. 被引量：4
6李鹏,汤志杰.大数据下慢性病患者健康档案管理系统的实现[J].微型电脑应用,2021,37(10):57-59. 被引量：4
7陈绍明.移动医疗系统的应用研究[J].安徽电子信息职业技术学院学报,2021,20(6):25-28. 被引量：1
8李燕妮.基于云计算的网络体育文献信息检索系统设计[J].信息与电脑,2022,34(19):118-120. 被引量：1
9瞿静宜,余小高,任家辉,刘文慧,程培轩.基于主动服务的大学生心理危机干预系统研究[J].长江信息通信,2023,36(2):113-116.
10李彤,马丁,饶菁,范永佳,王高才.基于服务总线的复杂电子产品制造执行系统设计与应用[J].信息记录材料,2023,24(3):209-212. 被引量：1

1郭庆平,吴延卯.移动Agent在分布式信息检索系统中的应用[J].武汉理工大学学报（信息与管理工程版）,2005,27(2):150-153. 被引量：2
2林飞盈,何海钊,刘美珍.基于内容的图像检索系统设计[J].民营科技,2009(10):12-12. 被引量：1
3涂豫.基于内容的图像检索系统设计[J].数字技术与应用,2012,30(7):150-150.
4师小庆,袁志,王学成.基于Web的学生信息检索系统设计[J].才智,2011,0(34):130-131.
5赵永华.妙用批处理解决重复工作[J].网管员世界,2012(5):77-77.
6赵琳.分布式检索及相关理论[J].科技资讯,2011,9(9):13-13.
7庄银苹,王阿明,胡俊峰,唐璐.基于内容的图像检索系统设计[J].软件导刊,2011,10(6):151-153.
8凌波,陆志国,黄维雄,钱卫宁,周傲英.PeerIS:基于Peer-to-Peer的信息检索系统[J].软件学报,2004,15(9):1375-1384. 被引量：29
9王坤,袁辉.基于本体的文献检索系统的实现[J].自动化与仪器仪表,2015(6):103-104 107.
10王建涛,蔡淮.数据流管理若干关键问题的研究[J].成都信息工程学院学报,2008,23(3):269-274. 被引量：1

情报探索

2016年第8期

浏览历史

内容加载中请稍等...

基于Hadoop的信息检索系统研究被引量：4

参考文献7

共引文献99

同被引文献32

引证文献4

二级引证文献10

相关作者

相关机构

相关主题

浏览历史

基于Hadoop的信息检索系统研究 被引量：4

参考文献7

共引文献99

同被引文献32

引证文献4

二级引证文献10

相关作者

相关机构

相关主题

浏览历史

基于Hadoop的信息检索系统研究被引量：4