基于MapReduce的海量文件检索方法研究被引量：1

Research on Massive File Retrieval Method Based on MapReduce

下载PDF

导出

摘要在文件检索的方法中,目前主要是基于数据库进行检索。但是,当待检索的数据量变得非常大的时候,再使用这种检索方式,大量的检索操作就会集中在一台主机上进行,这会导致检索效率降低。基于这种情况,拟采用分布式系统来解决这个问题。在分布式系统中进行资源检索时,可以基于MapReduce架构来实现检索,这样,检索操作的压力将分散到分布式系统的各个节点中,这样可以有效降低机器的压力,大大提高检索的效率。采用传统方式检索100万条数据,需要耗时500 s,而采用基于MapReduce架构的分布式系统的方法来检索100万的数据,只需要花费40 s,相对于传统检索方法采用基于MapReduce架构的分布式系统检索可使检索效率提升接近12.5倍。 In the document retrieval method,the key is built on the database search. However,when the amount of data to be retrieved becomes very large,using this search method,a large number of retrieval operations will be concentrated on a single host,which can result in reduced efficiency of retrieval. Under this background,a distributed system can be used to solve the problem. Retrieving resources in a distributed system can be based on MapReduce architecture to achieve retrieval. Thus,the pressure of retrieval operation will be allocated to each node in a distributed system,which can effectively reduce the pressure of the machine and greatly improve the retrieval efficiency. Using the traditional way,retrieving 1 million data consumes 500 seconds,while using the method based on MapReduce architecture for distributed systems to retrieve one million data only needs 40 seconds. Compared with traditional search method,method of distributed systems based on MapReduce architecture can promote efficiency to 12. 5 times.

作者谭黔林莫春娟

机构地区河池学院计算机与信息工程学院

出处《河池学院学报》 2016年第2期101-105,共5页 Journal of Hechi University

基金广西高校科学技术研究项目(LX2014320) CALIS广西壮族自治区文献信息服务中心预研项目(LALISGX2014006)

关键词大数据 MAPREDUCE 检索分布式系统 big data MapReduce searching distributed system

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献9

1陈立博,李金友,毕建伟,黄灏.基于数据库检索信息的一种实现方法[J].黑龙江科技信息,2015(11). 被引量：1
2宋杰,刘雪冰,朱志良,李甜甜,赵大哲,于戈.一种能效优化的MapReduce资源比模型[J].计算机学报,2015,38(1):59-73. 被引量：21
3应毅,刘亚军.MapReduce并行计算技术发展综述[J].计算机系统应用,2014,23(4):1-6. 被引量：18
4荀亚玲,张继福,秦啸.MapReduce集群环境下的数据放置策略[J].软件学报,2015,26(8):2056-2073. 被引量：16
5宋杰,王智,李甜甜,于戈.一种优化MapReduce系统能耗的数据布局算法[J].软件学报,2015,26(8):2091-2110. 被引量：8
6江务学,张璟,王志明.MapReduce并行编程架构模型研究[J].微电子学与计算机,2011,28(6):168-170. 被引量：23
7黄斌,许舒人,蒲卫.基于MapReduce的数据挖掘平台设计与实现[J].计算机工程与设计,2013,34(2):495-501. 被引量：45
8李伟卫,赵航,张阳,王勇.基于MapReduce的海量数据挖掘技术研究[J].计算机工程与应用,2013,49(20):112-117. 被引量：35
9赵辉,杨树强,陈志坤,尹洪,金松昌.基于MapReduce模型的范围查询分析优化技术研究[J].计算机研究与发展,2014,51(3):606-617. 被引量：14

二级参考文献56

1Zhang Liangjie, Zhou Qun. CCOA: cloud computing open--architecture[C]//IEEE International Conference on Web Services. Los Angeles, CA: Press IEEE Com- puter Society, 2009: 608-612.
2Dean J, Ghemawat S. MapReduce: simplified data pro- cessing on large elusters[C]//Proe 6th Syrup on Oper- ating System Design and Implementation, New York, ACM Press, 2004 : 137- 150.
3Owen S,Anil R,Dunning T,et al.Mahout in action[M].[S.l.].Manning Publications ,2011.
4Chu C T, Kim S K, Lin Y A,et al.Map-reduce for machinelearning on multicore[J] .Advances in Neural InformationProcessing Systems,2007,19.
5Ghemawat S, Gobioff H, Leung S T.The Google file system[C]//SOSP,03,2003.
6Dean J, Ghemawat S.MapReduce: simplified data processingon large clusters[J].Communications of the ACM, 2008,51(1).
7Chang F, Dean J, Ghemawat S, et al.Bigtable: a distributedstorage system for structured data[J].ACM Transactions onComputer Systems (TOCS) ,2008,26(2).
8White T.Hadoop: the definitive guide[M].[S.l.] : Yahoo Press,2010.
9Han J, Kamber M, Pei J.Data mining: concepts and tech-niques[M].[S.l.] :Morgan Kaufmann,2011.
10Huang Z.Extensions to the 灸-means algorithm for cluster-ing large data sets with categorical values[J].Data Miningand Knowledge Discovery, 1998,2(3) :283-304.

共引文献162

1王少锋,伍少成,刘涛,邓琨,黄兵.对Hadoop的用电信息大数据计算服务应用分析[J].自动化与仪器仪表,2016(4):221-222. 被引量：6
2陈宫,牛秦洲.基于MapReduce的PageRank算法的研究[J].微电子学与计算机,2012,29(5):81-85. 被引量：5
3张青.基于并行计算机架构的OS模型探析[J].计算机光盘软件与应用,2012,15(17):191-192.
4吕雪骥,李龙澍.FP-Growth算法MapReduce化研究[J].计算机技术与发展,2012,22(11):123-126. 被引量：18
5张岩,郭松,赵国海.基于Hadoop的云计算试验平台搭建研究[J].沈阳师范大学学报（自然科学版）,2013,31(1):85-89. 被引量：14
6胡海东.物联网中的海量数据处理技术[J].科技创新导报,2013,10(3):182-182. 被引量：3
7张刚红.Hadoop下并行遗传算法研究及在应急设施选址中的应用[J].互联网天地,2013(8):11-14. 被引量：4
8肖丹,尹春华.基于改进蚁群算法的用户有效浏览兴趣路径挖掘[J].计算机与现代化,2013(12):14-18.
9方建勇.一种基于云计算技术的军事信息系统体系架构[J].计算机技术与发展,2013,23(12):235-239. 被引量：6
10张刚红.Hadoop下并行遗传算法研究及在应急设施选址中的应用[J].信息技术与信息化,2014(1):81-85.

同被引文献28

1王效岳,王志玲.国内外异构数据库统一检索系统的比较研究[J].情报杂志,2005,24(12):116-118. 被引量：25
2吕希艳,张润彤.基于SOA的企业信息资源整合[J].中国科技论坛,2006(2):103-105. 被引量：38
3张秀华,赵伟,赵智博.基于Multi-Agent的图书馆网络信息资源整合系统研究[J].情报理论与实践,2006,29(6):755-757. 被引量：7
4李广建,汪语宇,张丽.数字资源整合的实现机制及关键技术——对国外数字资源整合系统的实证研究[J].中国图书馆学报,2007,33(2):75-80. 被引量：34
5金燕.网络信息资源整合研究[J].现代情报,2007,27(7):40-43. 被引量：34
6赵英,雷强.基于贝叶斯本体映射方法的数字资源整合[J].情报杂志,2008,27(2):23-24. 被引量：5
7许爱军,谢娟.基于Multi-Agent的教育资源整合平台研究与设计[J].现代计算机,2008,14(11):114-117. 被引量：3
8宋敏.基于SOA图书馆数字资源整合平台关键技术的研究与实现[J].现代图书情报技术,2009(9):22-27. 被引量：9
9吕莉媛.基于复杂网络的图书馆数字资源整合[J].情报科学,2009,27(12):1811-1815. 被引量：13
10崔伟,徐恺英,王宁.基于知识链的数字资源整合研究[J].图书馆学研究,2010(8):32-35. 被引量：10

引证文献1

1邢荣华,朱玉珍,韩依辰,张静.面向高校利用者的数字资源整合系统设计[J].现代情报,2017,37(2):68-74. 被引量：6

二级引证文献6

1詹黎锋.基于集成管理的高校图书馆联盟特色数字资源区域性整合[J].福建广播电视大学学报,2018(5):80-84.
2马鸿雁,王继昌.基于SLAM技术的高校师资体系智能规划方法研究[J].牡丹江教育学院学报,2018(10):28-31. 被引量：2
3王战平,冯扬文,朱宸良.大数据时代数字资源整合方法研究:模型设计和实验分析——以物流行业为例[J].现代情报,2019,39(9):92-100. 被引量：19
4许谦,李元栋,王彧之.基于SQL Server的高校信息资源管理系统设计[J].现代电子技术,2020,43(20):115-118. 被引量：10
5武智敏,仲梁维.基于.asp的面试评分管理系统的设计与实现[J].农业装备与车辆工程,2021,59(12):150-154.
6刘丽丽.高校图书馆数字资源利用率优化研究[J].生活教育,2022(35):126-128.

1熊飞.五款电脑文件管理工具推荐[J].电子乐园,2011(12):35-36.
2Aa酱.大硬盘这样分区最科学[J].电脑迷,2009(20):13-13.
3于金良,朱志祥,李聪颖.Hadoop MapReduce新旧架构的对比研究综述[J].计算机与数字工程,2017,45(1):83-87. 被引量：8
4樊科臻,张文龙.一种网络图像数据库的快速检索方法[J].上海师范大学学报（自然科学版）,2001,30(1):44-47.
5陈栋波,高跃明.基于HBase的海量文件的检索方案研究[J].软件,2016,37(11):88-92.
6沈瑞冰.VC中海量文件读写类设计与应用[J].电脑编程技巧与维护,2007(9):13-18.
7李平,胡立栓,孙雪,项彩虹.基于Web服务的分布式文件系统模型[J].微计算机信息,2010,26(3):212-213. 被引量：5
8新产品[J].软件世界,2005(8):99-99.
9季向远,杨涛,李巧红,冯少敏.构建安全的私有云存储平台[J].机械设计与制造工程,2014,43(10):51-53. 被引量：4
10回头浪子.复制海量文件如何断点续传?[J].电脑爱好者,2005(1):22-23.

河池学院学报

2016年第2期

浏览历史

内容加载中请稍等...

基于MapReduce的海量文件检索方法研究被引量：1

参考文献9

二级参考文献56

共引文献162

同被引文献28

引证文献1

二级引证文献6

相关作者

相关机构

相关主题

浏览历史

基于MapReduce的海量文件检索方法研究 被引量：1

参考文献9

二级参考文献56

共引文献162

同被引文献28

引证文献1

二级引证文献6

相关作者

相关机构

相关主题

浏览历史

基于MapReduce的海量文件检索方法研究被引量：1