基于树结构的MapReduce模型被引量：9

MapReduce Model Based on Tree Structure

下载PDF

导出

摘要 MapReduce是Google开发的一种并行分布式计算模型,已在搜索和处理海量数据领域得到了广泛的应用。此模型只适用于数据关联性弱、能够高度并行化的程序,未能处理数据关联性强的数据(比如树形结构)。文中详细讨论了MapReduce的实现机制,提出了一种基于树结构的MapReduce模型,它是基于一种聚类聚合的反复轮询过程,聚合时用<k1,k2,…,kn,value>代替传统的<k,value>,使模型更具有一般性。最后搭建Hadoop平台来处理XML结构的海量数据,并比对新旧两种模型的效率。实验结果表明,其执行速度明显比传统模型高效。 MapReduce is a parallel distributed computing model developed by Google,it is widely used in the area of searching and large date dealing.This model can be used to process data with weak correlation degree,but unable to deal with the data efficicently by making full use of the relationship among the data（such as a tree）.It proposes a MapReduce model based on the tree structure,it is based on a process which is featured in repeated polling with clustering aggregation,usek1,k2,…,kn,value rather than k,value as usual when aggregation,make the model more general.Experimental results show the execution speed is significantly higher than the traditional model.

作者李远方贾时银邓世昆韩月阳

机构地区云南大学信息学院

出处《计算机技术与发展》 2011年第8期149-152,共4页 Computer Technology and Development

基金云南省自然科学基金(2007F174M) 云南大学研究生科研课题资助项目(ynny200928)

关键词树结构 MAPREDUCE XML HADOOP tree structure MapReduce XML Hadoop

分类号 TP31 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献12

1Dean J, Ghemawat S. MapReduee: Simplied Data Processing on Large Clusters[ C ]//Proceedings of the 6th Conference on Symposium on Operating Systems. Design & Implementation. [ s. 1. ] : USENIX Association, 2004.
2Catanzaro B C, Sundaram N, Keutzer K. A Map Reduce Framework for Programming Graphics Processors[ C ]//Workshop on Software Tools for MultiCore. [ s. 1. ] : [ s. n. ] ,2006.
3Ranger C, Raghuraman R, Penmetsa A, et al. Evaluating MapReduce for Multi-core and Multi-processor Systems [ C ]// HPCA. [s. 1. ] :[s. n. ] ,2007:13-24.
4郑启龙,房明,汪胜,王向前,吴晓伟,王昊.基于MapReduce模型的并行科学计算[J].微电子学与计算机,2009,26(8):13-17. 被引量：39
5Sarje A, Alum S. A MapReduce Style Framework for Trees [ R ]. [ s. l. ] : Department of Electrical and Computer Engineering,2008 : 17-18.
6胡彧,封俊.Hadoop下的分布式搜索引擎[J].计算机系统应用,2010,19(7):224-228. 被引量：15
7焦金涛.基于PageRank的Web挖掘改进算法[J].计算机工程,2009,35(15):284-284. 被引量：10
8史佩昌,王怀民,蒋杰,卢凯.面向云计算的网络化平台研究与实现[J].计算机工程与科学,2009,31(A01):249-252. 被引量：57
9孙广中,肖锋,熊曦.MapReduce模型的调度及容错机制研究[J].微电子学与计算机,2007,24(9):178-180. 被引量：26
10奚建清,游进国,汤德佑,肖伟吉.基于MapReduce的封闭立方体并行计算方法[J].华南理工大学学报（自然科学版）,2009,37(1):91-95. 被引量：8

二级参考文献36

1李盛恩,王珊.封闭数据立方体技术研究[J].软件学报,2004,15(8):1165-1171. 被引量：25
2张蓉.Web挖掘技术研究[J].计算机工程,2006,32(15):4-6. 被引量：21
3卢锡城,王怀民,王戟.虚拟计算环境iVCE:概念与体系结构[J].中国科学（E辑）,2006,36(10):1081-1099. 被引量：37
4Gray J, Chaudhuri S, Bosworth A, et al. Data cube : a relational aggregation operator generalizing group-by, crosstab, and sub-totals [ J]. Data Mining and Knowledge Discovery, 1997,1 ( 1 ) :29-53.
5Lakshmanan L V S, Pei J, Han J W. Quotient cubes:how to summarize the semantics of a data cube [ C ]//Proceedings of the 28th International Conference .on Very Large Data Bases. Hong Kong: [ s. n. ] ,2002:778-789.
6Lakshmanan L V S, Pei J, Zhao Y. QC-trees:an efficient summary structure for semantic OLAP [ C ]//Proceedings of ACM SIGMOD International Conference on Management of Data. San Diego:ACM,2003:64-75.
7Beyer K, Ramakrishnan R. Bottom-up computation of sparse and iceberg CUBEs [C] //Proceedings of ACM SIGMOD International Conference on Management of Data. New York:ACM, 1999:359-370.
8Xin D,Shao Z,Han J W,et al. C-Cubing:efficient computation of closed cubes by aggregation-based checking [ C ]// Proceedings of the 22nd International Conference on Data Engineering. Atlanta : IEEE, 2006:4 -4.
9Chen Y, Dehne F, Eavis T. Parallel ROLAP data cube construction on shared-nothing muhiprocessors [ J ]. Distributed and Parallel Databases ,2004,15 ( 3 ) :219-236.
10Sarawagi S, Agrawal R, Gupta A. On computing the data cube [R]. San Jose: IBM Almaden Research Center, 1996.

共引文献139

1曾理,王以群.Hadoop集群和单机数据处理的耗时对比实验[J].硅谷,2009,2(19):55-56. 被引量：9
2杨喆,陈锋.使用MapReduce编程模型进行大规模FCD并行处理[J].电子技术（上海）,2010(9):17-19. 被引量：3
3牟雁超,李红燕,王腾蛟.PHCC:一种处理稀疏变化的封闭数据立方体算法[J].计算机研究与发展,2013,50(S2):85-93. 被引量：2
4施亮,钱雪忠.基于Hadoop的并行FP-Growth算法的研究与实现[J].微电子学与计算机,2015,32(4):150-154. 被引量：15
5陈欢欢,刘宴兵.基于自适应调度的网格容错机制研究[J].微电子学与计算机,2010,27(2):145-148. 被引量：1
6余宗泽.云计算的基本原理及其对教育领域的影响[J].中国教育技术装备,2010(9):93-94. 被引量：17
7多雪松,张晶,高强.基于Hadoop的海量数据管理系统[J].微计算机信息,2010,26(13):202-204. 被引量：27
8钟智.基于云架构的FTP服务安全性研究[J].长春大学学报,2010,20(6):75-76.
9王平.基于云计算的信息资源增值利用模型构建[J].情报杂志,2010,29(7):144-148. 被引量：11
10胡光民,周亮,柯立新.基于Hadoop的网络日志分析系统研究[J].电脑知识与技术,2010,6(8):6163-6164. 被引量：17

同被引文献75

1蒋良孝,蔡之华,刘钊.一种基于信息增益的分类规则挖掘算法[J].中南大学学报（自然科学版）,2003,34(z1):69-71. 被引量：8
2王鹏.走进云计算[M].北京:人民邮电出版社,2009.
3康塔尼克闪四清译.数据挖掘:概念、模型、方法和算法[M].北京:清华大学出版社,2003..
4DeanJ,GhemawatS.MapReduce:SimplifiedDataProcessingonLargeClusters[J].CommunicationsoftheACM,2008,51f11:107-113.
5SachaK.Middlewarearchitecturewithpatternsandframeworks[z].2007.
6刘鹏.云计算[M].2版北京:电子工业出版社,2011.
7韩伟.基于md0叩云计算平台下DDoS攻击防御研究[D].太原:太原科技大学,2011.
8张欣晨,杨庚.Hadoop环境中基于属性和定长密文的访问控制方法[J/0L].计算机工程与应用.http://www.cnki.net/kcma/doi/10.3778/j.issn. 1002 - 8331. 1311 - 0372. html, 2014 - 04-03.
9李克然.基于云计算的电子商务数据管理模式研究[D].西安:西安电子科技大学,2011.
10霍树民.基于Hsdoop的海量影像数据管理关键技术研究[D].长沙:国防科学技术大学,2010.

引证文献9

1董玉,管群.云计算的数据计算与存储[J].电脑知识与技术,2012,8(6):3803-3805. 被引量：2
2高薇,曾健民.基于卷积神经网络算法的图像识别应用研究[J].西安文理学院学报（自然科学版）,2019,22(1):10-14. 被引量：8
3王彦明.近年来Hadoop国内研究进展[J].现代情报,2014,34(8):14-19. 被引量：2
4郎振红.面向云计算改进的远程教学系统的研究[J].电子设计工程,2014,22(17):34-37. 被引量：2
5孙媛,黄刚.基于Hadoop平台的C4.5算法的分析与研究[J].计算机技术与发展,2014,24(11):83-86. 被引量：5
6黄刚,孙媛.基于Hadoop平台的SPRINT算法的分析与研究[J].南京师大学报（自然科学版）,2016,39(4):25-30. 被引量：2
7郝艳妮,田维丽.基于Hadoop的数据挖掘算法在葡萄酒信息数据分析系统中的应用[J].计算机应用,2017,37(A01):72-74. 被引量：6
8张荣磊,田爱奎,谭浩,郑睿.基于卷积神经网络的图像识别算法研究[J].山东理工大学学报（自然科学版）,2018,32(1):48-50. 被引量：5
9罗晓玲,陈财森,向阳霞,金传洋.基于单位层次树的数据归并算法[J].兵工自动化,2021,40(12):1-4.

二级引证文献32

1秦东霞,周航.基于分布式系统的海量数据存储技术[J].周口师范学院学报,2013,30(5):125-128. 被引量：1
2杨晓雁,甘琳梅.基于Hadoop的NoSQL非关系型数据库安全研究[J].微型电脑应用,2018,34(12):43-45. 被引量：1
3周丕健.基于Map-Reduce的网络数据包解析与设计[J].电脑编程技巧与维护,2015(8):77-78.
4凌文婧,郑丽敏.基于Hadoop的食品安全预警系统架构[J].食品安全导刊,2015(6):64-66. 被引量：1
5郑士芹.云计算在高等院校教学管理服务中的应用与研究[J].无线互联科技,2015,12(16):124-125. 被引量：1
6任高举,白亚男.多媒体智能教学系统中特定数据挖掘方法研究[J].电子设计工程,2016,24(11):4-7. 被引量：8
7赵文涛,孟令军,赵好好,韩炳权,成亚飞.分布式朴素贝叶斯算法在文本分类中的应用[J].测控技术,2016,35(6):50-55. 被引量：2
8吕峰,李丽娇,高云英,马开阳.基于Hadoop在中医药数据挖掘中的应用[J].电子设计工程,2016,24(22):112-114. 被引量：5
9黄刚,孙媛.基于Hadoop平台的SPRINT算法的分析与研究[J].南京师大学报（自然科学版）,2016,39(4):25-30. 被引量：2
10张元鸣,陈苗,陆佳炜,徐俊,肖刚.基于MapReduce的Bagging决策树优化算法[J].计算机工程与科学,2017,39(5):841-848. 被引量：8

1杜娟.移动通信业务中的数据关联性分析[J].福建电脑,2004,20(5):14-15. 被引量：1
2田茵,施梅芳.VFP中的数据关联性[J].福建电脑,2002,18(1):21-22.
3王小英,白灵,孙晓玲,郭娜.弱关联字符型数据的密文检索模型优化仿真[J].计算机仿真,2014,31(2):432-435. 被引量：4
4尹青,李永伟,舒辉.数据关联性分析辅助漏洞挖掘[J].计算机应用研究,2014,31(2):583-585. 被引量：1
5李翠霞,王有为.海量医学数据中的特定数据挖掘模型仿真分析[J].计算机仿真,2016,33(8):342-345. 被引量：2
6OPEN MIND的hyperMILL CAM解决方案获Autodesk的认证[J].CAD/CAM与制造业信息化,2014(1):5-5.
7宋旭东,朱文辉,邱占芝.大数据k-Means聚类挖掘优化算法[J].大连交通大学学报,2015,36(3):91-94. 被引量：6
8黄晨,董燕,王小丽,虞砺琨.基于表格的中断数据冲突静态分析方法[J].空间控制技术与应用,2016,42(5):57-62. 被引量：8
9熊小敏,周燕玲.PowerBuilder下实现菜单级别的权限控制[J].计算机与现代化,2003(12):90-91. 被引量：4
10吴良刚,周海涛.一种基于数理统计数据挖掘方法的研究[J].广西大学学报（自然科学版）,2002,27(1):69-70. 被引量：2

计算机技术与发展

2011年第8期

浏览历史

内容加载中请稍等...

基于树结构的MapReduce模型被引量：9

参考文献12

二级参考文献36

共引文献139

同被引文献75

引证文献9

二级引证文献32

相关作者

相关机构

相关主题

浏览历史

基于树结构的MapReduce模型 被引量：9

参考文献12

二级参考文献36

共引文献139

同被引文献75

引证文献9

二级引证文献32

相关作者

相关机构

相关主题

浏览历史

基于树结构的MapReduce模型被引量：9