基于Hive的计算结果特征提取与重用策略被引量：4

Calculation Results Characteristics Extract and Reuse Strategy Based on Hive

下载PDF

导出

摘要现有MapReduce工作流中作业之间需将计算结果物化到HDFS(Hadoop distributed file system),大量磁盘I/O导致其效率较低.基于现有代表性工作Hive,提取并保存MapReduce工作流产生计算结果的数据特征,提出一种计算结果匹配和重用策略.首先,根据查询条件定义连接图与连接体等结构,用于可复用计算结果的匹配.基于该结构,根据HiveQL(Hive query language)解析出的抽象语法树,提出生成查询语句连接体算法,并遍历候选连接体列表,给出最佳重用方案生成方法,包括单连接体重用和多连接体重用策略.进一步,为了增加计算结果的重用概率,提出多键选择、推迟算数运算和语义理解3种方法.最后,使用数据仓库基准测试数据集TPC-H和SSB进行实验,验证了所提出的重用计算结果以提高数据处理速度的有效性. Jobs in MapReduce workflow need to materialize intermediate data into HDFS（Hadoop distributed file system）,which causes a large amount of I/O overhead and low efficiency.Based on existing representative work Hive,this paper proposes a strategy to match and reuse the MapReduce calculation results by extracting and storing the characteristics of the results.Firstly,we define JoinGraph,Join-Object and other structures according to the query condition,which can be used to find reusable results.Based on the abstract syntax tree generated by HiveQL（Hive query language）parser,an algorithm is proposed to generate Join-Object of the query.Followed by traversing the candidate Join-Object list,an algorithm is provided to generate the best reuse solution including single Join-Object and multiple Join-Objects reuse.In addition,we provide three methods to increase the reuse probability,including multi-key selection,arithmetic delay and semantic understanding.Finally,we conduct the experiments using TPC-H and SSB benchmarks.The results show that the efficiency is improved by 28%-52% when reusing single Join-Object by TPC-H,while it is improved by up to 75% when reusing multiple Join-Objects,and the efficiency of all the 22 queries is improved by 15.7% on average.By SSB,the efficiency is improved by 40%to 76%,55% on average.

作者谢恒王梅乐嘉锦孙莉

机构地区东华大学计算机科学与技术学院

出处《计算机研究与发展》 EI CSCD 北大核心 2015年第9期2014-2024,共11页 Journal of Computer Research and Development

基金国家自然科学基金项目(61103046) 中央高校基本科研业务费专项东华大学"励志计划"(B201312)

关键词 MAPREDUCE Hive 计算结果重用连接体数据管理 MapReduce Hive calculation results reuse Join-Object data management

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献17

1郑柯.500TB-Facebook每天收集的数据量[DB/OL].[2014 -03-01]. http://www, infoq, com/cn/news/2012/OS/FB- collect 500TB-everyday).
2Dean J, Ghemawat S. MapReduce: Simplified data processing on large clusters [J]. Communications of the ACM, 2008, 51(1): 107-113.
3覃雄派,王会举,杜小勇,王珊.大数据分析——RDBMS与MapReduce的竞争与共生[J].软件学报,2012,23(1):32-45. 被引量：386
4Thusoo A, Sarma J S, Jain N, et al. Hive: A warehousing solution over a Map-Reduce framework[J]. Proceedings of the VLDB Endowment, 2009, 2(2): 1626-1629.
5Olston C, Reed B, Srivastava U, et al, Pig latin: A not-so- foreign language for data processing [C] //Proc of the 2008 ACM SIGMOD Int Conf on Management of Data. New York. ACM, 2008: 1099-1110.
6Apache Software Foundation. HDFS architecture guide [EB/OL].[ 2014-03-20]. http://hadoop, apache, org/docs/ rl. 2.1/hdfs_design. html.
7Halevy A Y. Answering queries using views: A survey [J]. The VLDB Journal, 2001, 10(4): 270-294.
8Elghandour I, Aboulnaga A. Restore: Reusing results of MapReduce jobs [J]. Proceedings of the VLDB EndowmeW., 2012, 5(6): 586-597.
9Transaction Processing Performance Council. TPC Benchmark H: Standard specification revision 2. 17. 0 [EB/ OL]. [2014-04-15]. http://www, tpc. org/tpch/spec/tpch2. 17.0. pdf.
10O'Neil P, O'Neil E J, Chen X. The star schema benchmark (SSB) [EB/OL]. [2014-03-14]. http://labs, inovia, fr/code/ pgbench/t runk/StarSchemaB, pdf.

二级参考文献86

1Zhou MQ, Zhang R, Zeng DD, Qian WN, Zhou AY. Join optimization in the MapReduce environment for column-wise data store. In: Fang YF, Huang ZX, eds. Proc. of the SKG. Ningbo: IEEE Computer Society, 2010.97-104. [doi: 10.1109/SKG.2010.18].
2Afrati FN, Ullman JD. Optimizing joins in a Map-Reduce environment. In: Manolescu I, Spaecapietra S, Teubner J, Kitsuregawa M, Leger A, Naumann F, Ailamaki A, Ozcan F, eds. Proc. of the EDBT. Lausanne: ACM Press, 2010. 99-110. [doi: 10.1145/ 1739041.1739056].
3Sandholm T, Lai K. MapReduce optimization using regulated dynamic prioritization. In: Douceur JR, Greenberg AG, Bonald T, Nieh J, eds. Proc. of the SIGMETRICS. Seattle: ACM Press, 2009. 299-310. [doi: 10.1145/1555349.1555384].
4Hoefler T, Lumsdaine A, Dongarra J. Towards; efficient MapReduce using MPI. In: Oster P, ed. Proc. of the EuroPVM/MPI. Berlin: Springer-Verlag, 2009. 240-249. [doi: 10.100'7/978-3-642-03770-2_30].
5Nykiel T, Potamias M, Mishra C, Kollios G, Koudas N. MRShare: Sharing across multiple queries in MapReduce. PVLDB, 2010, 3(1-2):494-505.
6Kambatla K, Rapolu N, Jagannathan S, Grama A. Asynchronous algorithms in MapReduce. In: Moreira JE, Matsuoka S, Pakin S, Cortes T, eds. Proc. of the CLUSTER. Crete: IEEE Press, 2010. 245-254. [doi: 10.1109/CLUSTER.2010.30].
7Polo J, Carrera D, Becerra Y, Torres J, Ayguad6 E, Steinder M, Whalley I. Performance-Driven task co-scheduling for MapReduce environments. In: Tonouchi T, Kim MS, eds. Proc. of the 1EEE Network Operations and Management Symp. (NOMS). Osaka: IEEE Press, 2010. 373-380. [doi: 10.1109/NOMS.2010.5488494].
8Zaharia M, Konwinski A, Joseph AD, Katz R, Stoica I. Improving MapReduce performance in heterogeneous environments. In: Draves R, van Renesse R, eds. Proc. of the ODSI. Berkeley: USENIX Association, 2008.29-42.
9Xie J, Yin S, Ruan XJ, Ding ZY, Tian Y, Majors J, Manzanares A, Qin X. Improving MapReduce performance through data placement in heterogeneous Hadoop clusters. In: Taufer M, Rfinger G, Du ZH, eds. Proc. of the Workshop on Heterogeneity in Computing (IPDPS 2010). Atlanta: IEEE Press, 2010. 1-9. [doi: 10.1109/IPDPSW.2010.5470880].
10Polo J, Carrera D, Becerra Y, Beltran V, Torres J, Ayguad6 E. Performance management of accelerated MapReduce workloads in heterogeneous clusters. In: Qin F, Barolli L, Cho SY, eds. Proc. of the ICPP. San Diego: IEEE Press, 2010. 653-662. [doi: 10.1109/ ICPP.2010.73].

共引文献411

1郑智泉,杨楠.智能革命下数据驱动的智慧图书馆建设分析[J].智能计算机与应用,2020(8):183-185.
2谢月锋,董现垒,陈卉,王燕,刘志成.利用网络痕迹信息即时预测儿童腹泻流行趋势[J].医学信息（医学与计算机应用）,2016,29(29):1-4.
3董新华,李瑞轩,周湾湾,王聪,薛正元,廖东杰.Hadoop系统性能优化与功能增强综述[J].计算机研究与发展,2013,50(S2):1-15. 被引量：70
4邓波,张玉超,金松昌,林旺群.基于MapReduce并行架构的大数据社会网络社团挖掘方法[J].计算机研究与发展,2013,50(S2):187-195. 被引量：10
5马宾.一种改进的并行K_近邻网络舆情分类算法研究[J].微电子学与计算机,2015,32(6):62-66. 被引量：1
6樊伟红,李晨晖,张兴旺,秦晓珠,郭自宽.图书馆需要怎样的“大数据”[J].图书馆杂志,2012,31(11):63-68. 被引量：238
7于薇.“大数据”背景下的信息处理技术分析与研究[J].数字图书馆论坛,2012(11):6-11. 被引量：3
8向剑平,乔少杰,胡剑.WMB*:一种提高大数据上软件执行效率改进算法[J].内江师范学院学报,2012,27(12):24-28. 被引量：4
9徐翔,邹复民,廖律超,朱铨.基于GemFire的海量数据计算性能实验分析[J].计算机应用,2013,33(1):226-229. 被引量：5
10黄晓斌,钟辉新.大数据时代企业竞争情报研究的创新与发展[J].图书与情报,2012(6):9-14. 被引量：120

同被引文献23

1崔杰,李陶深,兰红星.基于Hadoop的海量数据存储平台设计与开发[J].计算机研究与发展,2012,49(S1):12-18. 被引量：141
2张引,陈敏,廖小飞.大数据应用的现状与展望[J].计算机研究与发展,2013,50(S2):216-233. 被引量：377
3何莘,王琬芜.自然语言检索中的中文分词技术研究进展及应用[J].情报科学,2008,26(5):787-791. 被引量：25
4徐乾,鄂跃鹏,葛敬国,钱华林.深度包检测中一种高效的正则表达式压缩算法[J].软件学报,2009,20(8):2214-2226. 被引量：28
5于飞,丁华福,姜伦.Web日志挖掘中数据预处理技术的研究[J].计算机技术与发展,2010,20(5):47-50. 被引量：9
6胡细平.业务驱动型信息分析平台研究[J].信息化研究,2010,36(9):46-49. 被引量：1
7程莹,张云勇,徐雷,房秉毅.基于Hadoop及关系型数据库的海量数据分析研究[J].电信科学,2010,26(11):47-50. 被引量：29
8刘永增,张晓景,李先毅.基于Hadoop/Hive的web日志分析系统的设计[J].广西大学学报（自然科学版）,2011,36(A01):314-317. 被引量：24
9陈勇.大数据及其商业价值[J].通信与信息技术,2013(1):59-60. 被引量：8
10董振江,王雪,胡洁,华宇.一种多层次的云平台安全解决方案[J].电子技术应用,2013,39(4):133-136. 被引量：5

引证文献4

1胡锐.基于Hadoop的高校档案管理存储系统研究[J].无线互联科技,2016,13(18):114-115. 被引量：1
2梁满,周传生.基于Presto海量日志分析系统的设计[J].黑龙江科技信息,2017(1):162-163. 被引量：2
3范孟可,王攀.基于Hadoop的固网宽带终端识别技术研究和实现[J].计算机技术与发展,2017,27(11):171-175. 被引量：2
4滕飞.基于Spring MVC的大数据交易集市平台[J].计算机系统应用,2022,31(3):85-94. 被引量：4

二级引证文献9

1汤桂清,孙玲玲,陈艳辉.网络环境下的档案数据储存安全管理及其构建分析[J].网络安全技术与应用,2017(2):82-83. 被引量：1
2王燕,丁海,吕东芳,徐佳琪.运营商定制家庭网关终端全网通的研究和实现[J].邮电设计技术,2018(3):12-15.
3张晓瑞,纪陵,檀庭方,刘文彪,王冬霞.智能变电站二次设备在线故障运维平台架构研究[J].华电技术,2019,41(2):1-5. 被引量：13
4刘伟国.以太无源光网络技术在区域宽带网络中的应用[J].科学与信息化,2018,0(13):12-12.
5赵梓皓,景波,单诚,季豪.基于SSM的校园常态化防控管理信息系统研究与设计[J].软件,2022,43(8):160-166.
6马东玲,陈星彤,任永强,杜伟松,李少天,王妍.基于WebGIS的中医药文化学习系统设计与实现[J].华北理工大学学报（自然科学版）,2022,44(4):96-102.
7聂超,王一平,常建,苟晓璐.基于大数据技术的青岛港集装箱中转业务全流程分析系统[J].集装箱化,2023,34(3):15-17. 被引量：3
8陈任,郗玄,金炜砚,卢昱宁,田静.模拟信笺网站的设计与实现[J].电脑编程技巧与维护,2023(6):31-34.
9叶露,潘立,丁昱尹.数据资产质量评价及价值评估技术研究进展[J].中国资产评估,2023(8):50-59. 被引量：4

1余盼攀,蒋涛.约束的Top-k控制查询算法[J].福建电脑,2015,31(10):10-12.
2武守飞,潘晓弘.面向大批量定制的设计重用策略与应用[J].农业机械学报,2009,40(1):189-193. 被引量：3
3唐培和,王日凤,刘浩.复杂立方体聚集依赖及其查询技术[J].计算机工程与设计,2008,29(16):4377-4379.
4李玲娟,毕瑞英.网格环境中基于元数据节点的资源发现方法[J].西安邮电学院学报,2008,13(1):91-94. 被引量：3
5买买提热依木.阿布力孜,帕孜来提.马合木提.区间数及在控制系统中的应用[J].新疆大学学报（自然科学版）,2005,22(2):224-227.
6曹冬生,王强军,张元忠,王晓明.基于类比的软件成本估算及其一种改进方法[J].计算机工程与科学,2009,31(5):102-106. 被引量：6
7王旭,武继刚,侯睿.树形网络中的副本更新策略及算法[J].计算机工程与科学,2015,37(3):440-445.
8尹晓霈,张博,李丹.基于领域本体的垃圾邮件过滤器的研究[J].自动化仪表,2008,29(8):1-4.
9张博,聂规划.基于拓扑图形的服务知识重用策略研究[J].计算机工程与设计,2010,31(7):1503-1505.
10王琪,廖文和.支持变型设计的重用策略研究[J].盐城工学院学报（自然科学版）,2005,18(4):1-4.

计算机研究与发展

2015年第9期

浏览历史

内容加载中请稍等...

基于Hive的计算结果特征提取与重用策略被引量：4

参考文献17

二级参考文献86

共引文献411

同被引文献23

引证文献4

二级引证文献9

相关作者

相关机构

相关主题

浏览历史

基于Hive的计算结果特征提取与重用策略 被引量：4

参考文献17

二级参考文献86

共引文献411

同被引文献23

引证文献4

二级引证文献9

相关作者

相关机构

相关主题

浏览历史

基于Hive的计算结果特征提取与重用策略被引量：4