SDD-1改进算法在Hive中应用被引量：7

SDD-1 Improved Algorithm Used in Hive

下载PDF

导出

摘要针对Hive在处理连接查询时所存在的执行时间长和带宽资源消耗大等问题,提出了一种基于数据预处理和双半连接的SDD-1改进算法.首先,引入预处理技术,在各分布节点对原始数据进行归并排序,以减少汇聚节点的数据映射次数,加快数据处理执行速度;其次,采用基于行和列的双半连接技术,进一步缩减在不同节点间的数据传输量,减少带宽资源消耗.仿真实验表明,相比原始的Hive连接算法,改进算法在元组数达到5 000和8 000时,可使查询速度提升10%,有效缩短查询的处理和响应时间,该改进算法可方便地应用到其他云计算平台上. To solove the existence of the long execution time and bandwidth resource consumption and other issues when dealing with queries in Hive system, this paper presented based on data preprocessing and double half connected SDD-1 improved algorithm. Firstly, the introduction of pre-processing technology, the distribution of nodes in each merge sort the raw data in order to reduce the number of data aggregation node mapping, speed up data processing speed of execution; Secondly, the use of semi-connection technology based on double rows and columns, and further reduction in different data transfer between nodes, reducing bandwidth consumption. The simulation results show that, compared to the original Hive join algorithm, the improved algorithm in the number of tuples to 5 000 and 8 000, can make the query speed increased by 10 %, shorten the processing and query response time, application of the improved algorithm can be convenient to other cloud computing platform.

作者王宝进吴淑跃薛娟

机构地区江苏大学计算机科学与通讯工程学院江苏省交通技师学院电气与信息工程系

出处《湘潭大学自然科学学报》 CAS 北大核心 2014年第4期77-82,共6页 Natural Science Journal of Xiangtan University

基金国家自然科学基金项目(61072002)

关键词数据预处理双半连接 SDD-1改进算法 data pre-processing double half connected SDD-1 improved algorithm

分类号 TP323 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献5

1赵彦荣,王伟平,孟丹,张书彬,李均.基于Hadoop的高效连接查询处理算法CHMJ[J].软件学报,2012,23(8):2032-2041. 被引量：36
2YANG H C, DASDAN A, HSIAO RL, et al. Map-Reduce-Merge:simplified relational data processing on large cluster[C]//Proc of the SIGMOD 2007. 2007:1 029-1 040.
3LAMMEL R. Google' s MapReduce programming model revisited[J]. Science Computer Program, 2008,70 ( 1 ) : 1 - 30.
4THUSOO A, SARMA J S, JAIN N, et al. Hive: A warehousing solution over a map-reduce framework[J]. Proc of the VLDB Endowment, 2009,2(2) :1 626-1 627.
5SYAM M. Allocating fragments in distributed databasesFJ3. IEEE Transactions on Parallel and Distributed Systems,2005,16: 577 -585.

二级参考文献20

1Ghemawat S, Gobioff H, Leung ST. The Google file system. In: Proc. of the SOSP 2003. 2003.20-43. [doi: 10.1145/1165389. 945450].
2Dean J, Ghemawat S. MapReduce: Simplified data processing on large clusters. In: Proc. of the OSDI 2004. 2004. 137-150. [doi: 10.1145/1327452.1327492].
3Yang HC, Dasdan A, Hsiao RL, Parker DS. Map-Reduce-Merge: Simplified relational data processing on large cluster. In: Proc. of the SIGMOD 2007. 2007. 1029-1040. [doi: 10.1145/1247480.1247602].
4Lammel R. Google's MapReduce programming model Revisited. Science Computer Program, 2008,70(1):1-30. [doi: 10.1016/ j .scico .2007.07.001 ].
5Thusoo A, Sarma JS, Jain N, Shao Z, Chakka P, Anthony S, Liu H, Wyckoff P, Murthy R. Hi:ce: A warehousing solution over a map-reduce framework. Proc. of the VLDB Endowment, 2009,2(2): 1626-1627.
6Thusoo A, Sarma JS, Jain N, Shao Z, Chakka P, Zhang N, Antony S, Liu H, Murthy R. Hive--A petabyte scale data warehouse using Hadoop data engineering. In: Proc. of the ICDE. 2010. 996-1005. [doi: 10.1109/ICDE.2010.5447738].
7Olston C, Reed B, Sirvastava U, Kumar R, Tomkins A. Pig Latin: A not-so-foreign language for data processing. In: Proc. of the SIGMOD. 2008. 1099-1110. [doi: 10.1145/1376616.1376726].
8White T. Hadoop: The Definitive Guide. O'Reilly, 2009.
9Apache Hadoop. http://hadoop.apache.org/.
10Murty J. Programming Amazon Web Services: S3, EC2, SQS, FPS, and SimpleDB. O'Reilly, 2008.

共引文献35

1郭宁,张新.一致性哈希算法在多处理机进程分配的应用[J].计算机与现代化,2013(9):71-74. 被引量：5
2朱潜,吴辰铌,朱志良,刘洪娟.Hadoop云平台下Nutch中文分词的研究与实现[J].小型微型计算机系统,2013,34(12):2772-2776. 被引量：5
3杨苗苗,李跃辉,刘静,许静.基于云平台的电信数据仓库文件备份和分布动态调整算法[J].南京邮电大学学报（自然科学版）,2014,34(1):111-115.
4王永贵,李鸿绪,宋晓.MapReduce模型下的并行线性时间选择算法研究[J].计算机工程与设计,2014,35(4):1242-1246. 被引量：2
5周文琼,王乐球,叶玫.云环境下Hadoop平台的作业调度算法[J].计算机系统应用,2014,23(5):177-181. 被引量：1
6代亮,陈婷,许宏科,钱超,梁殿鹏.大数据测试技术研究[J].计算机应用研究,2014,31(6):1606-1611. 被引量：23
7孙小雁.云存储技术及其发展[J].玉林师范学院学报,2014,35(2):136-140. 被引量：2
8何涛,刘强,郑泽忠,刘帅.基于MapRedue的大规模矢量空间数据选择查询处理[J].科技创新导报,2014,11(9):193-194. 被引量：2
9张桂刚.一种大数据放置方法[J].计算机科学,2014,41(6):1-4. 被引量：3
10王永贵,李鸿绪,宋晓.MapReduce模型下的模糊C均值算法研究[J].计算机工程,2014,40(10):47-51. 被引量：10

同被引文献48

1LIU X, LI Z, LI W, et al. Exploring social properties in ve-hicular ad hoc networks [C]// Proceedings of the FourthAsia-Pacific Symposium on Internetware. New York, USA:ACM Press. 2012: 1-7.
2GAO W, CAO G H, LA PORTA T, et al. On ExploitingTransient Social Contact Patterns for Data Forwarding inDelay-Tolerant Networks [J]. IEEE Transactions on MobileComputing, 2013, 12(1): 151-165.
3赵太飞,王文科,刘龙.WDM光网络中一种优先共享通路保护算法[J].激光技术,2012,36(3):408-412. 被引量：19
4黄向党,羊秋玲,金志刚.无线Mesh网络延迟及丢包控制机制研究[J].湘潭大学自然科学学报,2013,35(3):95-101. 被引量：6
5谭家杰,邹常青.室内多环LED的信道特性分析[J].系统仿真学报,2013,25(12):2906-2911. 被引量：8
6李艳婷,张红伟,师星辰,郑传涛,王一丁.离散多音调制可见光信道非线性失真及参数优化[J].光电子．激光,2014,25(1):82-88. 被引量：22
7王瑞,马艳.基于分数阶傅里叶变换的线性调频脉冲信号波达方向估计[J].兵工学报,2014,35(3):421-427. 被引量：46
8杨波,王志洁.基于PTRM与DS技术通信均衡性能研究[J].科技通报,2014,30(2):212-214. 被引量：14
9赵曦,李颖,黄翰.基于逻辑自映射的变尺度Henon搜索蜂群算法[J].科技通报,2014,30(6):197-199. 被引量：3
10严海芳,蒋卉,张文权.用MCEM加速算法估计多序列无根树最优分支长度[J].湘潭大学自然科学学报,2014,36(2):13-16. 被引量：6

引证文献7

1卢瑛,周树林,林旭东,别雄波.基于光纤传输的大数据均衡合理调度模型设计[J].激光杂志,2019,40(1):140-144. 被引量：11
2李瑞斋,李义华.基于灰色(1,1)模型的近场源高阶特征估计[J].湘潭大学自然科学学报,2015,37(3):101-106.
3臧华中,张健,刘定一.基于互信息加权控制的网络路由分层扩频算法[J].科技通报,2015,31(12):196-198. 被引量：1
4陈英,胡玥.基于信号盲分离的通信信道干扰抑制算法[J].科学技术与工程,2016,16(21):255-260. 被引量：1
5高丽.大跨度运动中肢体摆动幅度的视觉判断[J].现代电子技术,2017,40(7):67-70.
6武海龙,武海艳.云计算光纤网络中大数据异常负载检测模型[J].激光杂志,2019,40(6):207-211. 被引量：6
7耿向晖.水利工程环境污染应急危险指数检测方法研究[J].环境科学与管理,2019,44(7):131-134.

二级引证文献19

1龙草芳.一种激光网络中的节点拓扑结构分布方法设计[J].激光杂志,2017,38(11):126-129. 被引量：3
2吴军英,王新颖,常永娟,孙思思.窄带干扰下自组织网络通信中自适应非线性滤波方法研究[J].科学技术与工程,2018,18(2):99-104. 被引量：5
3刘芳.基于网络通信数据动态迁移安全增强方法研究[J].新一代信息技术,2019,2(19):74-78.
4邱英泽,黎作明.清远供电局光纤传输网络组网思路探讨[J].电力系统装备,2020(16):55-56.
5冯乔.基于超球面支持向量机的传感器网络数据异常检测分析[J].微型电脑应用,2020,36(10):174-176. 被引量：1
6陈义召.基于网络通信的光纤、光缆传输系统的设计[J].科技创新与应用,2021(2):112-114. 被引量：1
7杨迎,李慧颖.基于Python网络编码技术的数据链路层ARP攻击行为研究[J].软件,2020,41(12):185-188. 被引量：2
8杨小琴,陈安婕,王剑.基于信息大数据融合的网络通信信号传输效率模型研究[J].数字技术与应用,2021,39(3):31-33. 被引量：4
9张继飞,赵玉超,张春红.基于深度强化学习的物联网传输数据实时调度方法[J].通信电源技术,2021,38(3):111-113. 被引量：2
10王辰阳,李汉宁,李恒武.基于大数据计算的网络工程虚拟单元多点控制系统设计[J].现代电子技术,2021,44(15):44-48.

1李川.SDD-1算法的研究与改进[J].西安航空技术高等专科学校学报,2012,30(5):68-70. 被引量：1
2谢旭升,陈复兴.基于并行的SDD-1算法的改进[J].山西大学学报（自然科学版）,2013,36(3):338-343. 被引量：1
3蒋然.基于小生境遗传算法的SDD-1分布式查询优化算法[J].计算机与数字工程,2016,44(11):2131-2134.
4曹渠江,刘罡.改进的分布式数据查询算法研究和实现[J].上海理工大学学报,2008,30(4):405-408.
5聂林娣.分布式数据库查询优化策略研究[J].电脑知识与技术,2006(6):5-6. 被引量：4
6马长安.一种分布式信息监控系统的设计[J].安徽电子信息职业技术学院学报,2007,6(4):89-89.
7孙昌霞,车银超,郭玉峰,庞晓丹,马新明,张龙龙.基于安全策略的分布式农产品数字认证[J].河南农业大学学报,2011,45(2):236-240.
8刘放美,王猛.分布式查询优化算法及对SDD-1算法的改进[J].科技广场,2005(2):84-88. 被引量：2
9李涵,吴秋新,王小妮.基于分簇的无线传感器网络多跳路由算法[J].计算机科学,2014,41(S1):252-254. 被引量：2
10刘立新,王永平.基于有序对的不确定XML小枝模式查询算法[J].计算机与数字工程,2017,45(3):492-497.

湘潭大学自然科学学报

2014年第4期

浏览历史

内容加载中请稍等...

SDD-1改进算法在Hive中应用被引量：7

参考文献5

二级参考文献20

共引文献35

同被引文献48

引证文献7

二级引证文献19

相关作者

相关机构

相关主题

浏览历史

SDD-1改进算法在Hive中应用 被引量：7

参考文献5

二级参考文献20

共引文献35

同被引文献48

引证文献7

二级引证文献19

相关作者

相关机构

相关主题

浏览历史

SDD-1改进算法在Hive中应用被引量：7