基于Hadoop平台的改进关联规则挖掘算法被引量：15

Improved Association Rule Mining Algorithm Based on Hadoop Platform

下载PDF

导出

摘要数据采集方式的增多导致单处理器下的关联规则挖掘受到I/O和内存的限制。针对该问题,对传统挖掘算法进行改进。借助Hadoop平台的优势,通过累加迭代的方法降低算法的时间复杂度,并利用MapReduce编程特点,通过一次遍历和MapReduce任务调度完成频繁项集挖掘,在强关联挖掘中通过Sqoop组件将外部表Hive中的数据迁移到Redis,实现数据的高速读取。实验结果表明,该方法可有效提高挖掘效率,提高幅度随数据集规模同步增大,并且具有较好的加速比和扩展性。 Development of ways for data acquisition leads to limit of traditional association rule mining by I/O and memory. Aiming at this problem, this paper puts forward an improved method, which uses advantages of the Hadoop platform,reduces the time complexity of the algorithm by incremental iterative method, and makes full use of the features of MapReduce programming. It completes the frequent itemset mining through traverse and MapReduce task scheduling, which improves the efficiency of processing. In the mining of strong association, with the help of Sqoop, the external tables are migrated from Hive to Redis, which makes the data read more efficient. Experimental results show that the proposed method can improve processing efficiency. With the data increasing, the advance becomes more obvious, and improved algorithm also has better speedup and scalability, which is able to quickly mine the association rules in large data.

作者王英博马菁柴佳佳赵彬

机构地区辽宁工程技术大学软件学院

出处《计算机工程》 CAS CSCD 北大核心 2016年第10期69-74,79,共7页 Computer Engineering

关键词 HADOOP平台 MapReduce编程关联规则大数据数据挖掘 Hadoop platform MapReduce programming association rule big data data mining

分类号 TP338.6 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献16

1Han Jiawei, Pei Jian, Yin Yiwen. Mining Frequent Patterns Without Candidate Generation [ C ]//Proceed- ings of ACM SIGMOD International Conference on Management of Data. New York, USA: ACM Press, 2000 : 1-12.
2Agrawal R, Imielinki T, Swami A. Mining Association Rules Between Sets of Items in Large Database [ C ]// Proceedings of ACM SIGMOD International Conference on Management of Data. New York, USA : ACM Press, 1993:207-216.
3Borthakur D, Gray J, Sarma J S, et al. Aiyer: Apache Hadoop Goes Realtime at Facebook [ C ]//Proceedings of the 38th ACM SIGMOD International Conference on Management of Data. New York, USA: ACM Press, 2011 : 1071-1080.
4王智钢,王池社,马青霞.分布式并行关联规则挖掘算法研究[J].计算机应用与软件,2013,30(10):113-115. 被引量：13
5Nguyen D,Vo B, Le B. Efficient Strategies for Parallel Mining Class Association Rules [ J ]. Expert Systems with Applications ,2014,41 (10) :4716-4729.
6陆嘉恒.Hadoop实践[M].北京:机械工业出版社,2012.
7Lu Bingliang,Wei Shuchao. One More Efficient Parallel Initialization Algorithm of K-means with MapReduce [C]// Proceedings of the 4th International Conference on Computer Engineering and Networks. Berlin, Germany: Springer, 2014 : 845 -852.
8Mukhopadhyay D, Agrawal C, Maru D,et al. Addressing Name Node Scalability Issue in Hadoop Distributed File System Using Cache Approach [ C ]//Proceedings of 2014 International Conference on Information Technology. Washington D. C. ,USA:IEEE Press,2014:321-326.
9Yang Xinyue, Zhen Liu, Fu Yan. MapReduce as a Programming Model for Association Rules Algorithm on Hadoop [C ]//Proceedings of the 3rd International Conference on Information Sciences and Interaction Sciences. Washington D. C. , USA: IEEE Press, 2010: 99-102.
10杨勇,高松松.基于MapReduce的关联规则并行增量更新算法[J].重庆邮电大学学报（自然科学版）,2014,26(5):670-678. 被引量：10

二级参考文献23

1谈克林,孙志挥.一种FP树的并行挖掘算法[J].计算机工程与应用,2006,42(13):155-157. 被引量：10
2Agrawal R, Imielinski T, Swami A. Mining association rules between sets of items in large databases [ C ]//Proceedings of ACM SIGMOD In- ternational Conference on Management of Date, 1993:207 - 216.
3Agrawal R, Srikant R. Fast algorithms for mining association rules [C]//Proceedings of the 1994 International Conference on Very Large Data Bases, 1994:487 - 499.
4Han J, Pei J, Yin Y. Mining Frequent Patterns Without Candidate Gen- eration[ C]//Proceedings of ACM SIGMOD International Conference on Management of Data,2000 : 1 - 12.
5Pramudiono I, Kitsuregawa M. Parallel FP-Growth on PC cluster[ C ]// Proceedings of International Conference on Internet Computing,2003 : 467 - 473.
6Zaiane O R, Mohammad E H, Lu P. Fast parallel association rule mining without candidacy generation[ C]//Proceedings of 1st IEEE International Conference on Data Mining,2001 : 665 - 668.
7Liu L, Li E, Zhang Y, et al. Optimization of frequent item-set mining on multiple-core processors [ C ]//Proceedings of 33 rd International Con- ference on Very Large Data Bases,2007:1275-1285.
8Hand D J. Principles of data mining[J]. Drug safety, 2007,30(7):621-622.
9Hadoop. Open Source of Implementation of Hadoop [DB/OL]. [2013-06-25]. http://hadoop, apache, org.
10Armbrust M, Fox A, Griffith R, et al. A view of cloud computing. Communications of ACM, 2010,53 (4) :50-58.

共引文献21

1万宝秀,王智钢,顾芸涵,陈珠.云计算下的网络通信分析[J].科技资讯,2014,12(4):68-69.
2俞雯亮,王智钢,顾芸菡,马佳依.关联规则在超市购物系统中的应用[J].电脑与信息技术,2014,22(2):11-13.
3穆俊.基于云平台的并行关联规则挖掘算法分析[J].现代电子技术,2015,38(11):123-125. 被引量：7
4丛颖,刘其成,张伟.一种基于Apriori的微博推荐并行算法[J].计算机应用与软件,2015,32(8):229-233. 被引量：2
5王智钢,李广水.基于云计算的并行关联规则挖掘[J].金陵科技学院学报,2015,31(3):12-15.
6杨向荣,王希武.基于规则约束的并行FP-Growth算法研究[J].计算机与数字工程,2015,43(11):1933-1936. 被引量：2
7方向,张功萱.基于Spark的PFP-Growth并行算法优化实现[J].现代电子技术,2016,39(8):9-13. 被引量：6
8汪峰坤,张婷婷.一种改进的关联规则并行算法[J].重庆工商大学学报（自然科学版）,2016,33(3):47-50. 被引量：2
9朱文飞,齐建东,洪剑珂.Hadoop下负载均衡的频繁项集挖掘算法研究[J].计算机应用与软件,2016,33(5):35-39. 被引量：4
10周斌,徐文胜.动车组故障诊断知识挖掘中改进的并行频繁模式增长算法[J].计算机集成制造系统,2016,22(10):2450-2457. 被引量：4

同被引文献159

1董新华,李瑞轩,周湾湾,王聪,薛正元,廖东杰.Hadoop系统性能优化与功能增强综述[J].计算机研究与发展,2013,50(S2):1-15. 被引量：70
2尹国有.民族民间文化资源引入高等美术教育实践[J].贵州民族学院学报（哲学社会科学版）,2007(4):124-126. 被引量：5
3何军,刘红岩,杜小勇.挖掘多关系关联规则[J].软件学报,2007,18(11):2752-2765. 被引量：38
4许海玲,吴潇,李晓东,阎保平.互联网推荐系统比较研究[J].软件学报,2009,20(2):350-362. 被引量：542
5张朝晖,陆玉昌,张钹.发掘多值属性的关联规则[J].软件学报,1998,9(11):801-805. 被引量：61
6栾亚建,黄翀民,龚高晟,赵铁柱.Hadoop平台的性能优化研究[J].计算机工程,2010,36(14):262-263. 被引量：51
7程群.美国网络安全战略分析[J].太平洋学报,2010,18(7):72-82. 被引量：20
8姜丽莉,孟凡荣,周勇.多值属性关联规则挖掘的Q-Apriori算法[J].计算机工程,2011,37(9):81-83. 被引量：9
9程苗,陈华平.基于Hadoop的Web日志挖掘[J].计算机工程,2011,37(11):37-39. 被引量：64
10刘永增,张晓景,李先毅.基于Hadoop/Hive的web日志分析系统的设计[J].广西大学学报（自然科学版）,2011,36(A01):314-317. 被引量：24

引证文献15

1齐娇娇.基于改进Apriori算法的运动员多属性训练数据挖掘模型构建及仿真[J].微型电脑应用,2018,34(12):137-139. 被引量：5
2罗新.基于Hadoop的陶瓷行业信息聚合平台设计[J].软件导刊,2017,16(12):128-130.
3聂捷楠.大规模数据库中非显著特征动态数据实时挖掘技术[J].科学技术与工程,2018,18(21):252-257. 被引量：3
4温荣坤.基于偏微积分分类数学模型的关联挖掘改进技术[J].现代电子技术,2018,41(13):95-99. 被引量：1
5姜丽莉,黄承宁.多关系关联规则挖掘在考勤数据分析中的应用[J].电脑知识与技术,2018,14(12X):3-4. 被引量：1
6姜丽莉,黄承宁.关联规则挖掘在酒店经营数据分析中的应用[J].福建电脑,2019,35(1):51-53.
7刘云玉,刘彦.基于云平台的民族民间文化资源的存储研究[J].科技视界,2019(1):86-88.
8李文航,余恒奇.基于Hadoop平台的数据分析和应用[J].微型电脑应用,2019,35(11):134-136. 被引量：1
9彭新宇,李丛煊,郭金盈,赫彦文.基于关联规则的Apriori改进算法的研究综述[J].电脑知识与技术,2019,15(12):216-217. 被引量：6
10张兰兰.云计算下公共图书馆资源整合共享仿真研究[J].计算机仿真,2020,37(5):416-419. 被引量：3

二级引证文献44

1AnneHudsonJones.医学与文学的传统及创新[J].医学与哲学,2000,21(5):59-61. 被引量：12
2陈星灿,徐冰.KNN数据挖掘算法在霾等级预报中的应用[J].电脑知识与技术,2019,15(3X):3-4.
3尹玉娇,张伟.一种基于图数据库的虚拟身份关系挖掘算法[J].软件导刊,2020,19(1):117-122. 被引量：2
4刘凯铭,王洪亮,石兵波,钱育蓉.基于Hadoop的油气水井生产大数据分析与应用[J].科学技术与工程,2020,20(11):4464-4471. 被引量：8
5俞泓波,苟海昕,刘苗苗,吴弢.基于关联规则探讨膝关节创伤性滑膜炎外用中药的研究[J].老年医学与保健,2020,26(5):888-891. 被引量：9
6职晓晓.基于深度学习的大规模数据库重复记录删除研究[J].现代电子技术,2021,44(5):114-116. 被引量：2
7王华满.基于数据挖掘技术的体育训练模式决策支持系统设计及应用[J].电子设计工程,2021,29(5):114-117. 被引量：3
8陈翠娟.基于关联分析的计算机软件数据挖掘技术[J].安阳师范学院学报,2021(2):28-31. 被引量：6
9李攀,刘庆杰,周兆军,刘颖,李寒莉.大数据技术的震后救援信息处理平台研制与应用[J].科学技术与工程,2021,21(15):6154-6164. 被引量：2
10董亮,阚新生,邓国如,徐杰,袁慧.短期电力负荷预测的时间序列数据深度挖掘模型设计[J].能源与环保,2021,43(6):207-212. 被引量：6

1胡爱娜,蔡晓艳.基于MapReduce的分布式期望最大化算法[J].科学技术与工程,2013,21(16):4603-4606. 被引量：4
2徐正巧,赵德伟.基于MapReduce的网络日志分析系统[J].电脑编程技巧与维护,2015(10):89-90. 被引量：1
3王会颖,倪志伟,吴昊.求解多维背包问题的MapReduce蚁群优化算法[J].计算机工程,2013,39(4):248-253. 被引量：10
4李晓飞.云计算环境下Apriori算法的MapReduce并行化[J].长春工业大学学报,2013,34(6):736-740. 被引量：3
5王瑞,梁华,蔡宣平.基于GPU的SIFT特征提取算法研究[J].现代电子技术,2010,33(15):41-43. 被引量：16
6孟锦,杨竞帆.计算机网络信息安全及防护策略研究[J].通讯世界,2016,0(3):81-81.
7郑远飞,陈晓升,王志文,陈坚旋,陈珂.一种改进PageRank的微博用户影响力计算方法[J].广东石油化工学院学报,2016,26(3):46-50.
8马汉达,郝晓宇,马仁庆.基于Hadoop的并行PSO-kmeans算法实现Web日志挖掘[J].计算机科学,2015,42(S1):470-473. 被引量：13
9Tiankai Tu Charles.一种用于分析万亿次计算规模的分子动态轨道的可扩展并行框架[J].中国教育网络,2009(1):31-31.
10DIM攒机实战:风冷同样可以做到噪音、温度和性能的平衡“冷酷”与“火热”各有所取[J].新电脑,2005(5):150-155.

计算机工程

2016年第10期

浏览历史

内容加载中请稍等...

基于Hadoop平台的改进关联规则挖掘算法被引量：15

参考文献16

二级参考文献23

共引文献21

同被引文献159

引证文献15

二级引证文献44

相关作者

相关机构

相关主题

浏览历史

基于Hadoop平台的改进关联规则挖掘算法 被引量：15

参考文献16

二级参考文献23

共引文献21

同被引文献159

引证文献15

二级引证文献44

相关作者

相关机构

相关主题

浏览历史

基于Hadoop平台的改进关联规则挖掘算法被引量：15