Spark平台的分布式阶段自适应关联规则挖掘算法被引量：5

Distributed Stage Adaptive Association Rules Mining Algorithm Based on Spark

下载PDF

导出

摘要为满足日益增长的海量数据挖掘需求,迫切需要设计一种能够在多台机器上运行的分布式关联规则挖掘算法。Apriori这种高度迭代算法在Hadoop平台上运行时每次迭代执行大量的磁盘I/O操作,大大影响并限制了算法的运行效率。本文利用Spark对分布式计算内置支持的特点,在Spark平台上设计并实现一种分布式关联规则挖掘算法,称为阶段式自适应挖掘算法(Staged Adaptive Apriori)。算法使用自适应的数据集部分处理的策略对频繁项集进行高效挖掘,在每次迭代前初步评估执行时间,并采用较为合适的方法来减少时间和空间的复杂性,是一种基于数据集性质的自适应关联规则挖掘算法。实验结果表明了算法的有效性。 In order to meet the growing demand for massive data mining,it is urgent to design a distributed association rule mining algorithm that can run on multiple machines.Apriori is a highly iterative algorithm that performs a large number of disk I/O operations per iteration when running on the Hadoop platform,greatly affecting and limiting the efficiency of the algorithm.This paper uses Spark to support the characteristics of memory distribution calculation and designs and implements a distributed association rule mining algorithm called Staged Adaptive Apriori on the Spark platform.The algorithm uses the adaptive data set partial processing strategy to efficiently mine frequent itemsets.The algorithm initially evaluates the execution time before each iteration,and adopts a more appropriate method to reduce the complexity of time and space.It is an adaptive association rule mining algorithm based on the nature of data sets.The experimental results demonstrate the effectiveness of the algorithm.

作者石慧陈恩 SHI Hui;CHEN En(Department of Information Engineering,Shanwei Polytechnic,Shanwei 516600,China;Huawei Technologies Co.,Ltd.,Shenzhen 518129,China)

机构地区汕尾职业技术学院信息工程系华为技术有限公司

出处《计算机与现代化》 2019年第12期31-38,共8页 Computer and Modernization

基金全国高等院校计算机基础教育研究会2016年度科研规划纵向课题(2016GHB02005) 广东省高职高专云计算与大数据专业委员会2019年度教育科研课题(GDYJSKT19-02)

关键词关联规则挖掘 APRIORI算法 MAPREDUCE SPARK association rule mining Apriori MapReduce Spark

分类号 TP301.6 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献7

1肖明忠,代亚非,李晓明.拆分型Bloom Filter[J].电子学报,2004,32(2):241-245. 被引量：29
2杨磊,黄建智.多路平衡型矩阵Bloom Filter[J].湖南大学学报（自然科学版）,2018,45(2):133-140. 被引量：1
3崔妍,包志强.关联规则挖掘综述[J].计算机应用研究,2016,33(2):330-334. 被引量：157
4吴信东,嵇圣硙.MapReduce与Spark用于大数据分析之比较[J].软件学报,2018,29(6):1770-1791. 被引量：77
5程阳,章韵.基于MapReduce-HBase的Apriori算法的改进与研究[J].南京邮电大学学报（自然科学版）,2018,38(5):91-99. 被引量：6
6谢志明,王鹏.基于MapReduce架构的并行矩阵Apriori算法[J].计算机应用研究,2017,34(2):401-404. 被引量：23
7刘莉萍,章新友,牛晓录,郭永坤,丁亮.基于Spark的并行关联规则挖掘算法研究综述[J].计算机工程与应用,2019,55(9):1-9. 被引量：30

二级参考文献97

1陈爱东,刘国华,费凡,周宇,万小妹,貟慧.满足均匀分布的不确定数据关联规则挖掘算法[J].计算机研究与发展,2013,50(S1):186-195. 被引量：18
2宋余庆,朱玉全,孙志挥,杨鹤标.一种基于频繁模式树的约束最大频繁项目集挖掘及其更新算法[J].计算机研究与发展,2005,42(5):777-783. 被引量：21
3马建庆,钟亦平,张世永.基于兴趣度的关联规则挖掘算法[J].计算机工程,2006,32(17):121-122. 被引量：20
4刘学军,徐宏炳,董逸生,钱江波,王永利.基于滑动窗口的数据流闭合频繁模式的挖掘[J].计算机研究与发展,2006,43(10):1738-1743. 被引量：26
5宋卫林,徐惠民.基于最大频繁项目序列集挖掘DMFIA算法的改进[J].计算机工程与设计,2007,28(7):1493-1496. 被引量：1
6[1]B Bloom.Space/time tradeoffs in hash coding with allowable errors[J].Communications of the ACM,1970,13(7):422-426.
7[2]M Mitzenmacher.Compressed bloom filters[A].In Proceedings of the 20th ACM Symposium on Principles of Distributed Computing (PODC2001)[C].Newport,Rhode,Island,2001.
8[3]Li Fan,P Cao,J Almeida,A Broder.Summary cache:A scalable wide-area web cache sharing protocol[J].IEEE/ACM transactions on networking,2000,8(3).
9[4]J Kubiatowicz,D Bindel,Y Chen,S Czerwinski,P Eaton,D Geels,R Gummadi,S Rhea,H Weatherspoon,W Weimer,Cwells,B Zhao.OceanStore:An architecture for globe-scale persistent storage[A].In proceedings of the 9th international conference on architectural support for programming languages and operating systems (ASPLOS 2000)[C].Cambridge,MA,2000.
10[5]M V Ramakrishna.Practical performance of bloom filters and parallel free-text searching[J].Communications of the ACM,1989,32(10):1237-1239.

共引文献307

1周晓,马圣杰.基于集成学习的转子部件脱落故障诊断方法[J].数字制造科学,2022(1):16-22.
2王瑞玺,尚东方,鲍可馨.基于大数据的海港船舶疫情风险防控平台设计与实现[J].中国水运（下半月）,2022,22(8):42-44. 被引量：1
3张子伟,郭齐胜,董志明,陈冉,李林.基于关联规则挖掘的体系作战效能分析[J].装甲兵学报,2022(2):43-49. 被引量：1
4李强,吴裕雄,古国照,陈锡林,陈晔.智能辅助诊疗平台设计与探索[J].医学信息学杂志,2019,40(11):32-35. 被引量：3
5孙如飞,张焱,陈瑞祥,孙飞飞,陈龙赞.流处理技术在水利物联网领域的应用[J].人民黄河,2021,43(S02):264-267. 被引量：1
6危前进,魏继鹏,古天龙,常亮,文益民.粗糙集多目标并行属性约简算法[J].软件学报,2022,33(7):2599-2617. 被引量：4
7王永贵,谢南,曲海成.基于存储改进的分区并行关联规则挖掘算法[J].计算机应用研究,2020,37(1):167-171. 被引量：6
8徐霞军,秦绪涛,杨强,朱云飞.大数据技术在核电设备缺陷分析中的初步应用[J].核动力工程,2020,41(S01):68-72. 被引量：6
9夏正龙,姚蓉,朱亮,钟艳雯.基于Spark的探空逆温识别算法实现[J].湖北农业科学,2021,60(S01):335-339. 被引量：1
10黄东,陈光,李海滨,杨朔.Spark个性化地点推荐系统[J].辽宁工程技术大学学报（自然科学版）,2020(6):533-540. 被引量：1

同被引文献47

1王妍.基于关联规则的自适应学习[J].计算机产品与流通,2019,0(12):235-235. 被引量：3
2冯少荣,肖文俊.基于密度的DBSCAN聚类算法的研究及应用[J].计算机工程与应用,2007,43(20):216-221. 被引量：34
3李军怀,高苗,陈晓明,刘红英,楼文晓.时空特性约束下的数据挖掘隐私保护方法[J].计算机工程与应用,2008,44(9):139-142. 被引量：3
4夏英,张俊,王国胤.时空关联规则挖掘算法及其在ITS中的应用[J].计算机科学,2011,38(9):173-176. 被引量：16
5张海涛,黄慧慧,徐亮,高莎莎.隐私保护数据挖掘研究进展[J].计算机应用研究,2013,30(12):3529-3535. 被引量：15
6王欣然,杨智应.基于最小边界扇形的移动对象轨迹实时化简算法[J].计算机应用,2014,34(8):2409-2414. 被引量：6
7胡俊,胡贤德,程家兴.基于Spark的大数据混合计算模型[J].计算机系统应用,2015,24(4):214-218. 被引量：56
8刘伯红,王娟娟.一种面向时空数据的关联规则更新算法[J].计算机与数字工程,2015,43(10):1767-1770. 被引量：1
9陈侨安,李峰,曹越,龙明盛.基于运行数据分析的Spark任务参数优化[J].计算机工程与科学,2016,38(1):11-19. 被引量：22
10夏靖波,韦泽鲲,付凯,陈珍.云计算中Hadoop技术研究与应用综述[J].计算机科学,2016,43(11):6-11. 被引量：74

引证文献5

1郭鹏飞,李海霞,常海艳,白柯鑫,张煜.基于大数据的海上目标隐性关联规则挖掘方法[J].网络安全与数据治理,2023,42(S01):71-77. 被引量：1
2席晨.一种基于挖掘算法的质量评估体系[J].信息通信,2020,0(1):160-161.
3杨井荣,侯向宁.正负关联规则数据挖掘算法研究[J].计算机技术与发展,2020,30(11):64-68. 被引量：6
4潘卫军,刘皓晨,王润东,胡博文.基于ANN的改进Spark系统在空管大数据处理中的应用[J].计算机与现代化,2020(12):78-82. 被引量：1
5杨井荣,柳军.基于有序树的时空关联规则数据挖掘的应用[J].计算机技术与发展,2021,31(6):19-23. 被引量：6

二级引证文献13

1王金元,王宇,张亚松,林昊,龚致富,李盼,安新艳.基于Hadoop的分布式财务异常数据分析系统设计[J].信息技术,2022,46(1):21-25. 被引量：6
2黄永进,张滔,廖兴国,邵淑华,祁支锐.基于时空数据挖掘的城市体检评估方法与实践——以无锡市为例[J].测绘通报,2021(12):134-139. 被引量：9
3王锐.基于正负关联规则的告警根因计算方法[J].科技创新与应用,2022,12(5):158-160.
4岳千.基于关联规则的Web运行数据挖掘技术分析[J].信息与电脑,2022,34(3):207-209.
5韦冬妮,齐彩娟,张泽龙,唐梦媛.基于深度数据挖掘和区块链技术的智库数据管控方法研究[J].电子设计工程,2022,30(13):114-118. 被引量：2
6刘娟,鲁丽萍,鞠登峰,邹丹平,张鹏,邵梦雨,齐波.基于灰色关联分析算法的变压器预警研究[J].计算机技术与发展,2022,32(10):215-220. 被引量：5
7杨恒,李心愉.基于改进双链量子遗传算法的流数据挖掘方法[J].现代科学仪器,2022,39(5):206-212.
8刘侠,贾妮.基于随机森林和Apriori的心理问题预测技术研究[J].电子设计工程,2022,30(23):164-168.
9姜莉.基于大数据背景下的计算机信息处理技术研究[J].信息记录材料,2023,24(2):85-87. 被引量：2
10袁蒙蒙,熊文静.基于K-means算法的关联规则数据挖掘方法[J].信息与电脑,2023,35(7):72-74. 被引量：4

1于永斌,戚敏惠,尼玛扎西,王琳.基于阈值自适应忆阻器Hopfield神经网络的关联规则挖掘算法[J].计算机应用,2019,39(3):728-733. 被引量：6
2罗阳倩子,廖威.刍议计算机大数据分析与云计算网络技术[J].数字技术与应用,2019,37(9):223-224. 被引量：4
3鲍仙君.基于分层推进BIM技术的装配式建筑构件信息集成研究[J].湖北第二师范学院学报,2019,36(8):54-57. 被引量：1
4王健.面向水资源数据分析的大数据挖掘算法[J].自动化技术与应用,2019,38(11):46-50.
5邝耿力.基于混合过滤的图书推荐系统的设计与效能评估[J].图书情报导刊,2019,4(11):32-37. 被引量：2
6牛志梅.云计算Hadoop平台中基于遗传算法的高校师资培训资源管理[J].现代电子技术,2019,42(21):120-124. 被引量：1
7陈亚坤,王枭.电子对抗侦察历史数据分析方法[J].电子信息对抗技术,2019,34(6):23-26. 被引量：4
8蔡钰莹.云计算在医疗信息化建设中的应用[J].计算机与网络,2019,45(21):39-39. 被引量：2
9谭乃杰,张玲.食管心房起搏负荷试验对冠心病诊断的临床价值[J].中国城乡企业卫生,2019,34(11):21-23.
10许艺萍.浅谈大学生跨文化交际能力的培养——评《跨文化能力研究》[J].中国教育学刊,2019,0(11):121-121. 被引量：1

计算机与现代化

2019年第12期

浏览历史

内容加载中请稍等...

Spark平台的分布式阶段自适应关联规则挖掘算法被引量：5

参考文献7

二级参考文献97

共引文献307

同被引文献47

引证文献5

二级引证文献13

相关作者

相关机构

相关主题

浏览历史

Spark平台的分布式阶段自适应关联规则挖掘算法 被引量：5

参考文献7

二级参考文献97

共引文献307

同被引文献47

引证文献5

二级引证文献13

相关作者

相关机构

相关主题

浏览历史

Spark平台的分布式阶段自适应关联规则挖掘算法被引量：5