Sp-IEclat:一种大数据并行关联规则挖掘算法被引量：18

Sp-IEclat:A Big Data Parallel Association Rule Mining Algorithm

下载PDF

导出

摘要针对大数据环境下关联规则数据挖掘效率不高的问题,采用Eclat算法使用垂直数据库将事务的合并转换成集合操作的方法。研究了一种大数据并行关联规则挖掘算法-Sp-IEclat(Improved Eclat algorithm on Spark Framework),该算法基于内存计算的Spark框架,减少磁盘输入输出降低I/O负载,使用位图运算降低交集的时间代价并减少CPU占用,采用前缀划分的剪枝技术减少求交集运算的数据量,降低运算时间。使用mushroom数据集和webdocs数据集在两种大数据平台下实验,结果表明,Sp-IEclat算法的时间效率优于MapReduce框架下的Eclat算法及Spark框架下的FP-Growth算法和Eclat算法。从对集群的性能监控得到的数值表明,同Spark框架下的FP-Growth算法和Eclat算法相比,Sp-IEclat算法的CPU占用和I/O集群负载都较小。 Aiming at the problem of inefficient data mining of association rules in a big data environment,the Eclat algorithm is used to use a vertical database to convert the merging of transactions into collective operations.We researched a big data parallel association rule mining algorithm-Sp-IEclat(Improved Eclat algorithm on Spark Framework).The algorithm is based on the Spark framework of memory computing,reduces disk input and output,reduces I/O load,and uses bitmap operations to reduce the time of intersection and CPU usage.The pruning technique of prefix division is used to reduce the amount of data in the intersection operation to reduce the operation time.The mushroom dataset and the webdocs dataset are used to test under two big data platforms.The experimental results show that the time efficiency of the Sp-IEclat algorithm is better than the Eclat algorithm under the MapReduce framework and the FP-Growth algorithm and the Eclat algorithm under the Spark framework.The value obtained from the performance monitoring of the cluster shows that,compared with the FP-Growth algorithm and the Eclat algorithm under the Spark framework,the CPU usage and I/O cluster load of Sp-IEclat are smaller.

作者李成严辛雪赵帅冯世祥 LI Cheng-yan;XIN Xue;ZHAO Shuai;FENG Shi-xiang(School of Computer Science and Technology,Harbin University of Science and Technology,Harbin 150080,China)

机构地区哈尔滨理工大学计算机科学与技术学院

出处《哈尔滨理工大学学报》 CAS 北大核心 2021年第4期109-118,共10页 Journal of Harbin University of Science and Technology

基金黑龙江省教育厅科学技术研究项目(12541142).

关键词大数据关联规则挖掘频繁项集 Spark弹性分布式数据集 MAPREDUCE框架 big data association rule data mining frequent itemset Spark resilient distributed dataset(RDD) MapReduce framework

分类号 TP399 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献1

1丁勇,朱长水,武玉艳.一种基于Hadoop的关联规则挖掘算法[J].计算机科学,2018,45(B11):409-411. 被引量：7

共引文献6

1徐慧慧,晏华.基于相对危险度的儿童先心病风险因素分析算法[J].计算机科学,2021,48(6):210-214. 被引量：1
2刘丽娜,吴新玲.基于二阶分段式的Apriori算法优化[J].计算机工程与设计,2021,42(7):1940-1947. 被引量：8
3吴爱华,陈出新.分布式数据库中关系数据正负关联规则挖掘[J].计算机仿真,2021,38(9):344-347. 被引量：7
4杨洋,袁振洲,王印海,王文成,孙东冶.基于WOMDI-Apriori算法的高速公路交通事故风险识别[J].交通工程,2021,21(6):1-10. 被引量：7
5吴春旭,贾银山,于红绯.一种Apriori算法的高效实现方法及其应用[J].辽宁石油化工大学学报,2023,43(2):78-85.
6刘海滨,李春贺.智慧矿山职业健康安全监管信息系统研究[J].煤炭科学技术,2019,47(3):87-92. 被引量：20

同被引文献184

1张剑亭,郭生练,陈柯兵,何绍坤.基于信息熵的梯级水库联合优化调度增益分配法[J].水力发电学报,2020,39(2):94-102. 被引量：15
2靳琳,赵任方,董钟.基于Spark Streaming的网络安全流式大数据态势感知研究及发展趋势分析[J].网络安全技术与应用,2020,0(2):62-65. 被引量：12
3赵欣灿,朱云,毛伊敏.基于MapReduce的Apriori算法增量挖掘[J].计算机应用研究,2020,37(S02):73-75. 被引量：6
4张文杰,蒋烈辉.基于MapReduce并行化计算的大数据聚类算法[J].计算机应用研究,2020,37(1):53-56. 被引量：18
5陈万志,赵宇璇.智慧校园隐式用户行为的数据挖掘方法[J].辽宁工程技术大学学报（自然科学版）,2020(5):434-439. 被引量：11
6王君威,余粟.基于隐式数据和Apriori的协同过滤推荐算法[J].智能计算机与应用,2022,12(3):200-203. 被引量：3
7顾卫杰,王晓峰.基于改进Apriori算法的煤矿物联网规则系统研究[J].煤矿机械,2016,37(1):227-229. 被引量：7
8张伟科.一种改进的AprioriTid算法[J].沈阳工业大学学报,2016,38(3):314-318. 被引量：6
9马月坤,刘鹏飞,张振友,孙燕,丁铁凡.改进的FP-Growth算法及其分布式并行实现[J].哈尔滨理工大学学报,2016,21(2):20-27. 被引量：13
10王民昆,徐晓,邓志森,张大伟,熊志杰.基于路由模拟的网络推演分析系统的设计和实现[J].电子设计工程,2017,25(3):65-67. 被引量：2

引证文献18

1赵继刚.基于数据挖掘算法的等级保护测评[J].长江信息通信,2021,34(12):161-163. 被引量：1
2赵炎.基于人工智能的数据整合系统设计[J].自动化与仪器仪表,2022(7):339-343. 被引量：2
3徐鹏,孟宇龙,杨哲,董乃波,邓博伟.一种面向船舶制造的数据关联规则挖掘算法[J].舰船科学技术,2022,44(20):143-148.
4耿飙,梁成全.面向糖尿病数据集挖掘频繁项目集和关联规则[J].计算机时代,2022(12):52-55.
5尚晓燕.基于话题标签的微博舆情热点挖掘系统设计[J].现代电子技术,2023,46(2):70-74.
6张衡,王大勇,宋朋.改进FP-Growth算法下云服务器故障诊断研究[J].计算机仿真,2022,39(12):373-377. 被引量：1
7尚伟栋.矿山信息的关联规则算法改进研究[J].煤矿机械,2023,44(1):47-49.
8贺玲,贺照辉.大数据技术在战场态势感知中的应用[J].科技与创新,2023(7):178-180. 被引量：2
9蔡燕萍.基于耦合度量的负载平衡大数据聚类挖掘方法[J].兰州文理学院学报（自然科学版）,2023,37(2):40-44. 被引量：1
10苑颖,唐莉君.基于卷积神经网络的大数据去模糊挖掘仿真[J].计算机仿真,2023,40(6):421-424.

二级引证文献7

1王珏.基于数据挖掘的校园网络安全等级保护测评决策研究[J].电子技术与软件工程,2022(20):5-9. 被引量：3
2袁甜甜,李凤莲,左婷.改进MAHAKIL的过采样技术[J].电子设计工程,2023,31(17):1-6.
3王浩宇,龚光红,蔡继红,叶必鹏,周照方,梅铮,李妮.基于战场元宇宙的动态三维场景感知[J].系统仿真学报,2023,35(10):2262-2278.
4张曦.基于关联规则技术的电力市场营销数据挖掘方法[J].中国管理信息化,2023,26(19):113-116.
5张小凡,李涛.融合多维注意力机制与动态尺度的数据校核算法[J].电子设计工程,2024,32(3):22-26.
6孙怡峰,廖树范,吴疆,李福林.基于大模型的态势认知智能体[J].指挥控制与仿真,2024,46(2):1-7.
7张晴,谭旭,吕欣.频繁项集挖掘研究前沿及展望[J].深圳信息职业技术学院学报,2024,22(1):1-14.

1荆于勤,夏书银.基于Spark的动作识别特征提取[J].西南师范大学学报（自然科学版）,2021,46(7):135-139. 被引量：3
2杨金成,郭泽林,袁铁江,齐尚敏,李娜,陈虎.大数据环境下基于改进SVM的典型负荷类型识别[J].电力电容器与无功补偿,2021,42(4):170-175. 被引量：6
3翁春萌,谭宇骁.体验经济视角下传统节令食品包装的体验设计研究[J].艺术科技,2021,34(4):155-156.
4张菁楠.基于Spark的大数据清洗框架设计与实现[J].科学技术创新,2021(22):109-110. 被引量：2
5孙柳.基于多种群协同进化算法的数据并行聚类算法[J].智能计算机与应用,2021,11(6):144-147.
6付宏才,丁华英.基于SNMP的网络软件性能监控系统设计[J].信息与电脑,2021,33(13):79-81. 被引量：3
7汪敏,朱习军.基于改进的Apriori算法的关联规则分析[J].计算机科学与应用,2021,11(6):1706-1716. 被引量：2
8黄继宁,郭红峰.异厂家4G PCRF向4/5G两融合PCF平滑演进的方法[J].电子技术与软件工程,2021(6):14-16.

哈尔滨理工大学学报

2021年第4期

浏览历史

内容加载中请稍等...

Sp-IEclat:一种大数据并行关联规则挖掘算法被引量：18

参考文献1

共引文献6

同被引文献184

引证文献18

二级引证文献7

相关作者

相关机构

相关主题

浏览历史

Sp-IEclat:一种大数据并行关联规则挖掘算法 被引量：18

参考文献1

共引文献6

同被引文献184

引证文献18

二级引证文献7

相关作者

相关机构

相关主题

浏览历史

Sp-IEclat:一种大数据并行关联规则挖掘算法被引量：18