基于信息熵与遗传算法的并行关联规则增量挖掘算法被引量：21

Parallel association rules incremental mining algorithm based on information entropy and genetic algorithm

下载PDF

导出

摘要针对大数据环境下基于Can树的增量关联规则算法存在树结构空间占用过大、支持度阈值无法动态设置以及Map与Reduce阶段数据传输耗时等问题,提出了一种基于信息熵和遗传算法的并行关联规则增量挖掘算法MR-PARIMIEG。首先,该算法设计基于信息熵的相似项合并策略(SIM-IE)来合并相似数据项,并根据合并后的数据集进行Can树构造,从而减少树结构的空间占用;其次,提出基于遗传算法的DST-GA策略获取大数据环境下相对最优的动态支持度阈值,根据此阈值进行频繁项集挖掘,避免了冗余的频繁模式挖掘导致的时间消耗;最后,在MapReduce并行化运算过程中使用并行LZO数据压缩算法对Map端输出数据进行压缩,从而减少传输的数据规模,最终提升算法的运行速度。实验仿真结果表明,MR-PARIMIEG在大数据环境下进行频繁项集挖掘时具有较好的性能表现,适用于对较大规模的数据集进行并行化处理。 Aiming at the problems that in the big data environment,the Can-tree based incremental association rule algorithm had problems such as too much space occupation of the tree structure,inability to dynamically set the support threshold,and too much time consumption during the data transfer process between the Map and Reduce stages,the Map Reduce-based parallel association rules incremental mining algorithm using information entropy and genetic algorithm(MR-PARIMIEG)was proposed.Firstly,a similar items merging based on information entropy(SIM-IE)was designed to merge similar data items,and a Can tree based on the merged data set was constructed,thereby reducing the space occupation of the tree structure.Secondly,the dynamic support threshold obtaining using genetic algorithm(DST-GA)was proposed to obtain the relatively optimal dynamic support threshold in the big data environment,and frequent itemset mining was performed according to this threshold to avoid the unnecessary time consumption caused by mining redundant frequent patterns.Finally,in the process of MapReduce parallel operation,the parallel LZO data compression algorithm was used to compress the output data of the Map stage,thereby reducing the size of the transmitted data,and finally improving the running speed of the algorithm.Experimental simulation results show that MR-PARIMIEG has better performance when mining frequent item sets in the big data environment,and it is suitable for parallel processing of larger data sets.

作者毛伊敏邓千虎陈志刚 MAO Yimin;DENG Qianhu;CHEN Zhigang(School of Information Engineering,Jiangxi University of Science and Technology,Ganzhou 341000,China;College of Computer Science and Engineering,Central South University,Changsha 410083,China)

机构地区江西理工大学信息工程学院中南大学计算机学院

出处《通信学报》 EI CSCD 北大核心 2021年第5期122-136,共15页 Journal on Communications

基金国家自然科学基金资助项目(No.41562019,No.61762046) 国家重点研发计划基金资助项目(No.2018YFC1504705)。

关键词 Can树信息熵大数据增量挖掘数据压缩 Can-tree information entropy big data incremental mining data compression

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献3

1Yu-Geng Song,Hui-Min Cui,Xiao-Bing Feng.Parallel Incremental Frequent Itemset Mining for Large Data[J].Journal of Computer Science & Technology,2017,32(2):368-385. 被引量：5
2胡军,潘皓安.基于Can树的关联规则增量更新算法改进[J].重庆邮电大学学报（自然科学版）,2018,30(4):558-563. 被引量：7
3申玲艳.MapReduce计算模式的性能优化设计及其应用[J].信息与电脑,2016,28(14):49-50. 被引量：2

二级参考文献5

1邹力鹍,张其善.基于CAN-树的高效关联规则增量挖掘算法[J].计算机工程,2008,34(3):29-31. 被引量：9
2冯玉才,冯剑琳.关联规则的增量式更新算法[J].软件学报,1998,9(4):301-306. 被引量：227
3陈刚,闫英战,刘秉权.一种基于CAN-tree快速构建算法[J].微电子学与计算机,2014,31(1):76-82. 被引量：4
4张步忠,江克勤,张玉州.增量关联规则挖掘研究综述[J].小型微型计算机系统,2016,37(1):18-23. 被引量：12
5安建瑞,王海鹏,张龙波,金超,怀浩.一种基于MapReduce的压缩矩阵关联规则挖掘算法[J].重庆理工大学学报（自然科学）,2016,30(2):95-100. 被引量：5

共引文献11

1冯晓龙,高静.基于大数据技术的考勤数据分析[J].内蒙古农业大学学报（自然科学版）,2018,39(4):80-85. 被引量：2
2吴磊,程良伦,王涛.基于事务映射区间求交的高效频繁模式挖掘算法[J].计算机应用研究,2019,36(4):1031-1035. 被引量：7
3李昌盛,伍之昂,张璐,曹杰.关联规则推荐的高效分布式计算框架[J].计算机学报,2019,42(6):1218-1231. 被引量：19
4王溶,鲍正德,李晨曦.基于Spark的大数据分析技术[J].计算机系统网络和电信,2019,1(2):254-258.
5王星,李佳,陈吉.D-NSWRL:一种语义Web动态扩展的非单调规则语言[J].重庆邮电大学学报（自然科学版）,2020,32(1):154-163.
6刘雯婷,周军.基于缓冲区技术的增量数据关联规则挖掘算法[J].辽宁工业大学学报（自然科学版）,2020,40(2):71-74. 被引量：1
7荀亚玲,孙娇娇,毕慧敏.一种基于Spark的高效增量频繁模式挖掘算法[J].太原科技大学学报,2020,41(6):440-448.
8朱岸青,李帅,唐晓东.Spark平台中的并行化FP_growth关联规则挖掘方法[J].计算机科学,2020,47(12):139-143. 被引量：5
9洪炎,张磊,严加琪.基于AP-CAN的增量关联挖掘算法研究[J].安庆师范大学学报（自然科学版）,2021,27(2):20-25. 被引量：1
10毛伊敏,邓千虎,邓小鸿,刘蔚.改进的并行关联规则增量挖掘算法[J].计算机应用研究,2021,38(10):2974-2980. 被引量：7

同被引文献227

1李叶,毛伊敏,陈志刚.基于Winograd卷积的并行深度卷积神经网络优化算法[J].信息与控制,2023,52(4):466-482. 被引量：3
2董志超,温庆华,代鹰,马平,赵俊达.公转滑动轴承外圈划伤故障图像特征提取方法[J].煤炭工程,2022,54(S01):171-175. 被引量：4
3吴漾,王鹏宇,缪新萍,柳林溪,田钺.基于改进深度强化学习算法的电网缺陷文本挖掘模型研究[J].科技通报,2021,37(2):47-55. 被引量：4
4陈劲,陈晓东,赵辉,纪豪栋,陈瑞生,姚康伟,赵若轶.基于红外热成像法和超声波法的钢管混凝土无损检测技术的试验研究与应用[J].建筑结构学报,2021,42(S02):444-453. 被引量：36
5王永贵,谢南,曲海成.基于存储改进的分区并行关联规则挖掘算法[J].计算机应用研究,2020,37(1):167-171. 被引量：6
6吴嘉琪.一种基于ELK框架的地理信息动态时空数据获取与挖掘方法[J].测绘通报,2020(1):45-49. 被引量：2
7薛俊青,陈宝春,BRISEGHELLA Bruno.脱粘钢管混凝土单圆管短柱偏压试验[J].建筑结构学报,2009,30(S2):237-241. 被引量：10
8韩蕾,孙徐湛,吴志川,陈立军.MapReduce上基于抽样的数据划分最优化研究[J].计算机研究与发展,2013,50(S2):77-84. 被引量：13
9罗芳,李春花,周可,黄永峰,廖正霜.基于多属性的海量Web数据关联存储及检索系统[J].计算机工程与科学,2014,36(3):404-410. 被引量：9
10马强,杨金民.基于MapReduce的频繁项集并行挖掘算法[J].计算机应用与软件,2015,32(9):13-16. 被引量：9

引证文献21

1孙含笑.Keras神经网络大数据岗位薪酬分类模型[J].计算机时代,2021(9):26-28.
2朱敏.基于人工智能技术的物联网大数据挖掘算法[J].黑龙江工业学院学报（综合版）,2021,21(12):54-59. 被引量：8
3叶建德.基于分裂式K均值聚类的无线网络信息定向挖掘方法研究[J].景德镇学院学报,2022,37(6):23-27.
4毛伊敏,吴斌,许春冬,张茂省.基于Spark的并行频繁项集挖掘算法[J].计算机集成制造系统,2023,29(4):1267-1283. 被引量：2
5陈榆,何慧敏,梁志胜,欧旭.基于MapReduce的健康大数据并行挖掘算法研究[J].现代电子技术,2023,46(12):79-83.
6曹晖,李豪.基于MSVAR模型和DPC聚类的钢管混凝土柱脱黏识别方法研究[J].建筑结构学报,2023,44(6):246-253. 被引量：1
7陈伟,田仪帅,曾卫华,郭道远,赵卓雅.强降雨导致的建设工程安全事故人因分析 HC-GC模型[J].中国安全科学学报,2023,33(8):15-23. 被引量：1
8赵林燕,雷沁怡,洪德华,孙琦,刘翠玲.基于多维关联规则的大规模数据并行挖掘研究[J].电子设计工程,2023,31(24):159-162.
9王树军,常星,曹帅,付学良.基于关联规则的电力监控系统主机基线核查算法[J].电气自动化,2023,45(6):17-19. 被引量：1
10陈琳.基于时空序列相似性的大规模内网数据库非法访问信息的挖掘算法[J].江苏理工学院学报,2023,29(6):23-30.

二级引证文献15

1吴蓓蓓.高校人工智能人才培养的问题及对策[J].黑龙江工业学院学报（综合版）,2022,22(5):11-16. 被引量：2
2王劭博.基于人工智能的高维数据异常挖掘方法研究[J].信息与电脑,2022,34(7):207-209. 被引量：1
3左飞宇,卢友军,魏嘉银,江漫.基于多元统计的深加工虾类食品市场需求分析[J].黑龙江工业学院学报（综合版）,2023,23(2):94-100.
4范泽冰.交通数据挖掘分析算法综述与验证分析[J].中国高新科技,2023(7):102-105.
5陈晓明,卫达,潘海华,王智新,王国庆.基于船舶大数据平台的物联网数据挖掘探究[J].中国科技纵横,2023(10):58-60.
6郑湘辉,张雪冰.计算机网络大规模高维数据流异常数据挖掘[J].黑龙江工业学院学报（综合版）,2023,23(8):105-110. 被引量：3
7陆中华,聂公阔,丁略,路明.螺旋焊管机组钢管调型技术原理技巧[J].冶金与材料,2023,43(10):90-92.
8王景兰,王振.基于频繁模式树的大数据关联规则自动挖掘算法[J].上海电机学院学报,2023,26(6):356-360.
9张方伟,罗小燕,吴庆龄.Spark框架下改进NFP-growth算法的球磨机运行状态优化[J].制造业自动化,2024,46(2):103-107.
10张蕾,靖宇涵,何波,戚琦,陈晨,王敬宇.网络服务异常事件告警因果图构造方法[J].电信科学,2024,40(5):152-164.

1赵欣灿,朱云,毛伊敏.基于MapReduce的Apriori算法增量挖掘[J].计算机应用研究,2020,37(S02):73-75. 被引量：6
2杨勇,张磊,曲福恒,刘俊杰,陈强.基于最频繁项提取和候选集剪枝的THIMFUP算法[J].吉林大学学报（理学版）,2021,59(3):635-642. 被引量：5
3陈文艺,边姣,杨辉.几何畸变校正系数的无损压缩与解压设计与实现[J].信息技术与信息化,2021(4):21-24.
4李文清,高平,李光松.基于数据分析的DEFLATE算法特征研究[J].信息工程大学学报,2021,22(1):74-80. 被引量：5
5潘继财.大数据样本与半监督环境下基于生成对抗网络的故障诊断[J].机械与电子,2021,39(5):20-25. 被引量：3
6刘伟君.基于生成对抗网络模型的机械故障诊断[J].机械设计与制造工程,2021,50(4):57-62.
72021年1月-3月发布公安标准概览[J].中国安全防范技术与应用,2021(2):76-80.
8李降宇,张鹏.大连理工大学:“一张表”支持学院级数据治理[J].中国教育网络,2021(1):67-68.
9陈华.一种通用的政务数据交换文件格式设计思路[J].电子技术与软件工程,2021(7):185-186.
10陈立志,董云山,司风琪.基于DSLPSO的中速磨煤机动态特性研究[J].发电设备,2021,35(3):194-200.

通信学报

2021年第5期

浏览历史

内容加载中请稍等...

基于信息熵与遗传算法的并行关联规则增量挖掘算法被引量：21

参考文献3

二级参考文献5

共引文献11

同被引文献227

引证文献21

二级引证文献15

相关作者

相关机构

相关主题

浏览历史

基于信息熵与遗传算法的并行关联规则增量挖掘算法 被引量：21

参考文献3

二级参考文献5

共引文献11

同被引文献227

引证文献21

二级引证文献15

相关作者

相关机构

相关主题

浏览历史

基于信息熵与遗传算法的并行关联规则增量挖掘算法被引量：21