基于存储改进的分区并行关联规则挖掘算法被引量：4

Partitioned parallel association rules mining algorithm based on storage improvement

下载PDF

导出

摘要针对现有算法存储结构简单、生成大量冗余的候选集、时间和空间复杂度高、挖掘效率不理想的情况,为了进一步提高关联规则算法挖掘频繁集的速度,优化算法的执行性能,提出基于内存结构改进的关联规则挖掘算法。该算法基于Spark分布式框架,分区并行挖掘出频繁集,提出在挖掘过程中利用布隆过滤器进行项目存储,并对事务集和候选集进行精简化操作,进而达到优化挖掘频繁集的速度、节省计算资源的目的。算法在占用较少内存的条件下,相比于YAFIM和MR-Apriori算法,在挖掘频繁集效率上有明显的提升,不但能较好地提升挖掘速度,降低内存的压力,而且具有很好的可扩展性,使得算法可以应用到更大规模的数据集和集群,从而达到优化算法性能的目的。 In order to further improve the speed of the association rules mining frequent sets and optimize the execution performance of the algorithm,this paper proposed an association rule mining algorithm based on improved memory structure.Based on the Spark distributed framework,the proposed algorithm mined frequent sets in parallel.It used the Bloom filter to store the project in the mining process,and simplified the operation of the transaction set and the candidate set,so as to optimize the speed of mining frequent sets and save the computing resources.Compared with the YAFIM and the MR-Apriori algorithm,the proposed algorithm has a significant improvement in the efficiency of mining frequent sets under the condition of occupying less memory.The algorithm can not only improve the mining speed and reduce the memory pressure,but also has good scalability,so that the algorithm can be applied to larger data sets and clusters to optimize the performance.

作者王永贵谢南曲海成 Wang Yonggui;Xie Nan;Qu Haicheng(School of Software,Liaoning Technical University,Huludao Liaoning 125105,China)

机构地区辽宁工程技术大学软件学院

出处《计算机应用研究》 CSCD 北大核心 2020年第1期167-171,共5页 Application Research of Computers

基金国家自然科学基金资助项目(61404069) 国家自然科学基金青年基金资助项目(41701479).

关键词关联规则大数据候选集布隆过滤器 SPARK association rule big data candidate set Bloom filter Spark

分类号 TP311.13 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献4

1张忠林,田苗凤,刘宗成.大数据环境下关联规则并行分层挖掘算法研究[J].计算机科学,2016,43(1):286-289. 被引量：27
2林长方,吴扬扬,黄仲开,曾少俊.基于MapReduce的Apriori算法并行化[J].江南大学学报（自然科学版）,2014,13(4):411-415. 被引量：13
3崔妍,包志强.关联规则挖掘综述[J].计算机应用研究,2016,33(2):330-334. 被引量：149
4杨启昉,马广平.关联规则挖掘Apriori算法的改进[J].计算机应用,2008,28(S2):217-218. 被引量：13

二级参考文献66

1陈爱东,刘国华,费凡,周宇,万小妹,貟慧.满足均匀分布的不确定数据关联规则挖掘算法[J].计算机研究与发展,2013,50(S1):186-195. 被引量：18
2宋余庆,朱玉全,孙志挥,杨鹤标.一种基于频繁模式树的约束最大频繁项目集挖掘及其更新算法[J].计算机研究与发展,2005,42(5):777-783. 被引量：21
3马建庆,钟亦平,张世永.基于兴趣度的关联规则挖掘算法[J].计算机工程,2006,32(17):121-122. 被引量：20
4刘学军,徐宏炳,董逸生,钱江波,王永利.基于滑动窗口的数据流闭合频繁模式的挖掘[J].计算机研究与发展,2006,43(10):1738-1743. 被引量：26
5倪坚.对Apriori算法的一个改进[J].大连交通大学学报,2007,28(2):88-89. 被引量：9
6Ranger C,Raghuraman R,Penmetsa A.Evaluating MapReduce for multi-core and multiprocessor systems[C]//Proceedings of the 2007 IEEE 13th Internationanl Symposium on High Performance Computer Architecture.Washington:IEEE Computer Society,2007:13-24.
7Wegener D,Mock M,Adranale D,et al.Toolkit-based high-performance data mining of large data on MapReduce clusters[C]// Proceeding of the 2009 IEEE International Conference on Data Mining Workshops.Miami:[s.n.],2009:296-301.
8Goncalves C,Assuncao L,Cunha J.Data analytics in the cloud with flexible MapReduce workflows[C]//Proceedings of the 2012 IEEE 4th International Conference on Cloud Computing Technology and Science.Taipei:[s.n.],2012:427-434.
9Dean J,Ghemmawat S.MapReduce:simplied data processing on large clusters[C]//Proceedings of the 6th Sympesium on Operating System Design and Implementation.New York:ACM Press,2004:137-150.
10Shvachko K,Kuang H,Radia S,et al.The hadoop distributed file system[C]//Proceedings of the 2010 IEEE 26th Symposium on Mass Storage Systems and Technologied.Nevada:[s.n.],2010:1-10.

共引文献194

1张子伟,郭齐胜,董志明,陈冉,李林.基于关联规则挖掘的体系作战效能分析[J].装甲兵学报,2022(2):43-49. 被引量：1
2李强,吴裕雄,古国照,陈锡林,陈晔.智能辅助诊疗平台设计与探索[J].医学信息学杂志,2019,40(11):32-35. 被引量：2
3杜华明,张明昌,刘爽,张瑜嘉.基于数据融合与挖掘的城市综合管廊运维管理探索[J].建筑电气,2022,41(11):64-70. 被引量：1
4褚志涛.关联规则中Apriori算法的研究与优化[J].中国科技信息,2009(24):76-77. 被引量：2
5刘兴丽,骆力明.关联规则Apriori算法改进研究与应用[J].首都师范大学学报（自然科学版）,2010,31(6):14-18. 被引量：3
6邓奇强.基于Disconnected Apriori算法的图书馆书目推荐服务[J].图书情报工作,2011,55(5):109-112. 被引量：11
7宋小小,陈晓辉,刘冲.关联规则中Apriori算法的研究与改进[J].网络安全技术与应用,2012(3):23-25. 被引量：3
8叶有忠.会计信息质量特征及其两难性选择[J].华东经济管理,2000,14(2):42-44. 被引量：9
9陈正权,王宇一.关联规则Apriori算法的改进[J].江南大学学报（自然科学版）,2012,11(3):294-299. 被引量：2
10刘锋,詹焰霞,陈玉萍.关联规则改进及其在计算机取证中的应用[J].微计算机信息,2012,28(10):24-26.

同被引文献51

1杜佳颖,段隆振,段文影,卜秋瑾.基于Spark的改进K-means算法的并行实现[J].计算机应用研究,2020,37(2):434-436. 被引量：12
2陈万志,赵宇璇.智慧校园隐式用户行为的数据挖掘方法[J].辽宁工程技术大学学报（自然科学版）,2020(5):434-439. 被引量：11
3赵庆杭,王昕,郑益慧,李立学.基于特征融合与随机森林的吊车碰线预警算法[J].高电压技术,2020,46(2):471-479. 被引量：10
4杭正波,杨鹤标,邹盼盼,陈锦富.基于日志挖掘的Web service安全关联规则挖掘算法及应用[J].计算机应用研究,2012,29(5):1802-1805. 被引量：3
5王华,刘萍.改进的关联规则算法在学生成绩预警中的应用[J].计算机工程与设计,2015,36(3):679-682. 被引量：29
6周发超,王志坚,叶枫,邓玲玲.关联规则挖掘算法Apriori的研究改进[J].计算机科学与探索,2015,9(9):1075-1083. 被引量：31
7崔妍,包志强.关联规则挖掘综述[J].计算机应用研究,2016,33(2):330-334. 被引量：149
8张忠林,田苗凤,刘宗成.大数据环境下关联规则并行分层挖掘算法研究[J].计算机科学,2016,43(1):286-289. 被引量：27
9徐开勇,龚雪容,成茂才.基于改进Apriori算法的审计日志关联规则挖掘[J].计算机应用,2016,36(7):1847-1851. 被引量：50
10李欣.强关联规则挖掘在智慧图书馆个性化推送服务中的应用研究[J].情报科学,2018,36(4):95-99. 被引量：31

引证文献4

1裘慧奇.基于向量矩阵的Apriori改进算法研究[J].上海理工大学学报,2022,44(1):56-61. 被引量：5
2周燕,肖莉.基于虚拟最近邻矩阵的用户偏好数据挖掘仿真[J].计算机仿真,2023,40(11):516-520.
3鄂晶晶,杨丽华,冯锋.环形网络大数据关联特征无规则挖掘算法仿真[J].计算机仿真,2023,40(10):381-384.
4孙瑞,吕灏楠.基于关联规则提取的外语翻译信息密度检测[J].信息技术,2024,48(4):83-86.

二级引证文献5

1严鑫平,柳炳祥,胡健.基于Apriori算法的国家宏观数据分析[J].信息与电脑,2022,34(8):61-63.
2王寒冰.基于数据挖掘的火锅店服务评价改进研究[J].科技视界,2022(31):186-189.
3严晨,黄亮,王卓,黄楚原,刘晅亚.基于ARM和ISM的危化品罐车事故致因分析[J].武汉理工大学学报（信息与管理工程版）,2023,45(1):61-66. 被引量：1
4郭振华,孙艳青,王中兴.基于并行式频繁项集的党政收费平台[J].电子设计工程,2024,32(5):31-36.
5李佳临,邬阳,魏奇,赵雯雯,李芳芳,陈卉.改进关联规则算法在自然资源云中的应用研究[J].时空信息学报,2024,31(1):140-147.

1何伟,李云飞.智慧照明监控系统[J].计算机系统应用,2019,28(12):72-78. 被引量：3
2江秀臣,罗林根,余钟民,傅晓飞,盛戈皞,刘亚东,钱勇.区块链在电力设备泛在物联网应用的关键技术及方案[J].高电压技术,2019,45(11):3393-3400. 被引量：52
3徐建臣.浅谈水压爆破在连拱式隧道的应用[J].门窗,2020(3):251-252.
4唐亚南,叶华,裴玮,孔力.MMC-MTDC系统的电磁-机电暂态建模与实时仿真分析[J].电力自动化设备,2019,39(11):99-106. 被引量：8
5李忠诚,黄建华,唐瑞琮,胡庆春,夏旭.一种基于权益代表的可扩展共识协议[J].应用科学学报,2020,38(1):51-64. 被引量：3
6刘冰.传统测量技术在井巷贯通中的应用[J].化工设计通讯,2020,46(3):273-274. 被引量：2
7王青松,姜富山,李菲.大数据环境下基于关联规则的多标签学习算法[J].计算机科学,2020,47(5):90-95. 被引量：11
8王晓鹏.区间值属性数据集关联规则挖掘算法仿真[J].计算机仿真,2020,37(1):234-238. 被引量：4
9张永.大数据下网络资源信息可验证加密仿真研究[J].计算机仿真,2020,37(3):297-300. 被引量：5
10王莉娜,钟丽娜.激光夜视图像分型分割算法研究[J].激光杂志,2020,41(4):101-105.

计算机应用研究

2020年第1期

浏览历史

内容加载中请稍等...

基于存储改进的分区并行关联规则挖掘算法被引量：4

参考文献4

二级参考文献66

共引文献194

同被引文献51

引证文献4

二级引证文献5

相关作者

相关机构

相关主题

浏览历史

基于存储改进的分区并行关联规则挖掘算法 被引量：4

参考文献4

二级参考文献66

共引文献194

同被引文献51

引证文献4

二级引证文献5

相关作者

相关机构

相关主题

浏览历史

基于存储改进的分区并行关联规则挖掘算法被引量：4