基于MapReduce的改进Eclat算法被引量：5

Improved Eclat Algorithm based on MapReduce

下载PDF

导出

摘要关联规则挖掘一直都是数据挖掘的重要任务,然而随着大数据时代的到来,数据规模呈指数形式增长,传统的串行挖掘算法已经面临着内存和计算资源不足等问题。针对上述问题,提出了一种基于MapRedcue并行编程模型的改进Eclat算法--IMREclat算法。IMREclat算法使用2个MapReduce任务,主要分为3个阶段:首先,平均划分事务数据库,并行挖掘频繁2项集。然后,将频繁2项集转化为垂直数据格式并利用二进制存储事务列表,按照等价类和其权重值分组。最后,将分组后的数据作为输入,通过利用预剪枝性质改进后的Eclat算法并行挖掘所有的频繁项集。实验表明,IMREclat算法在运行时间上优于现有的MREclat算法,并有良好的扩展性能。 The mining of association rules has always been an important task of data mining. However, with the advent of the era of big data, the data scale has grown exponentially. The traditional serial mining algorithms have faced problems such as the insufficient of memory and computing resources. Regarding the issue above, the IMREclat algorithm is proposed, which is an improved Eclat algorithm based on the MapReduce parallel programming model. The IMREclat algorithm uses two MapReduce tasks, which are mainly divided into three phases: Firstly, the transaction database is divided equally, and the frequent 2-itemsets are drilled in parallel. Secondly, the frequent 2-itemsets are converted into a vertical data format, and the binary storage transaction list is used to group by the equivalence class and its weight value. Finally, the grouped data is used as input, and all frequent item sets are mined in parallel by using the improved Eclat algorithm with pre-pruning properties. The experiments show that the IMREclat algorithm outperforms the existing MREclat algorithm in running time and has good expansion performance.

作者向春梅陈超 XIANG Chunmei;CHEN Chao(College of Communication Engineering,Chengdu University of Information Technology,chengdu 610255,China)

机构地区成都信息工程大学通信工程学院

出处《成都信息工程大学学报》 2019年第4期369-374,共6页 Journal of Chengdu University of Information Technology

基金四川省科技计划资助项目(18ZDYF3278)

关键词数据挖掘关联规则频繁项集 MAPREDUCE模型 Eclat算法 data mining association rules frequent itemsets MapReduce model Eclat algorithm

分类号 TP301.6 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献4

1周国军,龚榆桐.基于MapReduce和矩阵的频繁项集挖掘算法[J].微电子学与计算机,2016,33(5):119-123. 被引量：7
2李伟卫,赵航,张阳,王勇.基于MapReduce的海量数据挖掘技术研究[J].计算机工程与应用,2013,49(20):112-117. 被引量：35
3徐卫,李晓粉,刘端阳.基于命题逻辑的关联规则挖掘算法L-Eclat[J].计算机科学,2017,44(12):211-215. 被引量：3
4崔馨月,孙静宇.改进的Eclat算法研究与应用[J].计算机工程与设计,2018,39(4):1059-1063. 被引量：8

二级参考文献35

1施亮,钱雪忠.基于Hadoop的并行FP-Growth算法的研究与实现[J].微电子学与计算机,2015,32(4):150-154. 被引量：15
2欧阳继红,王仲佳,刘大有.具有动态加权特性的关联规则算法[J].吉林大学学报（理学版）,2005,43(3):314-319. 被引量：16
3段军,戴居丰.基于多支持度的挖掘加权关联规则算法[J].天津大学学报,2006,39(1):114-118. 被引量：14
4李云,李拓,蔡俊杰,陈崚.基于概念格提取简洁关联规则[J].南京邮电大学学报（自然科学版）,2007,27(3):44-47. 被引量：3
5Owen S,Anil R,Dunning T,et al.Mahout in action[M].[S.l.].Manning Publications ,2011.
6Chu C T, Kim S K, Lin Y A,et al.Map-reduce for machinelearning on multicore[J] .Advances in Neural InformationProcessing Systems,2007,19.
7Ghemawat S, Gobioff H, Leung S T.The Google file system[C]//SOSP,03,2003.
8Dean J, Ghemawat S.MapReduce: simplified data processingon large clusters[J].Communications of the ACM, 2008,51(1).
9Chang F, Dean J, Ghemawat S, et al.Bigtable: a distributedstorage system for structured data[J].ACM Transactions onComputer Systems (TOCS) ,2008,26(2).
10White T.Hadoop: the definitive guide[M].[S.l.] : Yahoo Press,2010.

共引文献49

1胡海东.物联网中的海量数据处理技术[J].科技创新导报,2013,10(3):182-182. 被引量：3
2张刚红.Hadoop下并行遗传算法研究及在应急设施选址中的应用[J].互联网天地,2013(8):11-14. 被引量：4
3张刚红.Hadoop下并行遗传算法研究及在应急设施选址中的应用[J].信息技术与信息化,2014(1):81-85.
4章志刚,吉根林,唐梦梦.并行挖掘频繁项目集新算法——MREclat[J].计算机应用,2014,34(8):2175-2178. 被引量：4
5陈凤娟.基于MapReduce的关联规则挖掘[J].电脑与电信,2014(8):59-60.
6张帅,赵卓峰,丁维龙,王晓晖.基于MapReduce的城市道路旅行时间实测计算[J].计算机与数字工程,2014,42(9):1542-1546. 被引量：6
7武霞,董增寿,孟晓燕.基于大数据平台hadoop的聚类算法K值优化研究[J].太原科技大学学报,2015,36(2):92-96. 被引量：11
8林英姿,曾宇平,徐飞龙,傅昊阳.基于Hadoop的分布式朴素贝叶斯智能诊断系统[J].医学信息学杂志,2015,36(7):53-57. 被引量：3
9丛颖,刘其成,张伟.一种基于Apriori的微博推荐并行算法[J].计算机应用与软件,2015,32(8):229-233. 被引量：2
10单凯,高仲合,李凤银.云计算环境下的P2P流量识别[J].计算机工程与应用,2015,51(19):88-92. 被引量：1

同被引文献35

1王燕.基于等价关系的关联规则挖掘算法研究[J].计算机工程与应用,2006,42(8):187-189. 被引量：5
2张慧哲,王坚.多重最小支持度频繁项集挖掘算法研究[J].计算机应用,2007,27(9):2290-2293. 被引量：3
3熊忠阳,陈培恩,张玉芳.基于散列布尔矩阵的关联规则Eclat改进算法[J].计算机应用研究,2010,27(4):1323-1325. 被引量：18
4常浩,陈莉.多最小支持度关联规则挖掘研究[J].微计算机信息,2010,26(24):143-144. 被引量：2
5张玉芳,熊忠阳,耿晓斐,陈剑敏.Eclat算法的分析及改进[J].计算机工程,2010,36(23):28-30. 被引量：11
6冯培恩,刘屿,邱清盈,李立新.提高Eclat算法效率的策略[J].浙江大学学报（工学版）,2013,47(2):223-230. 被引量：13
7田庆,刘永梅.FP-Growth算法在购物篮分析研究中的应用[J].计算机科学与技术汇刊（中英文版）,2013,2(2):24-30. 被引量：2
8晏杰,亓文娟,郭磊,黄书城.基于多最小支持度的关联规则挖掘[J].计算机系统应用,2014,23(3):237-239. 被引量：9
9张启徽.关联规则挖掘中查找频繁项集的改进算法[J].统计与决策,2015,31(4):32-35. 被引量：21
10崔妍,包志强.关联规则挖掘综述[J].计算机应用研究,2016,33(2):330-334. 被引量：152

引证文献5

1王敏,徐悦,彭骞,李雪松.基于MapReduce的大规模数据挖掘技术[J].中国新通信,2020,22(15):61-61. 被引量：1
2柯建波.面向MapReduce的大数据分类模型及算法[J].智能计算机与应用,2020,10(6):148-151. 被引量：1
3李庆庆,李波.生活垃圾全程分类监管系统的设计与研究[J].现代信息科技,2020,4(17):59-65.
4李鑫,史天运,常宝,马小宁,刘军.基于优化的MsEclat算法的铁路机车事故故障关联规则挖掘[J].中国铁道科学,2021,42(4):155-165. 被引量：9
5敖孟飞,石鸿雁.海量数据下的并行频繁项集挖掘算法[J].统计与决策,2022(18):48-53. 被引量：4

二级引证文献15

1李庆庆,李波.生活垃圾全程分类监管系统的设计与研究[J].现代信息科技,2020,4(17):59-65.
2赵炎.基于人工智能的数据整合系统设计[J].自动化与仪器仪表,2022(7):339-343. 被引量：3
3刘苏锐,李丹丹,庞晓红,董伟,苟圆,俞凌云,吴孟茹,金晶.基于关联规则的轻工品涉税检验数据挖掘方法[J].皮革与化工,2022,39(5):20-25. 被引量：1
4尚晓燕.基于话题标签的微博舆情热点挖掘系统设计[J].现代电子技术,2023,46(2):70-74.
5王景兰,丁丽,孙慧婷.基于局部重构树的数据流频繁项集挖掘方法[J].新乡学院学报,2023,40(3):22-25.
6吴军,魏丹丹.面向课程教学数据的差异模式挖掘与讨论[J].计算机应用文摘,2023,39(7):115-117.
7易军,陈凯,蔡昆,车承志,周伟,刘洪.基于Hash和倒排项集的海上钻井平台隐患关.联分析[J].安全与环境学报,2023,23(4):981-988.
8李伟彦,董宝良,王凯,廉兰平.基于金豺优化算法的云计算资源调度研究[J].电子设计工程,2023,31(15):41-45. 被引量：3
9王蕾,郭妍,曹建华,郭钰瑶,夏绪辉.基于K-H-Mine算法的废旧机械产品失效信息与再制造加工方案关联规则挖掘[J].现代制造工程,2023(8):134-140. 被引量：1
10魏永杰,马术文,张海柱,黎荣,何旭.基于运维数据挖掘的高速列车配置设计技术研究[J].机械设计与研究,2023,39(5):166-171.

1刘建强,葛建新,刘晶哲.前瞻性心电门控联合全模型迭代重建算法在左心房及肺静脉CT成像中的可行性和价值研究[J].中国医学装备,2019,16(9):20-23. 被引量：5
2王冠.养老地产企业长效发展机制的可行性检验[J].齐齐哈尔大学学报（哲学社会科学版）,2019,0(9):67-70. 被引量：3
3李臻.应用于音乐节目分类的Apriori挖掘算法设计[J].现代电子技术,2019,42(19):90-94. 被引量：3
4马玲,郑郁雯.网红食品流行现状及社交网络营销研究[J].绍兴文理学院学报,2019,39(8):111-119. 被引量：4
5何帮剑,陈怿爽,李桂锦,姚新苗,吕一.运用数据挖掘技术分析姚新苗治疗骨质疏松症辨证用药规律[J].新中医,2019,51(9):24-27. 被引量：2
6葛茂松,富春岩,支援,李微娜,周虹.一种优化的并行数据流调度算法[J].电脑知识与技术,2019,15(8):3-4. 被引量：1
7刘新帅,林强,曹永春,杨津达,满正行,纪金水.基于智能手机使用数据的用户行为提取与分析[J].西北民族大学学报（自然科学版）,2019,40(3):26-33. 被引量：1
8唐善刚.与群作用于集合的等价类计数有关的组合恒等式[J].中山大学学报（自然科学版）,2019,58(5):137-144. 被引量：2
9祝丽玲,孟繁君,杨迪.基于GM(1,1)模型对我国妇幼保健指标的预测[J].中华疾病控制杂志,2019,23(8):977-980. 被引量：8
10曹佳伟,杭志远,袁子安,戴康,朱兴国,刘鑫鹏.沥青混合料中温开裂试验方法研究[J].价值工程,2019,38(24):162-163.

成都信息工程大学学报

2019年第4期

浏览历史

内容加载中请稍等...

基于MapReduce的改进Eclat算法被引量：5

参考文献4

二级参考文献35

共引文献49

同被引文献35

引证文献5

二级引证文献15

相关作者

相关机构

相关主题

浏览历史

基于MapReduce的改进Eclat算法 被引量：5

参考文献4

二级参考文献35

共引文献49

同被引文献35

引证文献5

二级引证文献15

相关作者

相关机构

相关主题

浏览历史

基于MapReduce的改进Eclat算法被引量：5