基于MapReduce的频繁项集并行挖掘算法被引量：9

A PARALLEL FREQUENT ITEMSETS MINING ALGORITHM BASED ON MAPREDUCE

下载PDF

导出

摘要现有FP-growth频繁集挖掘算法在处理大数据时存在时空效率不高的问题,且内存的使用随着数据的增加已经无法满足把待挖掘数据压缩存储在单个内存中,为此,提出一种基于MapReduce模型的频繁项集并行挖掘算法。该算法采用一种基于key/value键值对直接扫描value寻找条件模式基的方式,同时通过在原有FP-tree树节点中新增一个带频繁项前缀的域空间来构建一颗新的条件模式树NFP-tree,使得对一项频繁项的条件模式基进行一次建树一次遍历就可以得到相应的频繁项集。对所提出的算法在Hadoop平台进行了验证与分析,实验结果表明该算法效率较传统FP-growth算法平均提高16.6%。 Existing mining algorithms of FP-growth frequent itemset has low time and space efficiency problem when dealing with large data, and with the data increase the memory usage can no longer satisfy to compress and store the data to be minded in a single memory. Therefore, the paper proposes a MapReduce model-based parallel mining algorithm for frequent itemset. The algorithm adopts a way which directly scans value based on key-value pairs to look for the conditional pattern base. Meanwhile, it also constructs a new condition pattern tree NFP-tree by adding a domain space with frequent item prefix in original FP-tree tree node, and that makes it possible to get the corresponding frequent itemsets by constructing the tree once and traverse once on the condition pattern base of a frequent item. This algorithm is verified and analysed on Hadoop platform, experimental results show that the algorithm is more efficient than the traditional FP-growth algorithm by an average increase of 16.6%.

作者马强杨金民

机构地区湖南大学信息科学与工程学院

出处《计算机应用与软件》 CSCD 2015年第9期13-16,101,共5页 Computer Applications and Software

基金国家自然科学基金项目(61272401 61133005)

关键词频繁项集 FP—growth MAPREDUCE 条件模式基 NFP—tree并行 Frequent itemsets FP-growth MapReduce Conditional pattern NFP-tree Parallel

分类号 TP3 [自动化与计算机技术—计算机科学与技术]

引文网络
相关文献

参考文献13

1李玲娟,张敏.云计算环境下关联规则挖掘算法的研究[J].计算机技术与发展,2011,21(2):43-46. 被引量：48
2Han Jiawei,Kamber Micheline,范明,孟小峰,等译.数据挖掘概念与技术[M].北京:机械工业出版社,2007:424-479.
3刘华婷,郭仁祥,姜浩.关联规则挖掘Apriori算法的研究与改进[J].计算机应用与软件,2009,26(1):146-149. 被引量：120
4Han Jiawei, Pei Jian, Yin Yiwen. Mining Frequent Patterns Without Candidate Generation [ C ]//Proceedings of the ACM SIGMOD Interna- tional Conference on Management of Data. Dallas, Texas, USA: ACM Press, 2000.
5李也白,唐辉,张淳,贺玉明.基于改进的FP-tree的频繁模式挖掘算法[J].计算机应用,2011,31(1):101-103. 被引量：21
6邱勇,兰永杰.高效FP-TREE创建算法[J].计算机科学,2004,31(10):98-100. 被引量：4
7Liu Li, Li E, Zhang Yimin, et al. Optimization of Frequent hemset Min- ing on Multiple-core Processor [ C ]//Proc. of the 33rd International Conference on Very Large Data Bases. Vienna, Austria:VLDB Endow- ment ,2007 : 1275 - 1285.
8Zaiane O R, Mohammad E H, Lu P. Fast Parallel Association Rule Min- ing Without Candidacy Generation [ C ]//Proc. of the 1 st IEEE Interna- tional Conference on Data Mining. San Jose, USA:IEEE Computer So- ciety Press ,2001:665 - 668.
9Iko Pramudiono, Masaru Kitsuregawa. Parallel fp-growth on pc cluster [ C ]//PAKDD ,2003.
10陈敏,李徽翡.集群系统中的FP-Growth并行算法[J].计算机工程,2009,35(20):71-72. 被引量：8

二级参考文献48

1周锋,李旭伟.一种改进的MapReduce并行编程模型[J].科协论坛（下半月）,2009(2):65-66. 被引量：14
2刘华元,袁琴琴,王保保.并行数据挖掘算法综述[J].电子科技,2006,19(1):65-68. 被引量：15
3胡吉明,鲜学丰.挖掘关联规则中Apriori算法的研究与改进[J].计算机技术与发展,2006,16(4):99-101. 被引量：59
4Chen M S,Han J W,Yu P S. Data Mining: An Overview from a Database Perspective[ J]. IEEE Transactions on Knowledge and Data Engineering, 1996,8 (6) : 866 - 883.
5Han J W,Kamber M. Data Mining Concepts and Techniques[ M]. Beijing: Higher Education Press,2001.
6Agrawal R, Srikant R. Fast algorithms for mining association rules in large databases [ C ]. Proceedings of the 20th International Conference on Very Large Data Bases, September 1994.
7Han E H, Karypis G, Kumar V. Scalable parallel data mining for association rules[ C ]. ACM SIGMOD International Conference on Management of Data, May, 1997.
8Agrawa! R, Imielinski T, Swami A. Mining association rules between. sets of items in large databases[ C ]. Proceedings of the ACM SIGMOD International Conference on Management of Data ; May, 1993.
9Wur S Y, Leu Y H. An effective Boolean algorithm for mining association rules in large databases [ C ]. Database Systems for Advanced Applications, 1999 : Proceedings, 6th International Conference, April, 1999:19 -21.
10Li S, Hong S, Ling C. New algorithms for efficient mining of association rules [ C]. Proceedings of the 7^th Symposium on the Frontiers of Massively Parallel Computation, February, 1999.

共引文献347

1吴雨桐,吴思佳,杨建卫,何依娜,李洪凯,黄琳,刘云霞.基于Apriori算法分析2021年山东省医疗器械不良事件的关联性[J].山东大学学报（医学版）,2022,60(12):111-118. 被引量：9
2孙骎童.关于集群虚拟机资源调度专利申请分析[J].军民两用技术与产品,2018,0(16):198-198.
3章志刚,吉根林.基于迭代式MapReduce的Apriori算法设计与实现[J].华中科技大学学报（自然科学版）,2012,40(S1):9-12. 被引量：8
4李艳平,徐雅斌,陈俊伊.搜索服务中基于云计算的垃圾网页识别研究[J].华中科技大学学报（自然科学版）,2012,40(S1):249-253.
5孙赵平,李龙澍.基于关联规则的Web日志挖掘算法研究[J].电子技术（上海）,2010(8):11-13. 被引量：2
6陈红丽,李广丽.Web挖掘在网络教学中的应用[J].江西理工大学学报,2006,27(3):46-49. 被引量：2
7杜永久.决策树C4.5算法在银行信贷业务工作中的应用研究[J].商场现代化,2009(13):355-356.
8贾宗维,崔军,于慧娟.基于相异度度量的图聚类方法[J].山西农业大学学报（自然科学版）,2009,29(3):284-288. 被引量：2
9邓莹,杨双远,刘菡.基于可变加权的高维数据子空间聚类算法研究[J].信息化纵横,2009(10):55-58. 被引量：2
10焦亚冰.数据挖掘中关联规则在超市商品管理中的应用[J].太原师范学院学报（自然科学版）,2009,8(2):93-95. 被引量：2

同被引文献45

1韩蕾,孙徐湛,吴志川,陈立军.MapReduce上基于抽样的数据划分最优化研究[J].计算机研究与发展,2013,50(S2):77-84. 被引量：13
2周玉敏,邓维斌.基于FP树的最大频繁项目集增量式更新算法[J].重庆工学院学报,2007,21(9):95-98. 被引量：2
3郑滨,陈锦标,夏少生,金永兴.基于数据挖掘的海上交通流数据特征分析[J].中国航海,2009,32(1):60-63. 被引量：20
4陈敏,李徽翡.集群系统中的FP-Growth并行算法[J].计算机工程,2009,35(20):71-72. 被引量：8
5张云涛,于治楼,张化祥.关联规则中频繁项集高效挖掘的研究[J].计算机工程与应用,2011,47(3):139-141. 被引量：18
6齐乐,郑中义,李国平.互见中基于AIS数据的船舶领域[J].大连海事大学学报,2011,37(1):48-50. 被引量：24
7张素琪,梁志刚,胡利娟,董永峰.改进的多维关联规则算法研究及应用[J].计算机工程与科学,2012,34(9):174-179. 被引量：10
8吕雪骥,李龙澍.FP-Growth算法MapReduce化研究[J].计算机技术与发展,2012,22(11):123-126. 被引量：18
9翟岩龙,罗壮,杨凯,徐晟晨.基于Hadoop的高性能海量数据处理平台研究[J].计算机科学,2013,40(3):100-103. 被引量：32
10王聪,柳征,姜文利,孟祥伟.一种新的星载自动识别系统检测概率计算方法[J].宇航学报,2013,34(3):395-401. 被引量：7

引证文献9

1陈亚楠,朱习军.基于Hadoop的中医哮喘用药组合关联分析[J].计算机工程与应用,2017,53(13):95-98. 被引量：2
2舒远仲,戴海辉,吴小玲.Fp-Growth算法在MapReduce框架下的实现[J].软件导刊,2017,16(8):25-28. 被引量：1
3吕荣.基于大数据处理技术的AIS应用研究[J].海军工程大学学报,2017,29(4):98-102. 被引量：7
4顾军华,武君艳,许馨匀,谢志坚,张素琪.基于Spark的并行FP-Growth算法优化及实现[J].计算机应用,2018,38(11):3069-3074. 被引量：9
5刘建树,李健维,刘霖.基于改进兴趣度的船舶关联规则挖掘[J].舰船电子工程,2019,39(1):78-82. 被引量：3
6张素琪,孙云飞,武君艳,顾军华.基于Spark的并行频繁项集挖掘算法[J].计算机应用与软件,2019,36(2):24-28. 被引量：6
7黄婕.基于Spark平台的FP-Growth算法优化与实现[J].湖南工业大学学报,2020,34(1):77-84. 被引量：2
8张乐,魏昕怡,徐苏,林两位.面向大数据的数据库划分FP-Growth改进算法[J].南昌大学学报（理科版）,2022,46(5):570-576. 被引量：3
9唐婧,杜微,周翼.MapReduce模型在大规模数据并行挖掘中的应用[J].智能物联技术,2024,56(2):38-42.

二级引证文献33

1蔡艳婧,王强,程实.基于分布式集群的网络浏览行为大数据分析平台构建[J].中国电子科学研究院学报,2019,14(1):1-7. 被引量：18
2王娟.DCS失电故障分散控制系统维护平台设计[J].计算机测量与控制,2018,26(5):90-92. 被引量：3
3袁野,屈超,翟铁军.城市大型配电网调度智能运行系统设计[J].计算机测量与控制,2018,26(5):125-127. 被引量：3
4石艳敏,张守宾,朱习军.基于Hadoop的中医症状群分类应用[J].计算机应用与软件,2018,35(7):325-328.
5王倩,石艳敏,史春晖,朱习军.基于云平台Hadoop的中医数据挖掘系统设计与实现[J].计算机应用与软件,2018,35(10):45-48. 被引量：8
6郭鹍,杜志啸,蒋晓龙.基于分区存储的AIS系统航行安全数据库设计[J].船海工程,2018,47(5):164-167. 被引量：2
7张馨雨,杨基宏,赖森华,徐刚,杨宇翔,刘辉.基于FP-growth算法的轨道交通系统全生命周期成本要素交互影响研究[J].企业技术开发,2018,37(12):39-43. 被引量：1
8刘莉萍,章新友,牛晓录,郭永坤,丁亮.基于Spark的并行关联规则挖掘算法研究综述[J].计算机工程与应用,2019,55(9):1-9. 被引量：30
9毛宁宁,苏怀智,高建新.基于FP-growth的大坝安全监测数据挖掘方法[J].水利水电科技进展,2019,39(5):78-82. 被引量：11
10李雷孝,刘燕凤,高静.Smith-Waterman算法优化改进与Spark并行化研究[J].内蒙古农业大学学报（自然科学版）,2019,40(5):76-85. 被引量：2

1汪成亮,罗昌银.一种基于组合方式改进的频繁项集挖掘算法[J].计算机系统应用,2010,19(1):67-71. 被引量：3
2王春风,周宁.数据挖掘算法的改进及其在Chord网络中的应用[J].计算机应用,2012,32(1):199-201. 被引量：2
3郑斌.基于SQL技术的频繁模式的发掘[J].中原工学院学报,2008,19(5):56-60.
4潘益婷,严建军.一种基于邻接表的改进FP-growth算法[J].杭州电子科技大学学报（自然科学版）,2008,28(4):65-68.
5王景中,任虎.一种改进的FP_growth算法[J].网络安全技术与应用,2010(7):79-81.
6杨鹏坤,彭慧,周晓锋,孙玉庆.改进的基于频繁模式树的最大频繁项集挖掘算法——FP-MFIA[J].计算机应用,2015,35(3):775-778. 被引量：16
7李金忠,梁正友.一种引入索引加速挖掘关联规则的高效算法[J].计算机工程与科学,2009,31(4):69-71.
8邹力鹍,张其善.基于CAN-树的高效关联规则增量挖掘算法[J].计算机工程,2008,34(3):29-31. 被引量：9
9马丽生,姚光顺,杨传健.基于改进FP-tree的最大频繁项目集挖掘算法[J].计算机应用,2012,32(2):326-329. 被引量：8
10黄贤立.NoSQL非关系型数据库的发展及应用初探[J].福建电脑,2010,26(7):30-30. 被引量：32

计算机应用与软件

2015年第9期

浏览历史

内容加载中请稍等...

基于MapReduce的频繁项集并行挖掘算法被引量：9

参考文献13

二级参考文献48

共引文献347

同被引文献45

引证文献9

二级引证文献33

相关作者

相关机构

相关主题

浏览历史

基于MapReduce的频繁项集并行挖掘算法 被引量：9

参考文献13

二级参考文献48

共引文献347

同被引文献45

引证文献9

二级引证文献33

相关作者

相关机构

相关主题

浏览历史

基于MapReduce的频繁项集并行挖掘算法被引量：9