基于等价类划分的并行频繁闭项集挖掘算法被引量：1

Parallel Frequent Closed Itemsets Mining Algorithm Based on Equivalence Class Partition

下载PDF

导出

摘要针对海量数据的关联规则挖掘问题,提出了一种有效的基于等价类划分的并行频繁闭项集挖掘算法.该算法在MapReduce框架下,通过等价类的产生与划分、数据集的分配、异步频繁闭项集挖掘和汇总等步骤,不但较好地解决了多节点间的负载均衡问题,而且易于获得可靠的频繁闭项集.实验表明,该算法能有效克服传统算法挖掘效率低、冗余规则较多的缺点,整体上具有较高的性能. For the problems of association rules mining of massive database,an effective parallel approach for the closed frequent itemsets mining based on the division of equivalence classes was presented. Under the framework of MapReduce,the proposed approach performs through three steps： 1） the division of equivalence class,2） the allocation of data set,and 3） the asynchronous mining and aggregation of frequent closed itemsets. Such a strategy can significantly solve the load balancing problem of multiple nodes and obtain the reliable frequent closed itemsets. Experimental results showed that the approach can effectively overcome the drawbacks of traditional approaches such as low efficiency of mining,more redundant rules and so on,and gain higher performance.

作者秦东霞齐迎春王伟

机构地区周口师范学院网络工程学院中国科学院自动化研究所

出处《信阳师范学院学报（自然科学版）》 CAS 北大核心 2017年第3期454-459,共6页 Journal of Xinyang Normal University(Natural Science Edition)

基金国家自然科学基金项目(61103143) 河南省高等学校重点科研项目(15A520116 16A520105) 河南省科技攻关项目(162102210396 152102210367)

关键词 MAPREDUCE 并行挖掘算法频繁闭项集等价类划分 MapReduce parallel mining algorithm frequent closed itemsets equivalence class partition

分类号 TP301.6 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献5

1唐颖峰,陈世平.一种基于后缀项表的并行闭频繁项集挖掘算法[J].计算机应用研究,2014,31(2):373-377. 被引量：11
2杨勇,高松松.基于MapReduce的关联规则并行增量更新算法[J].重庆邮电大学学报（自然科学版）,2014,26(5):670-678. 被引量：10
3宋威,吉红蕾,李晋宏.一种高效用项集并行挖掘算法[J].计算机工程与科学,2015,37(3):422-428. 被引量：3
4申彦,朱玉全,刘春华.基于磁盘存储1项集计数的增量FP_GROWTH算法[J].计算机研究与发展,2015,52(3):569-578. 被引量：4
5章志刚,吉根林.一种基于FP-Growth的频繁项目集并行挖掘算法[J].计算机工程与应用,2014,50(2):103-106. 被引量：43

二级参考文献49

1毛国君.数据挖掘原理与算法[M].北京:清华大学出版社,2009.6.
2王永恒,杨树强,贾焰.海量文本数据库中的高效并行频繁项集挖掘方法[J].计算机工程与科学,2007,29(9):110-113. 被引量：2
3HAN Jia-wei, CHENG Hong, XIN Dong, et al. Frequent pattern mi- ning: current status and future directions [J]. Data Mining and Knowledge Discovery,2007,15( 1 ) :55-86.
4AGRAWALR,IMIELISKIT,SWAMIA.Miningassociationrulesbetweensetsofitemsinlargedatabases[J].ACM SIGMOD Record,1993,22(2):207-216.
5HANJiawei,PEIJian,YINYiwen.Miningfrequentpatternswithoutcandidategeneration[J].ACMSIGMODRecord,2000,29(2):1-12.
6ZA?ANEOR,ELHAJJM,LUP.Fastparallelassociationruleminingwithoutcandidacygeneration[C]//ProcofIEEE International ConferenceonDataMining.2001:665-668.
7PRAMUDIONOI,KITSUREGAWA M.ParallelFPgrowthonPCcluster[C]//Procofthe7thPacificAsiaConferenceonAdvancesinKnowledgeDiscoveryandDataMining.Berlin: SpringerVerlag,2003:467-473.
8LILi,ZHAIDong,JINFan.Aparallelalgorithmforfrequentitemsetmining[C]//Procofthe4thInternationalConferenceonParallelandDistributedComputing,ApplicationsandTechnologies.2003:868-871.
9DEANJ,GHEMAWATS.MapReduce:simplifieddataprocessingonlargeclusters[J].CommunicationsoftheACM,2008,51(1):107-113.
10LIHaoyuan,WANGYi,ZHANGDong,etal.PFP:parallelFPGrowthforqueryrecommendation[C]//ProcofACM ConferenceonRecommenderSystems.2008:107-114.

共引文献64

1孙亮.对大规模数据集高效数据挖掘算法的研究[J].自动化与仪器仪表,2016(3):192-193. 被引量：10
2李伟亮,马传香,彭茗菁.基于MAPREDUCE并行处理的轨迹模式挖掘算法的研究[J].物联网技术,2014,4(10):69-71.
3白玲玲,韩天鹏,王峰.基于改进FP-tree的高实用项目集挖掘研究[J].赤峰学院学报（自然科学版）,2015,31(8):21-25.
4崔诚煜,冉晓旻.基于频繁模式挖掘的中文关键词提取算法[J].太赫兹科学与电子信息学报,2015,13(2):279-284.
5杜焕强,俞立峰.一种高效的关联规则连续增量更新改进算法[J].哈尔滨师范大学自然科学学报,2015,31(3):49-52. 被引量：1
6陈运启.数据挖掘技术在煤矿隐患管理中的应用[J].工矿自动化,2016,42(2):27-30. 被引量：17
7钱慎一,王欢欢,杨铁松.改进关联规则算法在烟草物流销售规律中的应用[J].计算机系统应用,2016,25(3):204-208. 被引量：1
8张伟科.一种改进的AprioriTid算法[J].沈阳工业大学学报,2016,38(3):314-318. 被引量：6
9朱文飞,齐建东,洪剑珂.Hadoop下负载均衡的频繁项集挖掘算法研究[J].计算机应用与软件,2016,33(5):35-39. 被引量：4
10邓玲玲,娄渊胜,叶枫.FP-growth算法改进与分布式Spark研究[J].微型电脑应用,2016,32(5):9-11. 被引量：4

同被引文献2

1余云飞.列控中心仿真测试系统的研究及应用[J].铁路通信信号工程技术,2013,10(S1):154-158. 被引量：2
2付彦超.嵌入式系统中软件的测试用例生成研究[J].单片机与嵌入式系统应用,2017,17(11):3-6. 被引量：1

引证文献1

1朱耘燕.列控中心产品功能测试技术研究与应用[J].铁路通信信号工程技术,2018,15(8):12-16. 被引量：2

二级引证文献2

1陈增熙,徐中伟,梅萌.列控中心软件自动化测试框架设计[J].计算机技术与发展,2020,30(10):1-6.
2王猛.简谈列控中心仿真验收测试[J].铁路通信信号工程技术,2021,18(1):19-24.

1熊建.基于OpenStack的云存储技术[J].电子技术与软件工程,2017(16):167-168.
2张四平,王梅.云计算下的基于SOA架构的数据挖掘的研究[J].科技通报,2017,33(8):124-128. 被引量：6

信阳师范学院学报（自然科学版）

2017年第3期

浏览历史

内容加载中请稍等...

基于等价类划分的并行频繁闭项集挖掘算法被引量：1

参考文献5

二级参考文献49

共引文献64

同被引文献2

引证文献1

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

基于等价类划分的并行频繁闭项集挖掘算法 被引量：1

参考文献5

二级参考文献49

共引文献64

同被引文献2

引证文献1

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

基于等价类划分的并行频繁闭项集挖掘算法被引量：1