大数据环境下频繁项集挖掘的研究被引量：2

Research on Frequent Itemsets Mining in Large Data Environment

下载PDF

导出

摘要多种频繁项集挖掘(FIM)方法组合用来对大数据进行挖掘会暴露很多问题。针对暴露的问题,在MapReduce平台上对两种频繁项集挖掘算法进行了研究。采用两种新的大数据集挖掘方法:Dist-Eclat和BigFIM,前者侧重于速度,利用基于k-FIs的简易负荷平衡方案来解决问题。而后者通过先验变体对k-FIs进行挖掘后将找出的频繁项集分配给映射程序,通过优化后在真正大的数据集上运行。最后通过实验证明该方法时间复杂度较低,数据量越大优势将越明显,扩展效果越好。 A variety of mining frequent itemsets（FIM）combination method used for mining on large data will expose many problems.According to the exposed problems to two kinds of frequent itemsets mining algorithm were researched in the platform of MapReduce,This paper adopts two kinds of big new data set mining method：Dist-Eclat and BigFIM.The former focuses on speed,using simple load balancing scheme based on k-FIs to solve the problem.The latter by mining the k-FIs through a priori variants will find frequent item sets assigned to mapping procedures,through optimized operation in a real large data sets.The experiments prove that the time complexity of the method is low.The advantage will be more obvious and the effect of expansion is better,when data quantity is bigger.

作者李挥剑

机构地区交通运输部管理干部学院信息技术应用研究所

出处《青岛科技大学学报（自然科学版）》 CAS 2015年第2期224-231,共8页 Journal of Qingdao University of Science and Technology:Natural Science Edition

基金交通运输部应用基础研究(主干学科)项目(2012-319-226-320)

关键词分布式数据挖掘频繁项集挖掘 MAPREDUCE HADOOP Eclat算法 distributed data mining FIM MapReduce Hadoop Eclat Algorithm

分类号 TP301.6 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献13

1Agrawal R, Srikant R. Fast algorithms for mining associa- tion rules in large databases [C]//VLDB, Proceedings of 20th International Conference on very Large Data Bases,San- tiago Chile, 2004:487-499.
2Bayardo R J. Efficiently mining long patterns from databases[C]//Special Interest Groupon Management of Data, Seattle Washington, 2004: 85-93.
3Zaki M, Parthasarathy S, Ogihara M, et al. Parallel algo- rithmsfor discovery of association rules [C]//Data Mining and Knowledge,2007:343-373.
4Mobasher B, Dai H, Luo T, et al. Effective personalization based on association rule discovery from web usage data [C]//Proeeedings of the 3rd International Workshop on Web Information and Data Management, 2001: 9-15.
5Dean J,Ghemawat S. MapReduce: Simplified data processing onlarge cluster[C]//USENIX Association, 6th Symposium on Operating Systems Design and Implementation, 2004: 123-129.
6Agrawal R, Sharer J. Parallel mining of association rules [C]//IEEE Transations Knowledge Data Engineering, 2006: 962-969.
7Lin M Y, Lee P Y, Hsueh S C. Apriori-based frequent item- set mining algorithms on MapReduce[J]. International Con- ferenee on Ubiquitous Information Management and Comun- ciation, 2012:26-30.
8Li H, Wang Y, Zhang D,et al. Parallel fp-growth for query recommendation[C]//Proceedings of the 2008 ACM Confer- ence on Recommender Systems, New York, 2008:107-114.
9Zhou L, Zhong Z, Chang J, et al. Balaneedparallel FP- growth with MapReduce[C]//IEEE Youth Conference on Information, Compating and Telecommunications, 2010 : 243- 246.
10Malek M, Kadima H. Searching frequent itemsets by clus- tering data: Towards a parallel approach using mapreduce [C]//Proceeding WISE 2011 and 2012 Workshops Springer Berlin Heidelberg, 2013: 251-258.

同被引文献19

1张云涛,于治楼,张化祥.关联规则中频繁项集高效挖掘的研究[J].计算机工程与应用,2011,47(3):139-141. 被引量：18
2翟岩龙,罗壮,杨凯,徐晟晨.基于Hadoop的高性能海量数据处理平台研究[J].计算机科学,2013,40(3):100-103. 被引量：32
3郑舞,刘国萍.常见数据挖掘方法在中医诊断领域的应用概况[J].中国中医药信息杂志,2013,20(4):103-107. 被引量：16
4李伟卫,赵航,张阳,王勇.基于MapReduce的海量数据挖掘技术研究[J].计算机工程与应用,2013,49(20):112-117. 被引量：35
5李善青,赵辉,宋立荣.基于大数据挖掘的科技项目查重模型研究[J].图书馆论坛,2014,34(2):78-83. 被引量：27
6朱建生,汪健雄,张军锋.基于NoSQL数据库的大数据查询技术的研究与应用[J].中国铁道科学,2014,35(1):135-141. 被引量：28
7高芹,陈亚.数据挖掘中一种高效的聚类通用框架研究[J].科学技术与工程,2014,22(16):112-118. 被引量：2
8罗可,吴杰.一种基于Apriori的改进算法[J].计算机工程与应用,2001,37(22):20-22. 被引量：24
9尤海浪,钱锋,黄祥为,胡亮亮.基于大数据挖掘构建游戏平台个性化推荐系统的研究与实践[J].电信科学,2014,30(10):27-32. 被引量：19
10宫宇,吕金壮.大数据挖掘分析在电力设备状态评估中的应用[J].南方电网技术,2014,8(6):74-77. 被引量：50

引证文献2

1梅毅,熊婷,罗少彬.复杂属性环境下NoSQL分布式大数据挖掘方法研究[J].科学技术与工程,2017,17(9):239-243. 被引量：15
2陈亚楠,朱习军.基于Hadoop的中医哮喘用药组合关联分析[J].计算机工程与应用,2017,53(13):95-98. 被引量：2

二级引证文献17

1耿德志.分布式集群环境下数据挖掘优化算法研究[J].信息通信,2019,0(12):65-66.
2毛晓菊.基于模糊关联规则的海量数据挖掘方法研究[J].微电子学与计算机,2018,35(2):89-93. 被引量：10
3王莉莉.多维多层数据的无冗余跨层挖掘算法[J].微电子学与计算机,2018,35(2):113-117. 被引量：2
4张凯斐,刘继华,张菊芳.大规模高维数据集中局部异常数据挖掘算法[J].微电子学与计算机,2018,35(3):116-119. 被引量：13
5路玥.基于数据挖掘的英语教师教学能力评价研究[J].现代电子技术,2018,41(11):153-156. 被引量：9
6聂捷楠.大规模数据库中非显著特征动态数据实时挖掘技术[J].科学技术与工程,2018,18(21):252-257. 被引量：3
7石艳敏,张守宾,朱习军.基于Hadoop的中医症状群分类应用[J].计算机应用与软件,2018,35(7):325-328.
8王倩,石艳敏,史春晖,朱习军.基于云平台Hadoop的中医数据挖掘系统设计与实现[J].计算机应用与软件,2018,35(10):45-48. 被引量：8
9魏丽峰,韩俊玉,梁灏.基于大数据分析挖掘技术的电力设备局部放电诊断方法[J].科学技术与工程,2018,18(19):203-208. 被引量：19
10郭德超,张豪,胡昌盛.城市空气粉尘污染空间集聚数据智能挖掘技术研究[J].环境科学与管理,2019,44(4):97-101. 被引量：1

1张春,汲磊举.基于MapReduce的Eclat改进算法研究与应用[J].北京交通大学学报,2016,40(3):1-6. 被引量：4
2张毅,杨颖,陆瑞兴.一种新的频繁项集挖掘算法DS-ECLAT[J].广西科学院学报,2010,26(1):19-22. 被引量：2
3滕翠,梁川.三种频繁模式挖掘算法的分析与比较[J].电脑知识与技术（过刊）,2010,0(23):6416-6417. 被引量：1
4张岳,王洪国,邵增珍,赵建秀.基于先验位运算的频繁项集挖掘[J].计算机应用研究,2013,30(9):2610-2612. 被引量：4
5宋长新,马克.改进的Eclat数据挖掘算法的研究[J].微计算机信息,2008,24(24):92-94. 被引量：17
6陈凤娟.关联规则的ECLAT算法[J].消费电子,2014(16):149-149. 被引量：3
7熊忠阳,陈培恩,张玉芳.基于散列布尔矩阵的关联规则Eclat改进算法[J].计算机应用研究,2010,27(4):1323-1325. 被引量：18
8杜剑峰,李宏,陈松乔,陈建二.单调和反单调约束条件下关联规则的挖掘算法分析[J].计算机科学,2005,32(6):142-144. 被引量：3
9冯培恩,刘屿,邱清盈,李立新.提高Eclat算法效率的策略[J].浙江大学学报（工学版）,2013,47(2):223-230. 被引量：13
10周涛,张艳宁,袁和金,陆惠玲.降序加权join半概念格快速挖掘算法[J].计算机工程与应用,2006,42(29):12-15.

青岛科技大学学报（自然科学版）

2015年第2期

浏览历史

内容加载中请稍等...

大数据环境下频繁项集挖掘的研究被引量：2

参考文献13

同被引文献19

引证文献2

二级引证文献17

相关作者

相关机构

相关主题

浏览历史

大数据环境下频繁项集挖掘的研究 被引量：2

参考文献13

同被引文献19

引证文献2

二级引证文献17

相关作者

相关机构

相关主题

浏览历史

大数据环境下频繁项集挖掘的研究被引量：2