基于Hadoop的并行Apriori算法被引量：1

Parallel apriori algorithm based on Hadoop

下载PDF

导出

摘要针对经典Apriori算法及其改进算法不能有效处理大规模数据集,提出基于Hadoop-MapReduce编程模型的两种改进算法:HAprioriK,HApriori2。其中HAprioriK需要k个MapReduce Jobs,而HApriori2仅需要2个就能在整个数据集上找到频繁k项集,两种改进算法均充分利用了Hadoop平台的计算优势,可以轻松地处理大量数据。采用IBM的数据集进行改进算法有效性的研究,实验结果表明,HApriori2算法在不同规模的数据集和支持度下,能够有效地挖掘频繁项集,具有比HAprioriK更好的性能。 Aiming at the classical Apriori algorithm and the subsequent improved algorithm can not effectively deal with large-scale data set, two improved algorithms based on Hadoop-MapReduce programming model are proposed： HApriori K,HApriori2. Where HApriori K requires k MapReduce Jobs and HApriori2 requires only 2 to find frequent k-itemsets on the entire dataset. Both of the improved algorithms take advantage of the Hadoop platform＇s computational advantage and can easily handle large amounts of data. The experimental results show that the HApriori2 algorithm can effectively exploit frequent itemsets and has better performance than that of HApriori K under the different data sets and support degree.

作者谢建峰孙剑伟 XIE Jian-feng, SUN Jian-wei(Depavtment of No .5 System, North China Institute of Computing Technology,Beijing 100083,Chin)

机构地区华北计算技术研究所系统五部

出处《信息技术》 2018年第4期129-133,140,共6页 Information Technology

关键词 MAPREDUCE 并行Apriori算法数据挖掘 MapReduce parallel Apriori algorithm data mining

分类号 TP391.13 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献7

1杨志刚,何月顺.基于压缩事务矩阵相乘的Apriori改进算法[J].中国新技术新产品,2010(6):57-58. 被引量：7
2万宇文,黄林颖,甘登文.基于权值的关联规则挖掘改进算法[J].计算机与现代化,2014(4):73-76. 被引量：4
3余文礼.基于Apriori算法和关联度指标的购物篮分析[J].科技视界,2014(4):56-57. 被引量：5
4黄立勤,柳燕煌.基于MapReduce并行的Apriori算法改进研究[J].福州大学学报（自然科学版）,2011,39(5):680-685. 被引量：19
5刘步中.基于频繁项集挖掘算法的改进与研究[J].计算机应用研究,2012,29(2):475-477. 被引量：31
6何军,刘红岩,杜小勇.挖掘多关系关联规则[J].软件学报,2007,18(11):2752-2765. 被引量：38
7李玲娟,张敏.云计算环境下关联规则挖掘算法的研究[J].计算机技术与发展,2011,21(2):43-46. 被引量：48

二级参考文献53

1何月顺,刘光萍,丁秋林.XML与面向Web的数据挖掘技术的应用研究[J].江西农业大学学报,2004,26(6):968-971. 被引量：6
2王旭仁,许榕生.基于粗糙集理论的关联规则挖掘研究及应用[J].计算机工程,2005,31(20):90-92. 被引量：10
3刘华元,袁琴琴,王保保.并行数据挖掘算法综述[J].电子科技,2006,19(1):65-68. 被引量：15
4徐利军,谢康林.A novel algorithm for frequent itemset mining in data warehouses[J].Journal of Zhejiang University-Science A(Applied Physics & Engineering),2006,7(2):216-224. 被引量：2
5王德兴,胡学钢,刘晓平,王浩.改进购物篮分析的关联规则挖掘算法[J].重庆大学学报（自然科学版）,2006,29(4):105-107. 被引量：12
6张素兰.一种基于事务压缩的关联规则优化算法[J].计算机工程与设计,2006,27(18):3450-3453. 被引量：16
7R.Agrawal,T.Imielinski,and A,Swami.Mining association rules between sets of itens in large database.Proceedings of the ACM SIFMOD Conference on Managenet of data,pp.207- 216,1993.
8H.Toivonen.Sampling large databases for association rules .Proceedings of the 22nd International Conference on Very Large Database, Bombay,India,September 1996.
9J.S.Park,M.S.C hencand P.S.Yu.An effective hash-dased algorithn for mining association roles.Proceedings of ACM SIGMOD international Conference on Management of Date,pages 175-1865an Jose,CA,May 1995.
10H.M annila,H.Toivonen,and A.Verkamo.Efficient algorithm for discovering association rules.AAAl Workshop on Knowledge Discovery in Databases, 1994,pp.181-192.

共引文献138

1赵欣灿,朱云,毛伊敏.基于MapReduce的Apriori算法增量挖掘[J].计算机应用研究,2020,37(S02):73-75. 被引量：6
2张丽.关联规则挖掘算法的研究[J].赤峰学院学报（自然科学版）,2013,29(2):22-23.
3章志刚,吉根林.基于迭代式MapReduce的Apriori算法设计与实现[J].华中科技大学学报（自然科学版）,2012,40(S1):9-12. 被引量：8
4栾鸾,李云,盛艳.多关系频繁项集的并行获取[J].微电子学与计算机,2008,25(10):94-96.
5彭珍,杨炳儒,李冬艳,侯伟,宁顶利.多关系数据分类方法综述[J].计算机工程与应用,2008,44(34):35-39. 被引量：1
6吴宁,柏春霞,祝毅博.一种应用关联规则森林的改进贝叶斯分类算法[J].西安交通大学学报,2009,43(2):48-52. 被引量：5
7谢亮,张晶,胡学钢.主从关系数据库中关联规则挖掘算法研究[J].合肥工业大学学报（自然科学版）,2009,32(5):663-666. 被引量：5
8李雪斌,朱艳琴,罗喜召.关联规则挖掘中Apriori算法的研究与改进[J].电脑知识与技术,2009,5(7):5084-5085. 被引量：1
9毛弟弟,郝忠孝.关系数据库中关联规则挖掘的算法研究[J].哈尔滨理工大学学报,2009,14(A01):15-17. 被引量：1
10刘波,潘久辉,刘佩珊.规则评估方法与数据质量挖掘系统[J].计算机集成制造系统,2009,15(7):1436-1441. 被引量：3

同被引文献10

1曾强,缪力,秦拯.面向大数据处理的Hadoop与MongoDB整合技术研究[J].计算机应用与软件,2016,33(2):21-24. 被引量：14
2赵南雨,陈莉君.一种面向Hadoop中间数据存储的混合存储系统[J].信息技术,2017,41(11):161-166. 被引量：3
3凌杰,黄刚.基于Docker的Hadoop集群网络性能分析[J].信息技术,2018,42(2):15-18. 被引量：6
4杨鹏,林俊晖.一种基于MongoDB和Hadoop的海量非结构化物联网数据处理方案[J].微电子学与计算机,2018,35(4):68-72. 被引量：13
5吴信东,嵇圣硙.MapReduce与Spark用于大数据分析之比较[J].软件学报,2018,29(6):1770-1791. 被引量：75
6徐旭平,李小勇.基于MongoDB的元数据管理研究[J].信息技术,2018,42(8):87-93. 被引量：7
7缪雪峰,陈群辉,胡罗凯,刘进.Spark平台下基于上下文信息的影片混合推荐[J].计算机工程与应用,2017,53(10):79-84. 被引量：4
8冯东煜,朱立谷,肖子达,刘迪.一种MongoDB集群数据布局优化方法研究[J].计算机工程与应用,2017,53(17):77-84. 被引量：7
9范宇,郭会明.异构环境下MapReduce动态任务调度技术研究[J].计算机应用研究,2018,35(5):1408-1411. 被引量：4
10熊峰,刘宇.基于MongoDB的数据分片与分配策略研究[J].计算机与数字工程,2019,47(4):892-897. 被引量：13

引证文献1

1杨浩.基于MongoDB与Hadoop MapReduce的数据分析系统性能改进研究[J].微型电脑应用,2019,35(11):61-64. 被引量：4

二级引证文献4

1曾毛林,周铁夫.长沙市造纸印刷包装行业“十五”规划思路[J].湖南包装,2000,15(1):11-12.
2张月圆.基于大数据的元模型及数据保障研究[J].粘接,2021,45(3):96-100. 被引量：1
3王瑞霞.基于MongoDB的海量频谱监测数据存储设计[J].软件,2023,44(11):67-70.
4喻征.智慧示范公路综合管理系统设计[J].江西交通科技,2024(2):102-105.

1常姗.基于Hadoop的电梯安全大数据挖掘算法研究[J].渭南师范学院学报,2018,33(8):34-40. 被引量：3
2刘帅.MapReduce编程模型中key值二次分类算法[J].计算机时代,2018(3):58-59. 被引量：1
3杨晓林,李倩.怎样预防在初一下期出现英语学习两极分化[J].雅安职业技术学院学报,2001,0(2):27-27.
4朱继霞.关于车损价格鉴定问题分析[J].现代经济信息,2017,0(2):150-150.
5孙红,左腾.云计算环境下影响力优化研究与实现[J].小型微型计算机系统,2018,39(1):42-47. 被引量：10
6付广旭,钟晓燕.石油化工废水处理技术及有效运用研究[J].化工管理,2018(10):143-143. 被引量：4
7陈丽娟,谢伙生.带负项值的on-shelf效用项集并行挖掘算法[J].计算机与现代化,2018(4):13-16.
8于方.MapReduce下的Dijkstra并行算法研究[J].阴山学刊（自然科学版）,2018,32(1):66-71. 被引量：4
9Jinglun Li,Shengfei Shi,Hongzhi Wang.Optimization Analysis of Hadoop[J].国际计算机前沿大会会议论文集,2016(1):134-135.
10Jia Li,Changjian Wang,Dongsheng Li,Zhen Huang.Partial Clones for Stragglers in MapReduce[J].国际计算机前沿大会会议论文集,2015(1):33-35.

信息技术

2018年第4期

浏览历史

内容加载中请稍等...

基于Hadoop的并行Apriori算法被引量：1

参考文献7

二级参考文献53

共引文献138

同被引文献10

引证文献1

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

基于Hadoop的并行Apriori算法 被引量：1

参考文献7

二级参考文献53

共引文献138

同被引文献10

引证文献1

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

基于Hadoop的并行Apriori算法被引量：1