基于Hadoop平台的并行DHP数据分析方法被引量：4

Data analysis method for parallel DHP based on Hadoop

下载PDF

导出

摘要由候选项集G2生成频繁2-项集岛是关联规则Apriori算法的一个瓶颈。直接哈希修剪（DHP）算法利用一个生成的Hash表见H2减G2中无用的候选项集，以此提高厶的生成效率。但传统DHP算法是一个串行算法，不能有效处理较大规模数据。针对这一问题，提出DHP的并行化算法——H_DHP。首先，对DHP算法并行化策略的可行性进行了理论分析与证明；其次，基于Hadoop平台，把Hash表以的生成以及频繁项集L1、L3～Lk的生成方法进行了并行实现，并借助Hbase数据库生成关联规则。仿真实验结果表明：与传统DHP算法相比，H_DHP算法在数据的处理时间效率、处理数据集的规模大小，以及加速比和可扩展性等方面都有较好的性能。 It is a bottleneck of Apriori algorithm for mining association rules that the candidate set C2 is used to generate the frequent 2-item set L2. In the Direct Hashing and Pruning （DHP） algorithm, a generated Hash table H2 is used to delete the unused candidate item sets in C2 for improving the efficiency of generating L2. However, the traditional DI-IP is a serial algorithm, which cannot effectively deal with large scale data. In order to solve the problem, a DHP parallel algorithm, termed H DHP algorithm, was proposed. First, the feasibility of parallel strategy in DHP was analyzed and proved theoretically. Then, the generation method for the Hash table H2 and frequent item sets L1, L3 - Lk was developed in parallel based on Hadoop, and the association rules were generated by Hbase database. The simulation experimental results show that, compared with the DHP algorithm, the H_DHP algorithm has better performance in the processing efficiency of data, the size of the data set, the speedup and scalability.

作者杨燕霞冯林

机构地区四川师范大学计算机科学学院四川师大科技园发展有限公司

出处《计算机应用》 CSCD 北大核心 2016年第12期3280-3284,3291,共6页 journal of Computer Applications

基金国家科技支撑计划项目(2014BAH11F01 2014BAH11F02) 四川省科技支撑计划项目(15GZ0079)~~

关键词 HADOOP HASH表 APRIORI算法直接哈希修剪算法 Hadoop Hash table Apriori algorithm Direct Hashing and Pruning （DHP） algorithm

分类号 TP311.13 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献8

1何军,刘红岩,杜小勇.挖掘多关系关联规则[J].软件学报,2007,18(11):2752-2765. 被引量：37
2张忠林,曾庆飞,许凡.动态关联规则的趋势度挖掘方法[J].计算机应用,2012,32(1):196-198. 被引量：9
3李杰,徐勇,王云峰,朱昭贤.面向个性化推荐的强关联规则挖掘[J].系统工程理论与实践,2009,29(8):144-152. 被引量：45
4王勇,吴艳梅,李芬,张楠.面向比特流数据的未知协议关联分析与识别[J].计算机应用研究,2015,32(1):243-248. 被引量：12
5王涛伟,周必水.基于DHP的频繁遍历路径挖掘算法[J].杭州电子科技大学学报（自然科学版）,2005,25(5):60-63. 被引量：5
6魏兵海.MPI语言绑定:MPI-Delphi,MPI-Java与MPI-Ruby[J].计算机科学,2004,31(8):185-189. 被引量：4
7李建江,崔健,王聃,严林,黄义双.MapReduce并行编程模型研究综述[J].电子学报,2011,39(11):2635-2642. 被引量：186
8刘义,景宁,陈荦,熊伟.MapReduce框架下基于R-树的k-近邻连接算法[J].软件学报,2013,24(8):1836-1851. 被引量：60

二级参考文献158

1余力,刘鲁,罗掌华.我国电子商务推荐策略的比较分析[J].系统工程理论与实践,2004,24(8):96-101. 被引量：45
2王大玲,于戈,鲍玉斌.一种具有最大推荐非空率的关联规则挖掘方法[J].软件学报,2004,15(8):1182-1188. 被引量：11
3余力,刘鲁.电子商务个性化推荐研究[J].计算机集成制造系统,2004,10(10):1306-1313. 被引量：104
4闫莺,王大玲,于戈.支持个性化推荐的Web页面关联规则挖掘算法[J].计算机工程,2005,31(1):79-81. 被引量：19
5陈耿,朱玉全,杨鹤标,陆介平,宋余庆,孙志挥.关联规则挖掘中若干关键技术的研究[J].计算机研究与发展,2005,42(10):1785-1789. 被引量：62
6徐利军,谢康林.A novel algorithm for frequent itemset mining in data warehouses[J].Journal of Zhejiang University-Science A(Applied Physics & Engineering),2006,7(2):216-224. 被引量：2
7冯珺,孙济庆.基于前项不定长关联规则个性化推荐算法的研究[J].计算机工程与应用,2006,42(7):174-177. 被引量：5
8刘琦,卜佳俊,陈纯.基于Apriori算法的关键词推荐在面向主题的用户个性化搜索中的应用[J].模式识别与人工智能,2006,19(2):186-190. 被引量：5
9马建庆,钟亦平,张世永.基于兴趣度的关联规则挖掘算法[J].计算机工程,2006,32(17):121-122. 被引量：20
10荣冈,刘进锋,顾海杰.数据库中动态关联规则的挖掘[J].控制理论与应用,2007,24(1):127-131. 被引量：24

共引文献342

1彭博一,张钊,蒋鸿宇.一种基于改进自编码器的二进制协议聚类方法[J].太赫兹科学与电子信息学报,2021,19(4):712-716. 被引量：1
2桂智明,向宇,李玉鉴.基于出租车轨迹的并行城市热点区域发现[J].华中科技大学学报（自然科学版）,2012,40(S1):187-190. 被引量：21
3贾璐,罗若愚,刘谦,李亦学,骆清铭.基于集群的代谢网络计算平台研究[J].计算机应用与软件,2008,25(2):45-46.
4栾鸾,李云,盛艳.多关系频繁项集的并行获取[J].微电子学与计算机,2008,25(10):94-96.
5彭珍,杨炳儒,李冬艳,侯伟,宁顶利.多关系数据分类方法综述[J].计算机工程与应用,2008,44(34):35-39. 被引量：1
6吴宁,柏春霞,祝毅博.一种应用关联规则森林的改进贝叶斯分类算法[J].西安交通大学学报,2009,43(2):48-52. 被引量：5
7谢亮,张晶,胡学钢.主从关系数据库中关联规则挖掘算法研究[J].合肥工业大学学报（自然科学版）,2009,32(5):663-666. 被引量：5
8李雪斌,朱艳琴,罗喜召.关联规则挖掘中Apriori算法的研究与改进[J].电脑知识与技术,2009,5(7):5084-5085. 被引量：1
9毛弟弟,郝忠孝.关系数据库中关联规则挖掘的算法研究[J].哈尔滨理工大学学报,2009,14(A01):15-17. 被引量：1
10刘俊莉,林晓锐,王楚斌,谭子义,司徒祝坤.MPJ并行编程框架的实现及安装配置[J].计算机与现代化,2009(8):164-168.

同被引文献36

1闫珍,皮德常,吴文昊.高维稀疏数据频繁项集挖掘算法的研究[J].计算机科学,2011,38(6):183-186. 被引量：5
2潘燕燕.关联规则DHP算法的研究与分析[J].佛山科学技术学院学报（自然科学版）,2012,30(2):30-32. 被引量：3
3付沙,廖明华,宋丹.基于压缩矩阵方式的Apriori改进算法[J].微电子学与计算机,2012,29(6):28-32. 被引量：15
4刘海燕,王超,牛军钰.基于条件互信息的特征选择改进算法[J].计算机工程,2012,38(14):135-137. 被引量：9
5孙逢啸,倪世宏,谢川.一种基于矩阵的Apriori改进算法[J].计算机仿真,2013,30(8):245-249. 被引量：20
6罗丹,李陶深.一种基于压缩矩阵的Apriori算法改进研究[J].计算机科学,2013,40(12):75-80. 被引量：46
7周海燕.基于基因表达式编程的混合蚁群算法[J].无线互联科技,2014,11(1):100-101. 被引量：1
8潘果.基于正则化互信息改进输入特征选择的分类算法[J].计算机工程与应用,2014,50(15):25-29. 被引量：3
9张海燕,吴凡,王建新.基于蚁群算法的Hadoop资源感知调度器研究[J].计算机工程与应用,2014,50(15):65-71. 被引量：7
10晁永生,孙文磊.基于粗糙集的焊接类型关联规则提取[J].计算机工程与应用,2015,51(15):244-248. 被引量：5

引证文献4

1张佳颖.探讨基于并行数据库的海量数据分析方法[J].冶金管理,2019,0(17):192-192.
2李向.基于蚁群算法优化Hadoop平台计算效能方法[J].微型电脑应用,2018,34(12):140-143. 被引量：1
3杨秋翔,孙涵.基于权值向量矩阵约简的Apriori算法[J].计算机工程与设计,2018,39(3):690-693. 被引量：15
4王奇,张晗,宋云海,尚佳宁,张厚荣.基于关联算法的输变电设备缺陷预警研究[J].电网与清洁能源,2019,35(9):76-80. 被引量：10

二级引证文献26

1刘芳,吴广潮.一种基于压缩矩阵的改进Apriori算法[J].山东大学学报（工学版）,2018,48(6):82-88. 被引量：9
2刘花.基于Apriori算法的关联分析[J].信息与电脑,2019,31(19):132-133. 被引量：6
3王志华,刘绍廷,罗齐.基于邻接多重表的动态频繁项集挖掘算法[J].计算机工程与设计,2019,40(11):3090-3098. 被引量：3
4廖纪勇,吴晟,刘爱莲.基于布尔矩阵约简的Apriori算法改进研究[J].计算机工程与科学,2019,41(12):2231-2238. 被引量：23
5田建勇,石林江.融合布尔矩阵和项目特性的关联规则挖掘算法[J].控制工程,2020,27(6):1004-1011. 被引量：6
6叶峰.基于二分法的改进Apriori关联算法研究[J].电子设计工程,2020,28(16):49-53. 被引量：5
7毕玉萍,胡世昌,李劲华.基于排序树的Node-Apriori改进算法[J].青岛大学学报（自然科学版）,2020,33(3):50-56. 被引量：3
8潘云.基于Hadoop技术的疗养中心信息化建设与改进[J].生命科学仪器,2020,18(5):59-65. 被引量：3
9钱叶牛,赵薇,阎阳,吴涛,王春雷.变压器故障风险分析理论模型研究[J].微型电脑应用,2021,37(5):93-95. 被引量：1
10杜长青,陈兵,俞越中,孙铭泽,袁星,王子涵,钟锦航.基于三维模型比对的输电线路弧垂检测方法[J].电网与清洁能源,2021,37(6):35-42. 被引量：10

1朱小栋,郑诚,舒坚,陈振.关联规则的哈希修剪算法研究[J].安徽大学学报（自然科学版）,2005,29(4):20-23. 被引量：3
2朱小栋,郑诚,乐毅.用改进的关联规则算法建立入侵检测系统模型[J].微机发展,2004,14(11):139-141. 被引量：1
3詹志飞.基于圈和树的频繁项集挖掘算法[J].电脑知识与技术,2010,6(5):3502-3504.
4周国军,吴庆军.基于MapReduce的DHP算法并行化研究[J].计算机应用与软件,2016,33(6):47-50. 被引量：1
5潘燕燕.关联规则DHP算法的研究与分析[J].佛山科学技术学院学报（自然科学版）,2012,30(2):30-32. 被引量：3
6王娟.一种基于DHP算法的频繁项集改进方法[J].科技视界,2013(31):47-48. 被引量：1
7蔡之华,吕维先,颜雪松.基于关联图的关联规则挖掘算法研究[J].小型微型计算机系统,2002,23(4):450-452. 被引量：15
8张竹润,谢康林,张忠能.一种提取关联规则的数据挖掘快速算法[J].上海交通大学学报,2002,36(4):555-558. 被引量：7
9李珣.基于Hadoop的非关系型数据库安全技术研究[J].电子世界,2014(8):3-4. 被引量：2
10王立峰.HBase数据库中大对象存储方案的研究[J].电脑知识与技术（过刊）,2014,20(8X):5401-5402. 被引量：4

计算机应用

2016年第12期

浏览历史

内容加载中请稍等...

基于Hadoop平台的并行DHP数据分析方法被引量：4

参考文献8

二级参考文献158

共引文献342

同被引文献36

引证文献4

二级引证文献26

相关作者

相关机构

相关主题

浏览历史

基于Hadoop平台的并行DHP数据分析方法 被引量：4

参考文献8

二级参考文献158

共引文献342

同被引文献36

引证文献4

二级引证文献26

相关作者

相关机构

相关主题

浏览历史

基于Hadoop平台的并行DHP数据分析方法被引量：4