基于Spark的并行频繁模式挖掘算法被引量：13

Parallel frequence pattern mining algorithm based on Spark

下载PDF

导出

摘要在大数据环境下Apriori频繁模式挖掘算法在数据处理过程具有预先设定最小阈值、时间复杂度高等缺陷,为此采用多阶段挖掘策略实现并行化频繁模式挖掘算法PTFP-Apriori。首先将预处理数据以模式树的形式存储,通过最为频繁的k个模式得到最优阈值。然后根据该值删除预期不能成长为频繁的模式以降低计算规模,并利用弹性分布式数据集RDD完成统计项集支持度计数、候选项集生成的工作。实验分析表明相比于传统的频繁模式挖掘算法,该算法具有更高的效率以及可扩展性。 Under the environment of big data, the frequent pattern mining algorithm Apriori has some defects, includingpresetting minimum threshold and high time complexity when in data processing process. Therefore, the multistage miningstrategy is adopted to realize the parallel frequent pattern mining algorithm(PTFP-Apriori). Firstly, the preprocessed datais stored in a pattern tree, and the optimal threshold is got by the most frequent K model. Subsequently, according to thethreshold, the frequent pattern that can’t grow up to be frequent patterns could be removed to reduce the computing scale.The RDD is used to accomplish the task of itemsets support counting and candidate itemsets generating. The experimentalresults show that the algorithm has higher effectivity and scalability than the traditional algorithm.

作者曹博倪建成李淋淋于苹苹姚彬修 CAO Bo;NI Jiancheng;LI Linlin;YU Pingping;YAO Binxiu(College of Information Science and Engineering, Qufu Normal University, Rizhao, Shandong 276800, China;College of Software, Qufu Normal University, Qufu, Shandong 273100, China)

机构地区曲阜师范大学信息科学与工程学院曲阜师范大学软件学院

出处《计算机工程与应用》 CSCD 北大核心 2016年第20期86-91,共6页 Computer Engineering and Applications

基金国家自然科学基金(No.61402258) 山东省本科高校教学改革研究项目(No.2015M102) 校级教学改革研究项目(No.jg05021*)

关键词大数据频繁模式挖掘 TOP-K 模式树并行计算 big data frequent pattern mining Top-k pattern tree parallel computing

分类号 TP301.6 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献14

1马青霞,李广水,孙梅.频繁模式挖掘进展及典型应用[J].计算机工程与应用,2011,47(15):138-144. 被引量：6
2Agrawal R.Mining association rules between sets of itemsin large databases[J].ACM Sigmod Record,1993,22(2):207-216.
3Qiu Hongjian,Gu Rong,Yuan Chunfeng,et al.YAFIM:aparallel frequent itemset mining algorithm with Spark[C].2014 IEEE International Parallel & Distributed ProcessingSymposium Workshops(IPDPSW),2014:1664-1671.
4Tanna P,Ghodasara Y.Frequent pattern mining based onImperative Tabularized Apriori Algorithm(ITAA)[C].IEEEInternational Conference on Electrical,Computer and CommunicationTechnologies,2015.
5Gui F,Ma Y,Zhang F,et al.A distributed frequent itemsetmining algorithm based on Spark[C].International Conferenceon Computer Supported Cooperative Work in Design,2015.
6Dam T L,Li K,Fournier-Viger P,et al.An efficient algorithmfor mining top-rank-k frequent patterns[J].AppliedIntelligence,2016:1-16.
7章志刚,吉根林.一种基于FP-Growth的频繁项目集并行挖掘算法[J].计算机工程与应用,2014,50(2):103-106. 被引量：43
8Li L,Zhang M.The strategy of mining association rule based on cloud computing[C].2011 International Conference on Business Computing and Global Informatization(BCGIN),2011:475-478.
9Yin J,Zheng Z,Cao L,et al.Efficiently mining Top-K highutility sequential patterns[C].IEEE International Conferenceon Data Mining,2013:1259-1264.
10Zaharia M,Chowdhury M,Das T,et al.Resilient distributeddatasets:a fault-tolerant abstraction for in-memory clustercomputing[C].Usenix Conference on Networked SystemsDesign and Implementation,2012:141-146.

二级参考文献81

1易彤,徐宝文,吴方君.一种基于FP树的挖掘关联规则的增量更新算法[J].计算机学报,2004,27(5):703-710. 被引量：32
2王大玲,于戈,鲍玉斌.一种具有最大推荐非空率的关联规则挖掘方法[J].软件学报,2004,15(8):1182-1188. 被引量：11
3陈安龙,唐常杰,陶宏才,元昌安,谢方军.基于极大团和FP-Tree的挖掘关联规则的改进算法[J].软件学报,2004,15(8):1198-1207. 被引量：30
4吉根林,杨明,宋余庆,孙志挥.最大频繁项目集的快速更新[J].计算机学报,2005,28(1):128-135. 被引量：47
5颜跃进,李舟军,陈火旺.基于FP-Tree有效挖掘最大频繁项集[J].软件学报,2005,16(2):215-222. 被引量：68
6宋余庆,朱玉全,孙志挥,杨鹤标.一种基于频繁模式树的约束最大频繁项目集挖掘及其更新算法[J].计算机研究与发展,2005,42(5):777-783. 被引量：21
7陈耿,朱玉全,杨鹤标,陆介平,宋余庆,孙志挥.关联规则挖掘中若干关键技术的研究[J].计算机研究与发展,2005,42(10):1785-1789. 被引量：62
8郭山清,谢立,曾英佩.入侵检测在线规则生成模型[J].计算机学报,2006,29(9):1523-1532. 被引量：14
9刘学军,徐宏炳,董逸生,钱江波,王永利.基于滑动窗口的数据流闭合频繁模式的挖掘[J].计算机研究与发展,2006,43(10):1738-1743. 被引量：26
10王伟平,李建中,张冬冬,郭龙江.一种有效的挖掘数据流近似频繁项算法[J].软件学报,2007,18(4):884-892. 被引量：33

共引文献47

1曾旭.计算机等级考试中的关联规则挖掘[J].成都信息工程学院学报,2012,27(1):59-62.
2吐尔地·托合提,维尼拉·木沙江,艾斯卡尔·艾木都拉.基于频繁模式挖掘的维吾尔文智能组词方法[J].计算机应用,2012,32(10):2920-2922. 被引量：6
3周兴华,陆建峰,汤九斌.基于多线程技术的数据流频繁模式挖掘[J].计算机应用,2013,33(A01):69-72.
4牛新征,杨健,佘堃.基于数组前缀树的频繁项集挖掘算法[J].小型微型计算机系统,2014,35(8):1693-1698. 被引量：5
5李伟亮,马传香,彭茗菁.基于MAPREDUCE并行处理的轨迹模式挖掘算法的研究[J].物联网技术,2014,4(10):69-71.
6白玲玲,韩天鹏,王峰.基于改进FP-tree的高实用项目集挖掘研究[J].赤峰学院学报（自然科学版）,2015,31(8):21-25.
7崔诚煜,冉晓旻.基于频繁模式挖掘的中文关键词提取算法[J].太赫兹科学与电子信息学报,2015,13(2):279-284.
8杜焕强,俞立峰.一种高效的关联规则连续增量更新改进算法[J].哈尔滨师范大学自然科学学报,2015,31(3):49-52. 被引量：1
9李政,祝利,韦伟.关联规则挖掘在电子对抗目标分析中的应用[J].舰船电子对抗,2015,38(5):1-4. 被引量：5
10陈运启.数据挖掘技术在煤矿隐患管理中的应用[J].工矿自动化,2016,42(2):27-30. 被引量：17

同被引文献93

1宋卫林,徐惠民.基于最大频繁项目序列集挖掘DMFIA算法的改进[J].计算机工程与设计,2007,28(7):1493-1496. 被引量：1
2雷霆,黄太贵,李斌.基于数据平台的电力市场数据整合交换[J].电力系统自动化,2007,31(24):90-93. 被引量：15
3宋长新,马克.改进的Eclat数据挖掘算法的研究[J].微计算机信息,2008,24(24):92-94. 被引量：17
4陈丽娟,朱晓燕,赵俊峰.国内电网实时数据集成应用综述[J].电力自动化设备,2010,30(1):139-144. 被引量：21
5朱小虎,宋文军,王崇骏,谢俊元.用于社团发现的Girvan-Newman改进算法[J].计算机科学与探索,2010,4(12):1101-1108. 被引量：12
6骆志刚,丁凡,蒋晓舟,石金龙.复杂网络社团发现算法研究新进展[J].国防科技大学学报,2011,33(1):47-52. 被引量：76
7高振兴,郭创新,俞斌,骆玉海,彭明伟,杨健.基于多源信息融合的电网故障诊断方法研究[J].电力系统保护与控制,2011,39(6):17-23. 被引量：58
8刘步中.基于频繁项集挖掘算法的改进与研究[J].计算机应用研究,2012,29(2):475-477. 被引量：31
9朱晓峰,李玲娟,徐小龙,陈建新.基于MapReduce的关联规则增量更新算法[J].计算机技术与发展,2012,22(4):115-118. 被引量：15
10李国杰,程学旗.大数据研究:未来科技及经济社会发展的重大战略领域——大数据的研究现状与科学思考[J].中国科学院院刊,2012,27(6):647-657. 被引量：1605

引证文献13

1李融,杨淙钧,高泽,李常宝,刘忠麟,艾中良.基于Spark的精准关联规则挖掘算法实现[J].信息技术,2018,42(2):153-158. 被引量：4
2石陆魁,张欣,师胜利.基于Spark的FP_Growth算法的并行与优化[J].计算机工程与应用,2018,54(13):52-58. 被引量：4
3王诚,赵申屹.一种改进的并行关联规则增量更新算法研究[J].计算机技术与发展,2018,28(7):48-52. 被引量：1
4冯兴杰,潘轩.基于Spark的投影树频繁项集挖掘算法[J].计算机工程与设计,2018,39(8):2477-2483. 被引量：3
5刘斌,何进荣,耿耀君,王最.并行机器学习算法基础体系前沿进展综述[J].计算机工程与应用,2017,53(11):31-38. 被引量：10
6曲朝阳,陈贺新,胡可为,刘耀伟,独健鸿.基于Spark的电力调度数据整合模型[J].计算机工程与应用,2017,53(19):65-70. 被引量：9
7吴磊,程良伦,王涛.基于事务映射区间求交的高效频繁模式挖掘算法[J].计算机应用研究,2019,36(4):1031-1035. 被引量：7
8刘莉萍,章新友,牛晓录,郭永坤,丁亮.基于Spark的并行关联规则挖掘算法研究综述[J].计算机工程与应用,2019,55(9):1-9. 被引量：29
9张勇敢,李海霞.一种在Spark框架下的基于改进随机森林的Android恶意软件检测方法[J].电脑知识与技术,2019,15(2):192-194. 被引量：1
10王永贵,徐山珊,肖成龙.无线城市社团发现的研究——在Spark上利用改进关联规则实现社团发现的算法[J].计算机科学与探索,2019,13(9):1582-1592. 被引量：2

二级引证文献85

1夏正龙,姚蓉,朱亮,钟艳雯.基于Spark的探空逆温识别算法实现[J].湖北农业科学,2021,60(S01):335-339. 被引量：1
2白永平,彭江红,王延卓.机器学习和数据挖掘在动物养殖行业中的应用研究进展[J].兽医导刊,2019(2):47-48.
3魏恒选.初探电力调度运行管理中的问题与措施[J].区域治理,2018,0(41):114-114.
4宋鸣程,贾立,叶灵芝.基于Spark的火电大数据挖掘方法的研究[J].控制工程,2018,25(12):2158-2165. 被引量：11
5祝永志.基于Spark的Hybrid推荐算法的研究与实现[J].电子技术（上海）,2018,47(12):59-62. 被引量：2
6厉彦玲,赵庚星,常春艳,王卓然,王凌,郑佳荣.OLI与HSI影像融合的土壤盐分反演模型[J].农业工程学报,2017,33(21):173-180. 被引量：25
7敬思,许建飞.基于知识图谱的机器学习领域研究进展分析[J].江苏科技信息,2018,35(13):18-21. 被引量：1
8祝永志.基于Spark技术的ALS推荐算法的可扩放性研究[J].电子技术（上海）,2018,47(6):27-29. 被引量：1
9王青云,李艳梅.基于网络安全的电力调度中心统一数据平台设计[J].电子世界,2018,0(12):183-183. 被引量：1
10王禹辰,王思远.机器学习下的SDN网络结构[J].信息记录材料,2018,19(11):101-103.

1何海林,皮建勇.大数据处理平台比较与分析[J].微型机与应用,2015,34(11):7-9. 被引量：8
2冯小民.怪异网址照当不误[J].电脑爱好者,2004(23):68-69.
3调试拣选站的选择性照明[J].现代制造,2016,0(24):19-19.
4孙玉强,李银银,顾玉宛.双重并行环境下最短路径的研究[J].计算机测量与控制,2017,25(3):195-196.
5程国建,赵倩倩.K-means聚类算法在Spark平台上的应用[J].软件导刊,2016,15(2):146-148. 被引量：4
6程磊生,吴志健,彭虎,吴双可,邓长寿,王则林.基于RDD的分布式粒子群优化算法[J].小型微型计算机系统,2016,37(11):2542-2546. 被引量：4
7王浩然,崔业怡,潘金贵.一种最小阈值适应性预测算法[J].计算机科学,2005,32(4):125-128.
8谭旭杰,邓长寿,董小刚,袁斯昊,吴志健,彭虎.SparkDE:一种基于RDD云计算模型的并行差分进化算法[J].计算机科学,2016,43(9):116-119. 被引量：5
9邓万宇,李力,牛慧娟.基于Spark的并行极速神经网络[J].郑州大学学报（工学版）,2016,37(5):47-56. 被引量：4
10李金东,马东堂,李卫,王杉.基于RED算法的非线性拥塞控制[J].计算机工程,2008,34(20):91-92. 被引量：10

计算机工程与应用

2016年第20期

浏览历史

内容加载中请稍等...

基于Spark的并行频繁模式挖掘算法被引量：13

参考文献14

二级参考文献81

共引文献47

同被引文献93

引证文献13

二级引证文献85

相关作者

相关机构

相关主题

浏览历史

基于Spark的并行频繁模式挖掘算法 被引量：13

参考文献14

二级参考文献81

共引文献47

同被引文献93

引证文献13

二级引证文献85

相关作者

相关机构

相关主题

浏览历史

基于Spark的并行频繁模式挖掘算法被引量：13