一种基于Spark的频繁项集快速挖掘算法

Fast Mining Algorithm of Frequent Itemset Based on Spark

下载PDF

导出

摘要如何在海量数据集中提高频繁项集的挖掘效率是目前研究的热点.随着数据量的不断增长,使用传统算法产生频繁项集的计算代价依然很高.为此,提出一种基于Spark的频繁项集快速挖掘算法(fast mining algorithm of frequent itemset based on spark,Fmafibs),利用位运算速度快的特点,设计了一种新颖的模式增长策略.该算法首先采用位串表达项集,利用位运算来快速生成候选项集;其次,针对超长位串计算效率低的问题,考虑将事务垂直分组处理,将同一事务不同组之间的频繁项集通过连接获得候选项集,最后进行聚合筛选得到最终频繁项集.算法在Spark环境下,以频繁项集挖掘领域基准数据集进行实验验证.实验结果表明所提方法在保证挖掘结果准确的同时,有效地提高了挖掘效率. Improving the efficiency of frequent itemset mining in big data is a hot research topic at present.With the continuous growth of data volume,the computing costs of traditional frequent itemset generation algorithms remain high.Therefore,this study proposes a fast mining algorithm of frequent itemset based on Spark(Fmafibs in short).Taking advantage of bit-wise operation,a novel pattern growth strategy is designed.Firstly,the algorithm converts itemset into BitString and exploits bit-wise operation to generate candidate itemset.Secondly,to improve the processing efficiency of long BitString,a vertical grouping strategy is designed and the candidate itemset are obtained by joining the frequent itemset between different groups of same transaction,and then aggregating and filtering them to get the final frequent itemset.Fmafibs is implemented in Spark environment.The experimental results on benchmark datasets show that the proposed method is correct and it can significantly improve the mining efficiency.

作者丁家满李海滨邓斌贾连印游进国 DING Jia-Man;LI Hai-Bin;DENG Bin;JIA Lian-Yin;YOU Jin-Guo(Faculty of Information Engineering and Automation,Kunming University of Science and Technology,Kunming 650504,China;Yunnan Key Laboratory of Artificial Intelligence,Kunming 650504,China)

机构地区昆明理工大学信息工程与自动化学院云南省人工智能重点实验室

出处《软件学报》 EI CSCD 北大核心 2023年第5期2446-2464,共19页 Journal of Software

基金国家自然科学基金(61562054)。

关键词频繁项集模式增长位串位运算垂直分组 SPARK frequent itemset pattern growth BitString bit-wise operation vertical grouping Spark

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献6

1于自强,禹晓辉,董吉文,王琳.分布式多数据流频繁伴随模式挖掘[J].软件学报,2019,30(4):1078-1093. 被引量：10
2张春,周静.动车组运维效率关联规则挖掘优化算法[J].计算机研究与发展,2017,54(9):1958-1965. 被引量：3
3李超,刘辉.一种基于关联分析与N-Gram的错误参数检测方法[J].软件学报,2018,29(8):2243-2257. 被引量：8
4张鹏,段磊,秦攀,左劼,唐常杰,元昌安,彭舰.基于Spark的Top-k对比序列模式挖掘[J].计算机研究与发展,2017,54(7):1452-1464. 被引量：7
5傅向华,陈冬剑,王志强.基于倒排索引位运算的深度优先频繁项集挖掘[J].小型微型计算机系统,2012,33(8):1747-1751. 被引量：7
6刘军煜,贾修一.一种利用关联规则挖掘的多标记分类算法[J].软件学报,2017,28(11):2865-2878. 被引量：34

二级参考文献11

1陈耿,朱玉全,杨鹤标,陆介平,宋余庆,孙志挥.关联规则挖掘中若干关键技术的研究[J].计算机研究与发展,2005,42(10):1785-1789. 被引量：62
2周海岩.采用频繁项目链表变换的频繁项目集挖掘算法[J].小型微型计算机系统,2008,29(7):1254-1257. 被引量：3
3熊忠阳,陈培恩,张玉芳.基于散列布尔矩阵的关联规则Eclat改进算法[J].计算机应用研究,2010,27(4):1323-1325. 被引量：18
4张玉芳,熊忠阳,耿晓斐,陈剑敏.Eclat算法的分析及改进[J].计算机工程,2010,36(23):28-30. 被引量：11
5李海峰,章宁,朱建明,曹怀虎.时间敏感数据流上的频繁项集挖掘算法[J].计算机学报,2012,35(11):2283-2293. 被引量：29
6张敏灵.一种新型多标记懒惰学习算法[J].计算机研究与发展,2012,49(11):2271-2282. 被引量：39
7郭进伟,皮建勇.基于MapReduce的SON算法实现[J].计算机应用,2014,34(A01):100-102. 被引量：7
8严玉良,董一鸿,何贤芒,汪卫.FSMBUS:一种基于Spark的大规模频繁子图挖掘算法[J].计算机研究与发展,2015,52(8):1768-1783. 被引量：20
9吴恒,吴根秀,毛临川,黄梅.一种基于DHP的动态链地址关联规则挖掘算法[J].江西师范大学学报（自然科学版）,2015,39(5):463-468. 被引量：3
10杨皓,段磊,胡斌,邓松,王文韬,秦攀.带间隔约束的Top-k对比序列模式挖掘[J].软件学报,2015,26(11):2994-3009. 被引量：20

共引文献61

1廖纪勇,吴晟,刘爱莲.一种基于邻接矩阵的频繁项集挖掘算法[J].数据通信,2020(6):30-34. 被引量：1
2郑莉,陈素峰.航迹点搁浅风险数据关联规则挖掘方法研究[J].舰船科学技术,2019,41(24):43-45.
3孟敏.基于Apriori算法的船用物联网多来源数据深度挖掘方法[J].舰船科学技术,2019,0(24):193-195. 被引量：1
4万润君,郭嗣琮,刘海涛,曾繁慧.适于高维数据的多标记学习层次树模型[J].辽宁工程技术大学学报（自然科学版）,2022,41(1):73-78.
5张岳,王洪国,邵增珍,赵建秀.基于先验位运算的频繁项集挖掘[J].计算机应用研究,2013,30(9):2610-2612. 被引量：4
6张步忠,程玉胜,王则林.基于片上多核的频繁项集并行挖掘算法[J].计算机科学,2014,41(3):55-58. 被引量：3
7齐娇娇.基于改进Apriori算法的运动员多属性训练数据挖掘模型构建及仿真[J].微型电脑应用,2018,34(12):137-139. 被引量：5
8屈庆涛,刘其成,牟春晓.基于N-Gram语言模型的并行自适应新闻话题追踪算法[J].山东大学学报（工学版）,2018,48(6):37-43. 被引量：10
9温亮明,郭蕾,王晓东,郑晓欢,黎建辉.基于关联规则的国内外数据期刊载文特征比较分析——以《Scientific Data》和《中国科学数据》为例[J].情报科学,2019,37(1):112-121. 被引量：14
10易宗剑,彭月英,覃晓,唐涛.一种基于分治策略与位运算的频繁项集挖掘算法[J].广西师范学院学报（自然科学版）,2015,32(1):50-56.

1张丽.家户式中央空调在住宅节能中的应用[J].中文科技期刊数据库（文摘版）工程技术,2022(9):0137-0139.
2陈辉定.基于计算机网络技术的网络信息安全防护体系构建[J].现代雷达,2023,45(2). 被引量：6
3毛伊敏,吴斌,许春冬,张茂省.基于Spark的并行频繁项集挖掘算法[J].计算机集成制造系统,2023,29(4):1267-1283. 被引量：2
4廖慧娟.基于绿色增长理论的强生态区全域旅游实现路径[J].农经,2022(12):95-97.
5Zaihe Cheng,Wei Shen,Wei Fang,Jerry Chun-Wei Lin.A Parallel High-Utility Itemset Mining Algorithm Based on Hadoop[J].Complex System Modeling and Simulation,2023,3(1):47-58.
6史俊彪,骆文杰,熊思璇,单东风,江朝晖,韩超.基于预测一致性嵌入的注视目标检测[J].图像与信号处理,2023,12(2):144-157.
7邱宇,盖永浩,杨文博,邓聪,张文祥.各向同性与各向异性逆时偏移成像对比分析[J].价值工程,2023,42(13):154-156.
8王斌,姚银凤,周伟,胡克勇.挖掘意外高效用项集的有效方法[J].计算机仿真,2023,40(4):469-475.
9宋佳芮,陈艳平,王凯,黄瑞章,秦永彬.基于Affix-Attention的命名实体识别语义补充方法[J].山东大学学报（工学版）,2023,53(2):70-76.
10程丽荣,赵熙强.DNA序列新特征的提取方法及其在重组位点识别中的应用[J].中国海洋大学学报（自然科学版）,2023,53(6):59-64.

软件学报

2023年第5期

浏览历史

内容加载中请稍等...

一种基于Spark的频繁项集快速挖掘算法

参考文献6

二级参考文献11

共引文献61

相关作者

相关机构

相关主题

浏览历史