-
题名基于Spark的并行频繁项集挖掘算法
被引量:2
- 1
-
-
作者
毛伊敏
吴斌
许春冬
张茂省
-
机构
江西理工大学信息工程学院
西安交通大学人居环境与建筑工程学院
-
出处
《计算机集成制造系统》
EI
CSCD
北大核心
2023年第4期1267-1283,共17页
-
基金
国家自然科学基金资助项目(41562019,11864016)
国家重点研发计划资助项目(2018YFC1504705)。
-
文摘
针对大数据环境下基于Spark的频繁模式增长(FP-Growth)算法存在创建条件频繁模式树(FP-tree)时空效率低,节点间通信开销大,以及冗余搜索等问题,提出了基于Spark的并行频繁项集挖掘算法(PAFMFI-Spark)。首先,该算法提出非负矩阵分解策略(SNMF),通过提供支持度计数查询和分解储存支持度计数的矩阵,解决了创建条件FP-tree的时空效率低的问题;其次,提出基于遗传算法的分组策略(GS-GA),均衡分配频繁1项集至各节点,解决了节点间的通信开销大的问题;最后,提出高效缩减树结构策略(ERTSS),缩减FP-tree树结构,解决了冗余搜索的问题。实验结果验证了PAFMFI-Spark算法的可行性以及相较于其他挖掘算法的性能优势,所提算法能有效适应各种数据的频繁项集挖掘。
-
关键词
大数据
Spark框架
并行频繁项集挖掘
频繁模式增长算法
非负矩阵分解
-
Keywords
big data
Spark framework
parallel mining frequent itemsets
frequent pattern growth algorithm
non-negative matrix factorization
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-