-
题名基于Hadoop的并行Apriori算法
被引量:1
- 1
-
-
作者
谢建峰
孙剑伟
-
机构
华北计算技术研究所系统五部
-
出处
《信息技术》
2018年第4期129-133,140,共6页
-
文摘
针对经典Apriori算法及其改进算法不能有效处理大规模数据集,提出基于Hadoop-MapReduce编程模型的两种改进算法:HAprioriK,HApriori2。其中HAprioriK需要k个MapReduce Jobs,而HApriori2仅需要2个就能在整个数据集上找到频繁k项集,两种改进算法均充分利用了Hadoop平台的计算优势,可以轻松地处理大量数据。采用IBM的数据集进行改进算法有效性的研究,实验结果表明,HApriori2算法在不同规模的数据集和支持度下,能够有效地挖掘频繁项集,具有比HAprioriK更好的性能。
-
关键词
MAPREDUCE
并行Apriori算法
数据挖掘
-
Keywords
MapReduce
parallel Apriori algorithm
data mining
-
分类号
TP391.13
[自动化与计算机技术—计算机应用技术]
-