期刊文献+
共找到3篇文章
< 1 >
每页显示 20 50 100
基于PFP-Growth算法的海量频繁项集挖掘 被引量:2
1
作者 江雨燕 李平 《计算机技术与发展》 2013年第9期63-65,198,共4页
随着互联网技术的发展,网络数据变得越来越巨大,如何从中挖掘有效信息成为人们研究的重点。近年来频繁项集挖掘由于其在关联规则挖掘、相关挖掘等任务中的相关重要作用,越来越受到人们的重视。文中针对分布式计算环境下频繁项集挖掘算... 随着互联网技术的发展,网络数据变得越来越巨大,如何从中挖掘有效信息成为人们研究的重点。近年来频繁项集挖掘由于其在关联规则挖掘、相关挖掘等任务中的相关重要作用,越来越受到人们的重视。文中针对分布式计算环境下频繁项集挖掘算法的研究,对PFP-Growth算法进行了改进,通过MapReduce编程模型对改进的PFP-Growth算法进行了实现和应用,使用户可以从海量数据中高效地获得所有需要的频繁项集。实验结果表明算法在针对海量数据时具有较高的效率和伸缩性。 展开更多
关键词 频繁项集 海量数据 pfp-growth
下载PDF
基于Spark的PFP-Growth并行算法优化实现 被引量:6
2
作者 方向 张功萱 《现代电子技术》 北大核心 2016年第8期9-13,共5页
随着数据量的增大,FP-Growth算法压缩数据思想的优势就体现出来,基于MapReduce框架的PFP-Growth算法实现该算法在Hadoop平台上的并行化,但是MapReduce框架每次对作业进行操作都要将中间结果输出存储到磁盘,影响算法的效率。为了提高关... 随着数据量的增大,FP-Growth算法压缩数据思想的优势就体现出来,基于MapReduce框架的PFP-Growth算法实现该算法在Hadoop平台上的并行化,但是MapReduce框架每次对作业进行操作都要将中间结果输出存储到磁盘,影响算法的效率。为了提高关联挖掘的效率,基于Spark平台,运用均衡分组的思想对该算法进行改进,同时在对具有很长前缀情况进行共享前缀的拆分,通过4个步骤使IPFP-Growth算法在Spark上实现。实验结果表明在Spark平台上优化过后的算法在性能上要优于PFP-Growth算法。 展开更多
关键词 并行化 SPARK 关联挖掘 pfp-growth
下载PDF
一种频繁项集并行挖掘算法 被引量:3
3
作者 李力 翟东海 靳蕃 《铁道学报》 EI CAS CSCD 北大核心 2003年第6期71-75,共5页
频繁项集在数据挖掘领域中起着重要作用。本文提出一种基于FP growth 的并行挖掘频繁项集算法PFP growth(ParallelFP growth)。新算法避免了以前基于Apriori的并行算法反复扫描数据库,产生候选集以及处理机间通信量大的缺点。PFP growt... 频繁项集在数据挖掘领域中起着重要作用。本文提出一种基于FP growth 的并行挖掘频繁项集算法PFP growth(ParallelFP growth)。新算法避免了以前基于Apriori的并行算法反复扫描数据库,产生候选集以及处理机间通信量大的缺点。PFP growth算法将挖掘任务均匀地分布在并行处理机上,在挖掘过程中采用一定划分策略以获得处理机间的任务平衡,并采用适当的数据结构减少并行处理机间数据通信量。在国家高性能计算机上的仿真实验证明,本算法是一种有效的并行算法。 展开更多
关键词 并行 数据挖掘 频繁项集 pfp-growth
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部