摘要
关联分析作为数据挖掘中探寻事物之间联系紧密程度的方式之一,被广泛应用于商业,社交分析等领域,其中如何高效挖掘到频繁项集一直都是研究重点。FP-growth以频繁模式树FP-tree为数据结构,极大降低了I/O吞吐,且利用并行计算,提高了计算效率。但因其需要占用大量内存,使得并行规模受到限制。本文设计了基于传递收缩剪枝策略的FP-growth算法,通过限制FP-tree的搜索空间,及时进行剪枝项合并,并将其在分布式平台Spark并行化。通过实验对比证明,较Hadoop上提升25%;相比原有的FP-growth算法PFP,在Spark平台计算提升10%左右。
出处
《领导科学论坛》
2016年第19期79-82,共4页
The Forum of Leadership Science