期刊文献+
共找到2篇文章
< 1 >
每页显示 20 50 100
基于MapReduce的高维数据频繁项集挖掘 被引量:8
1
作者 赵欣灿 朱云 毛伊敏 《计算机工程》 CAS CSCD 北大核心 2022年第3期81-89,共9页
传统的数据挖掘算法在面向大规模高维数据的挖掘过程中,存在数据特征捕捉准确率低、节点负载不均衡、数据交互频繁、频繁项集紧凑化程度低等问题。提出基于MapReduce的并行挖掘算法PARDG-MR,结合高维数据特征,设计基于维度粒化算法和负... 传统的数据挖掘算法在面向大规模高维数据的挖掘过程中,存在数据特征捕捉准确率低、节点负载不均衡、数据交互频繁、频繁项集紧凑化程度低等问题。提出基于MapReduce的并行挖掘算法PARDG-MR,结合高维数据特征,设计基于维度粒化算法和负载均衡算法的DGPL策略,并对数据进行预处理,以解决高维复杂数据特征属性捕捉困难及数据划分中节点负载不均衡的问题。通过构建基于PJPFP-Tree树的频繁项集并行挖掘策略PARM,实现频繁项集的并行化分组过程,从而提高数据处理的运行效率。在此基础上,提出基于剪枝前缀推论的整合节点剪枝算法PJPFP,提高频繁项集挖掘过程中的剪枝效率,增强频繁项集的紧凑化程度。在Webdocs、NDC、Gisette 3个数据集上的实验结果表明,相比PFP-growth、PWARM、MRPrePost算法,该算法的运行时间平均缩短了约20%,能够有效提高数据挖掘效率且降低内存空间。 展开更多
关键词 高维数据 频繁项集 维度粒化 并行化 候选剪枝策略
下载PDF
基于MapReduce的Apriori算法增量挖掘 被引量:6
2
作者 赵欣灿 朱云 毛伊敏 《计算机应用研究》 CSCD 北大核心 2020年第S02期73-75,79,共4页
针对基于MapReduce框架的Apriori关联规则挖掘算法产生候选项集较长、算法执行效率低等问题,以及大数据环境中数据快速更新造成增量处理等缺陷进行了研究,提出了一种基于项集动态加权的增量挖掘算法WDU-Apriori(weighted dynamic updati... 针对基于MapReduce框架的Apriori关联规则挖掘算法产生候选项集较长、算法执行效率低等问题,以及大数据环境中数据快速更新造成增量处理等缺陷进行了研究,提出了一种基于项集动态加权的增量挖掘算法WDU-Apriori(weighted dynamic updating-Apriori)。首先提出W-DPC(weighted dynamic passes combiner)机制作为其候选项集的结合方式,有效提高算法在大数据环境下的适应能力;其次对于新来的增量数据,设计了WBI(weighted border itemsets)策略,用于生成加权边界项集,以改进对增量数据的挖掘效率;最后构建了CTP(calculate transform probability)方法,用于量化阈值边界项集变为频繁项集的可能性,这对先前的挖掘结果有了更高效的应用,在降低节点负载的同时也解决了原始数据集扫描次数较多的问题。理论分析与实验结果共同表明,WDU-Apriori算法不仅有效提高了挖掘效率,平衡了每一个阶段的工作量,同时也有效降低了算法的时间复杂度。 展开更多
关键词 大数据 数据挖掘 候选项集 增量数据 阈值边界
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部