期刊导航
期刊开放获取
河南省图书馆
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
2
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
基于MapReduce的高维数据频繁项集挖掘
被引量:
8
1
作者
赵欣灿
朱云
毛伊敏
《计算机工程》
CAS
CSCD
北大核心
2022年第3期81-89,共9页
传统的数据挖掘算法在面向大规模高维数据的挖掘过程中,存在数据特征捕捉准确率低、节点负载不均衡、数据交互频繁、频繁项集紧凑化程度低等问题。提出基于MapReduce的并行挖掘算法PARDG-MR,结合高维数据特征,设计基于维度粒化算法和负...
传统的数据挖掘算法在面向大规模高维数据的挖掘过程中,存在数据特征捕捉准确率低、节点负载不均衡、数据交互频繁、频繁项集紧凑化程度低等问题。提出基于MapReduce的并行挖掘算法PARDG-MR,结合高维数据特征,设计基于维度粒化算法和负载均衡算法的DGPL策略,并对数据进行预处理,以解决高维复杂数据特征属性捕捉困难及数据划分中节点负载不均衡的问题。通过构建基于PJPFP-Tree树的频繁项集并行挖掘策略PARM,实现频繁项集的并行化分组过程,从而提高数据处理的运行效率。在此基础上,提出基于剪枝前缀推论的整合节点剪枝算法PJPFP,提高频繁项集挖掘过程中的剪枝效率,增强频繁项集的紧凑化程度。在Webdocs、NDC、Gisette 3个数据集上的实验结果表明,相比PFP-growth、PWARM、MRPrePost算法,该算法的运行时间平均缩短了约20%,能够有效提高数据挖掘效率且降低内存空间。
展开更多
关键词
高维数据
频繁项集
维度粒化
并行化
候选剪枝策略
下载PDF
职称材料
基于MapReduce的Apriori算法增量挖掘
被引量:
6
2
作者
赵欣灿
朱云
毛伊敏
《计算机应用研究》
CSCD
北大核心
2020年第S02期73-75,79,共4页
针对基于MapReduce框架的Apriori关联规则挖掘算法产生候选项集较长、算法执行效率低等问题,以及大数据环境中数据快速更新造成增量处理等缺陷进行了研究,提出了一种基于项集动态加权的增量挖掘算法WDU-Apriori(weighted dynamic updati...
针对基于MapReduce框架的Apriori关联规则挖掘算法产生候选项集较长、算法执行效率低等问题,以及大数据环境中数据快速更新造成增量处理等缺陷进行了研究,提出了一种基于项集动态加权的增量挖掘算法WDU-Apriori(weighted dynamic updating-Apriori)。首先提出W-DPC(weighted dynamic passes combiner)机制作为其候选项集的结合方式,有效提高算法在大数据环境下的适应能力;其次对于新来的增量数据,设计了WBI(weighted border itemsets)策略,用于生成加权边界项集,以改进对增量数据的挖掘效率;最后构建了CTP(calculate transform probability)方法,用于量化阈值边界项集变为频繁项集的可能性,这对先前的挖掘结果有了更高效的应用,在降低节点负载的同时也解决了原始数据集扫描次数较多的问题。理论分析与实验结果共同表明,WDU-Apriori算法不仅有效提高了挖掘效率,平衡了每一个阶段的工作量,同时也有效降低了算法的时间复杂度。
展开更多
关键词
大数据
数据挖掘
候选项集
增量数据
阈值边界
下载PDF
职称材料
题名
基于MapReduce的高维数据频繁项集挖掘
被引量:
8
1
作者
赵欣灿
朱云
毛伊敏
机构
江西理工大学理学院
江西理工大学信息工程学院
出处
《计算机工程》
CAS
CSCD
北大核心
2022年第3期81-89,共9页
基金
国家重点研发计划(2018YFC1504705)
国家自然科学基金(41562019)
江西省教育厅科技项目(GJJ151528,GJJ151531)。
文摘
传统的数据挖掘算法在面向大规模高维数据的挖掘过程中,存在数据特征捕捉准确率低、节点负载不均衡、数据交互频繁、频繁项集紧凑化程度低等问题。提出基于MapReduce的并行挖掘算法PARDG-MR,结合高维数据特征,设计基于维度粒化算法和负载均衡算法的DGPL策略,并对数据进行预处理,以解决高维复杂数据特征属性捕捉困难及数据划分中节点负载不均衡的问题。通过构建基于PJPFP-Tree树的频繁项集并行挖掘策略PARM,实现频繁项集的并行化分组过程,从而提高数据处理的运行效率。在此基础上,提出基于剪枝前缀推论的整合节点剪枝算法PJPFP,提高频繁项集挖掘过程中的剪枝效率,增强频繁项集的紧凑化程度。在Webdocs、NDC、Gisette 3个数据集上的实验结果表明,相比PFP-growth、PWARM、MRPrePost算法,该算法的运行时间平均缩短了约20%,能够有效提高数据挖掘效率且降低内存空间。
关键词
高维数据
频繁项集
维度粒化
并行化
候选剪枝策略
Keywords
high-dimensional data
frequent itemset
dimensional granulation
parallel
candidate pruning strategy
分类号
TP311 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
基于MapReduce的Apriori算法增量挖掘
被引量:
6
2
作者
赵欣灿
朱云
毛伊敏
机构
江西理工大学理学院
江西理工大学信息工程学院
出处
《计算机应用研究》
CSCD
北大核心
2020年第S02期73-75,79,共4页
基金
国家重点研发计划资助项目(2018YFC1504705)
国家自然科学基金资助项目(41562019)
文摘
针对基于MapReduce框架的Apriori关联规则挖掘算法产生候选项集较长、算法执行效率低等问题,以及大数据环境中数据快速更新造成增量处理等缺陷进行了研究,提出了一种基于项集动态加权的增量挖掘算法WDU-Apriori(weighted dynamic updating-Apriori)。首先提出W-DPC(weighted dynamic passes combiner)机制作为其候选项集的结合方式,有效提高算法在大数据环境下的适应能力;其次对于新来的增量数据,设计了WBI(weighted border itemsets)策略,用于生成加权边界项集,以改进对增量数据的挖掘效率;最后构建了CTP(calculate transform probability)方法,用于量化阈值边界项集变为频繁项集的可能性,这对先前的挖掘结果有了更高效的应用,在降低节点负载的同时也解决了原始数据集扫描次数较多的问题。理论分析与实验结果共同表明,WDU-Apriori算法不仅有效提高了挖掘效率,平衡了每一个阶段的工作量,同时也有效降低了算法的时间复杂度。
关键词
大数据
数据挖掘
候选项集
增量数据
阈值边界
分类号
TP311.13 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
基于MapReduce的高维数据频繁项集挖掘
赵欣灿
朱云
毛伊敏
《计算机工程》
CAS
CSCD
北大核心
2022
8
下载PDF
职称材料
2
基于MapReduce的Apriori算法增量挖掘
赵欣灿
朱云
毛伊敏
《计算机应用研究》
CSCD
北大核心
2020
6
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部