-
题名基于遗传算法的生物启发频繁项集挖掘策略
- 1
-
-
作者
赵学健
赵可
-
机构
江苏省邮政大数据技术与应用工程中心(南京邮电大学)
宽带无线通信与传感网技术教育部重点实验室(南京邮电大学)
-
出处
《计算机科学》
CSCD
北大核心
2023年第S02期624-631,共8页
-
基金
国家自然科学基金(61972208)
中国博士后科学基金(2018M640509)。
-
文摘
精确频繁项集挖掘算法时间效率低下,在处理大规模数据集时力不从心。针对该问题,提出一种基于遗传算法的频繁项集挖掘策略GAA-FIM(Genetic Algorithm combining Apriori property based Frequent Itemset Mining),给出了编码操作、交叉操作、变异操作和选择操作的详细操作规则。该算法将遗传算法与精确频繁项集挖掘算法的向下闭包特性融合,改进了传统的有性繁殖的交叉操作方式,将具有良好遗传基因的个体优先加入到新一代候选种群中,并通过变异操作扩展新一代候选种群的规模,以提升算法的时间效率,获取更佳质量的频繁项集。基于合成数据集和真实数据集对GAA-FIM算法的性能进行了验证,实验结果表明GAA-FIM算法与GAFIM和GA-Apriori等算法相比具有更好的时间效率,频繁项集质量也得到了进一步提升。
-
关键词
频繁项集
遗传算法
生物启发
向下闭包特性
数据挖掘
-
Keywords
Frequent itemset
Genetic algorithm
Bio-inspired
Downward closure property
Data mining
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名一种基于Top-K查询的加权频繁项集挖掘算法
被引量:2
- 2
-
-
作者
赵学健
熊肖肖
张欣慧
孙知信
-
机构
南京邮电大学现代邮政学院
南京邮电大学物联网学院
-
出处
《计算机技术与发展》
2019年第7期49-54,共6页
-
基金
国家自然科学基金(61373135,61672299)
国家自然青年科学基金(61702281,20140883)
江苏省基础研究计划(自然科学基金)(BK20140883,BK20140894,BK20150869)
-
文摘
数据挖掘技术在各行各业的决策支持活动中扮演着越来越重要的角色,频繁项集挖掘作为数据挖掘最活跃的研究领域之一,具有广泛的应用。近年来,随着信息采集技术和数据处理技术的快速发展,针对不确定数据的频繁项集挖掘引起广泛的关注。然而,面向不确定数据集的加权频繁项集挖掘,由于项目权重值的引入使得加权频繁项集不再满足向下闭包特性,无法对频繁项集的搜索空间进行压缩,时间效率较低。因此,文中提出一种基于Top-K查询的不确定数据加权频繁项集挖掘算法(top-kfrequent itemset mining,TK-FIM),以减少候选加权频繁项集的数量,缩小加权频繁项集的搜索空间,提高搜索效率。最后,在真实数据集和合成数据集上的实验结果表明,TK-FIM算法具有良好的时间性能。
-
关键词
TOP-K
加权频繁项集
向下闭包特性
不确定数据
数据挖掘
-
Keywords
Top-K
weighted frequent itemset
downward closure property
uncertain data
data mining
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-