针对在海量数据中频繁项集挖掘耗时问题,近年来提出的N-List结构可有效提高挖掘效率。基于N-List提出一种新的频繁项集挖掘算法HNSFI(Hash table and subsume frequent itemsets mining based on N-List)。该算法利用PPC-tree生成N-List...针对在海量数据中频繁项集挖掘耗时问题,近年来提出的N-List结构可有效提高挖掘效率。基于N-List提出一种新的频繁项集挖掘算法HNSFI(Hash table and subsume frequent itemsets mining based on N-List)。该算法利用PPC-tree生成N-List,引入哈希表存储N-List表示的项集,加快N-List相交操作运算时间;引入包含因子概念,利用其性质通过组合方法可以直接生成部分频繁项集,进一步提高算法时间性能。在三种不同的数据集上对该算法进行了测试和分析,实验结果表明在稠密数据集中该算法的时间性能是最优的。展开更多
文摘针对在海量数据中频繁项集挖掘耗时问题,近年来提出的N-List结构可有效提高挖掘效率。基于N-List提出一种新的频繁项集挖掘算法HNSFI(Hash table and subsume frequent itemsets mining based on N-List)。该算法利用PPC-tree生成N-List,引入哈希表存储N-List表示的项集,加快N-List相交操作运算时间;引入包含因子概念,利用其性质通过组合方法可以直接生成部分频繁项集,进一步提高算法时间性能。在三种不同的数据集上对该算法进行了测试和分析,实验结果表明在稠密数据集中该算法的时间性能是最优的。