-
题名基于散列的频繁项集分组算法
被引量:1
- 1
-
-
作者
王红梅
胡明
-
机构
吉林大学计算机科学与技术学院
长春工业大学计算机科学与工程学院
-
出处
《计算机应用》
CSCD
北大核心
2013年第11期3045-3048,3089,共5页
-
基金
国家自然科学基金资助项目(61133011)
吉林省自然科学基金资助项目(20101525)
-
文摘
Apriori算法是频繁项集挖掘的经典算法。针对Apriori算法的剪枝操作和多次扫描数据集的缺点,提出了基于散列的频繁项集分组(HFG)算法。证明了2-项集剪枝性质,采用散列技术存储频繁2-项集,将Apriori算法剪枝操作的时间复杂度从O(k×|L k|)降低到O(1);定义了首项的子项集概念,将数据集划分为以I i为首项的数据子集并采用分组索引表存储,在求以I i为首项的频繁项集时,只扫描以I i为首项的数据子集,减少了对数据集扫描的时间代价。实验结果表明,由于HFG算法的剪枝操作产生了累积效益,以及分组扫描排除了无效的项集和元组,使得HFG算法在时间性能方面与Apriori算法相比有较大提高。
-
关键词
频繁项集
2-项集剪枝
散列表
首项分组
索引表
-
Keywords
frequent itemset
2-length itemset pruning
Hash list
first term grouping
index list
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-