摘要
发现最大频繁项目集是数据挖掘应用中的关键问题;为寻求避免生成大量的候选项集,或生成频繁模式树的挖掘算法,提出一种从事务项集对应的最大频繁项集求全部属性项集的最大频繁项集的新算法IPA(Intersection Pruning Algorithm)。该算法通过交集剪枝实现自顶向下和自底向上的搜索最大频繁项集,并使用属性项的分布数据和已生成的交集等多种信息来减少求交集的次数;该算法最多只用求(1-最小支持度)×|D|+1个事务项集和其他事务项集的交集,从而可有效降低算法的时间复杂度;实验表明该算法有效可行,并且该算法易于实现。
Discovering maximal frequent itemset is a key issue in data mining;to look for an algorithm that can avoid the generating of vast volume of candidate itemsets,or the generating of frequent pattern tree,an intersection pruning algorithm(IPA) is proposed to find the maximum frequent sets for itemset of all properties from the maximum frequent itemset for transaction itemset.h combines a top-down and bottom-up searches for maximum frequent itemset through intersection pruning,and uses the distribution data of properties and information of the generated intersections,etc, to reduce the number of intersects.Up to (1-minimum support)x|D|+l intersections are calculated,so the time complexity of this algorithm is relatively low;experiments show that this algorithm is valid and efficient,and it is also easy in coding for use in KDD applications.
出处
《计算机工程与应用》
CSCD
北大核心
2009年第13期156-159,共4页
Computer Engineering and Applications
基金
辽宁信息科学与工程重点实验室开放课题No.2005003
2008年大连市IT优秀教师科研基金~~
关键词
数据挖掘
最大频繁项集
候选项集
交集
剪枝
data mining
maximum frequent itemsets
candidate itemsets
intersection
pruning