基于生成子的频繁项集聚类算法

Algorithm for clustering frequent itemsets based on generators

下载PDF

导出

摘要如何有效地约简频繁项集的数量是目前数据挖掘研究的热点。对频繁项集进行聚类是该问题的解决方法之一。由于生成子是全体频繁项集的无损精简表示,故对生成子进行聚类与对全体频繁项集进行聚类具有相同的效果。提出了一种基于生成子的频繁项集聚类算法。首先,利用最小描述长度原理,讨论了选择生成子进行聚类的合理性;其次,给出了生成子的剪枝策略及挖掘算法;最后,在一种新的项集相似性的度量标准的基础上,给生成子的聚类算法。实验结果表明,该方法可有效地减少项集的数量,并具有较高的挖掘效率。 How to reduce the number of frequent itemsets effectively is a hot topic in data mining research.Clustering frequent itemsets is one solution to the problem.Since generators are lossless concise representations of all frequent itemsets,clustering generators is equivalent to clustering all frequent itemsets.A new algorithm for clustering frequent itemsets based on generators is proposed.Firstly,based on minimum description length principle,the rationality of clustering generators is discussed.Secondly,the pruning strategies and mining algorithm for generators are proposed.Finally,based on a new similarity criterion of frequent itemsets,the clustering algorithm is presented.Experimental results show that the proposed method can not only reduce the number of discovered itemsets,but also is efficient.

作者李晋宏杨炳儒宋威侯伟

机构地区北京科技大学信息工程学院北方工业大学信息工程学院

出处《计算机工程与应用》 CSCD 北大核心 2008年第35期5-8,共4页 Computer Engineering and Applications

基金国家自然科学基金No.60675030 北京市属市管高等学校人才强教计划项目~~

关键词数据挖掘生成子聚类 data mining generator clustering

分类号 TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献12

1Han J,Cheng H,Xin D,et al.Frequent pattern mining:current status and future direetions[J].Data Mining and Knowledge Discovery,2007, 15(1 ):55-86.
2Lian W,Cheung D W,Yiu S M.Maintenance of maximal frequent itemsets in large databases[C]//Proceedings of the 2007 ACM Symposium on Applied Computing,Seoul, Korea,2007.
3唐瑜,王勇,杨辉华.挖掘最大频繁项集的优化方法[J].计算机工程与应用,2006,42(31):171-173. 被引量：5
4Pasquier N, Bastide Y, Taouil R, et al.Discovering frequent closed itemsets for association rules[C]//Proceedings of the 7th International Conference on Database Theory,Jerusalem,Israel, 1999.
5Liu G,Lu H,Lou W,et al.Efficient mining of frequent patterns using ascending frequency ordered prefix-tree[J].Data Mining and Knowledge Discovery, 2004,9(3 ) : 249-274.
6Xiong H,Steinbach M,Tan P,et al.HICAP:Hierarchical clustering with pattern preservation[C]//Proceedings of the 4th SIAM International Conference on Data Mining,Lake Buena Vista,Florida,USA, 2004.
7Jea K F,Chang M Y.Discovering frequent itemsets by support approximation and itemset clustering[J].Data & Knowledge Engineering, 2008,65 ( 1 ) : 90-107.
8Li Y,Chung S M,Holt J D.Text document clustering based on frequent word meaning sequences[J].Data & Knowledge Engineering, 2008,64( 1 ) :381-404.
9黄东,唐俊,汪卫,施伯乐.CuMen:基于最大频繁序列模式的聚类算法及其在基因拼接中的应用[J].计算机科学,2005,32(10):149-153. 被引量：4
10Kryszkiewicz M,Skonieczny L.Hierarchical document clustering using frequent closed sets[C]//Klopotek M A,Wierzchon S T,Trojanowski K.Intelligent Information Processing and Web Mining. Berlin: Springer, 2006 : 489-498.

二级参考文献18

1周焕银,张永,蔺鹏.一种不产生候选项挖掘频繁项集的新算法[J].计算机工程与应用,2004,40(15):182-185. 被引量：14
2秦吉胜,宋瀚涛.关联规则挖掘AprioriHybrid算法的研究和改进[J].计算机工程,2004,30(17):7-8. 被引量：10
3徐章艳,刘美玲,张师超,卢景丽,区玉明.Apriori算法的三种优化方法[J].计算机工程与应用,2004,40(36):190-192. 被引量：71
4Jian P, Han JW, Morta-zavi-Asl B, et al. Mining Sequential Patterns by Prefix-Projected Growth. ICDE, 2001. 215～224
5Foster I,Kesselman C. The Grid: Blueprint for a New Computing Infrastructure. Morgan Kaufmann, 1998
6OGSA(Open Grid Services Architecture) Documents. http:∥www. globus. org/ogsa
7Globus: Research in Resource Management. http:∥ www. globus. org/research/
8Foster I, Kesselman C. The globus project: A status report. In:Proc. The Heterogeneous Computing Workshop, 1998. 4～18
9Mullikin J C,Ning Z. The Phusion Assembler. Genome Research,2003,13(1) :81～90
10Wang JY, Han JW. BIDE: Efficient Mining of Frequent Closed Sequences. In: 20 Intl. Conf. on Date Engineering

共引文献7

1郭健美,宋顺林,李世松.基于Apriori算法的改进算法[J].计算机工程与设计,2008,29(11):2814-2815. 被引量：15
2杨观赐,李琴,李少波,钟勇.重用最大频繁模式的可持续进化算法[J].华南理工大学学报（自然科学版）,2011,39(5):115-119. 被引量：1
3杨观赐,李琴,李少波,钟勇.基于序列挖掘的分等级搜索可持续进化算法[J].华中科技大学学报（自然科学版）,2011,39(7):40-44. 被引量：1
4尹士闪,马增强,毛晚堆.基于频繁项目集链式存储方法的关联规则算法[J].计算机工程与设计,2012,33(3):1002-1007. 被引量：4
5刘敏娴,马强,宁以风.基于频繁矩阵的Apriori算法改进[J].计算机工程与设计,2012,33(11):4235-4239. 被引量：20
6刘城霞.基于MS关联规则数据挖掘模型的应用与探讨[J].计算机技术与发展,2013,23(1):25-28. 被引量：4
7颜珂,何威,徐勇,张健.面向新一代基因测序数据的拼接算法综述[J].计算机应用研究,2016,33(9):2573-2578. 被引量：2

1汤军,陈松灿.非二值化图序列的Community挖掘[J].山东大学学报（工学版）,2011,41(6):37-42.
2桑琳,宫悦,陈斯,高连阳,徐满华.基于粗糙集的连续属性离散化算法及其应用[J].高师理科学刊,2008,28(2):1-4. 被引量：1
3何军,谢冶博,刘红岩,顾应钦,杜小勇.多关系离散化方法[J].清华大学学报（自然科学版）,2010,50(1):40-44.
4叶阳东,刘东,贾利民,LI Gang.一种自动确定参数的sIB算法[J].计算机学报,2007,30(6):969-978. 被引量：5
5束志恒,陈德钊.用于连续属性离散化的RSE-Chi2方法[J].浙江大学学报（工学版）,2005,39(6):849-852. 被引量：2
6黄东.Bad：基于最小描述长度的均衡离散化方法[J].计算机工程与科学,2011,33(12):130-135. 被引量：2

计算机工程与应用

2008年第35期

浏览历史

内容加载中请稍等...

基于生成子的频繁项集聚类算法

参考文献12

二级参考文献18

共引文献7

相关作者

相关机构

相关主题

浏览历史