一种新的频繁项集精简表示方法及其挖掘算法的研究被引量：18

Research on a New Concise Representation of Frequent Itemset and Its Mining Algorithm

下载PDF

导出

摘要频繁项集挖掘是数据挖掘研究领域的一个基本问题,其瓶颈在于频繁项集全集的结果过多,冗余现象严重.主要的解决思路是只挖掘全体频繁项集中有代表性的子集,使得这种子集或者可满足应用的需要或者可由它们导出其他项集.最大项集和闭项集便是这类解决方案中两种最典型的子集形式.在最大项集和闭项集的基础上,提出了元项集这一新的频繁项集精简表示方法.首先,证明了最大项集和闭项集都是元项集的特例,且元项集所包含的项集数目介于二者之间;其次,讨论了元项集的性质.最后,通过在闭项集挖掘算法DCI-Closed-Index的基础上引入剪枝策略,设计了一个元项集挖掘算法.实验结果表明,所提出的挖掘算法是有效的和高效的. Frequent itemset mining has become an important data mining task and a focused theme in data mining research. The bottlenecks of frequent itemset mining are as follows： On the one hand, the number of all frequent itemsets is usually extremely large. On the other hand, there is often severe redundancy in the resultant itemsets. To overcome these problems, recently several proposals have been made to construct a concise representation of the frequent itemsets, instead of mining all frequent itemsets. The aim is that the resultant subset can either satisfy the requirements of applications, or can derive all the other frequent itemsets. Maximal itemset and closed itemset are two most typical representative subsets of all frequent itemsets. Based on maximal itemset and closed itemset, a new concise representation of frequent itemset, namely meta itemset, is proposed. It is proved that both maximal itemset and closed itemset are special cases of meta itemset. The cardinality of meta itemset is between those of maximal itemset and closed ire：reset. Then, property of meta itemset is discussed. Finally, by introducing pruning strategies to DCI-closed-index, which is a closed itemset mining algorithm, an algorithm for mining meta itemset is proposed. Experimental results show that the proposed algorithm is effective and efficient.

作者宋威李晋宏徐章艳杨炳儒

机构地区北方工业大学信息工程学院北京科技大学信息工程学院广西师范大学计算机科学与信息工程学院

出处《计算机研究与发展》 EI CSCD 北大核心 2010年第2期277-285,共9页 Journal of Computer Research and Development

基金国家自然科学基金项目(60675030) 北京市优秀人才培养资助项目(2009D005002000009) 北方工业大学青年重点研究基金项目北方工业大学博士科研启动基金项目~~

关键词数据挖掘关联规则最大项集闭项集元项集 data mining association rule maximal itemset closed itemset meta itemset

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献10

1Ceglar A, Roddick J F. Association mining [J]. ACM Computing Surveys, 2006, 38 (2): 1-42.
2Piatetsky-Shapiro G. Data mining and knowledge discovery 1996 to 2005: Overcoming the hype and moving from "university" to "business" and "analytics"[J]. Data Mining Knowledge Discovery, 2007, 15(1): 99-105.
3Han J, Cheng H, Xin D, et al. Frequent pattern mining: Current status and future directions[J]. Data Mining and Knowledge Discovery, 2007, 15(1): 55-86.
4Calders T, Rigotti C, Boulicaut J F. A survey on condensed representations for frequent sets [G] //Constraint-Based Mining and Inductive Databases. Berlin: Springer, 2005:64- 80.
5Song W, Yang B R, Xu Z Y. Index-MaxMiner: A new maximal frequent itemset mining algorithm [J]. International Journal on Artificial Intelligence Tools, 2008, 17(2): 303- 320.
6秦亮曦,史忠植.SFPMax——基于排序FP树的最大频繁模式挖掘算法[J].计算机研究与发展,2005,42(2):217-223. 被引量：26
7Lucchese C, Orlando S, Perego R. Fast and memory efficient mining of frequent closed itemsets [J]. IEEE Trans on Knowledge and Data Engineering, 2006, 18 (1): 21-36.
8宋威,杨炳儒,徐章艳,高静.一种改进的频繁闭项集挖掘算法[J].计算机研究与发展,2008,45(2):278-286. 被引量：11
9Liu G, Lu H, Lou W, et al. Efficient mining of frequent patterns using ascending frequency ordered prefix-tree [J]. Data Mining and Knowledge Discovery, 2004, 9 (3) : 249- 274.
10Grahne G, Zhu J. Fast algorithms for frequent itemset mining using prefix-trees[J]. IEEE Trans on Knowledge and Data Engineering, 2005, 17(10): 1:347-1362.

二级参考文献21

1秦亮曦,史忠植.SFPMax——基于排序FP树的最大频繁模式挖掘算法[J].计算机研究与发展,2005,42(2):217-223. 被引量：26
2宋余庆,朱玉全,孙志挥,杨鹤标.一种基于频繁模式树的约束最大频繁项目集挖掘及其更新算法[J].计算机研究与发展,2005,42(5):777-783. 被引量：21
3.[EB/OL].http://www. ics. uci. edu/～ mlearn/MLRepository. html,1996.
4D. Burdick, M. Calimlim, J. Gehrke. MAFIA: A maximal frequent itemset algorithm for transactional databases. In: D.Georgakopoulos, et al, eds. Proc. of 17th Int'l Conf. on Data Engineering. Heidelberg: IEEE Press, 2001. 443～452.
5K. Gouda, M. Zaki. Efficiently mining maximal frequent itemsets. In: N. Cercone, T. Y. Lin, X. Wu, eds. Proc. of the 2001 IEEE Int'l Conf. on Data Mining. San Jose: IEEE Press,2001. 163～170.
6R. Agrawal, T. Imielinski, A. Swami. Mining association rules between sets of items in large database. In: P. Buneman, S.Jajodia, eds. Proc. of 1993 ACM SIGMOD Conf. on Management of Data. Washington DC: ACM Press, 1993. 207～216.
7R. Agrawal, R. Srikant. Fast algorithms for mining association rules. In: J. Bocca, M. Jarke, C. Zaniolo, eds. Proc. of the 20th Int'l Conf. on Very Large Databases (VLDB' 94) .Santiago: Morgan Kaufmann, 1994. 487～499.
8J. Han, J. Pei, Y. Yin. Mining frequent patterns without candidate generation. In: M. Dunham, J. Naughton, W. Chen,eds. Proc. of 2000 ACM-SIGMOD Int'l Conf. on Management of Data (SIGMOD'00). Dallas, TX, New York: ACM Press,2000. 1～ 12.
9N. Pasquier, Y. Bastide, R. Taouil, et al.. Discovering frequent colsed itemsets for association rules. In: C. Beeri, et al,eds. Proc. of 7th Int'l Conf. on Database Theory. Jerusalem:Springer-Verlag, 1999. 398～416.
10J. Pei, J. Han, R. Mao. Closet: An efficient algorithm for mining frequent closed itemsets. In: D Gunopulos, et al, eds.Proc. of the 2000 ACM SIGMOD Int' l Workshop on Data Mining and Knowledge Discovery. Dallas: ACM Press, 2000. 21～30.

共引文献34

1韦华伟.企业文化培训应如何实施[J].人才资源开发,2005(8):65-66. 被引量：2
2晏明春,谢辉.基于绩效管理的最大频繁模式挖掘研究[J].计算机工程与应用,2006,42(5):213-216. 被引量：1
3谭晓光.数据仓库技术在天气预报决策中的应用探讨[J].应用气象学报,2006,17(3):325-332. 被引量：9
4LIU Shan LIAO Yongyi.An Improved Apriori Algorithm[J].现代电子技术,2007,30(4):106-107.
5李忠哗,任春龙,何丕廉.一种基于FP-树的最大频繁模式增量更新挖掘算法[J].计算机应用与软件,2007,24(5):47-49. 被引量：3
6刘山,孟维芬,廖勇毅.基于二维表的频繁集组合方法[J].中国民航大学学报,2007,25(1):52-54.
7梁碧珍,陆月然,秦亮曦.一种改进的基于FP-树的最大目标频繁项集挖掘算法[J].计算机工程与科学,2007,29(10):70-72. 被引量：2
8沈海澜,陈志刚,王路露,陈再良.L-MAX频繁项集及挖掘算法[J].小型微型计算机系统,2007,28(12):2174-2179.
9宋威,杨炳儒,徐章艳,高静.一种改进的频繁闭项集挖掘算法[J].计算机研究与发展,2008,45(2):278-286. 被引量：11
10王晗,孔令富,练秋生.基于图像映射的关联规则数据挖掘方法[J].计算机工程,2008,34(21):71-72. 被引量：1

同被引文献251

1潘海为,韩启龙,印桂生,张炜,李建中.基于领域知识指导的医学图像关联规则挖掘[J].计算机研究与发展,2007,44(z3):424-428. 被引量：3
2蔡红,陈荣耀,陈波.关联规则挖掘最小支持度阀值设定的优化算法研究[J].微型电脑应用,2011(6):33-36. 被引量：9
3吕杰林,陈是维.基于相关性度量的关联规则挖掘[J].浙江大学学报（理学版）,2012,39(3):284-288. 被引量：15
4易彤,徐宝文,吴方君.一种基于FP树的挖掘关联规则的增量更新算法[J].计算机学报,2004,27(5):703-710. 被引量：32
5王大玲,于戈,鲍玉斌.一种具有最大推荐非空率的关联规则挖掘方法[J].软件学报,2004,15(8):1182-1188. 被引量：11
6陈安龙,唐常杰,陶宏才,元昌安,谢方军.基于极大团和FP-Tree的挖掘关联规则的改进算法[J].软件学报,2004,15(8):1198-1207. 被引量：30
7董祥军,王淑静,宋瀚涛,陆玉昌.负关联规则的研究[J].北京理工大学学报,2004,24(11):978-981. 被引量：33
8闫莺,王大玲,于戈.支持个性化推荐的Web页面关联规则挖掘算法[J].计算机工程,2005,31(1):79-81. 被引量：19
9吉根林,杨明,宋余庆,孙志挥.最大频繁项目集的快速更新[J].计算机学报,2005,28(1):128-135. 被引量：47
10颜跃进,李舟军,陈火旺.基于FP-Tree有效挖掘最大频繁项集[J].软件学报,2005,16(2):215-222. 被引量：68

引证文献18

1马青霞,李广水,孙梅.频繁模式挖掘进展及典型应用[J].计算机工程与应用,2011,47(15):138-144. 被引量：6
2宋威,刘文博,李晋宏.基于动态裁剪频繁模式树的频繁项集并发挖掘算法[J].山东大学学报（工学版）,2011,41(4):49-55. 被引量：3
3邓晓懿,金淳,樋口良之,韩庆平.面向个性化推荐的快速关联规则挖掘算法[J].情报学报,2011,30(9):963-972. 被引量：2
4马青霞.数据挖掘的技术特点及发展现状[J].金陵科技学院学报,2011,27(4):29-34. 被引量：1
5俸世洲,周尚波.关联规则在独立学院招生决策中的应用[J].计算机工程与科学,2012,34(1):119-123. 被引量：8
6周秀梅,黄名选.有效的矩阵加权正负关联规则挖掘算法--MWARM-SRCCCI[J].计算机应用,2014,34(10):2820-2826. 被引量：2
7宋威,刘明渊,李晋宏.基于事务型滑动窗口的数据流中高效用项集挖掘算法[J].南京大学学报（自然科学版）,2014,50(4):494-504. 被引量：4
8羊斌.关联规则挖掘在市场监管工作中的应用[J].计算机与现代化,2014,0(10):42-45.
9丁勇,朱辉生,高广银.改进的频繁闭情节挖掘算法[J].计算机工程与设计,2014,35(12):4213-4216.
10周秀梅,黄名选.基于项权值变化的完全加权正负关联规则挖掘[J].电子学报,2015,43(8):1545-1554. 被引量：14

二级引证文献76

1曾旭.计算机等级考试中的关联规则挖掘[J].成都信息工程学院学报,2012,27(1):59-62.
2吐尔地·托合提,维尼拉·木沙江,艾斯卡尔·艾木都拉.基于频繁模式挖掘的维吾尔文智能组词方法[J].计算机应用,2012,32(10):2920-2922. 被引量：6
3赵建喆,王大可,李凯.基于粗糙集的多值属性关联规则挖掘[J].情报学报,2012,31(10):1083-1089. 被引量：1
4王智钢,王池社,李广水,王蓁蓁.基于SVC的证券行情周K线涨跌预测[J].金陵科技学院学报,2013,29(1):15-19. 被引量：1
5周兴华,陆建峰,汤九斌.基于多线程技术的数据流频繁模式挖掘[J].计算机应用,2013,33(A01):69-72.
6江雨燕,李平.基于PFP-Growth算法的海量频繁项集挖掘[J].计算机技术与发展,2013,23(9):63-65. 被引量：2
7张麦玲,刘艺培.关联规则挖掘在高校招生决策中的应用研究[J].现代计算机,2013,19(19):27-30. 被引量：2
8张剑凯,齐金平.关联规则在移动电子商务推荐系统中的应用[J].信息技术与信息化,2013(5):109-111. 被引量：2
9牛新征,杨健,佘堃.基于数组前缀树的频繁项集挖掘算法[J].小型微型计算机系统,2014,35(8):1693-1698. 被引量：5
10黄翔.关联规则算法研究与应用[J].数字技术与应用,2014,32(9):128-128.

1曾致中.对于基于最长频繁闭项集的聚类算法的探讨[J].农业网络信息,2007(6):60-60.
2张泽洪,张伟.基于最长频繁闭项集的聚类算法[J].计算机工程,2007,33(1):187-189. 被引量：2
3徐健辉.生成频繁项集的逻辑“与”运算算法[J].计算机应用,2004,24(11):88-90. 被引量：5
4周金陵,刁兴春,曹建军.基于开项集剪枝的常量条件函数依赖挖掘[J].清华大学学报（自然科学版）,2016,56(3):253-261. 被引量：1
5张春华,付建政,张勇.关联规则挖掘中层次算法的研究[J].长春大学学报,2002,12(1):15-18. 被引量：1
6范松博,张永胜,孙泽宇.无线传感器网络中分簇路由优化算法[J].计算机测量与控制,2014,22(2):493-495. 被引量：6
7陈凤娟.概率频繁闭项集挖掘[J].洛阳理工学院学报（自然科学版）,2016,26(1):73-75. 被引量：1
8陈凤娟.不确定数据中的频繁闭项集挖掘[J].牡丹江师范学院学报（自然科学版）,2016,42(3):22-25. 被引量：2
9宋威,高磊,李晋宏.一种基于闭项集的无冗余关联规则挖掘方法[J].北京交通大学学报,2009,33(6):91-96. 被引量：2
10周爱武,王宝铜,李玉梅,周闪闪.最大值约束下的多最小支持度关联规则挖掘[J].现代计算机,2009,15(2):9-10. 被引量：2

计算机研究与发展

2010年第2期

浏览历史

内容加载中请稍等...

一种新的频繁项集精简表示方法及其挖掘算法的研究被引量：18

参考文献10

二级参考文献21

共引文献34

同被引文献251

引证文献18

二级引证文献76

相关作者

相关机构

相关主题

浏览历史

一种新的频繁项集精简表示方法及其挖掘算法的研究 被引量：18

参考文献10

二级参考文献21

共引文献34

同被引文献251

引证文献18

二级引证文献76

相关作者

相关机构

相关主题

浏览历史

一种新的频繁项集精简表示方法及其挖掘算法的研究被引量：18