一种高效的多层和概化关联规则挖掘方法被引量：37

Efficient Method for Mining Multiple-Level and Generalized Association Rules

下载PDF

导出

摘要通过对分类数据的深入研究,提出了一种高效的多层关联规则挖掘方法:首先,根据分类数据所在的领域知识构建基于领域知识的项相关性模型DICM(domain knowledge-based item correlation model),并通过该模型对分类数据的项进行层次聚类;然后,基于项的聚类结果对事务数据库进行约简划分;最后,将约简划分后的事务数据库映射至一种压缩的AFOPT树形结构,并通过遍历AFOPT树替代原事务数据库来挖掘频繁项集.由于缩小了事务数据库规模,并采用了压缩的AFOPT结构,所提出的方法有效地节省了算法的I/O时间,极大地提升了多层关联规则的挖掘效率.基于该方法,给出了一种自顶向下的多层关联规则挖掘算法TD-CBP-MLARM和一种自底向上的多层关联规则挖掘算法BU-CBP-MLARM.此外,还将该挖掘方法成功扩展至概化关联规则挖掘领域,提出了一种高效的概化关联规则挖掘算法CBP-GARM.通过大量人工随机生成数据的实验证明,所提出的多层和概化关联规则挖掘算法不仅可以确保频繁项集挖掘结果的正确性和完整性,还比现有同类最新算法具有更好的挖掘效率和扩展性. This paper proposes a idea for mining multiple-level and generalized association rules. First, an item correlation model is set up, based on the domain knowledge and clusters the items according to their correlation. Secondly, the transaction database, based on the item clusters, are reduced which make the transaction database smaller. Finally, the partitioned transaction databases are projected onto a compact structure called AFOPT-tree and find the frequent itemsets from the AFOPT. Based on the proposed idea, this paper proposes a top-down algorithm TD-CBP-MLARM and a bottom-up algorithm BU-CBP-MLARM to mine the multiple-level association rules. Additionally, this paper extends the idea to a generalized mining association rule and gives a new efficient algorithm CBP-GARM. The experiments show that the proposed algorithms not only corrects and completes mining results, but also outperform the well-known and current algorithms in mining effectiveness.

作者毛宇星陈彤兵施伯乐

机构地区复旦大学计算机科学技术学院

出处《软件学报》 EI CSCD 北大核心 2011年第12期2965-2980,共16页 Journal of Software

基金国家自然科学基金重大研究计划重点项目(90818023) 国家重点基础研究发展计划(973)(2005CB321905)

关键词分类数据多层关联规则概化关联规则层次聚类约简划分 taxonomy data multiple-level association rule generalized association rule hierarchical clustering reduction

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献11

1Agrawal R, Srikant R. Fast algorithms for mining association rules. In: Proc. of the Int'l Conf. on Very Large Data Bases (VLDB). Santiago, 1994. 487-499.
2Zaki MJ. Scalable algorithms for association mining. IEEE Trans. on Knowledge and Data Engineering (TKDE), 2000.12(3): 372-373. [doi: 10.1109/69.846291].
3Han J, Pei J, Yin YW. Mining frequent patterns without candidate generation. In: Proe. of the ACM Annual Conf. on Management of Data (SIGMOD). 2000. 1-12. [doi: 10.1145/342009.335372].
4Liu GM, Lu HJ, Lou WW, Xu YB, Yu JX. Efficient mining of frequent patterns using ascending frequency ordered prefix-tree. Data Mining and Knowledge Discovery (DMKD), 2004,9(3):249-274. [doi: 10.1023/B:DAMI.0000041128.59011.53].
5Han JW, Fu YQ. Discovery of multiple-level association rules from large databases. In: Proc. of the Int'l Conf. on Very Large Data Bases (VLDB). 1995.420-431.
6Srikant R, Agrawal R. Mining generalized association rules. In: Proc. of the Int'l Conf. on Very Large Data Bases (VLDB). 1995. 407-419.
7Hipp J, Myka A, Wirth R, Guntzer U. A new algorithm for faster mining of generalized association rules. In: Proc. of the European Syrup. on Principles of Data Mining and Knowledge Discovery (PKDD). 1998.74-82. [doi: 10.1007/BFb0094807].
8Sriphaew K, Theeramunkong T. Fast algorithm for mining generalized frequent patterns of generalized association rules. IEICE Trans. on Information and Systems (TOIS), 2004,E87-D(3):761-770.
9Pramudiono I, Kitsuregawa M. FP-Tax: Tree structure based generalized association rule mining. In: Proc. of the ACM Workshop on Research Issues in Data Mining and Knowledge Discovery (DMKD). 2004. 60-63.
10Savasere A, Omiecinski E, Navathe SB. An efficient algorithm for mining association rules in large databases. In: Proc. of the 21 st Int'l Conf. on Very Large Data Bases (VLDB). 1995. 432-444.

同被引文献351

1于剑,黄力行,陶建华.汉语对话语气韵律建模方法[J].清华大学学报（自然科学版）,2008,48(S1):658-663. 被引量：3
2陈正超,张兵,罗文斐,胡方超,李俊生,刘翔,张靓,张浩,张黎明,迟耀斌.北京1号小卫星遥感器性能在轨测试[J].遥感学报,2008,12(3):468-476. 被引量：8
3郑盼丽,戴牡红,谭一云,叶柏龙.自动生成数据挖掘算法的研究与应用[J].计算机科学,2012,39(S3):171-173. 被引量：5
4陈爱东,刘国华,费凡,周宇,万小妹,貟慧.满足均匀分布的不确定数据关联规则挖掘算法[J].计算机研究与发展,2013,50(S1):186-195. 被引量：18
5易彤,徐宝文,吴方君.一种基于FP树的挖掘关联规则的增量更新算法[J].计算机学报,2004,27(5):703-710. 被引量：32
6王大玲,于戈,鲍玉斌.一种具有最大推荐非空率的关联规则挖掘方法[J].软件学报,2004,15(8):1182-1188. 被引量：11
7王鸿南,钟文,汪静,夏德深.图像清晰度评价方法研究[J].中国图象图形学报（A辑）,2004,9(7):828-831. 被引量：123
8刘常昱,冯芒,戴晓军,李德毅.基于云X信息的逆向云新算法[J].系统仿真学报,2004,16(11):2417-2420. 被引量：190
9蔡莉静,陈曹维.河北省社科信息资源现状调查与分析[J].情报资料工作,2005,26(1):72-74. 被引量：5
10颜跃进,李舟军,陈火旺.基于FP-Tree有效挖掘最大频繁项集[J].软件学报,2005,16(2):215-222. 被引量：68

引证文献37

1周朴雄,陶梦莹.移动网络环境下情景敏感的个性化信息推荐系统研究[J].图书情报工作,2012,56(19):80-84. 被引量：18
2杨泽民.基于时序和兴趣度约束的加权关联规则挖掘算法研究[J].计算机科学,2013,40(3):259-262. 被引量：5
3王飞,缑锦.基于多变异粒子群优化算法的模糊关联规则挖掘[J].计算机科学,2013,40(5):217-223. 被引量：12
4何超,张玉峰.融合语义关联的企业竞争力影响因素分析研究[J].情报资料工作,2013,34(4):62-66.
5王敬华,刘建银,张国燕,赵新想.情感语音合成中韵律参数的基频研究[J].小型微型计算机系统,2013,34(9):2047-2050. 被引量：2
6张春生,庄丽艳.基于Apriori的相容数据集间关联规则演绎方法[J].计算机应用,2013,33(10):2796-2800. 被引量：4
7郭晓波,赵书良,王长宾,赵娇娇,刘军丹.基于概念格的多值属性关联规则挖掘[J].计算机科学,2014,41(3):267-271. 被引量：4
8周爱武,王浩,温春林.基于AFOPT-tree的最大频繁项集挖掘[J].微型机与应用,2014,33(11):86-88.
9朱玉全,周李威,陈耿.数据库理论教学中关联规则与函数依赖之间联系的探讨[J].计算机应用研究,2014,31(7):2085-2087. 被引量：3
10羊斌.关联规则挖掘在市场监管工作中的应用[J].计算机与现代化,2014,0(10):42-45.

二级引证文献166

1陈可.基于B-SMOTE1-XGBoost预测电信客户流失[J].郑州师范教育,2022,11(4):21-26.
2杜华明,张明昌,刘爽,张瑜嘉.基于数据融合与挖掘的城市综合管廊运维管理探索[J].建筑电气,2022,41(11):64-70. 被引量：2
3王永贵,谢南,曲海成.基于存储改进的分区并行关联规则挖掘算法[J].计算机应用研究,2020,37(1):167-171. 被引量：6
4王进茂,郑均宝,高秀丽,徐振华,张法勇.花烛组织培养的研究[J].河北林果研究,2000,15(1):69-74. 被引量：24
5王洪均,谢国君.高压水除鳞系统改进[J].四川冶金,2000,22(2):48-50. 被引量：4
6本刊评论员.以知识服务推动图书情报工作的创新发展——《图书情报工作》2012年发文评述[J].图书情报工作,2013,57(1):5-13. 被引量：5
7赵志梅,张黎烁.基于改进粒子群算法的提取齿轮磨损特征方法[J].计算机测量与控制,2014,22(5):1584-1586.
8刘海鸥.面向云计算的大数据知识服务情景化推荐[J].图书馆建设,2014(7):31-35. 被引量：27
9郭顺利,李秀霞.基于情境感知的移动图书馆用户信息需求模型构建[J].情报理论与实践,2014,37(8):64-68. 被引量：45
10钱振兴,万定生,李士进,程习锋.基于水利普查数据的函数依赖关系算法[J].计算机与现代化,2014(8):96-100. 被引量：1

1毛宇星,施伯乐.基于扩展自然序树的概化关联规则增量挖掘方法[J].计算机研究与发展,2012,49(3):598-606. 被引量：8
2路松峰,卢正鼎.从关系数据库中快速发现候选关键字[J].计算机工程与应用,2000,36(9):17-19. 被引量：1
3王伟勤,钟敬堂.对Apriori算法的一种改进[J].佛山科学技术学院学报（自然科学版）,2007,25(2):54-57. 被引量：3
4章丽玲,陈晓苏.网上阅卷系统中Cache技术的研究[J].计算机系统应用,2007,16(9):106-109.
5夏英,刘婉蓉.基于滑动窗口的关联规则增量式更新算法[J].计算机应用,2008,28(12):3224-3226. 被引量：1
6周国军.一种基于MapReduce的关联规则挖掘算法[J].玉林师范学院学报,2014,35(5):128-134. 被引量：1
7陈申燕,曹旻.多层关联规则挖掘算法的研究及应用[J].计算机工程与设计,2010,31(4):885-888. 被引量：5
8唐辉,吴明礼,贺玉明.一种改进的多层关联规则挖掘算法[J].计算机工程,2011,37(16):42-44. 被引量：1
9周国军,秦亮曦.基于数组和位运算的频繁项集挖掘算法[J].南昌工程学院学报,2010,29(6):11-14. 被引量：1
10朱萍,吴蕾.信息管理系统数据库性能优化研究[J].湖南理工学院学报（自然科学版）,2015,28(1):33-36. 被引量：2

软件学报

2011年第12期

浏览历史

内容加载中请稍等...

一种高效的多层和概化关联规则挖掘方法被引量：37

参考文献11

同被引文献351

引证文献37

二级引证文献166

相关作者

相关机构

相关主题

浏览历史

一种高效的多层和概化关联规则挖掘方法 被引量：37

参考文献11

同被引文献351

引证文献37

二级引证文献166

相关作者

相关机构

相关主题

浏览历史

一种高效的多层和概化关联规则挖掘方法被引量：37