分布式全局频繁项目集的快速挖掘方法被引量：11

Fast Mining Algorithm for Distributed Global Frequent Itemsets

下载PDF

导出

摘要针对传统的分布式全局频繁项目集挖掘算法存在大量的候选项目集,且求全局频繁项目集的网络通信代价过高等问题,提出了一种分布式数据库的全局频繁项目集快速挖掘算法(FDMA).该算法改进了频繁模式树(FP-树)的结构,将双向FP-树改为单向,每个节点只保留指向父结点的指针,减少了指针数,由此可节省1/3的树空间;同时通过传送用3个很小的数组表示的被约束子树,在此挖掘全局频繁项目集的过程中不再生成大量候选项目集或条件FP-树,从而减小了网络通信量,提高了挖掘效率.实验表明,所提算法的挖掘速度比传统的分布式数据库数据挖掘算法至少提高了1倍之多,随着数据库规模的增大,它的扩展性将更好. Aiming at the problem that there exists prolific candidate sets and the communication cost is high for obtaining global frequent itemsets in distributed mining algorithms, an algorithm FDMA（fast distributed mining algorithm） for mining global frequent itemsets in distributed database is proposed. It improves the structure of frequent pattern tree （FP-tree） and the bidirectional FP-tree is transformed into unilateral one and only the pointer that points to the parent node is reserved at each node. The number of the pointer is decreased and one third of tree space can be saved. Meanwhile,by transmitting constrained sub-trees （consisting of three small arrays）, the proposed algorithm doesn＇t generate conditional FP-tree or a large number of candidate sets in mining process, and thus the network traffic is reduced and the mining efficiency is increased. Experiments show that in comparison with DDDM （distributed dual decision miner） algorithm, the proposed algorithm increases the mining speed by at least two times. Moreover, the algorithm has better extensibility with increasing the scale of database.

作者宋宝莉覃征

机构地区西安交通大学计算机科学与技术系

出处《西安交通大学学报》 EI CAS CSCD 北大核心 2006年第8期923-927,共5页 Journal of Xi'an Jiaotong University

基金国家自然科学基金资助项目(60542004)

关键词数据挖掘分布式数据库全局频繁项目集被约束子树 data mining distributed database global frequent itemset constrained sub-tree

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献7

1Agrawal R,Imielinski T,Swami A.Mining association rules between sets of items in large database[J].SIGMOD Record,1993,22(2):207-216.
2Agrawal R,Srikant R.Fast algorithms for mining association rules in large databases[C]∥Proceedings of the 20th International Conference on Very Large Data Bases.San Mateo,USA:Morgan Kaufmann Publicationg Inc.,1994:487.
3Agrawal R,Srikant R.Parallel mining of association rules[J].IEEE Trans on Knowledge and Data Engineering,1996,8(6):962-969.
4Cheung D W,Han Jiawei,Ng V T,et al.A fast distributed algorithm for mining association rules[C]∥Proceedings of the 1996 4th International Conference on Parallel and Distributed Information Systems.Los Alamitos,USA:IEEE Computer Society,1996:31-42.
5Schuster A,Wolff R.Communication efficient distributed mining of association rules[C]∥Proceedings of the ACM SIGMOD International Conference on Management of Data.New York:ACM,2001:473-484.
6Han Jiawei,Pei Jian,Yin Yiwen.Mining frequent patterns without candidate generation[C]∥Proceedings of the ACM SIGMOD International Conference on Management of Data.New York:ACM,2000:1-12.
7范明,李川.在FP-树中挖掘频繁模式而不生成条件FP-树[J].计算机研究与发展,2003,40(8):1216-1222. 被引量：56

二级参考文献8

1R Agrawal, R Srikant. Fast algorithms for mining association rules. In: Proc of 1994 Int'l Conf on Very Large Data Bases.Santiago, Chili: VLDB Endowment, 1994. 487--499.
2J S Park, M S Chen, P S Yu. An effective Hash-based algorithm for mining association rules. In: Proc of 1995 ACM-SIGMOD Int'l Cord on Management of Data. San Jose, CA: ACM Press,1995. 175--186.
3S Brin, R Motwani, C Silvemtein. Beyond market basket:Generalizing association rules to correlations. In: Proe of 1997 ACM-SIGMOD Int'l Conf on Management of Data. Tucson, AZ:ACM Press, 1997. 265--276.
4R Agrawal, R Srikant. Mining sequential patterns. In: ICDE'95. Taipei, Taiwan: IEEE Computer Society Press, 1995. 3--14.
5G Dong, J Li. Efficient mining of emerging patterns: Discovering trends and differences. In: Proc of the 5th ACM SIGKDD Int'l Conf on Knowledge Discovery and Data Mining. San Diego, CA:ACM Press, 1999. 43~52.
6J Han, J Pei, Y Yin. Mining frequent patterns without candidate generation. In: Proe of 2000 ACM-SIGMOD Int'l Conf on Management of Data. Dallas, TX: ACM Press, 2000. 1--12.
7Artur Bykowski, Christophe Rigotti. A eondemsed representation to find frequent patterns. In: Proe of the 20th ACM SIGACT-SIGMOD-SIGART Symp on Principles of Database Systems(PODS 2001). Santa Barbara, CA: ACM Press, 2001. 267~273.
8范明等.数据挖掘:概念与技术[M].北京:机械工业出版社,2001.8.

共引文献55

1李泓冰.WTO的眉批:伤脑筋的道德成本[J].理论参考,2002(S1):46-46.
2秦亮曦,苏永秀,刘永彬,梁碧珍.基于压缩FP-树和数组技术的频繁模式挖掘算法[J].计算机研究与发展,2008,45(z1):244-249. 被引量：16
3谢志强,朱孟杰,杨静.基于改进FP-树的最大项目集挖掘算法[J].计算机应用研究,2009,26(2):502-505. 被引量：1
4蔡高明.一种快速挖掘模糊频繁项集的方法[J].科技经济市场,2008(3):5-6.
5庄蔚蔚,姜青山.恶意软件鉴别技术及其应用[J].集成技术,2012,1(1):55-64. 被引量：3
6丁欣,马严,吴军.适用于校园网的视频推荐系统的设计与实现[J].通信学报,2013,34(S2):175-179. 被引量：4
7李清峰,杨路明,张晓峰.关联规则中最大频繁项目集的研究[J].计算机应用研究,2005,22(1):93-95. 被引量：3
8赵艳铎,宋斌恒.基于逆向FP-树的频繁模式挖掘算法[J].计算机应用,2005,25(6):1385-1387. 被引量：8
9秦亮曦,史忠植.多时间序列跨事务关联分析研究[J].计算机工程与应用,2005,41(27):10-12. 被引量：4
10秦亮曦,史忠植.关联规则研究综述[J].广西大学学报（自然科学版）,2005,30(4):310-317. 被引量：22

同被引文献74

1易彤,徐宝文,吴方君.一种基于FP树的挖掘关联规则的增量更新算法[J].计算机学报,2004,27(5):703-710. 被引量：32
2杨明,孙志挥,宋余庆.快速更新全局频繁项目集[J].软件学报,2004,15(8):1189-1197. 被引量：18
3杨君锐,赵群礼.基于FP-Tree的最大频繁项目集更新挖掘算法[J].华中科技大学学报（自然科学版）,2004,32(11):88-90. 被引量：5
4吉根林,杨明,宋余庆,孙志挥.最大频繁项目集的快速更新[J].计算机学报,2005,28(1):128-135. 被引量：47
5徐章艳,刘美玲,张师超,卢景丽,区玉明.Apriori算法的三种优化方法[J].计算机工程与应用,2004,40(36):190-192. 被引量：71
6陆介平,杨明,孙志挥,鞠时光.快速挖掘全局最大频繁项目集[J].软件学报,2005,16(4):553-560. 被引量：27
7黄端琼,陈崇成,黄洪宇,樊明辉.基于映射位集合的遥感图像关联规则挖掘[J].计算机应用,2005,25(7):1592-1594. 被引量：2
8朱玉全,宋余庆,陈耿.关联规则挖掘中增量式更新算法的研究[J].计算机工程与应用,2005,41(15):186-187. 被引量：8
9曾万聃,周绪波,戴勃,常桂然,李春平.关联规则挖掘的矩阵算法[J].计算机工程,2006,32(2):45-47. 被引量：33
10赵辉,王黎明.一个基于网格服务的分布式关联规则挖掘算法[J].小型微型计算机系统,2006,27(8):1544-1548. 被引量：9

引证文献11

1宋宝莉,覃征.分布式数据库的全局频繁项目集高效更新算法[J].计算机工程与应用,2006,42(31):157-160. 被引量：1
2宋宝莉,覃征.分布式环境下关联规则的安全挖掘算法[J].计算机工程,2006,32(21):35-37. 被引量：6
3宋宝莉,覃征.分布式数据库关联规则的安全挖掘算法研究[J].计算机工程与应用,2007,43(6):181-183. 被引量：4
4宋宝莉,覃征.分布式数据库关联规则更新算法[J].西安交通大学学报,2007,41(4):416-420.
5邹长忠,傅清祥.分布式数据库的关联规则更新算法[J].福州大学学报（自然科学版）,2008,36(5):655-659. 被引量：1
6潘益婷,张红娟,严建军.一种改进的最大频繁项目集挖掘算法[J].计算机工程与科学,2009,31(8):63-65. 被引量：2
7王明,宋顺林.基于项集优化重组的频繁项集发现算法[J].计算机应用,2010,30(9):2332-2334. 被引量：2
8杨君锐,杨莉.分布式全局最大频繁项集更新挖掘算法[J].华中科技大学学报（自然科学版）,2011,39(12):85-88. 被引量：2
9杨君锐,何洪德,杨莉,李海文,薛萍.分布式全局最大频繁项集挖掘算法[J].中南大学学报（自然科学版）,2012,43(9):3517-3523. 被引量：1
10刘城霞.基于MS关联规则数据挖掘模型的应用与探讨[J].计算机技术与发展,2013,23(1):25-28. 被引量：4

二级引证文献39

1李娜,刘俊辉.基于分布式处理技术的物联网数据库研究和设计[J].现代电子技术,2012,35(4):120-122. 被引量：8
2黄贤英,王柯柯,范伟.基于星型网络的分布式关联规则挖掘算法研究[J].计算机科学,2007,34(12):180-181. 被引量：6
3任静涵,张保稳,陈晓桦.隐私保护数据挖掘研究进展[J].信息安全与通信保密,2008,30(5):77-79. 被引量：3
4张宏壮,王建民.分布式数据库保持隐私挖掘方法[J].计算机工程与设计,2008,29(14):3684-3686. 被引量：2
5袁曼丽,宋考,陈高琳.采用数据挖掘技术的数据库审计系统[J].中国新通信,2008,10(17):61-64.
6邹长忠,傅清祥.分布式数据库的关联规则更新算法[J].福州大学学报（自然科学版）,2008,36(5):655-659. 被引量：1
7王金龙,耿雪玉,梁俊卿.面向企业信用评估的分布式隐私保护数据挖掘[J].计算机工程与应用,2008,44(35):243-245.
8桂琼,程小辉.一种隐私保护的分布式关联规则挖掘方法[J].微电子学与计算机,2009,26(9):57-60. 被引量：1
9桂琼,程小辉,饶建辉.基于RSA的隐私保护关联规则挖掘算法[J].计算机工程,2009,35(17):138-140. 被引量：1
10王卫东,屈洋.病历随访系统中数据挖掘的Apriori算法研究[J].计算机技术与发展,2010,20(10):4-7. 被引量：2

1宋宝莉,覃征.分布式数据库关联规则更新算法[J].西安交通大学学报,2007,41(4):416-420.
2宋宝莉,覃征.分布式数据库的全局频繁项目集高效更新算法[J].计算机工程与应用,2006,42(31):157-160. 被引量：1
3杨明,孙志挥,吉根林.快速挖掘全局频繁项目集[J].计算机研究与发展,2003,40(4):620-626. 被引量：35
4彭国星.基于分布式数据入侵检测模型研究[J].计算机仿真,2010,27(6):175-178. 被引量：1
5董平,胥杰,苏力萍.一种基于TFP树的频繁项集改进挖掘算法[J].微计算机信息,2007,23(33):139-140. 被引量：2
6杨明,孙志挥,宋余庆.快速更新全局频繁项目集[J].软件学报,2004,15(8):1189-1197. 被引量：18
7杨明,孙志挥,吉根林.一种基于分布式数据库的全局频繁项目集更新算法[J].东南大学学报（自然科学版）,2002,32(6):879-883. 被引量：4
8范明,李川.在FP-树中挖掘频繁模式而不生成条件FP-树[J].计算机研究与发展,2003,40(8):1216-1222. 被引量：56
9冯洁,陶宏才.一种频繁项集的快速挖掘算法[J].微计算机信息,2007(18):164-166. 被引量：7
10王扶东,李兵,薛劲松,朱云龙.客户关系管理中基于约束的关联规则挖掘方法研究[J].计算机集成制造系统-CIMS,2004,10(4):465-470. 被引量：7

西安交通大学学报

2006年第8期

浏览历史

内容加载中请稍等...

分布式全局频繁项目集的快速挖掘方法被引量：11

参考文献7

二级参考文献8

共引文献55

同被引文献74

引证文献11

二级引证文献39

相关作者

相关机构

相关主题

浏览历史

分布式全局频繁项目集的快速挖掘方法 被引量：11

参考文献7

二级参考文献8

共引文献55

同被引文献74

引证文献11

二级引证文献39

相关作者

相关机构

相关主题

浏览历史

分布式全局频繁项目集的快速挖掘方法被引量：11