提高Eclat算法效率的策略被引量：13

Strategies of efficiency improvement for Eclat algorithm

下载PDF

导出

摘要为了提高Eclat算法的效率,从剪枝、项集连接和交叉计数3方面对Eclat算法进行优化.将后缀相同的项集归为一个等价类,使剪枝更充分,剪枝时引入双层哈希表加快搜索候选项集子集的速度;提出项集集合划分链表,以减少项集连接过程中比较判断的环节;提出事务标识(Tid)失去阈值,以加快交叉计数的速度.在此基础上提出一种优化的Eclat_opt算法(ZAKI),把它与Eclat原算法以及其他2种Eclat改进算法Diffset(ZAKI),hEclat(熊忠阳)进行对比实验的结果表明,Eclat_opt算法的效率在稀疏数据集上最高,总体时间性能最好. For the purpose.of efficiency improvement, Eclat algorithm was optimized in three aspectspruning, itemsets connection and intersection. Firstly, the equivalence classes were divided in the suffixbased way to make the best of pruning in which a double layer hash table was utilized to accelerate the search process of subsets of candidate itemsets. Secondly, a partition list of the set of itemsets was presented to eliminate the connection judgment of itemsets. Finally, a transaction id （Tid） lost threshold was introduced to speed up intersection. Based on the above three improvement strategies an Eclat_opt algorithm was proposed. The performance comparison between the Eclat_opt algorithm, the original Eclat algorithm （ZAKI） and two other improved Eclat algorithms Diffset（ZAKI）, hEclat （XIONG Zhong-yang） showed that the efficiency of the Eclat_opt algorithm ranked the first among the four algorithms on sparse datasets, and its overall time performance was the best.

作者冯培恩刘屿邱清盈李立新

机构地区浙江大学CAD&CG国家重点实验室

出处《浙江大学学报（工学版）》 EI CAS CSCD 北大核心 2013年第2期223-230,共8页 Journal of Zhejiang University：Engineering Science

基金国家自然科学基金资助项目(51175455) 浙江省自然科学基金资助项目(Y1100257)

关键词 Eclat算法剪枝双层哈希表划分链表交叉计数 Eclat algorithm pruning double layer hash table partition list intersection

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献11

1AGRAWAL R, SRIKANT R. Fast Algorithms for min- ing association rules [C]// Proceedings of 20th Interna- tional Conference on Very Large Data Bases. Santiago, Chile: Morgankaufman, 1994:487 - 499.
2HAN J, PEI J, YIN Y. Mining frequent patterns with- out candidate generation [C]/// Proeeedlngs of the 2000 ACM Data. Dallas, United States: ACM, 2000:1-12.
3FENG Pei-en, ZHANG Hui, QIU Qing-ying, et al. PCAR: an efficient approach for mining association rules [C]/// Proceedings of the ICNC-FSKD 2008 Inter- national Conference on Fussy Systems and Knowledge Dis- covery. Jinan: IEEE, 2008:605-609.
4ZAKI M J. Scalable algorithms for association mining[J]. IEEE Transactions on Knowledge and Data Engi- neering, 2000,12(3) : 372- 390.
5宋长新,马克.改进的Eclat数据挖掘算法的研究[J].微计算机信息,2008,24(24):92-94. 被引量：17
6ZAKI M J. Fast vertical mining using diffsets [R]. Technical Report 01-1, Troy, New York: Rensselaer Polytechnic Institute. 2001.
7熊忠阳,陈培恩,张玉芳.基于散列布尔矩阵的关联规则Eclat改进算法[J].计算机应用研究,2010,27(4):1323-1325. 被引量：18
8李敏,李春平.频繁模式挖掘算法分析和比较[J].计算机应用,2005,25(B12):166-171. 被引量：11
9HAN J, KAMBE M. Data mining: concepts and Tech- niques [M]. San Francisco, United States: Morgan Kaufmann Publishers Inc, 2001 : 231.
10刘井莲.Eclat与Eclat+算法的比较分析[J].绥化学院学报,2010,30(2):189-190. 被引量：1

二级参考文献25

1Jia-WeiHan,JianPei,Xi-FengYan.From Sequential Pattern Mining to Structured Pattern Mining： A Pattern-Growth Approach[J].Journal of Computer Science & Technology,2004,19(3):257-279. 被引量：18
2龙银香.移动计算环境下的数据挖掘研究[J].微计算机信息,2005,21(07X):35-38. 被引量：17
3李敏,李春平.频繁模式挖掘算法分析和比较[J].计算机应用,2005,25(B12):166-171. 被引量：11
4R. Agrawal, T. Imielinski, A. Swami. Mining association rules between sets of items in large databases, Proc. of the ACMSIGMOD 1993 Int'l Conference on Management of Data, Washington D.C., May 1993.
5MJZaki, SParthasarathy, M.Ogihara, and W.Li. New algorithms for fast discovery of association rules, In Proc.of the 3rd Int'l Conf.on KDD and Data Mining (KDD'97), Newport Beach, California, August 1997.
6HAND D, MANNILA H, SMYTH P. Principles of Data Mining[ M]. Massachusetts Institute of Technology, 2001.
7MANNIEA H. Methods and problems in data mining[ A]. Proceedings of the 6th International Conference on Database Theory[ C],1997.41 -55.
8KRISHNAMURTHY R, IMIELINSKI T. Practitioner Problems in Need of Database Research: Research Directions in Knowledge Discovery[A]. Vol. 20, No. 3 of SIGMOD Record[ C], Sept. 1991.76-78.
9HAN J, KAMBER M. Data Mining: Concepts and Techniuqes[ M].Morgan Kaufmann Publishers, San Francisco, CA, 2001.
10AGRAWAL R, IMIELINSKI T, A. Swami. Mining association rules between sets of items in large databases[ A]. Proceedings of ACM SIGMOD International Conference on Management of data [ C],1993. 207-216.

共引文献37

1王彦如.一增量式关联规则的改进算法[J].青海师范大学学报（自然科学版）,2009,25(3):39-42.
2宋长新,吴晓明.工业锅炉故障诊断的改进数据挖掘方法[J].微计算机信息,2009,25(19):118-120. 被引量：1
3赵卫绩.一种改进的Eclat算法[J].科学技术与工程,2009,9(24):7506-7508. 被引量：1
4刘井莲.一种改进的Eclat算法[J].科学技术与工程,2010,10(8):2007-2009.
5熊忠阳,陈培恩,张玉芳.基于散列布尔矩阵的关联规则Eclat改进算法[J].计算机应用研究,2010,27(4):1323-1325. 被引量：18
6刘井莲.Eclat与Eclat+算法的比较分析[J].绥化学院学报,2010,30(2):189-190. 被引量：1
7金瑶.一种基于自适应步长及动态修剪的Apriori改进算法[J].宜春学院学报,2009,31(6):81-83. 被引量：1
8陈康.基于Eclat算法的图书推荐系统仿真[J].计算机仿真,2010,27(9):311-314. 被引量：4
9张玉芳,熊忠阳,耿晓斐,陈剑敏.Eclat算法的分析及改进[J].计算机工程,2010,36(23):28-30. 被引量：11
10崔建,李强,杨龙坡.基于垂直数据分布的大型稠密数据库快速关联规则挖掘算法[J].计算机科学,2011,38(4):216-220. 被引量：24

同被引文献123

1章志刚,吉根林.基于迭代式MapReduce的Apriori算法设计与实现[J].华中科技大学学报（自然科学版）,2012,40(S1):9-12. 被引量：8
2陈爱东,刘国华,费凡,周宇,万小妹,貟慧.满足均匀分布的不确定数据关联规则挖掘算法[J].计算机研究与发展,2013,50(S1):186-195. 被引量：18
3徐章艳,刘美玲,张师超,卢景丽,区玉明.Apriori算法的三种优化方法[J].计算机工程与应用,2004,40(36):190-192. 被引量：71
4吴惠彬,张迎战.机械装配中的对称群方法[J].北京理工大学学报,2005,25(10):852-855. 被引量：1
5王立军,宋余庆,谢从华,吕颖.基于二叉频繁模式树的医学图像关联规则挖掘[J].计算机工程与应用,2006,42(13):182-184. 被引量：3
6唐灿,唐亮贵,刘波.一个面向新兴趣点发现的模糊兴趣挖掘算法[J].计算机科学,2007,34(6):204-206. 被引量：4
7Agrawal R, Imielinaki T, Swami A. Mining association rules between sets of items in large databases [ C ]//Proc of the ACM SIGMOD conference on management of data. Washing- ton, D. C. : ACM, 1993:207-216.
8Han J,Pei J,Yin Y. Ming frequent patterns without candidate generation [ C ]//Proc of the 2000 ACM data. Dallas, United States : ACM,2000 : 1 - 12.
9Zaki M J. Scalable algorithms for association mining[ J]. IEEE Transactions on Knowledge and Data Engineering, 2000, 12 (3) :372-390.
10Zaki M J. Fast vertical mining using diffsets[ R ]. New York, USA : Rensselaer Polytechnic Institute ,2001.

引证文献13

1李雪迪,郑彦.基于分布式倒排索引的频繁项集挖掘[J].计算机技术与发展,2016,26(3):101-104. 被引量：2
2王红梅,胡明,赵守峰.基于垂直格式的频繁项集挖掘分段算法[J].吉林大学学报（理学版）,2016,54(3):553-560. 被引量：2
3刘木林,朱庆华.基于Hadoop的关联规则挖掘算法研究——以Apriori算法为例[J].计算机技术与发展,2016,26(7):1-5. 被引量：18
4戚玉轩,邱清盈,冯培恩,李立新.机械结构组合对称概念体系及应用[J].浙江大学学报（工学版）,2016,50(10):1889-1901. 被引量：3
5陈宏.基于关联规则挖掘算法的用电负荷能效研究[J].电子设计工程,2017,25(4):79-82. 被引量：9
6吴春燕,黄巧梅,刘海清,张捷.文本主要信息的自动获取和主体挖掘[J].信息技术与信息化,2017(3):41-43. 被引量：1
7高强,张凤荔,陈学勤,王馨云,耿贞伟,周帆.基于改进Eclat算法的资源池节点异常模式挖掘[J].计算机应用研究,2018,35(2):333-338. 被引量：3
8崔馨月,孙静宇.改进的Eclat算法研究与应用[J].计算机工程与设计,2018,39(4):1059-1063. 被引量：8
9孙宗鑫,张桂芸.基于位存储Tid的CPU并行化Eclat算法[J].计算机工程,2018,44(12):79-84. 被引量：2
10敖孟飞,石鸿雁.海量数据下的并行频繁项集挖掘算法[J].统计与决策,2022(18):48-53. 被引量：4

二级引证文献49

1王青,谭良,杨显华.基于Spark的Apriori并行算法优化实现[J].郑州大学学报（理学版）,2016,48(4):60-64. 被引量：12
2宋丽萍,韦建国.基于关联规则挖掘技术的学生数据分析系统的设计与实现[J].长沙大学学报,2017,31(2):58-61. 被引量：2
3赵迎珍.机械零件对称群分析及其在可制造性设计中的应用探索[J].海峡科技与产业,2017,30(7):135-137.
4李融,杨淙钧,高泽,李常宝,刘忠麟,艾中良.基于Spark的精准关联规则挖掘算法实现[J].信息技术,2018,42(2):153-158. 被引量：4
5张凯斐,刘继华,张菊芳.大规模高维数据集中局部异常数据挖掘算法[J].微电子学与计算机,2018,35(3):116-119. 被引量：13
6马力,赵世达.机械结构组合对称概念体系及应用分析[J].现代制造技术与装备,2018,54(4):45-45.
7李启民,仲梁维,周坚男,秦静.一种小颗粒物快速装载装置的改进[J].中国水运（下半月）,2018,18(3):105-106.
8李飒.基于关联规则的学习行为关联度分析方法研究[J].微电子学与计算机,2018,35(6):65-68. 被引量：5
9聂捷楠.大规模数据库中非显著特征动态数据实时挖掘技术[J].科学技术与工程,2018,18(21):252-257. 被引量：3
10蔡耀年,王明琪,刘建森,赵陆军,李贤靓.一种基于离群算法的窃电行为检测的研究[J].计算技术与自动化,2018,37(2):73-77. 被引量：3

1刘井莲.一种改进的Eclat算法[J].科学技术与工程,2010,10(8):2007-2009.
2张春,汲磊举.基于MapReduce的Eclat改进算法研究与应用[J].北京交通大学学报,2016,40(3):1-6. 被引量：4
3张毅,杨颖,陆瑞兴.一种新的频繁项集挖掘算法DS-ECLAT[J].广西科学院学报,2010,26(1):19-22. 被引量：2
4赵卫绩.一种改进的Eclat算法[J].科学技术与工程,2009,9(24):7506-7508. 被引量：1
5张岳,王洪国,邵增珍,赵建秀.基于先验位运算的频繁项集挖掘[J].计算机应用研究,2013,30(9):2610-2612. 被引量：4
6滕翠,梁川.三种频繁模式挖掘算法的分析与比较[J].电脑知识与技术（过刊）,2010,0(23):6416-6417. 被引量：1
7宋长新,马克.改进的Eclat数据挖掘算法的研究[J].微计算机信息,2008,24(24):92-94. 被引量：17
8熊忠阳,陈培恩,张玉芳.基于散列布尔矩阵的关联规则Eclat改进算法[J].计算机应用研究,2010,27(4):1323-1325. 被引量：18
9陈康.基于Eclat算法的图书推荐系统仿真[J].计算机仿真,2010,27(9):311-314. 被引量：4
10李雪迪,郑彦.基于分布式倒排索引的频繁项集挖掘[J].计算机技术与发展,2016,26(3):101-104. 被引量：2

浙江大学学报（工学版）

2013年第2期

浏览历史

内容加载中请稍等...

提高Eclat算法效率的策略被引量：13

参考文献11

二级参考文献25

共引文献37

同被引文献123

引证文献13

二级引证文献49

相关作者

相关机构

相关主题

浏览历史

提高Eclat算法效率的策略 被引量：13

参考文献11

二级参考文献25

共引文献37

同被引文献123

引证文献13

二级引证文献49

相关作者

相关机构

相关主题

浏览历史

提高Eclat算法效率的策略被引量：13