基于数组和辅助项头表的快速频繁项集挖掘算法被引量：2

Fast frequent itemsets mining algorithms based on array and auxiliary item header tables

下载PDF

导出

摘要目的:针对FP-growth算法项结点查询耗时,频繁项集挖掘需要不断产生条件FP-tree等问题,提出了一种基于数组和辅助项头表的快速频繁项集挖掘算法。方法:首先算法使用Array-structure代替FP-tree;然后使用具有两层可hash结构的辅助项头表取代频繁项集头表,并存储项结点在Array-structure上的位置信息,结合数组可被索引和hash结构特性快速定位项结点;最后利用辅助项头表上存储的项结点信息直接挖掘频繁项集,无需生成条件FP-tree。结果:与FP-growth等算法相比,该算法在不同类型的数据集上极大地缩短了算法的执行时间。结论:基于数组和辅助项头表的快速频繁项集挖掘算法在密集型和稀疏型数据集上都具有更好的挖掘性能和更高的执行效率。 Aims:This paper aims to solve the problems of time-consuming of FP-growth item nodes query and continuous mining generated by conditional FP-tree.A fast frequent itemsets mining algorithm based on array and auxiliary item header tables was proposed.Methods:Firstly,FP-tree was replaced with Array-structure.Then the auxiliary item header table with two layers of hash structure were used to replace the frequent item set header table, and the location information of the item node on the Array-structure was stored.Arrays with index and hash structure features were combined to quickly locate item nodes and improved item nodes query efficiency.Finally,the frequent itemsets were mined directly without generating the condition of FP-tree by using the information of item nodes stored on the auxiliary item header table.Results:The experimental results showed that compared with FP-growth and other algorithms,the algorithm greatly shortened the execution time on different data sets.Conclusions:The fast frequent itemsets mining algorithm based on array and auxiliary item header tables has better performance and higher execution efficiency on both dense and sparse data sets.

作者杜媛张世伟 DU Yuan;ZHANG Shiwei(College of Information Engineering,China Jiliang University,Hangzhou 310018,China;Modern Educational Technology Center,China Jiliang University,Hangzhou 310018,China)

机构地区中国计量大学信息工程学院中国计量大学现代教育技术中心

出处《中国计量大学学报》 2019年第1期78-84,共7页 Journal of China University of Metrology

关键词计量学关联规则频繁项集最小支持度频繁模式增长 metrology association rules frequent itemsets minimum support frequent pattern growth

分类号 TB9 [机械工程—测试计量技术及仪器]

引文网络
相关文献

参考文献3

1倪政君,夏哲雷.Flink的并行Apriori算法设计与实现[J].中国计量大学学报,2018,29(2):175-180. 被引量：4
2牛新征,杨健,佘堃.基于数组前缀树的频繁项集挖掘算法[J].小型微型计算机系统,2014,35(8):1693-1698. 被引量：5
3赵阳,吴廖丹.一种自底向上的最大频繁项集挖掘方法[J].计算机技术与发展,2017,27(8):57-60. 被引量：3

二级参考文献35

1吉根林,杨明,宋余庆,孙志挥.最大频繁项目集的快速更新[J].计算机学报,2005,28(1):128-135. 被引量：47
2秦亮曦,史忠植.SFPMax——基于排序FP树的最大频繁模式挖掘算法[J].计算机研究与发展,2005,42(2):217-223. 被引量：26
3Han J W, Pei J, Yin Y W. Mining frequent patterns without candi- date generation[ C]. SIGMOD '00 Proceedings of the 2000 ACM SIGMOD International Conference on Management of data. New York: ACM New York,2000 : 1-12.
4Grahne G ,Zhu J F. Efficiently using prefix-trees in mining frequent itemsets[ C]. Proceedings of the IEEE ICDM Workshop on Fre- quent Itemset Mining Implementations ( FIMI' 03 ), Melbourne, Florida, USA, 2003.
5Goethals B, Zaki M J. Advances in frequent itemset mining imple- mentations :report on FIMI '03 [ C ]. Proceedings of the IEEE ICDM Workshop on Frequent Itemset Mining Implementations (FIMI ' 03 ), Melbourne, Florida, USA ,2003.
6Anekritmongkol S, Kasamsan M L K. The comparative of boolean algebra compress and apriori rule techniques for new theoretic asso- ciation rule mining model [ J]. Advanced Information Management and Service (IMS) ,2010:216-222.
7Wang J ,Zeng Y. An efficient algorithm for mining closed weighted frequent pattern over data streams [ J ]. Software Engineering and Service Science ( ICSESS ) ,2012:153-156.
8Mishra S, Mishra D, Sat,apathy S K. Particle swarm optimization bas ed fuzzy frequent pattern mining from gene expression data [ C ]. Computer and Communication Technology(ICCCT) ,2011 : 15-20.
9Yin K C,Hsieh Y L,Yang D L. GLFMiner: global and local fre- quent pattern mining with temporal intervals [ C ]. Industrial Electronics and Applications (ICIEA) ,2010:2248- 2253.
10Ahmed C F,Tanbeer S K,Byeong-Soo Jeong. An efficient method for incremental mining of share-frequent patterns[ C]. Web Conference( APWEB ) ,2010 : 147-153.

共引文献9

1李春青,李海生,梁婷婷,赵凯.大数据环境下最小单调约束闭包Hadoop并行关联规则[J].中国科技论文,2015,10(20):2356-2361. 被引量：2
2董博,王雪.关联规则算法的计算效率优化研究[J].计算机仿真,2017,34(9):247-253. 被引量：5
3牛新征,王崇屹,叶志佳,佘堃.基于簇和阈值区间的高效关联规则隐藏算法[J].计算机研究与发展,2017,54(12):2785-2796. 被引量：9
4尚晓丽,包向辉.分布式空间数据库中有效数据频繁项实时检测[J].科学技术与工程,2018,18(19):224-229. 被引量：4
5佘雅莉,周良.基于混合蚁群关联规则挖掘的危险源分析算法[J].计算机技术与发展,2018,28(11):89-93. 被引量：3
6杜媛,张世伟.基于重构的改进自然排序树算法[J].计算机应用,2019,39(2):441-445.
7王志红.基于Flink平台的运用探讨[J].数码世界,2019,0(5):11-11. 被引量：2
8戚红雨.流式处理框架发展综述[J].信息化研究,2019,45(6):1-8. 被引量：9
9卢万杰,徐青,蓝朝桢,吕亮,周杨.遥感卫星区域覆盖实时分析与可视化[J].测绘学报,2020,49(10):1321-1330. 被引量：3

同被引文献18

1王爱平,王占凤,陶嗣干,燕飞飞.数据挖掘中常用关联规则挖掘算法[J].计算机技术与发展,2010,20(4):105-108. 被引量：69
2李也白,唐辉,张淳,贺玉明.基于改进的FP-tree的频繁模式挖掘算法[J].计算机应用,2011,31(1):101-103. 被引量：21
3赵阳,白凡.基于FP-tree的支持度计数优化策略[J].计算机技术与发展,2017,27(10):30-33. 被引量：1
4王建明,袁伟.基于节点表的FP-Growth算法改进[J].计算机工程与设计,2018,39(1):140-145. 被引量：14
5杨姣,高仲合,王来花,韦锦涛.数据流聚类挖掘算法优化研究[J].曲阜师范大学学报（自然科学版）,2018,44(3):38-40. 被引量：1
6倪政君,夏哲雷.一种基于fp-tree的Apriori算法改进研究[J].中国计量大学学报,2018,29(1):50-54. 被引量：3
7牛新征,王崇屹,叶志佳,佘堃.基于簇和阈值区间的高效关联规则隐藏算法[J].计算机研究与发展,2017,54(12):2785-2796. 被引量：9
8李广璞,黄妙华.频繁项集挖掘的研究进展及主流方法[J].计算机科学,2018,45(B11):1-11. 被引量：14
9钱雪忠,姚琳燕.面向稀疏高维大数据的扩展增量模糊聚类算法[J].计算机工程,2019,45(6):75-81. 被引量：19
10曾子贤,巩青歌,张俊.改进的关联规则挖掘算法——MIFP-Apriori算法[J].科学技术与工程,2019,19(16):216-220. 被引量：33

引证文献2

1魏坤,王芳,黄树成.改进的频繁模式挖掘算法[J].计算机与数字工程,2021,49(11):2175-2179.
2唐建海.基于Hadoop平台的网络安全趋势大数据挖掘算法[J].工业加热,2022,51(7):67-70. 被引量：5

二级引证文献5

1王永林,白永峰,孔祥山,郝正,杨彭飞,孔德伟.基于CNN-LSTM算法的脱硝优化控制模型研究[J].综合智慧能源,2023,45(6):25-33. 被引量：8
2唐婧.基于云服务的Hadoop大数据平台挖掘算法及实现[J].电脑编程技巧与维护,2023(8):90-93. 被引量：2
3梁树杰.基于FP-growth算法的高维混合属性数据挖掘方法[J].计算技术与自动化,2024,43(2):88-92.
4曹蓉.基于云计算的Hadoop大数据平台挖掘算法研究[J].电子产品世界,2024,31(7):24-27.
5田青云,文成,徐良.基于云计算的数据挖掘聚类算法研究[J].长江信息通信,2024,37(9):203-205.

1钟育彬,李健标.基于Hash表的改进Apriori算法[J].广州大学学报（自然科学版）,2018,17(6):7-9.
2郑伟,李强,张永飞.基于改进FP-Growth算法的无人机飞行故障诊断[J].科技创新与应用,2019,9(13):16-19. 被引量：1
3郑庭华,常玉红,周建中,刘涵,李玲,姜伟,贾天龙,许颜贺.基于数据挖掘的抽水蓄能机组故障关联关系分析[J].大电机技术,2019(2):14-19. 被引量：3
4高权,万晓冬.基于负载均衡的并行FP-Growth算法[J].计算机工程,2019,45(3):32-35. 被引量：7
5李敏波,丁铎,易泳.基于FP-Growth改进算法的轮胎质量数据分析[J].中国机械工程,2019,30(2):244-251. 被引量：9
6刘海鸥,黄文娜,苏妍嫄,张亚明.大数据深度融合的移动图书馆情境化推荐[J].情报科学,2019,37(1):68-73. 被引量：26
7韩国RRA公布无人机RF EMC&EMC测试方案[J].日用电器,2019(4):8-8.
8王园.基于测试危险工况的挖掘机斗杆加强板优化设计[J].机械工程师,2019(4):151-154.
9胡军,晏世强.株岭坳矿区生成条件与地质构造特征初探[J].山西冶金,2019,42(1):85-86. 被引量：1
10徐劲松,张民选,陈士伟,戴紫彬.Merkle-Damgrd Hash结构并行扩展算法[J].国防科技大学学报,2017,39(6):59-63. 被引量：2

中国计量大学学报

2019年第1期

浏览历史

内容加载中请稍等...

基于数组和辅助项头表的快速频繁项集挖掘算法被引量：2

参考文献3

二级参考文献35

共引文献9

同被引文献18

引证文献2

二级引证文献5

相关作者

相关机构

相关主题

浏览历史

基于数组和辅助项头表的快速频繁项集挖掘算法 被引量：2

参考文献3

二级参考文献35

共引文献9

同被引文献18

引证文献2

二级引证文献5

相关作者

相关机构

相关主题

浏览历史

基于数组和辅助项头表的快速频繁项集挖掘算法被引量：2