基于候选项集剪枝的Apriori算法的研究被引量：4

Study of Apriori based on candidate itemsets pruning algorithm

下载PDF

导出

摘要在大数据挖掘中使用经典Apriori算法时,会产生大量的候选集,并需要扫描数据库中所有数据,使得其在实现过程中效率大大降低。为了提高Apriori算法的应用效率,通过建立线性链表记录每个事务中的项数,以达到事务压缩的目的;设置up值来提高1-项频繁集组合的门槛,发现支持度比较大的2-项候选集,以达到剪枝的目的;通过实验来设置up的取值范围,使最终产生的频繁项集的误差能够在接受的范围。实验证明提出的改进方法可以在找出绝大部分关联规则的同时,提高算法运行的效率。 Using classic Apriori algorithm in large data mining often generates a large number of candidate sets and needs to scan all of the data in the database,thus greatly reducing the implementation process efficiency.This paper presents an improved Apriori algorithm based on candidate itemsets pruning algorithm.To achieve the purpose of the transaction compression,a linear list was established to record each transaction; UP value was set to raise the threshold of 1-item frequent sets combination and 2-item candidate set that can achieve the purpose of pruning was found; the value range of UP was set through experiments and finally the error of frequent item sets is within the acceptable range.The experimental results showed that the new algorithm performance has been significantly improved.

作者韩天鹏白玲玲王浩

机构地区阜阳师范学院计算机与信息工程学院中共阜阳市委党校信息管理中心

出处《阜阳师范学院学报（自然科学版）》 2014年第4期79-83,共5页 Journal of Fuyang Normal University(Natural Science)

基金安徽省重点研究基地项目(SK2012B625)资助安徽省专业综合改革试点项目(2013zy167) 阜阳师范学院专业综合改革试点项目(2013ZYSD05)

关键词事务压缩候选集剪枝关联规则 APRIORI算法 transaction compression candidate sets pruning association rules Apriori algorithm

分类号 TP274 [自动化与计算机技术—检测技术与自动化装置]

引文网络
相关文献

参考文献10

1Ilayaraja M,Meyyappan T.Mining medical data to identify frequent diseases using Apriori algorithm[C]//2013 International Conference on Pattern Recognition,Informatics and Mobile Engineering(PRIME),2013:194-199.
2Kantardzic M.数据挖掘:概念、模型、方法和算法[M].王晓海,吴志刚.译.2版.北京:清华大学出版社,2013:1-13.
3Agrawal R,Imielinski T,Swami A.Mining association rules between sets of items in large databases.Proceedings of ACMSIGMOD Conference on Management of Data,1993:207-216.
4刘东洋,刘恩.Apriori算法的改进[J].科学技术与工程,2010,10(16):4028-4031. 被引量：2
5范多锋,徐俊刚.大数据量下的Apriori改进算法及在weka平台的实现[J].电子技术（上海）,2012,39(7):1-4. 被引量：4
6薛安荣,王富强,李明.基于Iceberg概念格的最大频繁项集挖掘[J].计算机工程,2011,37(7):35-37. 被引量：4
7Park J S,Chen M S,Yu P S.An effective Hash-based algorithm for mining association rules[C]//Proceedings of ACM SIGMOD International Conference on Management of Data,1995:175-186.
8高海洋,沈强,张轩溢,赵志军.一种基于数据压缩的Apriori算法[J].计算机工程与应用,2013,49(14):117-120. 被引量：6
9苗苗苗,王玉英.基于矩阵压缩的Apriori算法改进的研究[J].计算机工程与应用,2013,49(1):159-162. 被引量：29
10Prashant V,Mandot M.A comparative analysis of various cluster detection techniques for data mining[C]//2014 International Conference on Electronic Systems,Signal Processing and Computing Technologies,2014:357-361.

二级参考文献31

1徐章艳,刘美玲,张师超,卢景丽,区玉明.Apriori算法的三种优化方法[J].计算机工程与应用,2004,40(36):190-192. 被引量：71
2何小东,刘卫国.数据挖掘中关联规则挖掘算法比较研究[J].计算机工程与设计,2005,26(5):1265-1268. 被引量：36
3李超,余昭平.基于矩阵的Apriori算法改进[J].计算机工程,2006,32(23):68-69. 被引量：43
4Agrawal R,Imielinske T,Swami A.Mining association rules between sets of items in large databases.Proc of the ACM SIGMOD International Conference on the Management of Data,Washington D.C,1993;207一216.
5[美]Tan Pang-Ning,Steinbach M,Kumar V.数据挖掘导论.北京:范明,范宏建,等译.人民邮电出版社,2006.
6Burdick D,Calimlim M,Flannick J,et al.MAFIA:A Maximal Frequent Itemset Algorithm[J].IEEE Transactions on Knowledge and Data Engineering,2005,17(11):1490-1504.
7Selvan R.Memory Efficient Mining of Maximal Itemsets Using Order Preserving Generators[J].International Journal of Recent Trends in Engineering,2009,9(6):372-276.
8Martin B.Eklund P Form Concepm to Concept Lattice:A Border Algorithm for Making Covers EcplicitlMl.Berlin,Germany:Springer-Verlag,2008:78-89.
9Jiawei Hart,Micheline Klimber.数据挖掘概念与技术[M].北京:机械工业出版社,2004.
10郑人杰,殷人昆陶永雷.实用软件工程[M].7版.北京:清华大学出版社,1999:51-53.

共引文献39

1王春华,宁慧,邹韵,郭江鸿.基于图的四叉链表存储结构的最大频繁项集挖掘算法[J].应用科技,2013,40(1):76-79.
2邓广彪.关联规则在个性化图书推荐中的应用研究[J].电脑开发与应用,2013,26(6):46-48. 被引量：1
3李锋刚,李玉,高晓智,凯.曾格.基于形式概念分析的治痹用药规律挖掘[J].价值工程,2014,33(11):227-230.
4邱昕,甘超,江雄心,涂海宁,顾嘉.基于云计算环境下Apriori算法的设备故障诊断技术研究[J].组合机床与自动化加工技术,2014(4):45-48. 被引量：4
5龙钧宇.基于均值聚类和决策树算法的学生成绩分析[J].计算机与现代化,2014(6):79-83. 被引量：13
6胡绿慧,任玉兰,何振林.基于划分和压缩数据库的改进Apriori算法[J].成都理工大学学报（自然科学版）,2015,42(1):110-114. 被引量：11
7陈方健,张明新,杨昆.一种具有跳跃式前进的Apriori算法[J].计算机应用与软件,2015,32(3):34-36. 被引量：10
8仝武宁,王亚丽,李宏斌.基于Apriori算法的“证-症-方-药”关联模型的研究与设计[J].计算机与数字工程,2015,43(4):548-550. 被引量：1
9张卫华.基于矩阵的apriori算法的改进[J].电子设计工程,2015,23(13):52-54. 被引量：6
10吴宁博.Apriori算法改进策略在图书馆信息推送中的应用研究[J].商情,2015,0(34):332-332.

同被引文献25

1张林,王宏海.一种改进的频繁项目集挖掘算法[J].阜阳师范学院学报（自然科学版）,2013,30(1):54-57. 被引量：1
2熊平,朱天清,王晓峰.差分隐私保护及其应用[J].计算机学报,2014,37(1):101-122. 被引量：172
3刘芳,吴广潮.一种基于压缩矩阵的改进Apriori算法[J].山东大学学报（工学版）,2018,48(6):82-88. 被引量：9
4张林红,刘红梅.基于一卡通数据分析的学生早餐习惯与成绩关联规则挖掘[J].阜阳师范学院学报（自然科学版）,2014,31(4):92-95. 被引量：9
5赵官宝,刘云.一种基于位表的有效频繁项集挖掘算法[J].山东大学学报（理学版）,2015,50(5):23-29. 被引量：4
6彭敏,黄佳佳,朱佳晖,黄济民,刘纪平.基于频繁项集的海量短文本聚类与主题抽取[J].计算机研究与发展,2015,52(9):1941-1953. 被引量：31
7朱付保,白庆春,汤萌萌,朱颢东.基于改进Apriori算法的铁路轨道质量分析与评价[J].微电子学与计算机,2015,32(10):159-162. 被引量：5
8牛新征,牛嘉郡,苏大壮,佘堃.基于FP-Tree模型的频繁轨迹模式挖掘方法[J].电子科技大学学报,2016,45(1):86-90. 被引量：8
9曹莹,苗志刚.基于向量矩阵优化频繁项的改进Apriori算法[J].吉林大学学报（理学版）,2016,54(2):349-353. 被引量：18
10梁珺,刘云.基于析取规则对不确定数据挖掘的优化研究[J].四川大学学报（自然科学版）,2016,53(4):788-792. 被引量：5

引证文献4

1白玲玲,韩天鹏.关联规则在健康文本信息挖掘中的应用[J].阜阳师范学院学报（自然科学版）,2019,36(3):43-48. 被引量：1
2龚晨,王诗兵.基于集合和剪枝原理的关联规则隐藏算法[J].阜阳师范学院学报（自然科学版）,2019,36(4):61-66. 被引量：2
3韩天鹏,王峰.一种基于本地分区的挖掘算法研究[J].赤峰学院学报（自然科学版）,2019,35(11):57-61.
4何庆,刘亮.一种改进的Apriori算法在精准扶贫中的应用研究[J].贵州大学学报（自然科学版）,2019,36(6):46-52. 被引量：3

二级引证文献6

1罗洁,王力.基于相似度的Apriori混合算法研究[J].智能计算机与应用,2023,13(8):158-160.
2管祥甫,管子涵.计算机文本信息挖掘技术在网络安全中的应用[J].电子技术与软件工程,2019,0(21):184-185. 被引量：2
3杨井荣,侯向宁.正负关联规则数据挖掘算法研究[J].计算机技术与发展,2020,30(11):64-68. 被引量：5
4董轩萌,郭立稳,董宪伟,王福生.基于Apriori算法的煤自燃影响因素关联挖掘[J].华北理工大学学报（自然科学版）,2021,43(1):21-25. 被引量：3
5邓劲松,王传安,吴延敏.基于抑制和敏感属性多样性的轨迹发布算法[J].阜阳师范大学学报（自然科学版）,2022,39(2):91-98.
6林焕.基于关联规则的工程测绘数据自动化校核系统[J].信息与电脑,2023,35(13):77-80.

1孙金华,谢彦麒.基于事务压缩的关联规则挖掘算法改进[J].微计算机信息,2010,26(27):223-225. 被引量：3
2钱冬云.基于事务压缩的Apriori算法的改进[J].浙江工贸职业技术学院学报,2006,6(1):88-92.
3程立平.基于改进的Apriori下的增量挖掘[J].大众科技,2005,7(8):40-41. 被引量：1
4杨启昉,马广平.关联规则挖掘Apriori算法的改进[J].计算机应用,2008,28(S2):217-218. 被引量：13
5梅成,周兴斌.基于矩阵的Apriori算法的优化[J].计算机与现代化,2008(12):5-7. 被引量：1
6孔德剑.关联规则挖掘Apriori算法效率提高方法研究[J].中国科技信息,2011(23):85-85.
7张素兰.一种基于事务压缩的关联规则优化算法[J].计算机工程与设计,2006,27(18):3450-3453. 被引量：16
8张云洋,刘芳.基于维间扩展和事务压缩的关联规则算法改进[J].计算机时代,2012(9):24-26. 被引量：2
9李忠慧.一种基于散列和事务压缩的Apriori改进算法[J].科技信息,2009(24):192-193.
10黄进,尹治本.关联规则挖掘的Apriori算法的改进[J].电子科技大学学报,2003,32(1):76-79. 被引量：51

阜阳师范学院学报（自然科学版）

2014年第4期

浏览历史

内容加载中请稍等...

基于候选项集剪枝的Apriori算法的研究被引量：4

参考文献10

二级参考文献31

共引文献39

同被引文献25

引证文献4

二级引证文献6

相关作者

相关机构

相关主题

浏览历史

基于候选项集剪枝的Apriori算法的研究 被引量：4

参考文献10

二级参考文献31

共引文献39

同被引文献25

引证文献4

二级引证文献6

相关作者

相关机构

相关主题

浏览历史

基于候选项集剪枝的Apriori算法的研究被引量：4