一种基于数据压缩的Apriori算法被引量：6

Improved Apriori based on data compression

下载PDF

导出

摘要随着物联网技术的飞速发展,数据采集手段迅速增加,对海量数据分析与处理的需求也愈加强烈。关联规则挖掘算法通过数据之间的关联分析,挖掘出数据之间的隐含关系,进而获得了大量应用。在众多的关联规则算法中,传统的Apriori算法虽然得到了大量应用,但是因为该算法产生大量的候选集,而且需要多次对数据库进行扫描,导致该算法的运行效率大大降低。为了克服Apriori算法的以上缺点,通过数据压缩的方法减少了数据库扫描次数的同时,对生成的候选集进行了多次验证,大大减少了无效候选集的数量。大量的数据挖掘实验证明提出的改进算法可以在正确挖掘数据集关联规则的同时,大大提高了算法的运行效率。 The Apriori algorithm is one of the most influential algorithms for mining association rules. It can work on the large dataset efficiently. However, the traditional Apriori algorithm has two bottlenecks. It generates a large number of candidate sets, and most of them are useless. It has to scan the database for many times. This paper presents an improved Apriori algorithm based on the data compression methodology. The improved algorithm can reduce the number of database scans and the number of candidate set by pre-judging at the same time. Complicated experiment demonstrates that a significant improvement has been achieved by the algorithm.

作者高海洋沈强张轩溢赵志军

机构地区中国科学院声学研究所高性能网络实验室无锡中科智能信息处理研发中心有限公司

出处《计算机工程与应用》 CSCD 2013年第14期117-120,共4页 Computer Engineering and Applications

基金国家重大专项(No.2011ZX03005-002) 中国博士后科学基金项目(No.20100470568) 王宽诚教育基金

关键词数据挖掘关联规则 APRIORI算法数据压缩频繁集检测 data mining association rules Apriori data compression detection of frequent set

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献10

1Shen Q,Liu Y, Zhao Z, et al.Distributed Hash table based ID management optimization for Intemet of things[C]//IWCMC, 2010: 686-690.
2Agrawal R, Imielinski T, Swami A.Mining association rules between sets of items in large databases[C]//Proceedings of the ACM SIGMOD Conference on Management of Data, 1993:207-216.
3Agrawal R, Srikant R.Fast algorithms for mining association rules in large database[C]//Proceedings of the 20th International Conference on Very Large Data Bases, 1994:487-499.
4Park J S,Chen M S,Yu P S.An effective Hash-based algo- rithm for mining association rules[C]//Pruceedings of ACM SIGMOD International Conference on Management of Data, 1995 : 175-186.
5Savasere A, Omiecinski E,Navathe S.An efficient algorithm for mining association rules in large databases[C]//Proceed- ings of the 21st International Conference on Very Large Database, 1995 : 432-443.
6Brin S, Motwani R, Ullman J D, et al.Dynamic iternset count- ing and implication rules for market basket data[C]//ACM SIGMOD International Conference on the Management of Data, 1997 : 255-264.
7Mannila H, Toivonen H, Verkamo A.Efficient algorithm for discovering association rules[C]//AAAI Workshop on Know- ledge Discovery in Databases,1994:181-192.
8Han J, Pei J, Yin Y.Mining frequent patterns without candi- date generation[C]//Proc 2000 ACM-SIGMOD Int Conf Management of Data( SIGMOD ' 00), 2000 : 1-12.
9Mannila H, Toivonen H, Verkamo l.Efficient algorithm for discovering association rules[C]//AAAI Workshop on Know- ledge Discovery in Databases, 1994: 181-192.
10Wu Libing, Gong Kui, He Yanxiang, et al.A study of improv- ing Apriori algorithm[C]//2010 2nd International Workshop on Intelligent Systems and Applications(ISA),2010:22-23.

同被引文献82

1胡世昌,李劲华,王常颖.基于二进制编码的Apriori改进算法[J].计算机应用研究,2020,37(2):398-400. 被引量：16
2章志刚,吉根林.基于迭代式MapReduce的Apriori算法设计与实现[J].华中科技大学学报（自然科学版）,2012,40(S1):9-12. 被引量：8
3秦亮曦,史忠植.关联规则研究综述[J].广西大学学报（自然科学版）,2005,30(4):310-317. 被引量：22
4赵永尊,张谧,赵卫东,李银胜.基于品类聚类的关联规则优化算法[J].计算机应用与软件,2007,24(1):140-142. 被引量：1
5张永,迟忠先.一种高效的基于采样的关联规则挖掘算法[J].计算机工程与应用,2007,43(2):184-186. 被引量：2
6荣冈,刘进锋,顾海杰.数据库中动态关联规则的挖掘[J].控制理论与应用,2007,24(1):127-131. 被引量：24
7JiaweiHan,MichelineKamber.范明,孟小峰译.数据挖掘:概念与技术[M].北京:机械工业出版社,2007.
8刘星沙,谭利球,熊拥军.关联规则挖掘算法及其应用研究[J].计算机工程与科学,2007,29(1):83-85. 被引量：36
9Ilayaraja M,Meyyappan T.Mining medical data to identify frequent diseases using Apriori algorithm[C]//2013 International Conference on Pattern Recognition,Informatics and Mobile Engineering(PRIME),2013:194-199.
10Kantardzic M.数据挖掘:概念、模型、方法和算法[M].王晓海,吴志刚.译.2版.北京:清华大学出版社,2013:1-13.

引证文献6

1韩天鹏,白玲玲,王浩.基于候选项集剪枝的Apriori算法的研究[J].阜阳师范学院学报（自然科学版）,2014,31(4):79-83. 被引量：4
2仝武宁,王亚丽,李宏斌.基于Apriori算法的“证-症-方-药”关联模型的研究与设计[J].计算机与数字工程,2015,43(4):548-550. 被引量：1
3刘木林,朱庆华.基于Hadoop的关联规则挖掘算法研究——以Apriori算法为例[J].计算机技术与发展,2016,26(7):1-5. 被引量：18
4郭世伟,孟昱煜,陈绍立.改进的PSOGM算法在动态关联规则挖掘中的应用[J].计算机工程与应用,2018,54(8):160-165. 被引量：6
5朱天宇,谭文安.基于改进Apriori算法的保险产品推荐[J].上海第二工业大学学报,2022,39(2):172-176. 被引量：1
6吴春旭,贾银山,于红绯.一种Apriori算法的高效实现方法及其应用[J].辽宁石油化工大学学报,2023,43(2):78-85.

二级引证文献30

1王青,谭良,杨显华.基于Spark的Apriori并行算法优化实现[J].郑州大学学报（理学版）,2016,48(4):60-64. 被引量：12
2宋丽萍,韦建国.基于关联规则挖掘技术的学生数据分析系统的设计与实现[J].长沙大学学报,2017,31(2):58-61. 被引量：2
3蔡婉婷,李新霞,陈仁寿.基于Apriori算法的古现代疫病用药比较与分析[J].时珍国医国药,2017,28(6):1510-1512. 被引量：8
4李融,杨淙钧,高泽,李常宝,刘忠麟,艾中良.基于Spark的精准关联规则挖掘算法实现[J].信息技术,2018,42(2):153-158. 被引量：4
5聂捷楠.大规模数据库中非显著特征动态数据实时挖掘技术[J].科学技术与工程,2018,18(21):252-257. 被引量：3
6王诚,赵申屹.一种改进的并行关联规则增量更新算法研究[J].计算机技术与发展,2018,28(7):48-52. 被引量：1
7倪政君,夏哲雷.Flink的并行Apriori算法设计与实现[J].中国计量大学学报,2018,29(2):175-180. 被引量：4
8令宝.基于数据挖掘的运动员神经类型特征评估系统构建[J].自动化与仪器仪表,2018,0(10):165-168. 被引量：2
9朱兴动,章思宇,王正.飞机故障维修记录关联规则挖掘方法[J].兵器装备工程学报,2019,40(7):164-169. 被引量：8
10周佩,朱娴睿,何汉,张毅.大数据环境下基于Hadoop框架的数据挖掘算法的研究与实现[J].电脑知识与技术（过刊）,2017,23(10X):222-223. 被引量：3

1李亮,齐望东.基于知网的关系网络的构建[J].解放军理工大学学报（自然科学版）,2005,6(5):441-446. 被引量：1
2谭桂龙,陈谊.基于平行坐标的信息可视化方法的应用研究[J].北京工商大学学报（自然科学版）,2008,26(2):75-80. 被引量：2
3陈丽萍,姚志强,陈荔聪.一种基于遗传优化的神经网络水印[J].计算机系统应用,2011,20(10):215-218. 被引量：1
4董斌,李颢,邵惠鹤,王洪水.模糊神经网络的非线性辨识理论及应用[J].上海交通大学学报,1996,30(12):117-123. 被引量：1
5朱颢东,钟勇.结合优化的文档频和LSA的特征选择方法[J].计算机工程与应用,2009,45(34):121-123.
6陈思,阎艳,王钊,王国新.产品设计知识服务中本体推理技术应用[J].中国机械工程,2014,25(19):2620-2627. 被引量：4
7钱付兰,李启龙.结合全局与双重局部信息的社交推荐[J].计算机科学,2016,43(2):57-59. 被引量：2
8黄敏.k-means算法在教学质量评价结果中的分析研究[J].重庆工贸职业技术学院学报,2011(1):65-67.
9魏海涛,杜云艳,何亚文,周成虎,张镭.基于语义的GP服务多层次发现算法[J].地球信息科学学报,2014,16(1):39-44. 被引量：2
10王少华,王翠茹,董娜,卜亚杰.关联规则在高校系统中的应用[J].福建电脑,2007,23(12):153-154. 被引量：2

计算机工程与应用

2013年第14期

浏览历史

内容加载中请稍等...

一种基于数据压缩的Apriori算法被引量：6

参考文献10

同被引文献82

引证文献6

二级引证文献30

相关作者

相关机构

相关主题

浏览历史

一种基于数据压缩的Apriori算法 被引量：6

参考文献10

同被引文献82

引证文献6

二级引证文献30

相关作者

相关机构

相关主题

浏览历史

一种基于数据压缩的Apriori算法被引量：6