基于关系数据库的频繁项集挖掘算法研究被引量：3

Research on Frequent Itemsets Mining Algorithm Based on Relational Database

导出

摘要 Apriori算法及其改进是目前应用最为广泛的频繁项集挖掘算法,但其在关系数据库中挖掘频繁项集时,产生大量候选项集,导致重复扫描数据库,从而导致其效率低下.本文在深入研究Apriori算法及其改进算法和关系数据库特征的基础上,提出了基于关系数据库的频繁项集挖掘算法,并详细描述了其实现和优化方法.本算法不产生候选项集,只需一次事务扫描,大幅提高算法执行效率,此外,本算法经过简单修改就能满足大部分的关联分析需求.在零售业中的应用实验证明:该算法在一定的条件下比经典的Apriori算法具有更高的效率. Apriori algorithm and its improvements is the most widely used algorithm for mining frequent itemsets, but ＇producing a great quantity of candidate itemsets during min- ing frequent itemsets in relational database, and scans transaction database repeatedly. This paper makes profound researches on Apriori algorithm and the characteristics of relational database, and proposes a frequent itemsets mining algorithm based on relational database, and presents its concrete implementation and its optimization method. The algorithm doesn＇t produce, candidate itemsets, and only scans transaction database once, so promotes consider- ably efficiency. Moreover, the algorithm meets most requirements of correlation analysis. The result of experiments in the retail industry show that, the frequent itemsets mining algorithm based on relational database＇ has higher efficiency than the classical Apriori algorithm under certain conditions.

作者黄莉静张辉王井阳张鹏鹏张冬雯周万珍

机构地区河北科技大学信息科技与工程学院

出处《数学的实践与认识》 CSCD 北大核心 2013年第12期198-203,共6页 Mathematics in Practice and Theory

关键词关系数据库频繁项集关联规则 APRIORI relational database frequent itemsets association rule Apriori

分类号 TP311.13 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献6

1Jiawei Han,Micheline Kamber(著),范明,孟小峰(译).数据挖掘概念与技术[M].北京:机械工业出版社,2007.3.2.
2Endu Duneja R I T S, Bhopal M P A K, Sachan R I T S. A survey on frequent itemset mining with association rules[J]. International Journal of Computer Applic- ations, 2012, 46(23): 18-24.
3Park J S, Chen M S, Yu P S. An effective Hash based algorithm for mining association rules [C]// Proceedings of the 1995 ACM SIGM OD International Conference on Management of Data, San Jose, CA, 1995, 24(2): 175-186.
4Agrawal R, Imielinski T, Swami A. Mining association rules between sets of items in large databases [C]//Buneman P, Jajodia S, eds. Proc. of the ACM SIGM OD Conf. on Management of Data ( SIGMOD. 93) . New York: ACM Press, 1993, 22(2): 207-216.
5Savasere A, Omiecianski E, Navathe S. An efficient algorithm for mining association rules in large databases, 1995, 21: 432.
6Toivonen H. Sampling large databases for association rules[C]//Proc of the 22nd lnt'l Conf. on Very Large Data Bases. Mumbai, India, 1996, 22: 134-145.

共引文献63

1刘勇,宁爱兵,许秋艳,马良.聚类分析的竞争决策算法[J].数学的实践与认识,2008,38(21):58-62.
2赵晓丹,齐志.非线性PCA方法在股价预测中的应用研究[J].吉林师范大学学报（自然科学版）,2008,29(4):70-73. 被引量：1
3李洪奇,李雄炎,谭锋奇,郭海峰,于红岩.基于数据挖掘技术的测井评价方法[J].测井技术,2009,33(1):16-21. 被引量：3
4郭伟业,赵晓丹,庞英智,奇志.数据挖掘中SOM神经网络的聚类方法研究[J].情报科学,2009,27(6):874-876. 被引量：12
5张宇,郝忠孝.多关系决策树分类算法[J].哈尔滨理工大学学报,2009,14(A01):37-39.
6祝世东,李卓玲.数据挖掘的异常检测技术分析[J].沈阳工程学院学报（自然科学版）,2009,5(3):265-268. 被引量：4
7甄彤,鲍圣洁,吴建军.储粮害虫防治专家系统的研究[J].华北水利水电学院学报,2009,30(3):47-50. 被引量：1
8黄斯达,陈启买.基于相似性度量的高维聚类算法的研究[J].微计算机信息,2009,25(27):187-188. 被引量：4
9仇闽霞.数据挖掘中关联规则的算法及应用[J].苏州科技学院学报（自然科学版）,2009,26(4):61-64.
10龚科华,邱桃荣,熊树洁,徐苏.基于覆盖粗糙集模型的层次聚类算法[J].计算机工程与设计,2009,30(22):5185-5188. 被引量：2

同被引文献23

1ZhuQ Y,YangX F, YangL X, et al. Optimal control of computer virus under a delayed model [J]. Applied Mathematics and Computation, 2012, 218 ( 23 ): 11613-11619.
2刘华婷,郭仁祥,姜浩.关联规则挖掘Apriori算法的研究与改进[J].计算机应用与软件,2009,26(1):146-149. 被引量：119
3刘滨,王建中,刘峰.河北省玉米生产成本收益变动分析[J].安徽农业科学,2009,37(31):15438-15440. 被引量：10
4陈景强,翁正秋.一种基于投影数据库的SPAM算法[J].电脑知识与技术,2010,6(3):1537-1539. 被引量：1
5黄勇.优化局部保留投影及其在表情识别中的应用[J].计算机工程,2011,37(4):210-211. 被引量：1
6刘佳新,严书亭,任家东.缩减投影数据库规模的增量式序列模式算法[J].计算机工程,2012,38(3):28-30. 被引量：2
7周晓云,覃雄派.基于轻量数据挖掘方法的数据库锁表优化[J].计算机工程与应用,2012,48(8):16-20. 被引量：2
8方燕,李玉梅.我国玉米价格波动影响因素的实证研究[J].价格理论与实践,2012(3):36-37. 被引量：7
9缪裕青,吴孔玲,朱晓雁,苏杰.一种基于序列末项位置信息的序列模式挖掘算法[J].计算机应用研究,2012,29(7):2505-2508. 被引量：5
10苏梽芳,王祥,陈昌楠.中国粮食价格低频波动影响因素研究:基于面板VAR模型[J].农业技术经济,2012(10):22-30. 被引量：21

引证文献3

1林荫,石林,杨长春.重复投影数据库下的优化挖掘方法研究与仿真[J].计算机仿真,2016,33(5):318-321.
2高静,董振华,郭峰.网络差异数据的优化挖掘模型仿真分析研究[J].微电子学与计算机,2016,33(7):136-139. 被引量：3
3贾胜廷,孟军,吴秋峰.黑龙江省玉米价格成本因素分析——基于关联规则方法[J].黑龙江畜牧兽医（下半月）,2017(4):6-9.

二级引证文献3

1杨媛,马旭,陈琛.一种多层次分布式网络数据挖掘方法的改进[J].科学技术与工程,2018,18(1):298-303. 被引量：4
2周鹏.非结构化网络分布式差异数据实时挖掘仿真[J].计算机仿真,2018,35(9):333-337. 被引量：2
3高原.无线传感网络测点数据共享中的差异数据分界[J].计算机仿真,2020,37(10):244-248.

1陈凤娟.基于MapReduce的关联规则挖掘[J].电脑与电信,2014(8):59-60.
2陈明洁.分布式频繁项集挖掘算法[J].计算机应用与软件,2015,32(10):63-66. 被引量：4
3杨金文,仲伟和,缪正.关联规则挖掘的Apriori算法的研究进展[J].同行,2016,0(10):384-384.
4廖勇.基于差分隐私的频繁项集挖掘研究综述[J].电子技术与软件工程,2016(3):197-198.
5孙莉.数据库和数据流频繁项集挖掘算法研究[J].现代机械,2007(5):54-57.
6王艳.数据挖掘中关联规则的探讨[J].成都信息工程学院学报,2004,19(2):172-176. 被引量：18
7黄金晶,叶施仁,何福男.基于MapReduce的频繁项集挖掘算法研究[J].物流技术,2015,34(8):178-181. 被引量：3
8陈凤娟.基于图形处理器的频繁项集挖掘[J].软件工程师,2014(9):8-9.
9戎翔,李玲娟.基于MapReduce的频繁项集挖掘方法[J].西安邮电学院学报,2011,16(4):37-39. 被引量：24
10潘雷.优化关联规则算法的方法研究[J].南京晓庄学院学报,2005,21(5):71-76. 被引量：1

数学的实践与认识

2013年第12期

浏览历史

内容加载中请稍等...

基于关系数据库的频繁项集挖掘算法研究被引量：3

参考文献6

共引文献63

同被引文献23

引证文献3

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

基于关系数据库的频繁项集挖掘算法研究 被引量：3

参考文献6

共引文献63

同被引文献23

引证文献3

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

基于关系数据库的频繁项集挖掘算法研究被引量：3