基于MapReduce的关联规则增量更新算法被引量：15

MapReduce Based Association Rule Incremental Updating Algorithm

下载PDF

导出

摘要云计算以其强大的存储和计算能力而成为解决海量数据挖掘问题的有效途径。经典的关联规则增量更新算法FUP需要频繁扫描原数据集,不适用于海量数据的处理。文中以提高海量数据上关联规则增量更新效率为目标,将FUP算法与云计算的MapReduce编程模式相结合,提出了一种基于MapReduce的关联规则增量更新算法MRFUP。该算法只需扫描原数据集一次,并能充分利用云计算强大的存储和并行计算能力。基于Hadoop的实验结果表明,MRFUP算法可提高对海量数据的处理能力和效率,适用于海量数据的关联规则挖掘。 Cloud computing,with its powerful storage and computing power,has become one of the most effective way for solving the problem of massive data mining.FUP is one of the most classic incremental updating algorithms for association rules.But it can not meet the need of massive data mining very well because it needs to scan the dataset frequently.In this paper,in order to enhance the incremental updating efficiency of association rules for massive data,a MapReduce based incremental updating algorithm for association rules is proposed by combing FUP algorithm and MapReduce programming mode,which is named MRFUP.MRFUP scans the original dataset only once,and takes full advantage of the powerful storage and computing power provided by cloud computing.The results of the experiments deployed on Hadoop show that MRFUP can improve the ability and efficiency of processing massive data;It adapts to mine association rules from massive data.

作者朱晓峰李玲娟徐小龙陈建新

机构地区南京邮电大学计算机学院

出处《计算机技术与发展》 2012年第4期115-118,122,共5页 Computer Technology and Development

基金国家"973"计划资助项目(2011CB302903) 国家自然科学基金资助项目(61073189)

关键词海量数据挖掘云计算映射/规约关联规则增量更新 massive data mining cloud computing MapReduce association rules incremental updating

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献12

1Agramal R,Srikant R. Fast Algorithms for Mining Association Rules[A].Santiago Chile,1994.487-499.
2范明;孟小峰.数据挖掘:概念与技术[M]北京:机械工业出版社,2001.
3程舒通,徐从富.关联规则挖掘技术研究进展[J].计算机应用研究,2009,26(9):3210-3213. 被引量：14
4Savasere A,Omiecinski E,Navathe S. An Efficient Algorithm for Mining Association Rules in Large Databases[A].San Francisco:Morgan Kaufmann Publishers,1995.432-444.
5Cheung D W. Maintenance of Discovered Association Rules in Large Database:An Incremental Updating Technique[A].IEEE Computer Society Press,1996.106-114.
6Weiss A. Computing in Clouds[J].ACM Networker,2007,(04):18-25.
7刘鹏.云计算[M]北京:电子工业出版社,2010.
8Dean J,Ghemawat S. Mapreduce:simplified data processing on large clusters[A].San Francisco,California,USA,2004.137-150.
9Rajaraman A,Ullman J D. Mining of Massive Data[M].Stanford,2010.
10Venner J. Pro Hadoop[M].Apress,2009.

二级参考文献24

1王俊峰,杨建华,周虹霞,谢高岗,周明天.网络测量中自适应数据采集方法(英文)[J].软件学报,2004,15(8):1227-1236. 被引量：11
2AGRAWAL R, IMIELINSKI T, SWAMI A. Mining association rules between sets of items in large databases[ C]//Proc of ACM SIGMOD International Conference on Management of Data. New York: ACM Press, 1993 : 207-216.
3AGRAWAL R, SRIKANT R. Fast algorithms for mining association rules[C]//Proc of the 20th International Conference on Very Large Data Bases. San Francisco: Morgan Kaufmann Publishers, 1994: 478-499.
4PARK J S, CHEN M S, YU P S. Using a hash based method with transaction trimming for mining association rules [ J ]. IEEE Trans on Knowledge and Data Engineering, 1997, 9(5) :813-825.
5BRIN S, MOTWANI R, ULLMAN J D, et al. Dynamic itemset counting and implication rules for market basket data [ C ]//Proc of ACM SIGMOD International Conference on Management of Data. New York: ACM Press, 1997: 255-264.
6MANNILA H, TOIVONEN H, VERKAMO A I. Efficient algorithms for discovering association rules[ C ]//Proc of the AAAI Workshop on Knowledge Discovery in Databases. Washington: AAAI Press, 1994: 181-192.
7TOIVONEN H. Sampling large databases for association rules [ C ]// Proc of the 22nd International Conference on Very Large Data Bases. Sam Francisco: Morgan Kaufmann Publishers, 1996: 134-145.
8HAN Jia-wei, PEI Jian, YIN Yi-wen. Mining frequent patterns without candidate generation [ C ]//Proc of ACM SIGMOD International Conference on Management of Data. New York : ACM Press, 2000 : 1-12.
9GRAHNE G, ZHU Jian-fei. Efficiently using prefix-trees in mining frequent itemsets [ C ]//Proc of IEEE ICDM Workshop on Frequent Itemset Mining Implementations. 2003.
10PIEPRZYK J, MORZY M. Mining generalized association roles using prutax and hierarchical bitmap index [ EB/OL ]. [ 2009-02-19]. http://www, cs. put. poznan, pl/mmorzy/papers/admkd07, pdf.

共引文献13

1陶小红.Web数据挖掘在智能选课系统中的应用研究[J].办公自动化（综合月刊）,2010(1):27-29. 被引量：2
2王卫东,屈洋.数据挖掘理念在医院病历随访系统中的应用[J].计算机技术与发展,2010,20(7):199-202. 被引量：7
3陶小红.Web数据挖掘在智能选课系统中的应用研究[J].科协论坛（下半月）,2010(2):68-70. 被引量：1
4邓忠军,宋威,郑雪峰,王少杰.P2P网络中最大频繁项集挖掘算法研究[J].计算机应用研究,2010,27(9):3490-3492. 被引量：1
5李爱凤.基于数据挖掘技术的购物篮模式研究[J].计算机应用与软件,2011,28(12):156-158. 被引量：9
6邓广彪,蒙祖强.一种快速获取候选3项集的Apriori改进算法[J].电脑与信息技术,2012,20(1):22-25. 被引量：1
7宋钰,何小利,张刚园.关联规则在医药云数据定向中的应用与仿真[J].计算机仿真,2013,30(2):239-242. 被引量：3
8王飞,缑锦.基于多变异粒子群优化算法的模糊关联规则挖掘[J].计算机科学,2013,40(5):217-223. 被引量：12
9李为.基于数据挖掘技术的网络违法案件分析研究[J].现代计算机（中旬刊）,2013(12):10-13.
10颜宏文,谢启龙.基于多维关联规则的电网脆弱性识别研究[J].计算机应用与软件,2015,32(11):36-40. 被引量：4

同被引文献148

1胡世昌,李劲华,王常颖.基于二进制编码的Apriori改进算法[J].计算机应用研究,2020,37(2):398-400. 被引量：16
2刘辛,杨素锦.基于数组的Apriori算法在体质测试数据分析中的应用[J].山东理工大学学报（自然科学版）,2011,25(5):55-58. 被引量：7
3章志刚,吉根林.基于迭代式MapReduce的Apriori算法设计与实现[J].华中科技大学学报（自然科学版）,2012,40(S1):9-12. 被引量：8
4易彤,徐宝文,吴方君.一种基于FP树的挖掘关联规则的增量更新算法[J].计算机学报,2004,27(5):703-710. 被引量：32
5杨峰,吴明慧.多维多层次挖掘关联规则在商品房交易中的应用[J].信阳师范学院学报（自然科学版）,2004,17(3):345-347. 被引量：1
6吉根林,杨明,宋余庆,孙志挥.最大频繁项目集的快速更新[J].计算机学报,2005,28(1):128-135. 被引量：47
7侯雪波,田斌,葛少云,路志英.关联规则技术在电力市场营销分析中的应用[J].电力系统及其自动化学报,2005,17(2):67-72. 被引量：23
8徐文拴,辛运帏.一种改进的关联规则维护算法[J].计算机工程与应用,2006,42(18):178-180. 被引量：9
9周玉新,周军,梅红岩,邵雪红.一种不完备信息系统的约简方法[J].计算机技术与发展,2007,17(9):109-112. 被引量：2
10李海涛,章德斌.基于决策树的不完备信息系统的规则提取方法[J].计算机工程与科学,2007,29(10):68-69. 被引量：4

引证文献15

1赵永进,林卫,贺娜娜,王振华.基于灰色关联分析的Apriori算法的研究及应用[J].计算机技术与发展,2013,23(11):255-257. 被引量：1
2杨泽民.云计算模型中关联规则增量更新方法[J].计算机工程与设计,2014,35(2):504-508. 被引量：5
3王彦明.近年来Hadoop国内研究进展[J].现代情报,2014,34(8):14-19. 被引量：2
4杨勇,高松松.基于MapReduce的关联规则并行增量更新算法[J].重庆邮电大学学报（自然科学版）,2014,26(5):670-678. 被引量：10
5王添,姜麟,米允龙.海量数据下不完备信息系统的知识约简算法[J].计算机技术与发展,2015,25(1):137-142. 被引量：2
6郑亚军,胡学钢.基于PFP的关联规则增量更新算法[J].合肥工业大学学报（自然科学版）,2015,38(4):500-503. 被引量：6
7程广,王晓峰.基于MapReduce的并行关联规则增量更新算法[J].计算机工程,2016,42(2):21-25. 被引量：12
8耿志强,张杨,韩永明.基于矩阵的关联规则增量更新及其改进算法[J].北京化工大学学报（自然科学版）,2016,43(5):89-94. 被引量：8
9尹治华,张大鹏,谭明,王新生.一种改进的基于FP-Tree的高效挖掘最大频繁项目集算法[J].济南大学学报（自然科学版）,2017,31(2):111-117. 被引量：8
10王波,王怀彬,张超.基于MapReduce的频繁模式挖掘算法的优化[J].天津理工大学学报,2018,34(1):6-11. 被引量：4

二级引证文献65

1李强,吴裕雄,古国照,陈锡林,陈晔.智能辅助诊疗平台设计与探索[J].医学信息学杂志,2019,40(11):32-35. 被引量：2
2杨晓雁,甘琳梅.基于Hadoop的NoSQL非关系型数据库安全研究[J].微型电脑应用,2018,34(12):43-45. 被引量：1
3凌文婧,郑丽敏.基于Hadoop的食品安全预警系统架构[J].食品安全导刊,2015(6):64-66. 被引量：1
4吴倩,罗健旭.压缩FP-Tree的改进搜索算法[J].计算机工程与设计,2015,36(7):1771-1777. 被引量：8
5陈志龙,倪桂强,姜劲松,罗健欣,严英姿.基于动态字典的增量更新算法[J].解放军理工大学学报（自然科学版）,2015,16(5):426-432. 被引量：4
6刘绍清.基于频繁项集分类统计的增量式关联规则应用[J].重庆工商大学学报（自然科学版）,2015,32(12):43-47. 被引量：3
7包磊.一种云计算环境下的改进FP-GROWTH算法[J].软件导刊,2016,15(1):57-60.
8汪峰坤,张婷婷.一种基于有向图的多维多值属性关联规则挖掘算法[J].宿州学院学报,2015,30(12):99-101. 被引量：1
9李春生,邸京华,李少龙,张可佳,王梅.时序化生产预警有效影响因子的获取方法研究[J].计算机技术与发展,2016,26(7):122-126. 被引量：1
10汪峰坤,张婷婷.一种基于矩阵直接生成二阶频繁项集的多值属性关联规则算法[J].新乡学院学报,2016,33(6):38-42.

1孙新,宋中山.一种改进的关联规则增量更新算法[J].中国西部科技,2010,9(13):28-29.
2李宝东,宋瀚涛.关联规则增量更新算法研究[J].计算机工程与应用,2002,38(23):6-8. 被引量：10
3陈劲松,施小英.一种关联规则增量更新算法[J].计算机工程,2002,28(7):106-107. 被引量：27
4段琢华.一种高效的关联规则增量更新算法[J].机电工程技术,2004,33(2):37-39.
5商志会,陶树平.一种高效的关联规则增量更新算法[J].计算机应用,2005,25(4):830-832. 被引量：5
6牛小飞,刘浩,牛学东,刘秀婷.基于矩阵的关联规则增量更新算法[J].计算机工程与应用,2006,42(21):169-171. 被引量：5
7兰天,杨君锐.一种关联规则增量更新算法[J].西安科技大学学报,2009,29(1):113-117. 被引量：2
8林国全.动态数据库关联规则增量更新算法[J].中国高新技术企业,2010,0(14):36-39.
9吴立锋,王江晴,侯睿.改进的关联规则增量更新算法[J].计算机工程与应用,2010,46(34):149-151. 被引量：1
10梅俊,郑刚.一种基于临时表的关联规则增量更新算法[J].安徽工程科技学院学报（自然科学版）,2010,25(1):44-47. 被引量：3

计算机技术与发展

2012年第4期

浏览历史

内容加载中请稍等...

基于MapReduce的关联规则增量更新算法被引量：15

参考文献12

二级参考文献24

共引文献13

同被引文献148

引证文献15

二级引证文献65

相关作者

相关机构

相关主题

浏览历史

基于MapReduce的关联规则增量更新算法 被引量：15

参考文献12

二级参考文献24

共引文献13

同被引文献148

引证文献15

二级引证文献65

相关作者

相关机构

相关主题

浏览历史

基于MapReduce的关联规则增量更新算法被引量：15