基于向量的数据流滑动窗口中最大频繁项集挖掘被引量：7

Algorithm based on vector for mining maximal frequent itemsets in sliding window over data streams

下载PDF

导出

摘要针对相关算法在挖掘数据流最大频繁项集时所存在的问题,提出了一种基于向量的数据流滑动窗口中最大频繁项集挖掘算法。该算法首先用向量作为概要数据结构,采用定量更新滑动窗口策略解决时间粒度问题;其次通过位运算产生频繁项集,利用矩阵和数组存储辅助信息,深度优先搜索产生最大频繁项集时利用剪枝策略进一步减少挖掘时间;最后用索引链表存储挖掘结果以提高超集检测效率。理论分析和实验结果验证了该算法的有效性。 This paper proposed an algorithm based on vector for mining maximal frequent itemsets in sliding window over data streams（MFISW） aimed at the mining problems of maximal frequent itemsets over data streams.Firstly,the algorithm used vector to express items in data streams and solved the problem of time granularity through quantitative updating strategies.Secondly,it stored the ancillary information using a matrice and a array in creating the frequent sets through the bit operation,and improved the mining efficiency again using pruning technology during creating the maximal frequent sets.Finally,it improved the detecting efficiency by using a index list to store mining results.Theoretical analysis and experimental results show the algorithm is efficient.

作者徐嘉莉陈佳胡庆黄波郭红霞

机构地区成都大学电子信息工程学院电子科技大学计算机科学与工程学院

出处《计算机应用研究》 CSCD 北大核心 2012年第3期837-840,共4页 Application Research of Computers

基金国家"863"计划资助项目(2007AA01Z443) 成都大学校基金资助项目(2010XJZ16)

关键词数据流最大频繁项集滑动窗口向量 data stream maximal frequent itemsets sliding window vector

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献10

1BABCOCK B,BABU S,DATAR M, et al. Models and issues in data stream systems [ C ]//Proc of the 21 st ACM SIGMOD-SIGART Sympo- sium on Principles of Database System. New York:ACM Press,2002: 1-16.
2GAROFALAKIS M, GEHRKE J. Querying and mining data streams: you only get one look a tutorial[ C]//Proc of ACM SIGMOD Interna- tional Conference on Management of Data. New York: ACM Press, 2002:635.
3LEE D, LEE W. Finding maximal frequent itemsets over online data streams adaptively [ C ]//Proc of the 5th IEEE International Confe- rence on Daia Mining. Washington DC : IEEE Computer Society,2005 : 266 - 273.
4LI Hua-fu, LEE S, SHAN M. Online mining maximal frequent itemsets over data streams[ C]//Proc of the 15th International Workshops on Research Issues in Data Engineering: Stream Data Mining and Appli- cations. 2005 : 11 - 18.
5MAO Guo-jun, WU Xin-dong, ZHU Xing-quan, et al. Mining maximal frequent itemsets from data streams[ J]. Journal of Information Sci- ence,2007,33(3 ) :251-262.
6GIANNELLA C, HAN Jia-wei, PEI Jian, et al. Mining frequent pat- terns in data streams at multiple time granularities [ M ]//Next Gene- ration Data Mining. Cambridge : MIT Press ,2005 : 191 - 212.
7牛小飞,石冰,卢军,吴科.挖掘关联规则的高效ABM算法[J].计算机工程,2004,30(11):118-120. 被引量：16
8李可,任家东.窗口模式下在线数据流中频繁项集的挖掘[J].计算机应用研究,2010,27(5):1711-1713. 被引量：1
9BORGELT C. Keeping things simple:finding frequent itemsets by re- cursive elimination [ C ]//Proc of the 1 st International Workshop on Open Source Data Mining. New York :ACM Press,2005:66-70.
10AGRAWAL R, SRIKANT R. Fast algorithms for mining association rules[ C]//Proc of the 20th International Conference on Very Large Databases. San Francisco: Morgan Kaufmann Publishers, 1994:487- 499.

二级参考文献13

1MANKU G S,MOTWANI R.Approximate frequency counts over data streams[C]//Proc of the 28th International Conference on Very Large Data Bases.2002:346-357.
2JIANG N,GRUENWALD L.Research issues in data stream association rule mining[J].ACM SIGMOD Record,2006,35(1):14-19.
3AGRAWAL R,SRIKANT R.Fast algorithms for mining association rules[C]//Proc of the 20th International Conference on Very Large Data Bases.1994:484-499.
4CHANG J,LEE W.A sliding window method for finding recently frequent itemsets over online data streams[J].Journal of Information Science and Engineering,2004,20(4):175-184.
5SAVERAERS A,OMIECINSKI E,NAVATHE S.An efficient algorithm for mining association rules in large databases[C]//Proc of the 21st International Conference on Very Large Data Bases.San Francisco:Morgan Kaufmann Publisher,1995:432-444.
6LIN C H,CHIU D Y,WU Y H,et al.Mining frequent itemsets from data streams with a time-sensitive sliding window[C]//Proc of SIAM International Conference on Data Mining.2005.
7YU J X,CHONG Z,LU H,et al.False positive or false negative:mining frequent itemsets from high speed transactional data streams[C]//Proc of the 30th International Conference on Very Large Data Bases.2004:204-215.
8LI H F,LEE S Y,SHAN M K.An efficient algorithm for mining frequent itemsets over the entire history of data streams[C]//Proc of the 1st International Workshop on Knowledge Discovery in Data Streams.2004:287-291.
9[1]Agrawal R, Srikant R. Fast Algorithms for Mining Association Rules. In Proceeding of the 20th International Conference on Very Large Data Bases, 1994-09: 487-499
10[2]Park J S, Chen Mingsyan, Yu P S. An Effective Hash-based Algorithm for Mining Association Rules. In Proceedings of ACM SIGMOD, 1995 24(2):175-186

共引文献15

1刘晓玲.一种利用逻辑运算挖掘关联规则的算法[J].济南职业学院学报,2007(1):58-59.
2施化吉,丁云磊,李星毅.基于树结构的高效关联规则挖掘算法[J].计算机应用研究,2009,26(2):506-508. 被引量：1
3刘晓玲,李玉忱.一种利用逻辑“与”运算挖掘频繁项集的算法[J].中国科技信息,2005(15A):122-123. 被引量：2
4刘晓玲,李玉忱.一种不产生候选项集的关联规则挖掘算法[J].山东师范大学学报（自然科学版）,2006,21(1):46-48. 被引量：2
5牛小飞,刘浩,牛学东,刘秀婷.基于矩阵的关联规则增量更新算法[J].计算机工程与应用,2006,42(21):169-171. 被引量：5
6倪志伟,高雅卓,李伟东,束建华.基于矩阵的增量式关联规则挖掘算法[J].计算机工程与应用,2008,44(13):153-155. 被引量：16
7施化吉,丁云磊.基于数据立方体的高效关联规则挖掘算法[J].计算机工程与设计,2009,30(2):416-418.
8刘瑞祥,邹海.对挖掘关联规则中的Apriori算法的一种改进[J].计算机与现代化,2009(7):5-8. 被引量：6
9张月琴.基于0-1矩阵的频繁项集挖掘算法研究[J].计算机工程与设计,2009,30(20):4662-4664. 被引量：8
10高雅卓,倪志伟,郭峻峰,胡汤磊.用户兴趣驱动的冰山数据立方体构建及更新方法研究[J].计算机科学,2009,36(12):179-182.

同被引文献59

1吴春旭,陈家耀,刘博文.一种挖掘频繁闭项集的改进算法[J].计算机系统应用,2008,17(10):32-35. 被引量：1
2牛小飞,石冰,卢军,吴科.挖掘关联规则的高效ABM算法[J].计算机工程,2004,30(11):118-120. 被引量：16
3颜跃进,李舟军,陈火旺.基于FP-Tree有效挖掘最大频繁项集[J].软件学报,2005,16(2):215-222. 被引量：68
4朱光喜,吴伟民,阮幼林,刘干.一种基于前缀树的频繁模式挖掘算法[J].计算机科学,2005,32(4):34-36. 被引量：4
5张昕,李晓光,王大玲,于戈.数据流中一种快速启发式频繁模式挖掘方法[J].软件学报,2005,16(12):2099-2105. 被引量：14
6刘学军,徐宏炳,董逸生,王永利,钱江波.挖掘数据流中的频繁模式[J].计算机研究与发展,2005,42(12):2192-2198. 被引量：25
7刘学军,徐宏炳,董逸生,钱江波,王永利.基于滑动窗口的数据流闭合频繁模式的挖掘[J].计算机研究与发展,2006,43(10):1738-1743. 被引量：26
8孙玉芬,卢炎生.流数据挖掘综述[J].计算机科学,2007,34(1):1-5. 被引量：36
9王柏盛,刘寒冰,靳书和,马丽艳.基于矩阵的关联规则挖掘算法[J].微计算机信息,2007,23(05X):144-145. 被引量：18
10韩家炜.数据挖掘概念与技术[M].北京:机械工业出版社,2012.

引证文献7

1徐嘉莉,杨洪军,赵茂娟,樊云.一种基于位运算的频繁闭项集挖掘算法[J].计算机应用研究,2013,30(11):3280-3282. 被引量：3
2尹绍宏,范桂丹.基于矩阵的数据流Top-k频繁项集挖掘算法[J].计算机工程,2014,40(3):55-58. 被引量：3
3尹绍宏,单坤玉,范桂丹.滑动窗口中数据流最大频繁项集挖掘算法研究[J].计算机工程与应用,2015,51(22):145-149. 被引量：7
4丁邦旭,黄永青.矩阵与前缀树方法挖掘频繁项集[J].计算机工程与应用,2015,51(22):154-157. 被引量：1
5马连灯,王占刚.基于滑动窗口模型的数据流加权频繁模式挖掘算法[J].软件工程,2016,19(10):15-17. 被引量：1
6王红梅,李芬田,王泽儒.基于滑动窗口数据流频繁项集挖掘模型综述[J].长春工业大学学报,2017,38(5):484-490. 被引量：4
7岳帅,尹绍宏.基于有序FP树和二维列表的频繁模式挖掘算法[J].哈尔滨商业大学学报（自然科学版）,2018,34(6):692-697. 被引量：3

二级引证文献20

1崔双弥,张德生.一种改进的Inter-Apriori算法[J].计算机系统应用,2017,26(1):157-162. 被引量：2
2郑斌.空间数据库中有效数据频繁项检测仿真研究[J].计算机仿真,2017,34(4):444-447. 被引量：3
3董雷刚,刘国华.组合Skyline的求解与更新算法[J].计算机工程,2017,34(6):195-201. 被引量：1
4李忠,安建琴,刘海军,宋奕瑶.关联挖掘算法及发展趋势[J].智能计算机与应用,2017,7(5):22-25. 被引量：8
5王红梅,李芬田,王泽儒.基于滑动窗口数据流频繁项集挖掘模型综述[J].长春工业大学学报,2017,38(5):484-490. 被引量：4
6王泽儒,王红梅,李芬田.基于Hadoop的2FP-Growth算法[J].长春工业大学学报,2018,39(2):150-155. 被引量：1
7韩崇,袁颖珊,梅焘,耿慧玲.基于K-means的数据流离群点检测算法[J].计算机工程与应用,2017,53(3):58-63. 被引量：13
8崔馨月,孙静宇.改进的Eclat算法研究与应用[J].计算机工程与设计,2018,39(4):1059-1063. 被引量：8
9尚晓丽,包向辉.分布式空间数据库中有效数据频繁项实时检测[J].科学技术与工程,2018,18(19):224-229. 被引量：4
10姚瑶.基于客户-服务器双端去重的Web预取新方法[J].计算机技术与发展,2019,29(4):181-186. 被引量：1

1陈晨.最大频繁项集挖掘算法综述[J].电脑知识与技术,2008,0(11Z):1030-1031.
2张志刚,黄刘生,金宗安,项莉萍.基于父子等价剪枝策略的最大频繁项集挖掘[J].计算机工程,2013,39(4):219-221. 被引量：3
3胡媛媛,许艳静,曹国栋.基于定量更新滑动窗口频繁闭项集挖掘算法研究[J].软件,2012,33(12):101-102.
4黄松英.基于最大频繁项集挖掘的入侵检测研究[J].绍兴文理学院学报,2007,27(10):32-36. 被引量：1
5邓忠军,宋威,郑雪峰,王少杰.P2P网络中最大频繁项集挖掘算法研究[J].计算机应用研究,2010,27(9):3490-3492. 被引量：1
6冯玮,华林,余世浩.基于VC++的数据优化处理模块的研究与实现[J].武汉理工大学学报（信息与管理工程版）,2007,29(5):37-39.
7方刚,吴跃.基于复合粒度计算的频繁模式挖掘研究[J].计算机应用研究,2016,33(6):1620-1623. 被引量：3
8胡正红.一种寻路算法在游戏中的应用[J].山西电子技术,2009(6):53-54. 被引量：5
9徐谋锋,黄雪梅.舞蹈机器人动作编程研究[J].山东理工大学学报（自然科学版）,2010,24(4):77-80. 被引量：1
10伍丽峰,陈岳坪,王虎奇,谌炎辉.基于任意数量控制点B样条曲线生成方法研究[J].广西大学学报（自然科学版）,2009,34(4):531-534. 被引量：1

计算机应用研究

2012年第3期

浏览历史

内容加载中请稍等...

基于向量的数据流滑动窗口中最大频繁项集挖掘被引量：7

参考文献10

二级参考文献13

共引文献15

同被引文献59

引证文献7

二级引证文献20

相关作者

相关机构

相关主题

浏览历史

基于向量的数据流滑动窗口中最大频繁项集挖掘 被引量：7

参考文献10

二级参考文献13

共引文献15

同被引文献59

引证文献7

二级引证文献20

相关作者

相关机构

相关主题

浏览历史

基于向量的数据流滑动窗口中最大频繁项集挖掘被引量：7