挖掘数据流任意滑动时间窗口内频繁模式被引量：45

Mining the Frequent Patterns in an Arbitrary Sliding Window over Online Data Streams

下载PDF

导出

摘要由于数据流的流动性与连续性,数据流所蕴含的知识会随着时间的推移而发生变化.因此,在绝大多数数据流的应用中,用户往往对新产生的流数据所包含的知识要比对历史流数据所包含的知识感兴趣得多.提出了一种挖掘数据流任意大小滑动时间窗口内频繁模式的方法MSW(mining sliding window).当数据流流过时,该方法使用滑动窗口树SW-tree在单遍扫描流数据的条件下及时捕获数据流上最新的模式信息.同时,该方法还周期性地删除滑动窗口树上过期的及不频繁的模式分支,从而降低滑动窗口树的空间复杂度与维护代价.此外,该方法还应用时间衰减模型逐步降低历史事务模式支持数的权重,并由此来区分最近产生事务与历史事务的模式.大量仿真实验的结果表明,算法MSS具有较高的效率与优良的可扩展性,同时也优于其他同类算法. Because of the fluidity and continuity of data stream, the knowledge embedded in stream data is most likely to be changed as time goes by. Thus, in most data stream applications, people are more interested in the information of the recent transactions than that of the old. This paper proposes a method for mining the frequent patterns in an arbitrary sliding window of data streams. As data stream flows, the contents of the data stream are captured with a compact prefix-tree by scanning the stream only once. And the obsolete and infrequent items are deleted by periodically pruning the tree. To differentiate the patterns of recently generated transactions from those of historic transactions, a time decaying model is also applied. Extensive simulations are conducted and the experimental results show that the proposed method is efficient and scalable, and also superior to other analogous algorithms.

作者李国徽陈辉

机构地区华中科技大学计算机科学与技术学院

出处《软件学报》 EI CSCD 北大核心 2008年第10期2585-2596,共12页 Journal of Software

基金国家自然科学基金国家高技术研究发展计划(863)~~

关键词数据流频繁模式挖掘滑动时间窗口时间衰减模型 data stream frequent pattern mining sliding window time decaying model

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献14

1Gaber MM, Zaslavsky A, Krishnaswamy S. Mining data streams: A review. ACM SIGMOD Record, 2005,34(2): 18-26.
2Jiang N, Gruenwald L. Research issues in data stream association rule mining. ACM SIGMOD Record, 2006,35(1):14-19.
3Garofalakis MN, Gehrke J. Querying and mining data streams: You only get one look a tutorial. In: Franklin MJ, Moon B, Ailamaki A, eds. Proc. of the 2002 ACM SIGMOD Int'l Conf. on Management of Data. Madison: ACM Press, 2002. 635-635.
4Giannella C, Han J, Pei J, Yan X, Yu PS. Mining frequent patterns in data streams at multiple time granularities. In: Data Mining: Next Generation Challenges and Future Directions. 2004. 191-212.
5Chang JH, Lee WS. Finding recent frequent itemsets adaptively over online data streams. In: Lise G, Ted ES, Pedro D, Christos F, eds. Proc. of the 9th ACM SIGKDD Int'l Conf. on Knowledge Discovery and Data Mining. Washington: ACM Press, 2003. 487-492.
6Jiang N, Gruenwald L. CFI-Stream: Mining closed frequent itemsets in data streams. In: Roberto B, Kristin PB, Gautam D, Dimitrios G, Johannes G, eds. Proc. of the 12th ACM SIGKDD Int'l Conf. on Knowledge Discovery and Data Mining. Philadelphia: ACM Press, 2006. 592-597.
7Yu JX, Chong Z, Lu H, Zhang Z, Zhou A. A false negative approach to mining frequent itemsets from high speed transactional data streams, Information Sciences, 2006,176(4):1986-2015.
8Leung CKS, Khan QI. DStree: A tree structure for the mining of frequent sets from data streams. In: Clifton CW, Zhong N, Liu JM, Wah BW, Wu XD, eds. Proc. of the 6th Int'l Conf. on Data Mining. Hong Kong: IEEE Press, 2006. 928-932.
9Wong RCW, Fu AWC. Mining top-k frequent itemsets from data streams. Data Mining and Knowledge Discovery, 2006,13(2): 193-217.
10Papadimitriou A, Yu PS. Optimal multi-scale patterns in time series streams. In: Roberto B, Kristin PB, Gautam D, Dimitrios G, Johannes G, eds. Proc. of the 2006 ACM SIGMOD Int'l Conf. of Management of Data. Chicago: ACM Press, 2006. 647-658.

同被引文献352

1李康宁,樊小泊,陈红.一种数据流滑动窗口范围连接上基于局部特征的查询索引[J].计算机研究与发展,2006,43(z3):161-167. 被引量：1
2陈崇超,施鸿喜,范明.集成基于EP的分类器用于分类数据流[J].计算机研究与发展,2006,43(z3):376-381. 被引量：3
3邝祝芳,阳国贵,辛动军.SWFPM:一种有效的数据流频繁项挖掘算法[J].计算机应用研究,2009,26(2):466-469. 被引量：4
4冯志新,钟诚.基于FP-tree的最大频繁模式挖掘算法[J].计算机工程,2004,30(11):123-124. 被引量：18
5王鹏,吴晓晨,王晨,汪卫,施伯乐.CAPE——数据流上的基于频繁模式的分类算法[J].计算机研究与发展,2004,41(10):1677-1683. 被引量：7
6颜跃进,李舟军,陈火旺.基于FP-Tree有效挖掘最大频繁项集[J].软件学报,2005,16(2):215-222. 被引量：68
7邹宏,陈海,魏勍颋.基于数据挖掘的入侵检测技术研究[J].计算机与现代化,2005(4):39-41. 被引量：6
8陆介平,杨明,孙志挥,鞠时光.快速挖掘全局最大频繁项目集[J].软件学报,2005,16(4):553-560. 被引量：27
9张昕,李晓光,王大玲,于戈.数据流中一种快速启发式频繁模式挖掘方法[J].软件学报,2005,16(12):2099-2105. 被引量：14
10刘学军,徐宏炳,董逸生,王永利,钱江波.挖掘数据流中的频繁模式[J].计算机研究与发展,2005,42(12):2192-2198. 被引量：25

引证文献45

1邓爱萍.网络热点发现与跟踪算法研究[J].计算机与现代化,2009(12):122-124. 被引量：2
2朱参世,李响,朱琳.基于流数据分类挖掘算法在入侵检测的应用[J].微计算机信息,2010,26(12):80-81.
3朱参世,李响.自适应模糊决策树算法在数据流挖掘中的应用[J].现代电子技术,2010,33(10):63-65. 被引量：2
4吴枫,仲妍,吴泉源.基于时间衰减模型的数据流频繁模式挖掘[J].自动化学报,2010,36(5):674-684. 被引量：9
5陈辉.挖掘数据流滑动时间窗口内Top-K频繁模式[J].小型微型计算机系统,2010,31(6):1123-1128. 被引量：2
6杨君锐,黄威.基于前缀树的数据流频繁模式挖掘算法[J].华中科技大学学报（自然科学版）,2010,38(7):107-110. 被引量：2
7倪志伟,姜苗,王超,戴奇波.在线挖掘数据流混合窗口中闭频繁项集[J].系统仿真学报,2010,22(9):2110-2114. 被引量：2
8琚春华,许翀寰.基于有序复合策略的数据流最大频繁项集挖掘[J].情报学报,2010,29(5):864-871.
9冯博,徐雅静,赵娜,徐惠民.数据流中的频繁标记闭子树的批量挖掘[J].北京邮电大学学报,2010,33(5):121-125.
10唐向红,李国徽,杨观赐.快速挖掘数据流中离群点[J].小型微型计算机系统,2011,32(1):9-16. 被引量：5

二级引证文献150

1廖纪勇,吴晟,刘爱莲.一种基于邻接矩阵的频繁项集挖掘算法[J].数据通信,2020(6):30-34. 被引量：1
2许冠英,韩萌,王少峰,贾涛.数据流集成分类算法综述[J].计算机应用研究,2020,37(1):1-8. 被引量：11
3徐金华,徐卫庆,许江宁.某型寻北仪系统软件任务调度策略[J].海洋测绘,2011,31(1):68-70. 被引量：2
4姜苗,倪志伟,孟金华,周之强.数据流时间窗口中闭频繁项集的在线挖掘[J].中国科学技术大学学报,2011,41(8):739-745. 被引量：1
5杨君锐,杨莉.分布式全局最大频繁项集更新挖掘算法[J].华中科技大学学报（自然科学版）,2011,39(12):85-88. 被引量：2
6姚章俊,陈蜀宇,卢尧.一种高性能环形缓冲区的研究与实现[J].计算机工程,2012,38(8):228-231. 被引量：15
7王宝军,詹英.基于时间倾斜的数据流聚集压缩算法[J].计算机时代,2012(4):29-31.
8陈小玉,杨艳燕,刘克成,朱颢东.基于改进倒排表和集合的最频繁项集挖掘算法[J].计算机应用研究,2012,29(6):2135-2137. 被引量：1
9詹英,吴春明,王宝军.基于RCSW的数据流速度异常检测算法研究[J].电子学报,2012,40(4):674-680. 被引量：2
10陈超,刘才铭.基于最小支持度阈值动态调整策略的最频繁项集挖掘算法[J].兰州理工大学学报,2012,38(4):85-88. 被引量：1

1唐向红,陈力.断路器控制系统中的电流信号异常点检测[J].制造业自动化,2014,36(23):25-28. 被引量：4
2吴枫,仲妍,吴泉源.基于时间衰减模型的数据流频繁模式挖掘[J].自动化学报,2010,36(5):674-684. 被引量：9
3韩萌,王志海,原继东.基于高斯函数的衰减因子设置方法研究[J].计算机研究与发展,2015,52(12):2834-2843. 被引量：4
4赵丽娟.浅析SQL Server中的日志文件[J].办公自动化（综合月刊）,2011(10):57-58. 被引量：1
5屠莉,吴懋刚,杨立志.基于时间衰减模型的不确定数据流聚类算法[J].小型微型计算机系统,2014,35(9):2039-2043. 被引量：1
6胡伟健,滕飞,李灵芳,王欢.适应用户兴趣变化的改进型协同过滤算法[J].计算机应用,2016,36(8):2087-2091. 被引量：13
7于涛,李和平,王建林,赵利强.基于滑动时间窗口加权MPCA的间歇过程监测方法[J].北京化工大学学报（自然科学版）,2015,42(4):112-119. 被引量：6
8陈辉.挖掘数据流滑动时间窗口内Top-K频繁模式[J].小型微型计算机系统,2010,31(6):1123-1128. 被引量：2
9吴枫,仲妍,金鑫,吴泉源,贾焰,杨树强.滑动窗口内进化数据流任意形状聚类算法[J].小型微型计算机系统,2009,30(5):887-890. 被引量：6
10赵纪刚,张超,丁建立,王静.民航旅客服务信息系统告警关联规则挖掘[J].计算机应用与软件,2016,33(4):72-75.

软件学报

2008年第10期

浏览历史

内容加载中请稍等...

挖掘数据流任意滑动时间窗口内频繁模式被引量：45

参考文献14

同被引文献352

引证文献45

二级引证文献150

相关作者

相关机构

相关主题

浏览历史

挖掘数据流任意滑动时间窗口内频繁模式 被引量：45

参考文献14

同被引文献352

引证文献45

二级引证文献150

相关作者

相关机构

相关主题

浏览历史

挖掘数据流任意滑动时间窗口内频繁模式被引量：45