数据流频繁模式挖掘研究进展被引量：34

State-of-the-art on Frequent Pattern Mining in Data Streams

下载PDF

导出

摘要现实世界和工程实践产生了大量的数据流,这种数据不同于传统的静态数据,对其进行有效处理和挖掘遇到了极大的挑战．如何使用有限存储空间进行快速和近似的频繁模式挖掘是数据流挖掘的基本问题,具有非常重要的研究价值和实践意义,已经引起了国内外研究者的广泛关注．本文深入分析数据流中的频繁模式挖掘,对其特点和算法进行较为全面的总结和分类论述,并讨论了存在的主要问题和未来的研究方向． Real-world applications often generate huge amount of data streams, which chal- lenges efficient processing and mining due to its special characteristics. As a fundamental problem in data stream mining, frequent pattern mining techniques employed in these applications should be efficient in terms of space usage and execution time while providing a high quality of yields. This has received considerable attention in the past few years due to its research value and increasing amount of importance in numerous applications. The purpose of this paper is to review the recent work in frequent pattern mining under data stream environments, and summarize its characteristics and algorithms in general. With taxonomy, we dissertate the existing algorithms from probabilistic and deterministic bounds on error, respectively. Throughout the detailed review, some comparisons and evaluations are performed. Finally, future directions in data stream mining research are discussed.

作者潘云鹤王金龙徐从富

机构地区浙江大学人工智能研究所

出处《自动化学报》 EI CSCD 北大核心 2006年第4期594-602,共9页 Acta Automatica Sinica

基金国家自然科学基金重点项目(60533090) 国家自然科学基金(60402010 60573056)资助~~

关键词数据挖掘数据流频繁模式近似算法 Data mining, data streams, frequent pattern, approximate algorithm

分类号 TP311.13 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献1

1金澈清,钱卫宁,周傲英.流数据分析与管理综述[J].软件学报,2004,15(8):1172-1181. 被引量：161

二级参考文献52

1Babcock B, Babu S, Datar M, Motwani R, Widom J. Models and issues in data streams. In: Popa L, ed. Proc. of the 21st ACM SIGACT-SIGMOD-SIGART Symp. on Principles of Database Systems. Madison: ACM Press, 2002. 1～16.
2Terry D, Goldberg D, Nichols D, Oki B. Continuous queries over append-only databases. SIGMOD Record, 1992,21(2):321-330.
3Avnur R, Hellerstein J. Eddies: Continuously adaptive query processing. In: Chen W, Naughton JF, Bernstein PA, eds. Proc. of the 2000 ACM SIGMOD Int'l Conf. on Management of Data. Dallas: ACM Press, 2000. 261～272.
4Hellerstein J, Franklin M, Chandrasekaran S, Deshpande A, Hildrum K, Madden S, Raman V, Shah MA. Adaptive query processing: Technology in evolution. IEEE Data Engineering Bulletin, 2000,23(2):7-18.
5Carney D, Cetinternel U, Cherniack M, Convey C, Lee S, Seidman G, Stonebraker M, Tatbul N, Zdonik S. Monitoring streams?A new class of DBMS applications. Technical Report, CS-02-01, Providence: Department of Computer Science, Brown University, 2002.
6Guha S, Mishra N, Motwani R, O'Callaghan L. Clustering data streams. In: Blum A, ed. The 41st Annual Symp. on Foundations of Computer Science, FOCS 2000. Redondo Beach: IEEE Computer Society, 2000. 359-366.
7Domingos P, Hulten G. Mining high-speed data streams. In: Ramakrishnan R, Stolfo S, Pregibon D, eds. Proc. of the 6th ACM SIGKDD Int'l Conf. on Knowledge Discovery and Data Mining. Boston: ACM Press, 2000. 71-80.
8Domingos P, Hulten G, Spencer L. Mining time-changing data streams. In: Provost F, Srikant R, eds. Proc. of the 7th ACM SIGKDD Int'l Conf. on Knowledge Discovery and Data Mining. San Francisco: ACM Press, 2001. 97～106.
9Zhou A, Cai Z, Wei L, Qian W. M-Kernel merging: Towards density estimation over data streams. In: Cha SK, Yoshikawa M, eds. The 8th Int'l Conf. on Database Systems for Advanced Applications (DASFAA 2003). Kyoto: IEEE Computer Society, 2003. 285～292.
10Gibbons PB, Matias Y. Synopsis data structures for massive data sets. In: Tarjan RE, Warnow T, eds. Proc. of the 10th Annual ACM-SIAM Symp. on Discrete Algorithms. Baltimore: ACM/SIAM, 1999. 909-910.

共引文献160

1田李,王乐,贾焰,邹鹏,李爱平.分布式数据流上低通信开销的连续极值查询方法研究[J].计算机研究与发展,2007,44(z3):61-66.
2陈飞波,钱卫宁,周傲英.基于最窄平行四边形的数据流突变检测算法[J].计算机研究与发展,2007,44(z3):505-510.
3何月梅,杜海艳,王保民.分形技术与矢量量化相结合的网络流量异常检测研究[J].邯郸学院学报,2009,19(3):73-76.
4秦林新,刘奇志.一种乱序数据流上的偏倚抽样算法[J].计算机研究与发展,2011,48(S3):298-303.
5张明明,芦琳.电能计量中的异常数据研究[J].电气应用,2013,0(S1):42-46. 被引量：2
6金澈清,崇志宏,周傲英.一种实时监控最近邻的近似算法[J].计算机科学与探索,2007,1(2):146-159.
7杨宜东,孙志挥,张净.基于核密度估计的分布数据流离群点检测[J].计算机研究与发展,2005,42(9):1498-1504. 被引量：8
8杜威,邹先霞.基于数据流的滑动窗口机制的研究[J].计算机工程与设计,2005,26(11):2922-2924. 被引量：11
9刘赏,黄亚楼,倪维健.流数据聚类模型变化检测策略[J].计算机工程与应用,2006,42(5):15-18.
10彭宏,刘洋,邓维维,郑启伦.股票数据流的相关性计算方法[J].华南理工大学学报（自然科学版）,2006,34(1):86-89. 被引量：9

同被引文献426

1陶雪娇,胡晓峰,刘洋.大数据研究综述[J].系统仿真学报,2013,25(S1):142-146. 被引量：338
2金澈清,钱卫宁,周傲英.流数据分析与管理综述[J].软件学报,2004,15(8):1172-1181. 被引量：161
3孟小峰,周龙骧,王珊.数据库技术发展趋势[J].软件学报,2004,15(12):1822-1836. 被引量：176
4吉根林,杨明,宋余庆,孙志挥.最大频繁项目集的快速更新[J].计算机学报,2005,28(1):128-135. 被引量：47
5颜跃进,李舟军,陈火旺.基于FP-Tree有效挖掘最大频繁项集[J].软件学报,2005,16(2):215-222. 被引量：68
6吴金明,张磐,赵曾琪.产业链、产业配套半径与企业自生能力[J].中国工业经济,2005(2):44-50. 被引量：94
7颜跃进,李舟军,陈火旺.一种挖掘最大频繁项集的深度优先算法[J].计算机研究与发展,2005,42(3):462-467. 被引量：20
8刘学军,徐宏炳,董逸生,王永利,钱江波.数据流管理技术[J].计算机科学,2005,32(4):6-10. 被引量：2
9张昕,李晓光,王大玲,于戈.数据流中一种快速启发式频繁模式挖掘方法[J].软件学报,2005,16(12):2099-2105. 被引量：14
10刘学军,徐宏炳,董逸生,王永利,钱江波.挖掘数据流中的频繁模式[J].计算机研究与发展,2005,42(12):2192-2198. 被引量：25

引证文献34

1张玉,方滨兴,张永铮.高速网络监控中大流量对象的识别[J].中国科学：信息科学,2010,40(2):340-355. 被引量：11
2王金龙.数据挖掘研究进展[J].青岛理工大学学报,2007,28(4):80-82. 被引量：11
3程舒通,徐从富,但红卫.频繁模式聚类算法改进研究[J].计算机工程与应用,2008,44(1):162-164. 被引量：1
4庄波,刘希玉.数据流中频繁模式挖掘算法研究及进展[J].福建电脑,2008,24(3):8-8.
5敖富江,颜跃进,黄健,黄柯棣.数据流频繁模式挖掘算法设计[J].计算机科学,2008,35(3):1-5. 被引量：11
6程舒通,徐从富,但红卫.基于改进频繁模式聚类算法的网站结构优化[J].计算机应用研究,2008,25(4):1222-1223. 被引量：2
7王金龙,徐从富,耿雪玉.基于产业链型数据的分布式隐私保护商务智能研究[J].计算机工程与设计,2008,29(10):2547-2549.
8吴克启,蒋洪晖,汪粼波.流数据频繁模式挖掘技术综述[J].内燃机与动力装置,2009,26(B06):61-64.
9庄波,刘希玉,隆坤.TWCT-Stream:数据流上的频繁模式挖掘算法[J].计算机工程与应用,2009,45(20):147-150. 被引量：1
10侯伟,吴晨生,杨炳儒,方炜炜.一种高效的离线数据流频繁模式挖掘算法[J].计算机科学,2009,36(7):247-251. 被引量：2

二级引证文献158

1赵静,李俊,龙春,万巍,杨帆.基于频繁项集挖掘的长周期异常行为检测[J].计算机应用研究,2020,37(S02):221-223. 被引量：2
2龚育才,高月辉,姜培刚.基于PCI-1714测试系统的设计与实现[J].青岛理工大学学报,2007,28(5):75-78. 被引量：4
3王金龙,徐从富,骆国靖.面向异质关系的社区挖掘[J].计算机应用,2007,27(12):3016-3018. 被引量：4
4王金龙,徐从富,徐娇芬,骆国靖.利用销售数据的商品影响关系挖掘研究[J].电子科技大学学报,2007,36(6):1282-1285. 被引量：2
5王金龙,徐从富,耿雪玉.基于产业链型数据的分布式隐私保护商务智能研究[J].计算机工程与设计,2008,29(10):2547-2549.
6李云鹏,杜一冉.网络化管理多媒体教室的方案设计[J].青岛理工大学学报,2008,29(4):109-113.
7王金龙,耿雪玉,梁俊卿.面向企业信用评估的分布式隐私保护数据挖掘[J].计算机工程与应用,2008,44(35):243-245.
8邵磊,肖志忠,吴伟民,李军.基于SVM的鱼类胚胎冷冻保存试验设计[J].青岛理工大学学报,2009,30(1):96-100. 被引量：1
9杨思.基于用户访问序列挖掘的站点路径优化分析[J].图书馆界,2009(1):64-67.
10吴克启,蒋洪晖,汪粼波.流数据频繁模式挖掘技术综述[J].内燃机与动力装置,2009,26(B06):61-64.

1杨黎斌,慕德俊,蔡晓妍.无线传感器网络入侵检测研究[J].计算机应用研究,2008,25(11):3204-3208. 被引量：12
2葛金明.计算机应用技术[J].网络安全技术与应用,2014(4):65-66.
3王飞超,李国,倪现君,韩业红.数据流频繁项挖掘的研究[J].中国科技信息,2010(19):81-82.
4伍凯宁,曹汉强,朱耀庭,王程.数字水印攻击技术及对策研究[J].计算机应用研究,2004,21(9):153-154. 被引量：15
5李景阳,安林超.浅谈计算机辅助技术在液压系统设计中的应用[J].企业导报,2014(11):144-144. 被引量：1
6黄鑫.移动Ad Hoc网络入侵检测技术综述[J].德宏师范高等专科学校学报,2012(1):104-106.
7朱慧勇.几种典型无线传感器网络定位算法研究[J].江苏科技信息,2017,34(8):38-41. 被引量：2
8王金龙,徐从富,耿雪玉.基于局部信息的全局数据挖掘研究[J].计算机应用研究,2008,25(7):1936-1939. 被引量：2
9谭立湘.HTML的规范与技巧[J].电子计算机与外部设备,1998,22(6):57-64.
10叶霞,李俊山,张璟.移动自组网拓扑发现策略的分析研究[J].计算机应用研究,2010,27(5):1629-1632. 被引量：4

自动化学报

2006年第4期

浏览历史

内容加载中请稍等...

数据流频繁模式挖掘研究进展被引量：34

参考文献1

二级参考文献52

共引文献160

同被引文献426

引证文献34

二级引证文献158

相关作者

相关机构

相关主题

浏览历史

数据流频繁模式挖掘研究进展 被引量：34

参考文献1

二级参考文献52

共引文献160

同被引文献426

引证文献34

二级引证文献158

相关作者

相关机构

相关主题

浏览历史

数据流频繁模式挖掘研究进展被引量：34