基于滑动窗口的动态数据流聚类算法研究

The Clustering Algorithm for Evolving Dynamic Data Stream over Sliding Windows

下载PDF

导出

摘要数据流聚类算法是当前数据流研究领域里的重要分支,而滑动窗口是数据流中一种关注近期数据的近似方法,提出一种采用滑动窗口处理数据的优化算法SWStream.算法采用双层架构思想,在线阶段利用滑动窗口树存储概要结构,动态调整窗口大小.而在离线阶段对上一阶段的结果进行宏聚类,得到最后的结果.实验验证本算法有更高的处理效率,也相对节约内存. Data stream clustering algorithm is important branch on current research in the field of data streams. Sliding window is one kind of approximation methods concerned about the recent data streams. This paper proposes an optimization algorithm SWStream which processes data over sliding window. In the online component, the sliding window tree is introduced to store the important statistical information of data streams, and adjusting the sizes of sliding windows. In the offline component, the mean values of the micro-clusters are macro-clustered, the final clustering results are abtained. The experiments verify that the algorithm has a higher processing efficiency, and saves memory.

作者许颖梅

机构地区商丘师范学院计算机与信息技术学院

出处《河南科学》 2014年第5期777-780,共4页 Henan Science

基金河南省科技厅研究计划项目(132300410395 122300410395)

关键词数据流滑动窗口聚类数据挖掘 data streams； sliding windows； clustering； data mining

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献9

1金澈清,钱卫宁,周傲英.流数据分析与管理综述[J].软件学报,2004,15(8):1172-1181. 被引量：161
2Guha S, Meyerson A, Mishra N, et al. Clustering data streams: Theory and practice [J]. IEEE Tramactions on Knowledge and Data Engineering, 2003, 15 (3) : 515-528.
3Chedy Raissi, Pascal Poncelet, Maguelonne Teisseire. Towards a new approach for mining frequent itemsets on data stream [J]. Journal of Intelligent Information Systems, 2006, 28 ( 1 ) : 23-36.
4Aggarwal C, Han J, Wang J, et al. A Framework for clustering evolving data streams[C]//Proc.29th Int'l Conf. Very Large Data Bases. San Francisco: Morgan Kaufmann, 2003.
5周晓云,孙志挥,张柏礼,杨宜东.高维数据流子空间聚类发现及维护算法[J].计算机研究与发展,2006,43(5):834-840. 被引量：17
6杨春宇,周杰.一种混合属性数据流聚类算法[J].计算机学报,2007,30(8):1364-1371. 被引量：22
7吴枫,仲妍,金鑫,吴泉源,贾焰,杨树强.滑动窗口内进化数据流任意形状聚类算法[J].小型微型计算机系统,2009,30(5):887-890. 被引量：6
8孙焕浪,赵法信,鲍玉斌,等.CD-Stream一种基于空间划分的流数据密度聚类算法[J].计算机研究与发展,2004,41(增刊):289-294.
9宋宝燕,张衡,于洋,奚丽娜,王大玲.基于滑动窗口的支持泛在应用的流聚类挖掘算法[J].小型微型计算机系统,2008,29(12):2262-2267. 被引量：4

二级参考文献97

1金澈清,钱卫宁,周傲英.流数据分析与管理综述[J].软件学报,2004,15(8):1172-1181. 被引量：161
2朱蔚恒,印鉴,谢益煌.基于数据流的任意形状聚类算法[J].软件学报,2006,17(3):379-387. 被引量：51
3王伟平,李建中,张冬冬,郭龙江.一种有效的挖掘数据流近似频繁项算法[J].软件学报,2007,18(4):884-892. 被引量：33
4Gaber M M, Zaslavsky A, Krishnaswamy S. A Cost-efficient model for ubiquitous data stream mining[C]. Tenth International Conference on Information Processing and Management of Uncertainty in Knowledge-Based Systems (IPMU 2004), Perugia Italy, July 4-9.
5Gaber M M, Krishnaswamy S,Zaslavsky A. Cost-efficient mining techniques for data streams[C]. Australasian Workshop on Data Mining and Web Intelligence (DMWI2004), Dunedin, New Zealand. CRPIT, 32. Purvis, M. ,Ed. ACS.
6Gaber M M,Krishnaswamy S, Zaslavsky A. Adaptive mining techniques for data streams using algorithm output granularity [C]. The Australasian Data Mining Workshop (AusDM 2003), Held in conjunction with the 2003 Congress on Evolutionary Computation (CEC 2003), December, Canberra, Australia, Springer Verlag, Lecture Notes in Computer Science (LNCS).
7Chalaghan LO,Mishra N, Meyerson A,et al. Streaming data algorithms for high-quatlty clustering[C]. Proc.of the 18th Int'l Conf. on Data Engineering. San Jose, 2002,685-694.
8Gaber M, Krishnaswamy S,Zaslavsky. A ubiquitous data stream mining [C]. Current Research and Future Directions Workshop Proceedings Held in Conjunction with PAKDD 2004, Sydney, Australia, May 26 2004.
9Aggarwal C C,Han J ,Wang J ,et al. A framework for clustering evolving data streams[C]. Proc. of VLDB, 2003.
10Shah R,Krishnaswamy S,Gaber M M. Resource-aware very fast K-Means for ubiquitous data stream mining[C]. Proceedings of Second International Workshop on Knowledge Discovery in Data Streams, to be Held in Conjunction with 16th European Conference on Machine Learning (ECML 2005) and the 9th European Conference on the Principals and Practice of Knowledge Discovery in Databases (PKDD 2005), Porto, Portugal, October 3-7, 2005.

共引文献196

1田李,王乐,贾焰,邹鹏,李爱平.分布式数据流上低通信开销的连续极值查询方法研究[J].计算机研究与发展,2007,44(z3):61-66.
2陈飞波,钱卫宁,周傲英.基于最窄平行四边形的数据流突变检测算法[J].计算机研究与发展,2007,44(z3):505-510.
3何月梅,杜海艳,王保民.分形技术与矢量量化相结合的网络流量异常检测研究[J].邯郸学院学报,2009,19(3):73-76.
4汪仁红,王家伟,梁宗保.基于投影和密度的高维数据流聚类算法[J].重庆交通大学学报（自然科学版）,2013,32(4):725-728. 被引量：1
5秦林新,刘奇志.一种乱序数据流上的偏倚抽样算法[J].计算机研究与发展,2011,48(S3):298-303.
6张明明,芦琳.电能计量中的异常数据研究[J].电气应用,2013,0(S1):42-46. 被引量：2
7金澈清,崇志宏,周傲英.一种实时监控最近邻的近似算法[J].计算机科学与探索,2007,1(2):146-159.
8杨宜东,孙志挥,张净.基于核密度估计的分布数据流离群点检测[J].计算机研究与发展,2005,42(9):1498-1504. 被引量：8
9杜威,邹先霞.基于数据流的滑动窗口机制的研究[J].计算机工程与设计,2005,26(11):2922-2924. 被引量：11
10刘赏,黄亚楼,倪维健.流数据聚类模型变化检测策略[J].计算机工程与应用,2006,42(5):15-18.

1许颖梅.滑动窗口内动态数据流聚类算法研究[J].陕西理工学院学报（自然科学版）,2014,30(1):42-46.
2程军锋.数据流挖掘中的聚类技术[J].衡水学院学报,2015,17(1):16-18.
3程军锋,王治和,刘佳,潘丽娜.一种基于滑动窗口的一趟数据流聚类算法[J].首都师范大学学报（自然科学版）,2014,35(4):38-40. 被引量：1
4刘三民,王忠群,刘涛,修宇.融合互近邻降噪的动态数据流分类研究[J].计算机科学与探索,2016,10(1):36-42. 被引量：5
5程军锋.数据流挖掘技术研究[J].洛阳师范学院学报,2014,33(2):37-39. 被引量：1
6刘学军,胡平,徐宏炳,董逸生,钱江波,王永利.基于硬件加速的高速数据流连续实时聚集查询[J].电子学报,2007,35(2):228-233. 被引量：2
7王继伦.利用静态数据流和动态数据流分析故障[J].科技信息,2011(34):178-178.
8何军,周明天,李幼平.一种Web信息的三级发布体系结构[J].系统工程与电子技术,2001,23(3):88-90.
9郭延锋.基于信息熵的动态数据流分类模型[J].计算机工程与设计,2014,35(3):900-904.
10陈嘉辉,杨海青,何小明.基于LabVIEW的汽油机ECU数据流监测系统[J].仪表技术,2005(6):43-44. 被引量：2

河南科学

2014年第5期

浏览历史

内容加载中请稍等...

基于滑动窗口的动态数据流聚类算法研究

参考文献9

二级参考文献97

共引文献196

相关作者

相关机构

相关主题

浏览历史