基于小波概要的并行数据流聚类被引量：7

Wavelet Synopsis Based Clustering of Parallel Data Streams

下载PDF

导出

摘要许多应用中会连续不断产生大量随时间演变的序列型数据,构成时间序列数据流,如传感器网络、实时股票行情、网络及通信监控等场合.聚类是分析这类并行多数据流的一种有力工具.但数据流长度无限、随时间演变和大数据量的特点,使得传统的聚类方法无法直接应用.利用数据流的遗忘特性,应用离散小波变换,分层、动态地维护每个数据流的概要结构.基于该概要结构,快速计算数据流与聚类中心之间的近似距离,实现了一种适合并行多数据流的K-means聚类方法.所进行的实验验证了该聚类方法的有效性. In many real-life applications, such as stock markets, network monitoring, and sensor networks, data are modeled as dynamic evolving time series which is continuous and unbounded in nature, and many such data streams concur usually. Clustering is useful in analyzing such paralleled data streams. This paper is interested in grouping these evolving data streams. For this purpose, a synopsis is maintained dynamically for each data stream. The construction of the synopsis is based on Discrete Wavelet Transform and utilizes the amnesic feature of data stream. By using the synopsis, a fast computation of approximate distances between streams and the cluster center can be implemented, and an efficient online version of the classical K-means clustering algorithm is developed. Experiments have proved the effectiveness of the proposed method.

作者陈华辉施伯乐钱江波陈叶芳

机构地区复旦大学计算机科学技术学院宁波大学信息科学与工程学院

出处《软件学报》 EI CSCD 北大核心 2010年第4期644-658,共15页 Journal of Software

基金国家自然科学基金Nos.60803021 60973047 浙江省自然科学基金No.Y1091189 宁波市自然科学基金Nos.2007A610007 2009A610072~~

关键词聚类概要遗忘特性离散小波变换数据流 clustering synopsis amnesic feature discrete wavelet transform data stream

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献19

1Keogh E,Kasetty S.On the need for time series data mining benchmarks:A survey and empirical demonstration.Data Mining and Knowledge Discovery,2003,7(4):349-371.[doi:10.1023/A:1024988512476].
2Guha S,Meyerson A,Mishra N,Motwani R,O'Callaghan L.Clustering data streams:Theory and practice.IEEE Trans.on Knowledge and Data Engineering,2003,15(3):515-528.[doi:10.1109/TKDE.2003.1198387].
3Aggarwal CC,Han J,Wang J,Yu PS.A framework for clustering evolving data streams.In:Johann CF,Peter CL,Serge A,Michael JC,Patricia GS,Andreas H,eds.Proc.of the 29th Int'l Conf on Very Large Data Base.San Francisco:Morgan Kaufmann Publishers,2003.81-92.
4Charikar M,O'Callaghan L,Panigrahy R.Better streaming algorithms for clustering problems.In:Proc.of 35th ACM Symp.on Theory of Computing.New York:ACM Press,2003.30-39.http://doi.acm.org/10.1145/780542.780548.
5Beringer J,Hullermeier E.Online clustering of parallel data streams.Data & Knowledge Engineering,2006,58(2):180-204.[doi:10.1016/j.datak.2005.05.009].
6Matias Y,Vitter JS,Wang M.Wavelet-Based histograms for selectivity estimation.In:Tiwary A,Franklin M,eds.Proc.of the 1998 ACM SIGMOD Int'l Conf.on Management of Data.New York:ACM Press,1998.448-459.
7Boggess A,Narcowich FJ,Wrote; Rui GS,et al.,Trans.A First Course in Wavelets with Fourier Analysis.Beijing:Publishing House of Electronics Industry,2004 (in Chinese).
8Gilbert AC,Kotidis Y,Muthukrishnan S,Strauss M.One-Pass wavelet decompositions of data streams.IEEE Trans.on Knowledge and Data Engineering,2003,15(3):541-554.[doi:10.1109/TKDE.2003.1198389].
9Guha S,Kim C,Shim K.XWAVE:Approximate extended wavelets for streaming data.In:Nascimento MA,Ozsu MT,Kossmann D,Miller RJ,Blakeley JA,Schiefer KB,eds.Proc.Of the 30th Int'l Conf.On Very Large Data Bases.Toronto:Morgan Kaufmann Publishers,2004.288-299.
10Guha S,Harb B.Wavelet synopsis for data streams:Minimizing non-euclidean error.In:Grossman RL,Bayardo R,Bennett K,Vaidya J,eds.Proc.of the 11th ACM SIGKDD Int'l Conf.on Knowledge Discovery in Data Mining.New York:ACM Press,2005.88-97.

同被引文献52

1李亚伟 ,陈守煜 ,聂相田 .基于PCA和聚类分析的相似流域选择方法[J].东北水利水电,2004,22(7):1-3. 被引量：13
2施丽莲,蔡晋辉,周泽魁.基于图像处理的气液两相流流型识别[J].浙江大学学报（工学版）,2005,39(8):1128-1131. 被引量：32
3蒋鹏,黄清波,尚群立,王智,孙优贤.基于小波网络的数据压缩方法研究[J].仪器仪表学报,2005,26(12):1244-1247. 被引量：5
4金宁德,郑桂波,胡凌云.垂直上升管中气液两相流电导波动信号的混沌特性分析[J].地球物理学报,2006,49(5):1552-1560. 被引量：24
5刘兵,汪卫,施伯乐.基于小波变换的序列间距离严格估算[J].计算机研究与发展,2006,43(10):1732-1737. 被引量：3
6陈安龙,唐常杰,元昌安,朱明放,段磊.基于小波和偶合特征的多数据流压缩算法[J].软件学报,2007,18(2):177-184. 被引量：6
7常建龙,曹锋,周傲英+.基于滑动窗口的进化数据流聚类[J].软件学报,2007,18(4):905-918. 被引量：61
8杨春宇,周杰.一种混合属性数据流聚类算法[J].计算机学报,2007,30(8):1364-1371. 被引量：22
9Chen Yu, Tang Changjie, Li Rui, et al. Reduced- GEP: Improving gene expression programming by gene reduction[C]// Intelligent Human--Machine Systems and Cybernetics (IHMSC), 2010 2nd International Con- ference. China: Hangzhou, 2010 : 176-179.
10丁超元昌安李桂来等.基于GEP的多数据流的压缩算法.计算机研究与发展,2008,45(0):191-195.

引证文献7

1杨文,李文敬,罗锦坤.基于基因表达式编程的多数据流压缩并行算法[J].微电子学与计算机,2011,28(8):94-96. 被引量：1
2琚春华,郭晓娜.基于小波网络的数据流偶合特征聚类方法[J].计算机工程与设计,2012,33(3):1145-1149.
3肖健,罗小平,冯振飞.基于K-means聚类的微细通道纳米流体气液两相流流型识别[J].农业机械学报,2016,47(12):385-390.
4米滢.一种基于小波概要的数据流量子聚类算法[J].计算机应用与软件,2017,34(5):288-292. 被引量：1
5王可,李晖,陈梅,戴震宇,朱明.一种面向工作负载预测的基于小波变换的特征提取方法[J].计算机与现代化,2020,0(5):1-6. 被引量：1
6朱维富,曾智霞,肖如良.工业物联网数据流自适应聚类方法[J].计算机系统应用,2022,31(3):169-177. 被引量：2
7曹振丽,孙瑞志,李勐.一种基于高斯混合模型的不确定数据流聚类方法[J].计算机研究与发展,2014,51(S2):102-109. 被引量：6

二级引证文献11

1杨文,李文敬,李双,李书举,林中明.基于GEP的流数据分类压缩并行算法研究[J].广西师范大学学报（自然科学版）,2013,31(3):87-93.
2范敬雅,邹玉梅.基于EM算法的高斯混合模型的聚类分析——以2015年各省份GDP为例[J].发展研究,2017,34(6):52-54. 被引量：9
3邱云飞,费博雯,刘大千.基于概率模型的重叠子空间聚类算法[J].模式识别与人工智能,2017,30(7):609-621. 被引量：6
4李嘉菲,孙小玉.基于谱分解的不确定数据聚类方法[J].吉林大学学报（工学版）,2017,47(5):1604-1611. 被引量：2
5万静,崔美玉,何云斌,李松.障碍空间中基于Voronoi图的不确定数据聚类算法[J].计算机研究与发展,2019,56(5):977-991. 被引量：6
6刘敏,黄维,兰诗梅.基于聚类算法的高速连续数据流并行处理控制系统设计[J].现代电子技术,2020,43(13):114-118.
7尹积军,潘巍巍.基于电力大数据的企业复工电力指数研究与应用[J].浙江电力,2021,40(2):26-32. 被引量：7
8马壮林,杨兴,谭晓伟,马飞,王晋.基于客流时间序列的城市轨道交通车站分类[J].长安大学学报（自然科学版）,2021,41(6):113-126. 被引量：9
9梁荣华,谢晓兰,翟青海,张启明.基于改进的Stacking集成模型的容器云负载预测研究[J].计算机应用与软件,2023,40(12):48-55. 被引量：2
10郑泛舟.基于烟花算法的智慧城市物联网数据流聚类方法[J].成都工业学院学报,2024,27(3):50-54.

1陈华辉,施伯乐.数据流上具有数据遗忘特性的小波概要[J].计算机研究与发展,2009,46(2):268-279. 被引量：3
2陈华辉,施伯乐.基于随机投影的并行数据流聚类方法[J].模式识别与人工智能,2009,22(1):113-122. 被引量：3
3程文聪,邹鹏,贾焰.基于小波概要的区间差分skyline研究[J].计算机科学,2010,37(11):160-165. 被引量：1
4陈春燕,吕俊龙,郭有强.基于时间衰减的分布式数据流聚类算法[J].太原师范学院学报（自然科学版）,2013,12(2):87-90. 被引量：1
5艾列富,刘奎,吴健.增强型残差量化的图像视觉特征不完全检索方法[J].合肥学院学报（自然科学版）,2016,26(1):46-51. 被引量：1
6黄茜,郑启伦.回归神经网络中样本特征记忆的反馈控制方法研究[J].计算机工程与应用,2002,38(21):32-33.
7郑红,刘东,郭军,董新民.一类MIMO非线性系统的局部化自适应控制[J].北京航空航天大学学报,2012,38(10):1290-1294.
8由育阳,朱纪洪,杨志宏.具有容错特性的两层数据流聚类方法[J].北京航空航天大学学报,2012,38(5):665-669.
9聂建华,伋金龙.通过SOAP实现L2-L3通信网络监控[J].安徽冶金,2008(3):53-56.
10杨福萍,王洪国,董树霞,赵学臣.基于记忆效应的协同过滤推荐算法[J].计算机工程,2012,38(23):63-66. 被引量：5

软件学报

2010年第4期

浏览历史

内容加载中请稍等...

基于小波概要的并行数据流聚类被引量：7

参考文献19

同被引文献52

引证文献7

二级引证文献11

相关作者

相关机构

相关主题

浏览历史

基于小波概要的并行数据流聚类 被引量：7

参考文献19

同被引文献52

引证文献7

二级引证文献11

相关作者

相关机构

相关主题

浏览历史

基于小波概要的并行数据流聚类被引量：7