一种基于时态密度的倾斜分布数据流聚类算法被引量：17

Clustering Algorithm on Data Stream with Skew Distribution Based on Temporal Density

下载PDF

导出

摘要为解决倾斜分布的数据流聚类这一难题,提出了时态密度概念,给出其度量,揭示了其包括可增量计算在内的一系列数学性质;设计了时态密度树结构,提高了聚类时的存储和检索效率;设计了能够以实时或异步方式捕捉数据倾斜分布的数据流时态特征的聚类算法TDCA(temporal density based clustering algorithm),其时间复杂度为O(c×m×lgm).实验结果表明,该算法不仅有较强的功能,而且具有较好的规模可伸缩性. To solve the problem of clustering this paper proposes a concept of temporal density, which reveals a set of mathematical properties, especially the incremental computation. A clustering algorithm named TDCA （temporal density based clustering algorithm） with time complexity of O（c×m×lgm） is created with a tree structure implemented for both storage and retrieve efficiency. TDCA is capable of capturing the temporal features of a data stream with skew data distribution either in real time or on demand. The experimental results show that TDCA is functionable and scalable.

作者杨宁唐常杰王悦陈瑜郑皎凌

机构地区四川大学计算机学院

出处《软件学报》 EI CSCD 北大核心 2010年第5期1031-1041,共11页 Journal of Software

基金国家自然科学基金No.600773169 国家"十一五"科技支撑计划No.2006BAI05A01~~

关键词数据流聚类时态密度倾斜分布 data stream clustering temporal density skew distribution

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献1

1金澈清,钱卫宁,周傲英.流数据分析与管理综述[J].软件学报,2004,15(8):1172-1181. 被引量：161

二级参考文献52

1Babcock B, Babu S, Datar M, Motwani R, Widom J. Models and issues in data streams. In: Popa L, ed. Proc. of the 21st ACM SIGACT-SIGMOD-SIGART Symp. on Principles of Database Systems. Madison: ACM Press, 2002. 1～16.
2Terry D, Goldberg D, Nichols D, Oki B. Continuous queries over append-only databases. SIGMOD Record, 1992,21(2):321-330.
3Avnur R, Hellerstein J. Eddies: Continuously adaptive query processing. In: Chen W, Naughton JF, Bernstein PA, eds. Proc. of the 2000 ACM SIGMOD Int'l Conf. on Management of Data. Dallas: ACM Press, 2000. 261～272.
4Hellerstein J, Franklin M, Chandrasekaran S, Deshpande A, Hildrum K, Madden S, Raman V, Shah MA. Adaptive query processing: Technology in evolution. IEEE Data Engineering Bulletin, 2000,23(2):7-18.
5Carney D, Cetinternel U, Cherniack M, Convey C, Lee S, Seidman G, Stonebraker M, Tatbul N, Zdonik S. Monitoring streams?A new class of DBMS applications. Technical Report, CS-02-01, Providence: Department of Computer Science, Brown University, 2002.
6Guha S, Mishra N, Motwani R, O'Callaghan L. Clustering data streams. In: Blum A, ed. The 41st Annual Symp. on Foundations of Computer Science, FOCS 2000. Redondo Beach: IEEE Computer Society, 2000. 359-366.
7Domingos P, Hulten G. Mining high-speed data streams. In: Ramakrishnan R, Stolfo S, Pregibon D, eds. Proc. of the 6th ACM SIGKDD Int'l Conf. on Knowledge Discovery and Data Mining. Boston: ACM Press, 2000. 71-80.
8Domingos P, Hulten G, Spencer L. Mining time-changing data streams. In: Provost F, Srikant R, eds. Proc. of the 7th ACM SIGKDD Int'l Conf. on Knowledge Discovery and Data Mining. San Francisco: ACM Press, 2001. 97～106.
9Zhou A, Cai Z, Wei L, Qian W. M-Kernel merging: Towards density estimation over data streams. In: Cha SK, Yoshikawa M, eds. The 8th Int'l Conf. on Database Systems for Advanced Applications (DASFAA 2003). Kyoto: IEEE Computer Society, 2003. 285～292.
10Gibbons PB, Matias Y. Synopsis data structures for massive data sets. In: Tarjan RE, Warnow T, eds. Proc. of the 10th Annual ACM-SIAM Symp. on Discrete Algorithms. Baltimore: ACM/SIAM, 1999. 909-910.

共引文献160

1田李,王乐,贾焰,邹鹏,李爱平.分布式数据流上低通信开销的连续极值查询方法研究[J].计算机研究与发展,2007,44(z3):61-66.
2陈飞波,钱卫宁,周傲英.基于最窄平行四边形的数据流突变检测算法[J].计算机研究与发展,2007,44(z3):505-510.
3何月梅,杜海艳,王保民.分形技术与矢量量化相结合的网络流量异常检测研究[J].邯郸学院学报,2009,19(3):73-76.
4秦林新,刘奇志.一种乱序数据流上的偏倚抽样算法[J].计算机研究与发展,2011,48(S3):298-303.
5张明明,芦琳.电能计量中的异常数据研究[J].电气应用,2013,0(S1):42-46. 被引量：2
6金澈清,崇志宏,周傲英.一种实时监控最近邻的近似算法[J].计算机科学与探索,2007,1(2):146-159.
7杨宜东,孙志挥,张净.基于核密度估计的分布数据流离群点检测[J].计算机研究与发展,2005,42(9):1498-1504. 被引量：8
8杜威,邹先霞.基于数据流的滑动窗口机制的研究[J].计算机工程与设计,2005,26(11):2922-2924. 被引量：11
9刘赏,黄亚楼,倪维健.流数据聚类模型变化检测策略[J].计算机工程与应用,2006,42(5):15-18.
10彭宏,刘洋,邓维维,郑启伦.股票数据流的相关性计算方法[J].华南理工大学学报（自然科学版）,2006,34(1):86-89. 被引量：9

同被引文献181

1金澈清,钱卫宁,周傲英.流数据分析与管理综述[J].软件学报,2004,15(8):1172-1181. 被引量：161
2李玉生,姚富强,张毅.跳频正交网台信号分选算法研究[J].无线电通信技术,2005,31(6):13-15. 被引量：5
3朱蔚恒,印鉴,谢益煌.基于数据流的任意形状聚类算法[J].软件学报,2006,17(3):379-387. 被引量：51
4刘远超,王晓龙,刘秉权,钟彬彬.信息检索中的聚类分析技术[J].电子与信息学报,2006,28(4):606-609. 被引量：9
5李大军,程朋根,龚健雅,熊助国.多维随机变量的熵不确定度[J].计量学报,2006,27(3):290-293. 被引量：6
6曹锋,周傲英.基于图形处理器的数据流快速聚类[J].软件学报,2007,18(2):291-302. 被引量：24
7常建龙,曹锋,周傲英+.基于滑动窗口的进化数据流聚类[J].软件学报,2007,18(4):905-918. 被引量：61
8周晓云,孙志挥,张柏礼,杨宜东.高维类别属性数据流离群点快速检测算法[J].软件学报,2007,18(4):933-942. 被引量：21
9刘旭,毛国君,孙岳,刘椿年.数据流中频繁闭项集的近似挖掘算法[J].电子学报,2007,35(5):900-905. 被引量：14
10杨春宇,周杰.一种混合属性数据流聚类算法[J].计算机学报,2007,30(8):1364-1371. 被引量：22

引证文献17

1唐常杰,段磊,郑皎凌,杨宁,王悦,朱军.基于干预规则挖掘因果关系与分段干预事件及对比不等式[J].计算机应用,2011,31(4):869-873. 被引量：1
2陈锦阳,刘良旭,宋加涛,王让定,管博.基于R-tree的高效异常轨迹检测算法[J].计算机应用与软件,2011,28(10):34-37. 被引量：3
3邢长征,张国凯.基于自适应网格划分的数据流聚类算法[J].计算机工程与科学,2011,33(10):149-153. 被引量：2
4顾晨辉,王伦文.一种正交跳频信号动态分选方法[J].宇航学报,2012,33(11):1699-1705. 被引量：6
5史椸,赵静,鲍军鹏,齐勇,林秦颖.基于方差聚类的时序数据野值识别算法[J].计算机应用,2012,32(A02):22-25. 被引量：2
6郭昆,张岐山.基于聚类的快速数据流匿名方法[J].软件学报,2013,24(8):1852-1867. 被引量：5
7邢长征,胡权波.基于倾斜分布的变流速数据流聚类算法[J].计算机工程,2013,39(12):247-250.
8曹红,郑鑫.数据流分类器算法在水质环境中的应用[J].科技通报,2014,30(1):117-122.
9张建朋,陈福才,李邵梅,刘力雄.基于密度与近邻传播的数据流聚类算法[J].自动化学报,2014,40(2):277-288. 被引量：28
10张建朋,陈福才,李邵梅,刘力雄.基于仿射传播的进化数据流在线聚类算法[J].模式识别与人工智能,2014,27(5):443-451. 被引量：5

二级引证文献115

1段磊,唐常杰,杨宁,左劼,王悦,郑皎凌,徐开阔.干预规则挖掘的概念、任务与研究进展[J].计算机学报,2011,34(10):1831-1842. 被引量：1
2赵大进.提高小学思品课课堂教学效率策略初探[J].中小学教材教学（小学版）,2000(9):40-42.
3沙志超,黄知涛,周一宇,王丰华.基于时频稀疏性的跳频信号时频图修正方法[J].宇航学报,2013,34(6):848-853. 被引量：7
4殷秀颜,陈婕,郑学青,于姝.大型供电企业电力营销管理总体策略优化研究[J].自动化与仪器仪表,2019(2):39-42. 被引量：9
5谢静,张健沛,杨静,张冰.基于时间密度的数据流匿名方法[J].通信学报,2014,35(11):191-198. 被引量：2
6魏中贺,李少波,唐向红,陈力.一种基于密度的数据流检测算法SWKLOF[J].科学技术与工程,2014,22(34):219-223. 被引量：3
7王娟,王萍,王港.基于自适应超像素分割的点刻式DPM区域定位算法研究[J].自动化学报,2015,41(5):991-1003. 被引量：4
8邢长征,刘剑.基于近邻传播与密度相融合的进化数据流聚类算法[J].计算机应用,2015,35(7):1927-1932. 被引量：34
9吴绍根.基于动态网格和密度邻接的数据聚类算法[J].北京工业职业技术学院学报,2015,14(3):20-25.
10李玮瑶,李圣普.舰船电机控制系统中的不稳定数据挖掘方法研究[J].舰船科学技术,2015,37(9):161-165. 被引量：3

1邢长征,胡权波.基于倾斜分布的变流速数据流聚类算法[J].计算机工程,2013,39(12):247-250.
2张建朋,陈福才,李邵梅,刘力雄.基于仿射传播的进化数据流在线聚类算法[J].模式识别与人工智能,2014,27(5):443-451. 被引量：5
3王佳隽,吕智慧,吴杰,钟亦平.云计算技术发展分析及其应用探讨[J].计算机工程与设计,2010,31(20):4404-4409. 被引量：155
4任家东,何海涛,郝忠孝.时态关系数据的特征及其规范化[J].小型微型计算机系统,2000,21(3):302-304. 被引量：2
5范文元.遥感土地利用动态监测的研究[J].测绘与空间地理信息,2012,35(5):66-68. 被引量：1
6李翠,巨永锋.基于时延的无线传感器网络分时分簇算法[J].计算机测量与控制,2012,20(12):3405-3407. 被引量：1
7徐小伟,成亚谊.一种基于改进贝叶斯算法的Web文本分类方法[J].现代计算机（中旬刊）,2012(4):3-7. 被引量：1
8黎善斌,任旭东,王智,孙优贤.基于网络控制系统的CAN实时性能研究[J].化工自动化及仪表,2003,30(4):1-6. 被引量：8
9刘晓建,钟海荣,吴明巧.大规模分布式仿真中实体分配策略研究[J].计算机工程与科学,2005,27(2):85-89. 被引量：1
10房俊华,王晓桐,张蓉,周傲英.分布式数据流上的高性能分发策略[J].软件学报,2017,28(3):563-578. 被引量：4

软件学报

2010年第5期

浏览历史

内容加载中请稍等...

一种基于时态密度的倾斜分布数据流聚类算法被引量：17

参考文献1

二级参考文献52

共引文献160

同被引文献181

引证文献17

二级引证文献115

相关作者

相关机构

相关主题

浏览历史

一种基于时态密度的倾斜分布数据流聚类算法 被引量：17

参考文献1

二级参考文献52

共引文献160

同被引文献181

引证文献17

二级引证文献115

相关作者

相关机构

相关主题

浏览历史

一种基于时态密度的倾斜分布数据流聚类算法被引量：17