基于引力相似度和相对密度的不确定数据流聚类被引量：5

Uncertain Data Stream Clustering Algorithm Based on Gravity Similarity and Relative Density Techniques

下载PDF

导出

摘要针对不确定数据流聚类问题,提出一种基于引力相似度和相对密度的聚类算法.采用在线/离线两阶段处理框架,综合考虑元组之间的相似度与元组自身的不确定性,利用引力相似度为每个不断到达的数据元组寻找可能归属的微簇,以新的离群点处理和在线维护机制来适应数据流的演化情况,并在离线层使用相对密度算法进行聚类,不需要预先指定聚类数且可处理任意形状的微簇.实验结果表明,与现有的聚类方法相比,所提出的算法具有更高的聚类质量和准确度. For the issue of uncertain data stream clustering,an effective clustering algorithm based on gravity similarity and relative density technique was proposed in this paper.The algorithm adopted an online/offline two-stage processing framework and considered simularity and data uncertainty together to measure the clustering quality.For each incoming tuples,it used gravity similarity to find the possible micro-cluster.Besides,a novel outlier processing and online maintenance mechanism were developed to adapt to the evolution of the data stream.At the offline stage,it used a relative density clustering algorithm to handle arbitrary shape micro clusters.The experimental results show that the proposed algorithm outperforms existing methods in quality and accuracy.

作者郑祺黄德才

机构地区浙江工业大学计算机科学与技术学院浙江科技学院信息与电子工程学院

出处《上海交通大学学报》 EI CAS CSCD 北大核心 2016年第6期873-878,共6页 Journal of Shanghai Jiaotong University

基金水利部公益性行业科研专项项目(201401044)资助

关键词不确定数据流聚类引力相似度相对密度离群点 uncertain data stream clustering gravily similarity related density outlier

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献13

1BABCOCK B, BABU S, DATAR M, et al. Models and issues in data stream systems [C] // Procnf the 21st ACM Symp on Principles of Database Systems. Madison: ACM, 2002:1 16.
2CORMODE G, GAROFALAKIS M. Sketching probabilistic data streams[C]//Procof the ACM sig- modIntConfon Management of Data. Beijing: ACM, 2007:281-292.
3JAYRAM T S, MCGREGOR A, MUTHUKRISH NAN S, et al. Estimating statistical aggregates on probabilistic data streams[C]//Acre Trans Database Syst Association for Computing Machinery. New York, USA: ACM, 2007:133-135.
4JAYRAM T S, KALE S, VEE E. Efficient aggrega tion algorithms for probabilistic data. [C] // Proceed- ings of the Eighteenth Annual ACM-SIAM Symposium on Discrete Algorithms, SODA 2007. New Orleans, Louisiana, USA: SIAM, 2007:346-355.
5AGGARWAL C C, YU P S. A Survey of uncertain data algorithms and applications[J]. IEEE Transac- tions on Knowledge and Data Engineering, 2009, 21 (5) : 609-623.
6AGGARWAL C C, HAN J W, WANG J Y, etal. A framework for clustering evolving data streams[J]. Very Large Data Bases-VLDB, 2003, 29:81-92.
7AGGARWAL C C, HAN J, WANG J, et al. ()n high dimensional projectedclustering of data streams[J]. Data Mining and Knowledge Discovery, 2005, 10 (3): 251-273.
8CA() F, ESTER M, QIAN W, et al. Density based clustering over an evolving data stream with noise[C] //Proceedingsof the 2006 SIAM International Confer- ence on Data Mining. Eethesda, USA: SIAM, 2006: 328-339.
9张建朋,陈福才,李邵梅,刘力雄.基于密度与近邻传播的数据流聚类算法[J].自动化学报,2014,40(2):277-288. 被引量：28
10AGGARWAI. C C, YU P S. A framework for clus tering uncertain data streams[C]//IEEE 24th Inter- national Conference on Data Engineering. Cancun, Mexico: IEEE, 2008:150-159.

二级参考文献45

1Cormode G, Garofalakis M. Sketching probabilistic data streams. In: Chan CY, Ooi BC, Zhou A, eds. Proc. of the ACM SIGMOD Int'l Conf. on Management of Data. Beijing: ACM Press, 2007. 281-292.
2Jayram TS, McGregor A, Muthukrishan, Vee E. Estimating statistical aggregates on probabilistic data streams. In: Libkin L, ed. Proc. of the 26th ACM SIGMOD-SIGACT-SIGART Symp. Principles of Database Systems. Beijing: ACM Press, 2007. 243-252.
3Jayram TS, Kale S, Vee E. Efficient aggregation algorithms for probabilistic data. In: Bansal N, Pruhs K, Stein C, eds. Proc. of the 18th Annual ACM-SIAM Syrup. on Discrete Algorithms (SODA). New Orleans: SIAM, 2007. 346-355.
4Aggarwal CC, Han J, Yu PS. A framework for clustering evolving data streams. In: Freytag JC, Lockmann PC, Abiteboul S, Carey MJ, Seling PG, Heuer A, eds. Proc. of the Int'l Conf. on Very Large Data Bases. Berlin: Morgan Kaufmann Publishers, 2003. 81-92.
5Dalvi N, Suciu D. Efficient query evaluation on probabilistic databases. In: Nascimento MA, Ozsu MT, Kossmann D, Miller RJ, Blakeley JA, Schiefer KB, eds. Proe. of the VLDB. Toronto: Morgan Kaufmarm Publishers, 2004. 864-875.
6Burdick D, Deshpande PM, Jayram TS, Ramakrishnan R, Vaithyanathan S. OLAP over uncertain and imprecise data. In: Bohm K, Jensen CS, Haas LM, Kersten ML, Larson P, Ooi BC, eds. Proc. of the Int'l Conf. on Very Large Data Bases. Trondheim: ACM Press, 2005.970-981.
7Sarma AD, Benjelloum O, Halevy A, Widom J. Working models for uncertain data. In: Liu L, Reuter A, Whang KY, Zhang J, eds. Proc. of the 22nd Int'l Conf. on Data Engineering. Atlanta: IEEE Computer Society, 2006.
8Cheng R, Kalashnikov D, Prabhakar S. Querying imprecise data in moving object environments. IEEE Trans. on Knowledge and Data Engineering, 2004,16(9):1112-1127.
9Ngai WK, Kao B, Chui CK, Cheng R, Chau M, Yip KY. Efficient clustering of uncertain data. In: Cliton CW, Zhong M, Liu JM, Wah BW, Wu XD, eds. Proc. of the 6th IEEE Int'l Conf. on Data Mining. Hong Kong: IEEE Computer Society, 2006. 436-445.
10Guha S, Mishra N, Motwani R, Callaghan LO. Clustering data streams. In: Yong DC, ed. Proe. of the 41st Annual Symp. on Foundations of Computer Science. Redondo Beach: IEEE Computer Society, 2000. 359-366.

共引文献66

1陈爱东,刘国华,费凡,周宇,万小妹,貟慧.满足均匀分布的不确定数据关联规则挖掘算法[J].计算机研究与发展,2013,50(S1):186-195. 被引量：18
2叶奇明,梁根.量子遗传算法的模糊K-prototypes聚类[J].计算机工程与应用,2010,46(1):112-115. 被引量：1
3彭宇,罗清华,彭喜元.网络化测试体系中不确定性数据处理方法浅析[J].仪器仪表学报,2010,31(1):229-240. 被引量：18
4程转流,胡为成.基于直方图的概率数据流聚类算法[J].铜陵学院学报,2010,9(2):73-75.
5程转流,胡为成.滑动窗口模型下的概率数据流聚类[J].计算机工程与应用,2011,47(4):141-145. 被引量：2
6邢长征,王飞,王丽丽.密度网格参数自适应的数据流聚类算法[J].计算机科学与探索,2011,5(10):953-958. 被引量：2
7廖国琼,吴凌琴,万常选.基于概率衰减窗口模型的不确定数据流频繁模式挖掘[J].计算机研究与发展,2012,49(5):1105-1115. 被引量：15
8丘晓平,黄小兵.非确定性数据处理技术发展现状与挑战[J].现代计算机,2012,18(18):9-14.
9肖丹萍,叶东毅.基于免疫原理的不确定数据流聚类算法[J].模式识别与人工智能,2012,25(5):826-834. 被引量：2
10潘丽娜,王治和,党辉.基于关联函数的数据流聚类算法[J].计算机应用,2013,33(1):202-206. 被引量：5

同被引文献43

1郭俊,吴广宁,张血琴,舒雯.局部放电检测技术的现状和发展[J].电工技术学报,2005,20(2):29-35. 被引量：248
2赵克勤.二元联系数A+Bi的理论基础与基本算法及在人工智能中的应用[J].智能系统学报,2008,3(6):476-486. 被引量：65
3戴东波,赵杠,孙圣力.基于概率数据流的有效聚类算法[J].软件学报,2009,20(5):1313-1328. 被引量：15
4王文圣,金菊良,丁晶,李跃清.水资源系统评价新方法——集对评价法[J].中国科学（E辑）,2009,39(9):1529-1534. 被引量：119
5陶新民,徐晶,杨立标,刘玉.一种改进的粒子群和K均值混合聚类算法[J].电子与信息学报,2010,32(1):92-97. 被引量：79
6吴枫,仲妍,吴泉源.基于增量核主成分分析的数据流在线分类框架[J].自动化学报,2010,36(4):534-542. 被引量：12
7龙真真,张策,王维平,张正文.一种基于数据流聚类的动态目标分群框架[J].上海交通大学学报,2010,44(7):921-925. 被引量：4
8张晨,金澈清,周傲英.一种不确定数据流聚类算法[J].软件学报,2010,21(9):2173-2182. 被引量：33
9陶新民,刘福荣,刘玉,童智靖.一种多尺度协同变异的粒子群优化算法[J].软件学报,2012,23(7):1805-1815. 被引量：48
10罗清华,彭宇,彭喜元.一种多维不确定性数据流聚类算法[J].仪器仪表学报,2013,34(6):1330-1338. 被引量：13

引证文献5

1叶福兰.基于离群点检测的不确定数据流聚类算法研究[J].中国电子科学研究院学报,2019,14(10):1094-1099. 被引量：12
2陶新民,常瑞,沈微,李晨曦,王若彤,刘艳超.密度敏感鲁棒模糊核主成分分析算法[J].自动化学报,2020,46(2):358-372. 被引量：2
3史玲娟,黄德才.一种联系数表达的位置不确定数据流聚类算法[J].小型微型计算机系统,2020,41(2):361-368. 被引量：7
4屠莉,陈崚.衰减窗口中的不确定数据流聚类算法[J].计算机应用研究,2021,38(9):2673-2677. 被引量：5
5陈昌川,刘凯,刘仁光,冯晓棕,覃延佳,代少升,张天骐.基于多源局部放电信号数据流聚类分离方法[J].上海交通大学学报,2022,56(8):1014-1023. 被引量：3

二级引证文献26

1滕燕,黄维嘉.重庆地区1322名健康人血脂水平调查[J].重庆医科大学学报,2000,25(2):210-211. 被引量：3
2罗晓媛,赵丽艳,刘君,邹栋.神经网络技术下多尺度时序数据离群点挖掘[J].计算机仿真,2021,38(1):231-235. 被引量：2
3王志飞,陆亿红.凝聚中心犹豫度恒定的模糊层次聚类算法[J].小型微型计算机系统,2021,42(1):20-26. 被引量：8
4周志洪,马进,夏正敏,陈秀真.基于局部离群点检测的高频数据共现聚类算法[J].计算机仿真,2021,38(3):482-486. 被引量：7
5周玉,朱文豪,房倩,白磊.基于聚类的离群点检测方法研究综述[J].计算机工程与应用,2021,57(12):37-45. 被引量：23
6屠莉,陈崚.衰减窗口中的不确定数据流聚类算法[J].计算机应用研究,2021,38(9):2673-2677. 被引量：5
7王喆,宋晓峰,王玉芳.基于关联规则的网络数据动态聚类方法研究[J].电脑知识与技术,2021,17(32):51-52.
8文明瑶,廖伟国.基于机器学习的不确定数据增量式挖掘算法[J].计算机仿真,2021,38(11):290-294. 被引量：4
9赵向兵,张天刚.基于相关子空间的高维离群数据检测算法[J].计算技术与自动化,2022,41(1):82-86. 被引量：3
10李春磊.工艺元聚类驱动的高维机加工艺设计方法研究[J].宝鸡文理学院学报（自然科学版）,2022,42(1):95-102.

1何丽娟,周鸣争,陶皖,江自兵.无线传感器网络中不确定数据的估计算法[J].计算机工程与应用,2011,47(28):100-102. 被引量：3
2刘斐,樊华,金松昌,贾焰.一种新型k匿名隐私保护算法[J].信息网络安全,2012(8):199-202. 被引量：2
3魏定国,吴时霖.数据流复杂查询处理的研究[J].计算机科学,2004,31(2):61-65.
4田海生.数据流管理系统中Max、Min聚集算子的示例概要算法[J].计算机应用,2008,28(8):1986-1990.
5闫新庆,尹周平,熊有伦.无线射频识别系统中的事件处理机制[J].华中科技大学学报（自然科学版）,2008,36(9):63-66. 被引量：5
6程转流,胡为成.基于直方图的概率数据流聚类算法[J].铜陵学院学报,2010,9(2):73-75.
7程转流,胡为成.滑动窗口模型下的概率数据流聚类[J].计算机工程与应用,2011,47(4):141-145. 被引量：2
8张龙波,李战怀,朱立平,刘江涛,赵以强.数据流滑动窗口连接查询降载策略研究[J].西北工业大学学报,2006,24(5):595-599.
9肖丹萍,叶东毅.基于免疫原理的不确定数据流聚类算法[J].模式识别与人工智能,2012,25(5):826-834. 被引量：2
10张龙波,李战怀,余敏,蒋芸.带权值数据流滑动窗口随机抽样算法的改进[J].计算机工程与应用,2007,43(25):18-20. 被引量：3

上海交通大学学报

2016年第6期

浏览历史

内容加载中请稍等...

基于引力相似度和相对密度的不确定数据流聚类被引量：5

参考文献13

二级参考文献45

共引文献66

同被引文献43

引证文献5

二级引证文献26

相关作者

相关机构

相关主题

浏览历史

基于引力相似度和相对密度的不确定数据流聚类 被引量：5

参考文献13

二级参考文献45

共引文献66

同被引文献43

引证文献5

二级引证文献26

相关作者

相关机构

相关主题

浏览历史

基于引力相似度和相对密度的不确定数据流聚类被引量：5