基于概率数据流的有效聚类算法被引量：15

Effective Clustering Algorithm for Probabilistic Data Stream

下载PDF

导出

摘要提出一种在概率数据流上进行聚类的有效方法P-Stream.P-Stream针对数据流上的概率元组提出强簇、过渡簇和弱簇的概念,设计一种有效的在线候选簇选择策略,为每个不断到达的数据元组合理地找到可能归属的簇,并在每个检查点存储微簇快照,以便离线进一步高层聚类和演化分析.最后设计一个"积极"的二层聚类模型来判断现有的第1层聚类模型是否还适应数据流中最近到达的概率元组.实验采用KDD-CUP’98和KDD-CUP’99真实数据集以及变换高斯分布的人工数据集构造概率数据流.实验结果表明,P-Stream具有良好的聚类质量、较快的处理速度,能够有效地适应数据演化情况. An effective clustering algorithm called ＂P-Stream＂ for probabilistic data stream is developed in this paper for the first time. For the uncertain tuples in the data stream, the concepts of strong cluster, transitional clusters and weak cluster are proposed in the P-Stream. With these concepts, an effective strategy of choosing candidate cluster is designed, which can find the sound cluster for every continuously arriving data point. Then, in order to further cluster on the high level and analyze the evolving behaviors of data streams, snapshots ot micro-clusters are stored at every checkpoint. At last, an ＂aggressive＂ two-tier clustering model is introduced to judge whether the most recently arrived data point is fitting in with the first level clustering model or not. Probabilistic data streams in the experiments include KDD-CUP＇98 and KDD-CUP＇99 real data sets and synthetic data sets with changing Gaussian distributions. Comprehensive experimental results demonstrate that P-Stream is ot high quality, fast processing rate and is efficiently fitting in with the evolving situations of data streams.

作者戴东波赵杠孙圣力

机构地区复旦大学计算机与信息技术系

出处《软件学报》 EI CSCD 北大核心 2009年第5期1313-1328,共16页 Journal of Software

基金国家重点基础研究发展计划(973)No.2005CB321905~~

关键词概率数据流聚类演化分析 probabilistic data stream clustering evolving analysis

分类号 TP181 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献22

1Cormode G, Garofalakis M. Sketching probabilistic data streams. In: Chan CY, Ooi BC, Zhou A, eds. Proc. of the ACM SIGMOD Int'l Conf. on Management of Data. Beijing: ACM Press, 2007. 281-292.
2Jayram TS, McGregor A, Muthukrishan, Vee E. Estimating statistical aggregates on probabilistic data streams. In: Libkin L, ed. Proc. of the 26th ACM SIGMOD-SIGACT-SIGART Symp. Principles of Database Systems. Beijing: ACM Press, 2007. 243-252.
3Jayram TS, Kale S, Vee E. Efficient aggregation algorithms for probabilistic data. In: Bansal N, Pruhs K, Stein C, eds. Proc. of the 18th Annual ACM-SIAM Syrup. on Discrete Algorithms (SODA). New Orleans: SIAM, 2007. 346-355.
4Aggarwal CC, Han J, Yu PS. A framework for clustering evolving data streams. In: Freytag JC, Lockmann PC, Abiteboul S, Carey MJ, Seling PG, Heuer A, eds. Proc. of the Int'l Conf. on Very Large Data Bases. Berlin: Morgan Kaufmann Publishers, 2003. 81-92.
5Dalvi N, Suciu D. Efficient query evaluation on probabilistic databases. In: Nascimento MA, Ozsu MT, Kossmann D, Miller RJ, Blakeley JA, Schiefer KB, eds. Proe. of the VLDB. Toronto: Morgan Kaufmarm Publishers, 2004. 864-875.
6Burdick D, Deshpande PM, Jayram TS, Ramakrishnan R, Vaithyanathan S. OLAP over uncertain and imprecise data. In: Bohm K, Jensen CS, Haas LM, Kersten ML, Larson P, Ooi BC, eds. Proc. of the Int'l Conf. on Very Large Data Bases. Trondheim: ACM Press, 2005.970-981.
7Sarma AD, Benjelloum O, Halevy A, Widom J. Working models for uncertain data. In: Liu L, Reuter A, Whang KY, Zhang J, eds. Proc. of the 22nd Int'l Conf. on Data Engineering. Atlanta: IEEE Computer Society, 2006.
8Cheng R, Kalashnikov D, Prabhakar S. Querying imprecise data in moving object environments. IEEE Trans. on Knowledge and Data Engineering, 2004,16(9):1112-1127.
9Ngai WK, Kao B, Chui CK, Cheng R, Chau M, Yip KY. Efficient clustering of uncertain data. In: Cliton CW, Zhong M, Liu JM, Wah BW, Wu XD, eds. Proc. of the 6th IEEE Int'l Conf. on Data Mining. Hong Kong: IEEE Computer Society, 2006. 436-445.
10Guha S, Mishra N, Motwani R, Callaghan LO. Clustering data streams. In: Yong DC, ed. Proe. of the 41st Annual Symp. on Foundations of Computer Science. Redondo Beach: IEEE Computer Society, 2000. 359-366.

同被引文献98

1尚柏林,宋笔锋,杨建军.飞机结构健康监测传感器新技术[J].无损检测,2008,30(5):289-291. 被引量：9
2郭永海,王驹,王志明,刘淑芬,吕川河.CFC在中国高放废物处置库预选区地下水研究中的应用[J].地球学报,2006,27(3):253-258. 被引量：7
3金澈清,钱卫宁,周傲英.流数据分析与管理综述[J].软件学报,2004,15(8):1172-1181. 被引量：161
4余仕成.大学物理实验数据处理的几个问题讨论[J].武汉化工学院学报,2005,27(1):94-96. 被引量：9
5郎赟超,刘丛强,韩贵琳,赵志琦,李思亮.贵阳市区地表/地下水化学与锶同位素研究[J].第四纪研究,2005,25(5):655-662. 被引量：27
6解双,韩振生,邢雷.国产大型喷灌技术的发展与应用分析[J].农机化研究,2006,28(6):182-183. 被引量：8
7颜纪迅,郑小宁.基于分布式的某航电计算机自动测试系统研究[J].航空计算技术,2006,36(2):32-35. 被引量：3
8许磊,张凤鸣.基于PSO的模糊聚类算法[J].计算机工程与设计,2006,27(21):4128-4129. 被引量：17
9侯光才,苏小四,林学钰,柳富田,易树平,董维红,俞发康,杨陨城,王冬.鄂尔多斯白垩系地下水盆地天然水体环境同位素组成及其水循环意义[J].吉林大学学报（地球科学版）,2007,37(2):255-260. 被引量：28
10常建龙,曹锋,周傲英+.基于滑动窗口的进化数据流聚类[J].软件学报,2007,18(4):905-918. 被引量：61

引证文献15

1叶奇明,梁根.量子遗传算法的模糊K-prototypes聚类[J].计算机工程与应用,2010,46(1):112-115. 被引量：1
2彭宇,罗清华,彭喜元.网络化测试体系中不确定性数据处理方法浅析[J].仪器仪表学报,2010,31(1):229-240. 被引量：18
3程转流,胡为成.基于直方图的概率数据流聚类算法[J].铜陵学院学报,2010,9(2):73-75.
4程转流,胡为成.滑动窗口模型下的概率数据流聚类[J].计算机工程与应用,2011,47(4):141-145. 被引量：2
5邢长征,王飞,王丽丽.密度网格参数自适应的数据流聚类算法[J].计算机科学与探索,2011,5(10):953-958. 被引量：2
6肖丹萍,叶东毅.基于免疫原理的不确定数据流聚类算法[J].模式识别与人工智能,2012,25(5):826-834. 被引量：2
7罗清华,彭宇,彭喜元.一种多维不确定性数据流聚类算法[J].仪器仪表学报,2013,34(6):1330-1338. 被引量：13
8胡志冬,任永功,杨雪.基于滑动窗口密度聚类的数据流偏倚采样算法[J].计算机科学,2013,40(9):254-256. 被引量：2
9邢长征,温培.基于网格密度和引力的不确定数据流聚类算法[J].计算机应用研究,2015,32(1):98-101. 被引量：4
10黄鑫.不确定数据中数据挖掘方法浅析[J].网络安全技术与应用,2015(5):131-131.

二级引证文献50

1杜大军,费敏锐,宋杨,李雪.网络控制系统的简要回顾及展望[J].仪器仪表学报,2011,32(3):713-720. 被引量：45
2王婕,邢娜.最大熵原理在网络延迟测量数据处理中的应用[J].电子测试,2011,22(4):45-47.
3彭宇,罗清华,彭喜元.UIDK-means:多维不确定性测量数据聚类算法[J].仪器仪表学报,2011,32(6):1201-1207. 被引量：18
4彭宇,罗清华,王丹,彭喜元.一种基于区间数聚类的RSSI-D估计方法[J].仪器仪表学报,2012,33(3):491-498. 被引量：8
5王磊,郭淑霞,张凤玲,冯彬,张建城.微型铣刀外径视觉测量的不确定度[J].光学精密工程,2012,20(4):880-887. 被引量：5
6滕燕,黄维嘉.重庆地区1322名健康人血脂水平调查[J].重庆医科大学学报,2000,25(2):210-211. 被引量：3
7宋佳,彭宇,彭喜元,袁健博,葛子寒.基于簇内数据聚类算法的WSNs故障检测方法[J].仪器仪表学报,2012,33(10):2214-2219. 被引量：11
8陶芳胜,黄珍元,邱畅.LXI硬件总线触发接口设计[J].国外电子测量技术,2013,32(5):21-25. 被引量：1
9罗清华,彭宇,彭喜元.一种多维不确定性数据流聚类算法[J].仪器仪表学报,2013,34(6):1330-1338. 被引量：13
10焉晓贞,罗清华.基于卡尔曼滤波的动态传感数据流估计方法[J].仪器仪表学报,2013,34(8):1847-1854. 被引量：27

1程转流,胡为成.基于直方图的概率数据流聚类算法[J].铜陵学院学报,2010,9(2):73-75.
2孙圣力,戴东波,黄震华,张齐勋,周立新.概率数据流上Skyline查询处理算法[J].电子学报,2009,37(2):285-293. 被引量：17
3程转流,胡为成.滑动窗口模型下的概率数据流聚类[J].计算机工程与应用,2011,47(4):141-145. 被引量：2
4欧阳树生,李金玖,覃明贵,朱扬勇.RISQ:一种高效处理概率数据流上Skyline查询的算法[J].计算机应用与软件,2009,26(12):167-169.
5张永梅,韩焱,张建华.一种有效聚类算法的研究和实现[J].计算机应用,2005,25(7):1573-1576. 被引量：2
6周伟.Energy efficient clustering algorithm based on neighbors for wireless sensor networks[J].Journal of Shanghai University(English Edition),2011,15(2):150-153. 被引量：2
7古凌岚.面向大数据集的有效聚类算法[J].计算机工程与设计,2014,35(6):2183-2187. 被引量：7
8杨永滔,王意洁.n-of-N数据流模型上高效概率Skyline计算[J].软件学报,2012,23(3):550-564. 被引量：3
9陈恩红,王上飞,宁岩,王煦法.一种利用代表点的有效聚类算法设计与实现[J].模式识别与人工智能,2001,14(4):417-422. 被引量：10
10张长水,张见闻.演化数据的学习[J].计算机学报,2013,36(2):310-316. 被引量：8

软件学报

2009年第5期

浏览历史

内容加载中请稍等...

基于概率数据流的有效聚类算法被引量：15

参考文献22

同被引文献98

引证文献15

二级引证文献50

相关作者

相关机构

相关主题

浏览历史

基于概率数据流的有效聚类算法 被引量：15

参考文献22

同被引文献98

引证文献15

二级引证文献50

相关作者

相关机构

相关主题

浏览历史

基于概率数据流的有效聚类算法被引量：15