基于k均值分区的流数据高效密度聚类算法被引量：8

Efficient Data Stream Clustering Algorithm Based on k-Means Partitioning and Density

下载PDF

导出

摘要数据流聚类是数据流挖掘研究的一个重要内容,已有的数据流聚类算法大多采用k中心点(均值)方法对数据进行聚类,不能对数据分布不规则以及高维空间数据流进行有效聚类.论文提出一种基于k均值分区的流数据密度聚类算法,先对数据流进行分区做k均值聚类生成中间聚类结果(均值参考点集),随后对这些均值参考点进行密度聚类,理论分析和实验结果表明算法可以有效解决数据分布不规则以及高维空间数据流聚类问题,算法是有效可行的. Data stream clustering is an important issue in data stream mining. Most of the existing algorithms adopted K medians （means） method to solve this problem, which are not suitable to address the problem of clustering high dimensional or abnormal distributed data streams. This article proposes a k-Means partitioning and density based data stream clustering algorithm--CLUSMD. The algorithm applies K means clustering on each partition of the data stream to generate mean reference point set, and subsequently density based clustering is applied to these reference points to get the clustering result of each periods. Theoretic analysis and experimental results showe that CLUSMD is effective and efficient.

作者倪巍伟陆介平陈耿孙志挥

机构地区东南大学计算机科学与工程系

出处《小型微型计算机系统》 CSCD 北大核心 2007年第1期83-87,共5页 Journal of Chinese Computer Systems

基金国家自然科学基金项目(70371015)资助教育部高等学校博士学科点专项科研基金项目(20040286009)资助.

关键词数据流聚类均值参考点密度聚类 data stream clustering mean reference point density based clustering

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献9

1Han Jia-wei.Micheline.Data mining:concepts and techniques[M].Morgan Kaufmann Publishers,San Fransisco,CA,2000.
2Ester M,Kriegel HP,Sander J,et al.A density based algorithm of discovering clusters in large spatial databases with noise[C].In:Simoudis E,Han JW,Fayyad UM,eds.Proceedings of the 2nd International Conference on Knowledge Discovery and Data Mining Portland,AAAI Press,1996:226-231.
3Zhang T,Ramakrishnan R,Livny M.BIRCH:an efficient data clustering method for very large databases[C].In:Jagadish HV,Mumick IS,eds.Proc.of the 1996 ACM SIGMOD Int.Conf.on Management of Data.Montreal:ACM Press,1996:103-114.
4Guha S,Rostogi R,Shim K.CURE:an efficient clustering algorithm for large databases[C].In:Haas LM,Tiwary A,eds.Proceedings of the ACM SIGMOD International Conference on Management of Data Seattle.ACM Press,1998:73-84.
5Wang W,Yang J,Muntz R.STING:a statistical information grid approach to spatial data mining[C].Proc.Int.Conf.on Very Large Databases(VLDB97),1997:186-195.
6Guha S,Mishra N,Motwani R.Clustering data streams[C].In:Proceedings of the Annual Symposium on Foundations of Computer Science,2000:359-366.
7Liadan OCallaghan,Nina Mishra,Adam Meyerson,Sudipto Guha,Rajeev Motwani.Streaming-data algorithms for high-quality clustering[C].In:Proceedings of IEEE International Conference on Data Engineering,2002:685-696.
8倪巍伟,孙志挥,陆介平.k-LDCHD——高维空间k邻域局部密度聚类算法[J].计算机研究与发展,2005,42(5):784-791. 被引量：18
9Maria Halkidi,Michalis Vazirgiannis.Clustering validity assessment:finding the optimal partitioning of a data set[C].ICDM 2001:187-194.

二级参考文献11

1Ester M, et al. A density-based algorithm for discovering clusters in large spatial databases with noise. In: Proc. the 2nd Int'l Conf. Knowledge Discovering in Databases and Data Mining(KDD 96). Menlo Park, CA: AAA I Press, 1996.
2Zhan W, et al. STING: A statistical information grid approach to spatial data mining. In: Proc. the 23rd VLDB Conf. Athens. San Francicso: Morgan Kaufmann, 1997. 186～ 195.
3K. Beyer, J. Goldstein, R. Ramakhrisnan, et al. Nearest neighbor' meaningful. In: Proc. the 7th Int'l Conf. Database Theory ( ICDT' 99), http://citeseer.ist.psu.edu/605885.html,1999.
4A. Hinneburg, C. C. Aggarwal, D. A. Keim. What is the neareast neighbor in high dimensional spaces. In: Proc. the 26th Int'l Conf. Very Large Data Bases, San Francisco, 2000.
5Maria Halkidi, Michalis Vazirgiannis. Clustering validity assessment: Finding the optimal partitioning of a data set. IEEE Int'l Conf. Data Mining, California, USA, 2001.
6Zhang T, et al. Birch: An efficient data clustering method for very large databases. In: Proc. ACM SIGMOD Int'l Conf.Management of Data, Montreal. New York: ACM Press, 1996.73 ～ 84.
7Guha S, Rastogi R, Shin K. CURE: An efficient clustering algorithm for large databases. In: Proc. ACM SIGMOD Int'l Conf. Management of Data, Seattle. New York: ACM Press,1998. 73～84.
8Jiawei Han, Micheline. Data Mining: Concepts and Techniques.San Francisco: Morgan Kaufmann Publishers, 2000.
9C. Ordones, E. Omiecinski. Efficient disk-based K-means clustering for relational databases. IEEE Trans. Knowledge and Data Engineering, 2004, 16:909～921.
10C. Ordonez. Clustering binery data streams with K-means. ACM DKMD Workshop, San Diego, California, 2003.

共引文献17

1陈小全,张继红.基于改进粒子群算法的聚类算法[J].计算机研究与发展,2012,49(S1):287-291. 被引量：31
2薛万宇,谢从华,陆虎,袁林.基于密度聚类的医学图像分割及其局部特征提取[J].医疗设备信息,2006,21(10):88-90. 被引量：1
3胡学钢,王东波,吴共庆.一种基于层次树的高效密度聚类算法[J].合肥工业大学学报（自然科学版）,2008,31(2):187-190. 被引量：4
4樊明辉,林甲祥.一种新的考虑空间实体约束的空间聚类算法[J].福建电脑,2008,24(9):69-71.
5倪巍伟,陈耿,吴英杰,孙志挥.一种基于局部密度的分布式聚类挖掘算法[J].软件学报,2008,19(9):2339-2348. 被引量：19
6倪巍伟,徐立臻,崇志宏,吴英杰,刘腾腾,孙志挥.基于邻域属性熵的隐私保护数据干扰方法[J].计算机研究与发展,2009,46(3):498-504. 被引量：16
7刘铭,王晓龙,刘远超.一种大规模高维数据快速聚类算法[J].自动化学报,2009,35(7):859-866. 被引量：18
8武佳薇,李雄飞,孙涛,李巍.邻域平衡密度聚类算法[J].计算机研究与发展,2010,47(6):1044-1052. 被引量：22
9党小超,郝占军,王筱娟.基于簇连接度聚类算法的入侵检测[J].计算机工程与应用,2010,46(21):82-85. 被引量：1
10黄旭,吕强,钱培德.一种用于蛋白质结构聚类的聚类中心选择算法[J].自动化学报,2011,37(6):682-692. 被引量：7

同被引文献62

1李洁,高新波,焦李成.基于克隆算法的网络结构聚类新算法[J].电子学报,2004,32(7):1195-1199. 被引量：24
2朱蔚恒,印鉴,谢益煌.基于数据流的任意形状聚类算法[J].软件学报,2006,17(3):379-387. 被引量：50
3李洁,高新波,焦李成.基于特征加权的模糊聚类新算法[J].电子学报,2006,34(1):89-92. 被引量：113
4张强,李淼.基于遗传算法和遗传模糊聚类的混合聚类算法[J].计算机工程与应用,2007,43(3):164-165. 被引量：7
5曹锋,周傲英.基于图形处理器的数据流快速聚类[J].软件学报,2007,18(2):291-302. 被引量：24
6忻凌,倪志伟,黄玲.基于数据流的BIRCH改进聚类算法[J].计算机工程与应用,2007,43(5):166-168. 被引量：6
7印鉴,梅芳,张钢,任江涛.基于先验知识下支持向量机P-SVM的分类算法[J].小型微型计算机系统,2007,28(3):474-478. 被引量：2
8唐贤伦,仇国庆,李银国,曹长修.基于粒子群优化和SOM网络的聚类算法研究[J].华中科技大学学报（自然科学版）,2007,35(5):31-33. 被引量：9
9颜晓龙,沈鸿.一种适用于高维数据流的子空间聚类方法[J].计算机应用,2007,27(7):1680-1684. 被引量：6
10GOLAB L, OZSU M T. Issues in data stream management[ BD/OL]. [2008-02-20 ]. http://portal. acm. org/citation. cfm? id = 776986.

引证文献8

1吾守尔.斯拉木,李丰军,陶梅.IBORA:一种改进的有效的边界点检测[J].小型微型计算机系统,2008,29(10):1845-1848.
2印桂生,于翔,宁慧.基于粗约简的数据流增量聚类算法[J].西南交通大学学报,2009,44(5):637-642. 被引量：2
3吴磊,彭德中,彭磊,曾家智.结合Mercer核与SOM的动态免疫网络聚类算法[J].小型微型计算机系统,2010,31(2):333-337. 被引量：3
4龚云,赵鹏,王守军.基于时间衰减和密度的任意簇数据流聚类[J].微型机与应用,2011,30(6):17-19.
5樊龙军,李艳,吴磊,陈鹏.基于动态免疫网络的聚类算法[J].福建电脑,2011,27(5):1-4.
6李杨,檀柏红.基于点击流的频繁模式聚类算法研究[J].天津科技大学学报,2011,26(3):69-73.
7钱晨嗣,陈伟鹤.基于转发关系和单词特征的微博话题识别模型[J].信息技术,2018,42(9):44-49.
8陈华,陈伟旭,雷衍,王亚伟.基于引力原理的聚类问题一个新算法[J].新型工业化,2014,4(6):67-71. 被引量：3

二级引证文献8

1陈韬伟,金炜东,李杰.基于灰关联测度的分裂式层次聚类算法[J].西南交通大学学报,2010,45(2):296-301. 被引量：6
2朱琳,刘晓东,朱参世.基于衰减滑动窗口数据流聚类算法研究[J].计算机工程与设计,2012,33(7):2659-2662. 被引量：6
3高燕飞,陈俊杰.自治数据库系统中聚类算法的研究与设计[J].电脑开发与应用,2012,25(7):11-13.
4高燕飞,陈俊杰,乔冰琴.增量聚类算法的研究与设计[J].太原科技大学学报,2012,33(4):259-262. 被引量：1
5张琦,武小梅,田明正,谢海波.基于布谷鸟搜索优化的光伏电站辐照强度预测[J].宁夏电力,2017(4):22-28.
6蔡金川,张超,樊丽.基于ZigBee和GPRS的智能家居设计以及传感数据基于时间序列的聚类分析[J].新型工业化,2017,7(3):25-32. 被引量：10
7马莉雅.基于决策树、逻辑回归和改进神经网络的几种慢性病的危险因素分析研究(英文)[J].软件,2014,35(12):58-65. 被引量：6
8陈磊磊.不同距离测度的K-Means文本聚类研究[J].软件,2015,36(1):56-61. 被引量：38

1李杨,檀柏红.基于点击流的频繁模式聚类算法研究[J].天津科技大学学报,2011,26(3):69-73.
2杨慧,王丽婧.基于聚类和拟合的QAR数据离群点检测算法[J].计算机工程与设计,2015,36(1):174-177. 被引量：7
3倪巍伟,陆介平,陈耿,孙志挥.基于k均值分区的数据流离群点检测算法[J].计算机研究与发展,2006,43(9):1639-1643. 被引量：20
4查成东,王长松,巩宪锋,周家新.基于改进K-均值聚类算法的背景提取方法[J].计算机工程与设计,2007,28(21):5141-5143. 被引量：7
5闫昭博,赵静,朱丽萍.一种基于网格和距离阈值的空间数据流聚类算法[J].山西大学学报（自然科学版）,2008,31(4):521-525. 被引量：1
6涂嘉庆.新生物数据库中特征目标数据检测仿真研究[J].计算机仿真,2016,33(10):433-436.
7姜杰,公丕强.基于数据流系统的空间数据流系统建模[J].通信与信息技术,2012(3):78-80.
8于彦伟,王沁,邝俊,何杰.一种基于密度的空间数据流在线聚类算法[J].自动化学报,2012,38(6):1051-1059. 被引量：28
9陈刚,顾进广,刘玲睿.空间数据流的无阻塞快速连接算法[J].华中科技大学学报（自然科学版）,2010,38(12):44-47. 被引量：1
10桂智明,廖湖声.基于扩展XQuery引擎的空间数据流查询方法研究[J].计算机应用研究,2007,24(12):72-73.

小型微型计算机系统

2007年第1期

浏览历史

内容加载中请稍等...

基于k均值分区的流数据高效密度聚类算法被引量：8

参考文献9

二级参考文献11

共引文献17

同被引文献62

引证文献8

二级引证文献8

相关作者

相关机构

相关主题

浏览历史

基于k均值分区的流数据高效密度聚类算法 被引量：8

参考文献9

二级参考文献11

共引文献17

同被引文献62

引证文献8

二级引证文献8

相关作者

相关机构

相关主题

浏览历史

基于k均值分区的流数据高效密度聚类算法被引量：8