一种混合聚类算法及其应用被引量：2

A Hybrid Clustering Algorithm and It's Application

下载PDF

导出

摘要通过分析基于网格与基于密度的聚类算法特征,提出了一种基于网格和密度的混合聚类算法,通过分阶段聚类并选取代表单元中的种子对象来扩展类,从而减少区域查询次数,实现快速聚类。该算法保持了基于密度的聚类算法可以发现任意形状的聚类和对噪声数据不敏感的优点,同时保持了基于网格的聚类算法的高效性,适合对大规模数据的挖掘。实验数据分析验证了算法的有效性,对数据挖掘应用于设备状态监测和故障诊断具有指导意义。 Grounding on the analysis of features of grid-based and density-based clustering methods, a hybrid clustering algorithm based on grid and density was presented. By clustering in two phases and using only a small number of seed objects in representative units to expand the cluster, the frequency of region query can be decreased, and consequently the cost of time is reduced. An equivalent rule was proposed to make smooth conversion between clustering parameters in that two phases. The algorithm keeps good feature of both density-based and grid-based clustering methods. It can discover clusters with arbitrary shape with high efficiency and is insensitive to noise. So it is applicable for data mining on large database. The application of the hybrid algorithm in data analysis of accelerometer demonstrates its effectiveness. It is of instructional meaning for the application of data mining in equipment monitoring and faults diagnosis.

作者胡瑞飞殷国富谭颖

机构地区四川大学制造科学与工程学院

出处《四川大学学报（工程科学版）》 EI CAS CSCD 北大核心 2006年第5期156-161,共6页 Journal of Sichuan University (Engineering Science Edition)

基金国家自然科学基金资助项目(50575153)

关键词数据挖掘聚类种子对象 data mining clustering seed object

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献7

1杨文献,姜节胜.基于数据挖掘的柴油机气门故障诊断技术研究[J].机械工程学报,2004,40(10):25-29. 被引量：11
2David Hand,Heikki Mannila,Padhraic Smyth.Principles of datamining[M].Beijing:China Machine Press,Hawaii.2003:1-2.
3Jiawei Han,Micheline Kamber.Data mining concepts and Techniques[M].Beijing:China Machine Press,2001:223-261.
4马帅,王腾蛟,唐世渭,杨冬青,高军.一种基于参考点和密度的快速聚类算法[J].软件学报,2003,14(6):1089-1095. 被引量：108
5周水庚,周傲英,曹晶,胡运发.一种基于密度的快速聚类算法[J].计算机研究与发展,2000,37(11):1287-1292. 被引量：89
6Coxeter H S M.Regular Polytopes[M].3rd ed.New York:Dover,1973.
7Maunder C R F.Algebraic Topology[M].New York:Dover,1997.

二级参考文献17

1Han JW, Kambr M. Data Mining Concepts and Techniques. Beijing: Higher Education Press, 2001. 145-176.
2Kaufan L, Rousseeuw PJ. Finding Groups in Data: an Introduction to Cluster Analysis. New York: John Wiley & Sons, 1990.
3Ester M, Kriegel HP, Sander J, Xu X. A density based algorithm for discovering clusters in large spatial databases with noise. In:Simoudis E, Han JW, Fayyad UM, eds. Proceedings of the 2nd International Conference on Knowledge Discovery and Data Mining.Portland: AAAI Press, 1996. 226-231.
4Guha S, Rastogi R, Shim K. CURE: an efficient clustering algorithm for large databases. In: Haas LM, Tiwary A, eds. Proceedings of the ACM SIGMOD International Conference on Management of Data. Seattle: ACM Press, 1998. "73-84.
5Agrawal R, Gehrke J, Gunopolos D, Raghavan P. Automatic subspace clustering of high dimensional data for data mining application. In: Haas LM, Tiwary A, eds. Proceedings of the ACM SIGMOD International Conference on Management of Data.Seattle: ACM Press, 1998.94-105.
6Alexandros N, Yannis T,Yannis M. C^2P: clustering based on closest pairs. In: Apers PMG, Atzeni P, Ceri S, Paraboschi S,Ramamohanarao K, Snodgrass RT, eds. Proceedings of the 27th International Conference on Very Large Data Bases. Roma:Morgan Kaufmann Publishers, 2001. 331-340.
7Berchtold S, Bohm C, Kriegel H-P. The pyramid-technique: towards breaking the curse of dimensionality. In: Haas LM, Tiwary A,eds. Proceedings of the ACM SIGMOD International Conference on Management of Data. Seattle: ACM Press, 1998. 142- 153.
8Yu C, Ooi BC, Tan K-L, Jagadish HV. Indexing the distance: an efficient method to KNN processing. In: Apers PMG, Atzeni P,Ceri S, Paraboschi S, Ramamohanarao K, Snodgrass RT, eds. Proceedings of the 27th International Conference on Very Large Data Bases. Roma: Morgan Kaufmann Publishers, 2001. 421--430.
9Zhang W，Proc 23rd VL DB Conf，1997年，186页
10Chen M S，IEEE Trans Knowledge Data Engineering，1996年，8卷，6期，866页

共引文献201

1梁敏君,倪志伟,倪丽萍,杨葛钟啸.基于网格与分形维数的聚类算法[J].计算机应用,2009,29(3):830-832. 被引量：4
2周文勇.改进的K-均值聚类算法[J].光盘技术,2007(2):54-56. 被引量：6
3李玉鑑.自适应K-均值聚类算法[J].计算机研究与发展,2007,44(z2):100-104. 被引量：5
4王海,王忠民.一种基于密度和网格的聚类算法在KDD中的应用[J].计算机工程与应用,2004,40(24):180-182. 被引量：3
5周永权,焦李成.高属性维稀疏数据聚类回归逻辑神经网络模型及学习算法[J].电子学报,2004,32(8):1342-1345. 被引量：3
6林小红,蒋伟进.基于RS近似算法的医疗诊断知识挖掘[J].海军工程大学学报,2004,16(5):48-51.
7薛永生,翁伟,文娟,王劲波,张宇.LSNCCP——一种基于最大不相含核心点集的聚类算法[J].计算机研究与发展,2004,41(11):1930-1935. 被引量：2
8郭伟,唐晓君,刘万军.一种基于划分的聚类算法分析与改进[J].辽宁工程技术大学学报（自然科学版）,2004,23(6):826-828. 被引量：4
9陈燕,耿国华,郑建国.一种改进的基于密度的聚类算法[J].微机发展,2005,15(3):17-19. 被引量：13
10万志华,欧阳为民,张平庸.一种基于划分的动态聚类算法[J].计算机工程与设计,2005,26(1):177-179. 被引量：16

同被引文献23

1吴晓军,薛惠锋,李慜,兰壮丽.GA-PSO混合规划算法[J].西北大学学报（自然科学版）,2005,35(1):39-43. 被引量：21
2姜园,张朝阳,仇佩亮,周东方.用于数据挖掘的聚类算法[J].电子与信息学报,2005,27(4):655-662. 被引量：67
3吕强,俞金寿.基于粒子群优化的模糊c均值聚类算法——在丙烯腈反应器参数优化上的应用[J].计算机工程与应用,2005,41(22):211-214. 被引量：2
4王家耀,张雪萍,周海燕.一个用于空间聚类分析的遗传K-均值算法[J].计算机工程,2006,32(3):188-190. 被引量：19
5张强,李淼.基于遗传算法和遗传模糊聚类的混合聚类算法[J].计算机工程与应用,2007,43(3):164-165. 被引量：7
6Berkhin P.A survey of clustering data mining techniques[R].Berlin:Springer Heidelberg,2006.
7Johannes Grabmeier,Andreas Rudolph.Techniques of cluster algorithms in data mining[J].Data Mining and Knowledge Discovery J,2002,6(4):303-360.
8Ralambondrainy H.A conceptual version of the k-means algorithm[J].Pattern Recognition Letters,1995,16 (11):1147-1157.
9Hui Wang,Werner Dubitzky.A flexible and robust similarity measure based on contextual probability[C].Int Joint Conf on Artificial Intelligence,2005:27-34.
10Ma Shuai,Wang T J,Tang S W,et al.A fast clustering algorithm based on reference and density[J].J of Software,2003,14(6):1089-1095.

引证文献2

1廖志芳,罗浩,樊晓平,刘克准.一种面向混合属性数据聚类的新算法[J].控制与决策,2009,24(5):697-700. 被引量：5
2张俊溪,吴晓军.一种新的基于进化计算的聚类算法[J].计算机工程与应用,2011,47(24):111-114. 被引量：6

二级引证文献11

1周涛,陆惠玲.数据挖掘中聚类算法研究进展[J].计算机工程与应用,2012,48(12):100-111. 被引量：145
2叶清,吴晓平,叶晓慧,郭江威.基于PCA与FCM的入侵检测样本数据压缩方法[J].海军工程大学学报,2012,24(5):25-30. 被引量：2
3杨中国,李洪奇,朱丽萍,刘蔷.基于语义模式和引用分布的科技文献信息抽取[J].山东大学学报（理学版）,2015,50(3):11-19. 被引量：3
4梁鲜,曲福恒,杨勇,才华.基于加权处罚的K-均值优化算法[J].长春理工大学学报（自然科学版）,2015,38(4):132-137. 被引量：2
5谷欣超,梁鲜,曲福恒,才华,杨勇.基于处罚的K-均值优化算法[J].长春理工大学学报（自然科学版）,2015,38(6):103-107. 被引量：1
6朱俚治,朱梧檟.一种实现混合属性数据流聚类的算法[J].计算技术与自动化,2016,35(2):34-37. 被引量：1
7张宇献,彭辉灯,王建辉.基于异构值差度量的SOM混合属性数据聚类算法[J].仪器仪表学报,2016,37(11):2555-2562. 被引量：5
8李鑫,李凌雁,李楠.基于RFID和WSN的采摘机器人自主定位与导航设计[J].农机化研究,2017,39(9):215-218. 被引量：5
9李红亚,彭昱忠,邓楚燕,龚道庆.GA与PSO的混合研究综述[J].计算机工程与应用,2018,54(2):20-28. 被引量：42
10王凤领.一种改进差分进化的自动聚类算法研究[J].数学的实践与认识,2018,48(21):187-194. 被引量：2

1李筠,宋凯,姜学军.一种基于网格索引的数据聚类算法[J].计算机工程与应用,2008,44(16):139-141. 被引量：1
2赵学武,刘向娇,尹孟洋.数据挖掘常用聚类算法研究[J].电脑知识与技术,2014(6):3710-3712. 被引量：5
3赵慧,刘希玉,崔海青.网格聚类算法[J].计算机技术与发展,2010,20(9):83-85. 被引量：28
4张横云.一种优化的基于网格的聚类算法[J].西南民族大学学报（自然科学版）,2009,35(3):635-637.
5翁宁龙,刘冉,吴子章.一种改进的LBP特征的人脸识别方法[J].信息通信,2011,24(3):3-4. 被引量：1
6周水庚,周傲英,曹晶,胡运发.一种基于密度的快速聚类算法[J].计算机研究与发展,2000,37(11):1287-1292. 被引量：89
7郭晨晨,朱红康.基于K-均值和K-中心点算法的大数据集分析[J].太原师范学院学报（自然科学版）,2016,15(2):56-59.
8薛忠,王玉顺.排种图像的小波变换及其评价[J].山西农业大学学报（自然科学版）,2006,26(4):399-401.
9杨仕海,傅鹂.便利体和障碍物下基于网格的空间聚类算法[J].计算机应用研究,2010,27(1):117-119. 被引量：2
10刘苗,黄朝兵.基于多特征自适应融合的MeanShift目标跟踪方法[J].现代计算机（中旬刊）,2016(4):68-72. 被引量：3

四川大学学报（工程科学版）

2006年第5期

浏览历史

内容加载中请稍等...

一种混合聚类算法及其应用被引量：2

参考文献7

二级参考文献17

共引文献201

同被引文献23

引证文献2

二级引证文献11

相关作者

相关机构

相关主题

浏览历史

一种混合聚类算法及其应用 被引量：2

参考文献7

二级参考文献17

共引文献201

同被引文献23

引证文献2

二级引证文献11

相关作者

相关机构

相关主题

浏览历史

一种混合聚类算法及其应用被引量：2