HCLOPE:一种处理分类数据的优化层次聚类算法被引量：2

HCLOPE: AN OPTIMISED HIERARCHICAL CLUSTERING ALGORITHM FOR CATEGORICAL DATA PROCESSING

下载PDF

导出

摘要随着分类数据规模的快速增长,关于分类数据聚类方法的研究日趋重要。在现有的算法中,CLOPE在运行速度、内存开销和聚类结果方面要优于同类算法,但是它的聚类质量并没有达到最优,而且受到输入数据顺序的影响,显现出不稳定性。基于此原因,提出一种处理分类数据的层次聚类算法HCLOPE,采用自底向上的凝聚法生成稳定的聚类结果。此外,还定义了聚簇间全局最大的收益差值作为聚类的合并准则,并引入无向图的结构优化聚类合并迭代过程。在蘑菇数据集上运行的实验结果显示HCLOPE的聚类质量更优。 With the rapid growth of categorical data volume,the research on clustering methods for categorical data becomes increasingly important. Among current categorical clustering algorithms,CLOPE has better performance than similar algorithms on processing rate,memory consumption and clustering result. However,its clustering quality has not reached the optimal yet,and is affected by the sequence of input data that leads to instability. For this reason,we propose a hierarchical clustering algorithm for categorical data processing HCLOPE,it generates stable clustering result with a bottom-to-up merging process. Moreover,we also define the global maximum delta value of profit between clusters as the merging criteria of clustering,and introduce an undirected graph structure to optimise the merging iteration process of clustering. Results of experiment conducted on mushroom benchmark dataset demonstrate that the clustering quality of HCLOPE is much higher.

作者李晔锋乐嘉锦王梅

机构地区东华大学计算机科学与技术学院

出处《计算机应用与软件》 CSCD 2016年第7期60-63,共4页 Computer Applications and Software

关键词 HCLOPE 分类数据层次聚类稳定性无向图 HCLOPE Categorical data Hierarchical clustering Stability Undirected graph

分类号 TP301.6 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献2

1李洁,高新波,焦李成.模糊CLOPE算法及其参数优选[J].控制与决策,2004,19(11):1250-1254. 被引量：4
2何增有,徐晓飞,邓胜春.Squeezer：An Efficient Algorithm for Clustering Categorical Data[J].Journal of Computer Science & Technology,2002,17(5):611-624. 被引量：32

二级参考文献25

1Klosgen W, Zytkow J M. Knowledge discovery in databases terminology [A]. Advances in Knowledge Discovery and Data Mining[C]. AAAI Press/The MIT Press, 1996. 573-592.
2Cormack R M. A review of classification [J]. J Roy Statist Soc Serie A, 1971,134: 321-367.
3Anderberg M R. Cluster Analysis for Applications[M].New York : Academic Press, 1973.
4Zhexue Huang, Michael K Ng. A fuzzy k-modes algorithm for clustering categorical data [J]. IEEE Trans on Fuzzy Systems, 1999,7 (4): 446-452.
5Zhexue Huang. A fast clustering algorithm to cluster very large categorical data sets in data mining[A]. Proc of the SIGMOD Workshop on Research Issues on Data Mining and Knowledge Discovery [C]. ACM Press,1997. 1-8.
6Yiling Yang, Xudong Guan. CLOPE: A fast and effective clustering algorithm for transactional data [ A ]. The Eighth ACM SIGKDD Int Conf on Knowledge Discovery and Data Mining[C]. Edmonton,2002.
7Michalski R S, Stepp R E. Automated construction of classifications: Conceptual clustering versus numerical taxonomy[J]. IEEE PAMI, 1983,5: 396-410.
8Sudipto Guha, Rajeev Rastogi, Kyuseok Shim. ROCK: A robust clustering algorithm for categorical attributes. In Proc. 1999 Int. Conf. Data Engineering, Sydney, Australia, Mar., 1999, pp.512-521.
9Alexandros Nanopoulos, Yannis Theodoridis, Yannis Manolopoulos. C2P: Clustering based on closest pairs. In Proc. 27th Int. Conf. Very Large Database, Rome, Italy, September, 2001, pp.331-340.
10Ester M, Kriegel H P, Sander J, Xu X. A density-based algorithm for discovering clusters in large spatial databases.In Proc. 1996 Int. Conf. Knowledge Discovery and Data Mining (KDD'96), Portland, Oregon, USA, Aug., 1996,pp.226-231.

共引文献34

1卓琳,赵厚宇,詹思延.异常检测方法及其应用综述[J].计算机应用研究,2020,37(S01):9-15. 被引量：25
2蒋盛益,李庆华.一种基于引力的聚类方法[J].计算机应用,2005,25(2):286-288. 被引量：9
3蒋盛益,李庆华.聚类分析中的差异性度量方法研究[J].计算机工程与应用,2005,41(11):146-149. 被引量：4
4蒋盛益,李庆华,李新.数据流挖掘算法研究综述[J].计算机工程与设计,2005,26(5):1130-1132. 被引量：21
5蒋盛益,李庆华,王卉,孟中楼.一种基于聚类的有指导的入侵检测方法[J].小型微型计算机系统,2005,26(6):1042-1045. 被引量：6
6蒋盛益,李庆华,赵延喜.一种两阶段异常检测方法[J].小型微型计算机系统,2005,26(7):1237-1240. 被引量：7
7蒋盛益,李庆华.基于引力的入侵检测方法[J].系统仿真学报,2005,17(9):2202-2206. 被引量：6
8郝凯,朱敏.有源雷达组网目标定位中去除虚假目标的改进方法[J].四川大学学报（自然科学版）,2006,43(2):315-319. 被引量：4
9蒋盛益,阮幼林,李庆华.面向混合属性的高效聚类算法研究[J].计算机工程,2006,32(12):47-49.
10蒋盛益.基于投票机制的融合聚类算法[J].小型微型计算机系统,2007,28(2):306-309. 被引量：7

同被引文献12

1侯静,宋安平,王卓,张武,李园园,李亦学.图形聚类算法的代谢网络模块化分析[J].应用科学学报,2006,24(6):588-592. 被引量：7
2ZHANG ZhongYuan.Community structure detection in social networks based on dictionary learning[J].Science China(Information Sciences),2013,56(7):178-189. 被引量：10
3王洪伟,邹莉.考虑长期与短期兴趣因素的用户偏好建模[J].同济大学学报（自然科学版）,2013,41(6):953-960. 被引量：13
4扈中凯,郑小林,吴亚峰,陈德人.基于用户评论挖掘的产品推荐算法[J].浙江大学学报（工学版）,2013,47(8):1475-1485. 被引量：29
5任丽芳.基于聚类的加速k-近邻分类方法[J].计算机应用与软件,2015,32(10):298-301. 被引量：6
6周润物,李智勇,陈少淼,陈京,李仁发.面向大数据处理的并行优化抽样聚类K-means算法[J].计算机应用,2016,36(2):311-315. 被引量：45
7陈谊,林晓蕾,赵云芳,孙悦红,张珣.SunMap:一种基于热图和放射环的关联层次数据可视化方法[J].计算机辅助设计与图形学学报,2016,28(7):1075-1083. 被引量：14
8高艳,岳昆,武浩,付晓东,刘惟一.面向用户偏好发现的隐变量模型构建与推理[J].计算机应用,2017,37(2):360-366. 被引量：3
9杨振凯,李响,杨飞.一种面向百万级数据的热力图生成算法[J].测绘科学,2018,43(8):85-89. 被引量：12
10陈红倩,温玉琳,杨倩玉,李慧.针对农残检测数据的多MRL分析系统[J].计算机应用与软件,2018,35(9):79-84. 被引量：2

引证文献2

1刘晓慧,江峰,杜军威,余东瑾.面向用户偏好分析的无向图层次聚类并行优化算法[J].计算机与数字工程,2020,48(5):1137-1142.
2张静.基于热图和放射环的关联层次数据可视化研究[J].九江学院学报（自然科学版）,2021,36(2):72-74.

1戴橙,陈胜.改进的分水岭算法用于X光医学图像分割[J].电子科技,2015,28(6):9-12. 被引量：3
2高海林,栾翠菊.多面体模型代码生成算法研究[J].小型微型计算机系统,2015,36(5):1033-1036.
3潘延军.基于浏览内容研究的一种改进的聚类算法[J].中国科技信息,2005(14):54-54.
4朱杰,李宁,高相辉.基于间隔聚类合并的支持向量机反问题求解算法[J].计算机应用,2009,29(9):2481-2482. 被引量：1
5张悦,刘旸.基于决策树数据挖掘的分析与应用[J].辽宁石油化工大学学报,2007,27(1):78-80. 被引量：7
6童先群,周忠眉.基于层次聚类法的Entropy-KNN算法[J].漳州师范学院学报（自然科学版）,2012,25(1):43-47. 被引量：2
7杨剑.一种改进的基于密度聚类的入侵检测算法[J].微计算机信息,2009,25(3):58-60. 被引量：2
8王荇,郑成增.聚类算法在证券公司CRM中的应用[J].常州工学院学报,2008,21(4):59-62. 被引量：2
9於敏,于凤芹,陈莹.基于相似性和统计性的超像素的图像分割[J].计算机工程与应用,2017,53(2):177-180. 被引量：2
10李娜,钟诚.基于划分和凝聚层次聚类的无监督异常检测[J].计算机工程,2008,34(2):120-123. 被引量：25

计算机应用与软件

2016年第7期

浏览历史

内容加载中请稍等...

HCLOPE:一种处理分类数据的优化层次聚类算法被引量：2

参考文献2

二级参考文献25

共引文献34

同被引文献12

引证文献2

相关作者

相关机构

相关主题

浏览历史

HCLOPE:一种处理分类数据的优化层次聚类算法 被引量：2

参考文献2

二级参考文献25

共引文献34

同被引文献12

引证文献2

相关作者

相关机构

相关主题

浏览历史

HCLOPE:一种处理分类数据的优化层次聚类算法被引量：2