一种改进的基于特征赋权的K均值聚类算法被引量：10

An Improved K-Means Clustering Algorithm Based on Feature Weighting

下载PDF

导出

摘要聚类分析是数据挖掘及机器学习领域内的重点问题之一。近年来，为了提高聚类质量，借鉴和引入了分类领域特征选择及特征赋权思想，提出了一些基于特征赋权的聚类算法。在这些研究基础上，本文提出了一种基于密度的初始中心点选择算法，并借鉴文[1]所提出的特征赋权方法，给出了一种改进的基于特征赋权的K均值算法。实验表明该算法能较为稳定地得到较高质量的聚类结果。 Clustering analysis is one of the important problems in the data mining and machine learning areas. Recently, feature selection and feature weighting methods are introduced to clustering algorithms for improving the clustering quality. Inspired by the research, an improved k-means clustering based on feature weighting is proposed, which proposes a density-based initial centers search algorithm. The experiments show that the proposed algorithm can result in high quality clustering steadily.

作者任江涛施潇潇孙婧昊黄焕宇印鉴

机构地区中山大学计算机科学系

出处《计算机科学》 CSCD 北大核心 2006年第7期186-187,共2页 Computer Science

基金国家自然科学基金项目(60374059) 广东省自然科学基金项目(04300462)资助

关键词聚类特征赋权初始化 Clustering, Feature weighting, Initialization

分类号 TP311.13 [自动化与计算机技术—计算机软件与理论] TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献6

1Domeniconi C, Papadopoulos D, Gunopulos D, Ma S. Subspace Clustering of High Dimensional Data. In: Proc. of the Fourth SIAM Intl. Conf. on Data Mining,2004. 517-521
2Chan E Y, Ching W K, Ng M K, Huang J Z. An optimization algorithm for clustering using weighted dissimilarity measures. Pattern Recognition, 2004,37 : 943-952
3Wang Xizhao, Wang Yadong, Wang Lijuan. Improving fuzzy cmeans clustering based on feature-weight learning. Pattern Recognition Letters, 2004,25 : 1123 - 1132
4Aggarwal C C ,Procopiuc C,Wolf J L,et aL Fast Algorithms for Projected Clustering. In: Proc. of ACM SIGMOD Conference 99,1999. 61-72
5Kaufman L,Rousseeuw P. Finding Groups in Data - An Introduction to Cluster Analysis. Wiley Series in Probability and Mathematical Statistics, 1990
6Huang Zhexue. Extensions to the K-Means Algorithm for Clustering LargeData Sets with Categorical Values. Data Mining and Knowledge Discovery, 1998. 283-304

同被引文献76

1姜园,张朝阳,仇佩亮,周东方.用于数据挖掘的聚类算法[J].电子与信息学报,2005,27(4):655-662. 被引量：68
2杨善林,李永森,胡笑旋,潘若愚.K-MEANS算法中的K值优化问题研究[J].系统工程理论与实践,2006,26(2):97-101. 被引量：190
3王鑫,王洪国,王珺,王金枝.数据挖掘中聚类方法比较研究[J].计算机技术与发展,2006,16(10):20-22. 被引量：22
4钱线,黄萱菁,吴立德.初始化K-means的谱方法[J].自动化学报,2007,33(4):342-346. 被引量：32
5Likas A,Vlassis M,Verbeek J.The global k-means clusteringalgorithm[J].Pattern Recognition,2003,36(2):451-461.
6王晓东.计算机算法与设计[M].北京:电子工业出版社,2004:86-105.
7Yunjae J. Design and evaluation of clustering criterion for optimal hierarchical agglomerative clustering[ D]. USA: Department of Computer Science , University of Minnesota, 2001.
8Vesanto J, Mhoniemi E. Clustering of the self-organizing map[ J]. Transactions on Neural Network, 2000,11 (3) : 586-600.
9Wang B B, McKay R I, Abbass H A, et al. A comparative study for domain ontology guided feature extraction[ C]. Australia: Australian Computer Society Inc, 2003 : 69-78.
10斯蒂芬·P·罗宾斯.管理学[M].北京:人民大学出版社,1997:99-117.

引证文献10

1陈媛媛,屈志毅,张恒龙,廖绍雯.一种初值优化的K-均值文档聚类算法(英文)[J].江西师范大学学报（自然科学版）,2008,32(2):206-210. 被引量：2
2刘艳丽,刘希玉,孟岩,祖伟.K-均值算法聚类分析及其在人力资源管理中的应用[J].山东科学,2008,21(2):33-38. 被引量：5
3王会青,陈俊杰,郭凯.启发式初始化独立的k-均值算法研究[J].计算机工程与应用,2012,48(11):129-132. 被引量：4
4何云斌,肖宇鹏,万静,李松.基于密度期望和有效性指标的K-均值算法[J].计算机工程与应用,2013,49(24):105-111. 被引量：10
5谭佩知.基于K-MEAN算法的知识资源聚类研究[J].信息技术与信息化,2015(10):191-192.
6曾庆山,张贵勇.基于距离阈值的自适应K-均值聚类算法[J].郑州大学学报（理学版）,2016,48(4):90-94. 被引量：5
7陈东,皮德常.基于属性加权的改进K-Means算法[J].电脑知识与技术,2009,5(3X):2412-2413. 被引量：2
8王燕妮,李军,田思敏.模糊ISODATA聚类结合直方图熵值算法的异常行为检测[J].现代电子技术,2017,40(12):120-123. 被引量：2
9林丽,薛芳.基于逻辑回归函数的加权K-means聚类算法[J].集美大学学报（自然科学版）,2021,26(2):139-145. 被引量：8
10马钰,莫路锋.通过密度思想和聚类有效性指标改进的K-means算法[J].现代电子技术,2021,44(17):120-123. 被引量：9

二级引证文献47

1程媛媛.基于Prim最小生成树算法的时间成本研究[J].河北北方学院学报（自然科学版）,2013,29(6):24-28. 被引量：2
2郭秀娟,战冬梅.K-means聚类算法分析及在教师授课质量评价中的应用[J].吉林工程技术师范学院学报,2009,25(6):74-77. 被引量：9
3孙可,刘杰,王学颖.K均值聚类算法初始质心选择的改进[J].沈阳师范大学学报（自然科学版）,2009,27(4):448-450. 被引量：15
4王卫国,徐炜民.基于潜在语义分析的个性化查询扩展模型[J].计算机工程,2010,36(21):43-45. 被引量：13
5易倩,滕少华,张巍.基于马氏距离的K均值聚类算法的入侵检测[J].江西师范大学学报（自然科学版）,2012,36(3):284-287. 被引量：7
6赵凯,李声晋,白雪,赵锋.复合形退火的随机聚类算法[J].计算机应用研究,2013,30(4):1041-1043. 被引量：2
7朱利华.基于混沌PSO和K均值算法的移动用户分类[J].计算技术与自动化,2013,32(4):57-60.
8陈思慧.基于MIP和改进模糊K-Means算法的大数据聚类设计[J].计算机测量与控制,2014,22(4):1270-1272. 被引量：4
9齐绪停,刘丽.基于最小距离的k－means初始中心点优化算法[J].山东师范大学学报（自然科学版）,2015,30(1):38-40.
10毛秀,冒纯丽,丁岳伟.基于密度和聚类指数改进的K-means算法[J].电子科技,2015,28(11):47-50. 被引量：10

1任江涛,卓晓岚,许盛灿,印鉴.基于PSO面向K近邻分类的特征权重学习算法[J].计算机科学,2007,34(5):187-189. 被引量：7
2韩旭明,孙海波,王丽敏.基于变异赋权的吸引子传播算法[J].吉林大学学报（理学版）,2014,52(3):551-555. 被引量：1
3齐连永,窦万春,周毓明.一种上下文感知的E-commerce评级大数据赋权方法[J].上海大学学报（自然科学版）,2016,22(1):36-44.
4刘海峰,刘守生,汪泽焱.一种基于类别信息的改进文本特征选择[J].计算机应用与软件,2010,27(6):8-10. 被引量：1
5刘海峰,姚泽清,汪泽焱,张学仁.基于位置的文本特征加权方法研究[J].微电子学与计算机,2009,26(2):188-192. 被引量：9
6李旭辉,郑丽英.基于特征赋权的离群数据再聚类算法[J].兰州交通大学学报,2008,27(1):135-137.
7陈振亚,陈光辉,徐建民.一种基于本体的文本特征选取方法[J].广西师范大学学报（自然科学版）,2011,29(1):143-146. 被引量：2
8刘海峰,汪泽焱,姚泽清,刘守生.文本分类中一种基于密度的KNN改进方法[J].情报学报,2009,28(6):834-838. 被引量：4
9林水明,吴伟民,陶桂华,林志毅,苏庆.基于主成分分析的代码混淆有效性综合评估模型[J].计算机应用研究,2016,33(9):2819-2822. 被引量：7
10李骞,范茵,张璟,李宝强.基于室外图像的天气现象识别方法[J].计算机应用,2011,31(6):1624-1627. 被引量：25

计算机科学

2006年第7期

浏览历史

内容加载中请稍等...

一种改进的基于特征赋权的K均值聚类算法被引量：10

参考文献6

同被引文献76

引证文献10

二级引证文献47

相关作者

相关机构

相关主题

浏览历史

一种改进的基于特征赋权的K均值聚类算法 被引量：10

参考文献6

同被引文献76

引证文献10

二级引证文献47

相关作者

相关机构

相关主题

浏览历史

一种改进的基于特征赋权的K均值聚类算法被引量：10