一种基于信息熵和密度的K-means算法的改进被引量：1

An Improvement of K-means Algorithm Based on Information Entropy and Density

下载PDF

导出

摘要影响K-means聚类算法的因素主要有聚类个数、初始聚类中心、异常点、相似性度量和聚类评价准则五个方面。本文通过利用信息熵确定属性的权重,从而对欧氏距离进行加权处理,将孤立点从数据集中取出,从而更好得选出聚类中心,然后利用加权欧氏距离公式对数据集进行相应的聚类。实验结果表明,基于信息熵和密度的K-means聚类算法聚类结果更精确。 The factors affecting the K-means clustering algorithm mainly include five aspects:cluster number,initial cluster center,outlier,similarity measure and cluster evaluation criteria.This paper uses the information entropy to determine the weight of the attribute,thus the Euclidean distance is weighted,and the isolated points are taken out from the data set,so that the cluster center is better selected.Then,the data set is clustered by the weighted Euclidean distance formula.The experimental results show that the K-means clustering algorithm based on information entropy and density is more accurate.

作者谷玉荣 GU Yu-rong(North Automatic Control Technology Institute,Taiyuan Shanxi 030006)

机构地区北方自动控制技术研究所

出处《数字技术与应用》 2018年第12期107-109,112,共4页 Digital Technology & Application

关键词信息熵加权欧氏距离基于信息熵和密度的K-means聚类算法 information entropy weighted Euclidean distance K-means clustering algorithm based on information entropy and density

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献8

1牛琨,张舒博,陈俊亮.融合网格密度的聚类中心初始化方案[J].北京邮电大学学报,2007,30(2):6-10. 被引量：15
2崔斌,卢阳.基于不确定数据的查询处理综述[J].计算机应用,2008,28(11):2729-2731. 被引量：12
3韩凌波,王强,蒋正锋,郝志强.一种改进的k-means初始聚类中心选取算法[J].计算机工程与应用,2010,46(17):150-152. 被引量：91
4孙士保,秦克云.改进的k-平均聚类算法研究[J].计算机工程,2007,33(13):200-201. 被引量：50
5左进,陈泽茂.基于改进K均值聚类的异常检测算法[J].计算机科学,2016,43(8):258-261. 被引量：51
6刘闯,陈桂芬.基于密度最大值的K-means初始聚类中心点算法改进[J].数字技术与应用,2017,35(11):118-119. 被引量：4
7邢长征,谷浩.基于平均密度优化初始聚类中心的k-means算法[J].计算机工程与应用,2014,50(20):135-138. 被引量：32
8杨玉梅.基于信息熵改进的K-means动态聚类算法[J].重庆邮电大学学报（自然科学版）,2016,28(2):254-259. 被引量：20

二级参考文献78

1余建桥,张帆.基于数据场改进的PAM聚类算法[J].计算机科学,2005,32(1):165-167. 被引量：15
2袁方,周志勇,宋鑫.初始聚类中心优化的k-means算法[J].计算机工程,2007,33(3):65-66. 被引量：152
3Tan Pang-ning,Steinbaeh M,Kumar V.Introduction to data mining[M]. [S.l.] : Addison Wesley, 2005.
4Han Jia-wei,Kamber M.Data mining:Concepts and techniques[M]. [S.l.]:Morgan Kaufmann Publishers,2001.
5孙士保,秦克云.改进的k-平均聚类算法研究[J].计算机工程,2007,33(13):200-201. 被引量：50
6Han J W,Kamber M.Data mining concepts and techniques[M].Singapore:Elesvier Inc,2006:402-404.
7Ye Yunming,Huang Zhexue,Chen Xiaojun,et al.Neighborhood density method for selecting initial cluster centers in K-means clustering[C]∥Proceedings of PAKDD '06:Advances in Knowledge Discovery and Data Mining,10th Pacific-Asia Conference.Singapore:Springer,2006:189-198.
8He Ji,Lan M,Tan C L,et al.Initialization of cluster refinement algorithms:a review and comparative study[C]∥Proceedings of International Joint Conference on Neural Networks.Budapest:[s.n.],2004:297-302.
9Kaufman L.Finding groups in data:an introduction to cluster analysis[M].New York:Wiley,1990:64-75.
10Katsavounidis I,Kuo C,Zhang Zhen.A new initialization technique for generalized lloyd iteration[J].IEEE Signal Processing Letters,1994,1(10):144-146.

共引文献253

1梁胜彬,朱斌,渠慎明.一种基于FOA与Autoencoder改进的聚类算法[J].河南大学学报（自然科学版）,2020,0(1):70-79.
2李飞谷,张玉香,朱峰波,温良涛.提高地方煤质数据库应用价值的途径[J].中国科技纵横,2018,0(17):167-168. 被引量：1
3吴东飞,金玉龙,蒋建国.基于TMS320DM6467和TMS320C6472的高清视频处理系统[J].数据采集与处理,2012,27(S2):227-234.
4杜凌霞,李翠平,陈红,张应龙.概率图上的对象相似度计算[J].计算机研究与发展,2011,48(S3):326-333. 被引量：1
5李卫平.K-Means聚类算法研究[J].中国西部科技,2008,7(8):52-53. 被引量：11
6李江,孙立军.一种基于自由流车速的交通数据检验方法[J].交通运输系统工程与信息,2008,8(4):30-35. 被引量：4
7孙秀娟,刘希玉.基于新聚类有效性函数的改进K-means算法[J].计算机应用,2008,28(12):3244-3247. 被引量：4
8黄浩,肖立志,张国毅,孙强.基于模拟退火的K-means算法研究[J].舰船电子对抗,2008,31(6):103-105. 被引量：4
9陈森平,陈启买.基于熵的K均值算法的改进[J].广东技术师范学院学报,2008,29(9):27-29. 被引量：2
10靳战峰,李江,孙立军.稳定性交通参数检验方法研究[J].公路工程,2009,34(1):38-41. 被引量：2

同被引文献20

1孟天广,黄种滨,张小劲.政务热线驱动的超大城市社会治理创新——以北京市“接诉即办”改革为例[J].公共管理学报,2021(2):1-12. 被引量：59
2王知津,陈婧.公众参与视角下的政府信息资源管理[J].信息资源管理学报,2011,1(2):24-31. 被引量：7
3李军,乔立民,王加强,高杰.智慧政务框架下大数据共享的实现与应用研究[J].电子政务,2019(2):34-44. 被引量：28
4李祝启,陆和建,申林.政府网络舆情日志大数据挖掘实证研究[J].情报科学,2014,32(11):58-61. 被引量：19
5李卫疆,王真真,余正涛.基于BTM和K-means的微博话题检测[J].计算机科学,2017,44(2):257-261. 被引量：13
6刘金硕,彭映月,章岚昕,陈煜森,邓娟.网络食品安全问题话题发现的LDA-K-means算法[J].武汉大学学报（工学版）,2017,50(2):307-310. 被引量：8
7裘江南,谷文静,翟劼.基于用户影响力的热点话题检测方法研究[J].情报杂志,2017,36(4):156-161. 被引量：5
8李一宁,金世斌,刘亮亮.完善政务服务工作运行机制研究[J].中国行政管理,2017(6):6-10. 被引量：12
9张康之.公共管理:社会治理模式的转型[J].天津社会科学,2002(4):57-63. 被引量：23
10李克强.在全国深化“放管服”改革优化营商环境电视电话会议上的讲话[J].中国行政管理,2019(7):6-10. 被引量：38

引证文献1

1沈超,刘莉敏,徐滔,何秀美.政务大数据驱动的动态社会治理研究[J].南京邮电大学学报（社会科学版）,2022,24(6):48-57. 被引量：1

二级引证文献1

1赵波,岳中刚,李娜.政府数字化转型中公共机构人员数字素养:框架构建、实践困境与提升路径[J].南京邮电大学学报（社会科学版）,2023,25(5):76-84.

1田榆杰,宋耀莲,龙华,张漪.基于兼存率与单项事务的关联规则优化算法[J].信息技术,2019,43(1):75-78. 被引量：3
2那晶.医疗机构卓越绩效模式导入探讨[J].管理观察,2018(36):171-172. 被引量：2
3李顺勇,张苗苗.一种带权的混合数据聚类个数确定算法[J].计算机应用与软件,2019,36(1):284-290. 被引量：19
4袁泽恒,田润澜,王晓峰.基于自适应遗传算法的雷达信号特征选择[J].电子信息对抗技术,2019,34(1):9-12. 被引量：2
5贺文,刘书恒,冯芷萱,翁洁(指导).我们身边的“平均拥有”[J].数学小灵通（启蒙版）（学龄前）,2019(1):50-53.
6黄晗.论历史人物的评价——以隋炀帝的评价为例[J].黑龙江史志,2010(15):27-27.
7罗毅敏.基于北斗定位技术的枪支管理PLBS云平台技术[J].电子技术与软件工程,2019(1):26-26. 被引量：1
8刘叶,吴晟,周海河,吴兴蛟,韩林峄.基于K-means聚类算法优化方法的研究[J].信息技术,2019,43(1):66-70. 被引量：22
9彭康华,姚江梅,黄裕锋.一种新型有向加权协同过滤算法的推荐技术研究[J].计算机与数字工程,2019,47(1):115-121. 被引量：2
10乔晓攀.IT运维监管平台的应用探讨[J].现代工业经济和信息化,2018,8(18):63-65.

数字技术与应用

2018年第12期

浏览历史

内容加载中请稍等...

一种基于信息熵和密度的K-means算法的改进被引量：1

参考文献8

二级参考文献78

共引文献253

同被引文献20

引证文献1

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

一种基于信息熵和密度的K-means算法的改进 被引量：1

参考文献8

二级参考文献78

共引文献253

同被引文献20

引证文献1

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

一种基于信息熵和密度的K-means算法的改进被引量：1