基于平均差异度的改进k-prototypes聚类算法被引量：4

Improved k-prototypes clustering algorithm based on average difference degree

下载PDF

导出

摘要针对k-prototypes聚类算法随机选取初始聚类中心导致聚类结果不稳定,以及现有的大多数混合属性数据聚类算法聚类质量不高等问题,提出了基于平均差异度的改进k-prototypes聚类算法.通过利用平均差异度选取初始聚类中心,避免了初始聚类中心点选取的随机性,同时利用信息熵确定数值数据的属性权重,并对分类属性度量公式进行改进,给出了一种混合属性数据度量公式.结果表明,改进后的算法具有较高的准确率,能够有效处理混合属性数据. In order to solve the problem that the random selection of initial cluster centers for the k-prototypes clustering algorithm brings about unstable clustering results and that the clustering quality of most currently existing clustering algorithms for mixed attribute data is not high,an improved k-prototypes algorithm based on average difference degree was proposed.Through using the average difference degree,the initial clustering centers were selected to avoid the selection randomness of initial clustering center points.In addition,the attribute weights of numerical data were determined by the information entropy,the metric formula of categorical attribute was improved,and a metric formula for the mixed attribute data was given.The results show that the improved algorithm can achieve better accuracy and can effectively process the data of mixed attribute.

作者石鸿雁徐明明 SHI Hong-yan;XU Ming-ming(School of Science,Shenyang University of Technology,Shenyang 110870,China)

机构地区沈阳工业大学理学院

出处《沈阳工业大学学报》 EI CAS 北大核心 2019年第5期555-559,共5页 Journal of Shenyang University of Technology

基金国家自然科学基金资助项目(61074005)

关键词 k-prototypes算法聚类初始聚类中心混合属性数据平均差异度信息熵属性权重度量公式 k-prototypes algorithm clustering initial clustering center mixed attribute data average difference degree information entropy attribute weight metric formula

分类号 TP [自动化与计算机技术]

引文网络
相关文献

参考文献7

1常茜茜,张月琴.一种基于划分的混合数据聚类算法[J].计算机应用与软件,2014,31(6):154-157. 被引量：5
2欧阳浩,戴喜生,王智文,王萌.基于信息熵的粗糙K-prototypes聚类算法[J].计算机工程与设计,2015,36(5):1239-1243. 被引量：4
3陈晋音,何辉豪.基于密度和混合距离度量方法的混合属性数据聚类研究[J].控制理论与应用,2015,32(8):993-1002. 被引量：11
4钱潮恺,黄德才.基于维度频率相异度和强连通融合的混合数据聚类算法[J].模式识别与人工智能,2016,29(1):82-89. 被引量：5
5李武,赵娇燕,严太山.基于平均差异度优选初始聚类中心的改进K-均值聚类算法[J].控制与决策,2017,32(4):759-762. 被引量：30
6杨品林.彩色图像数据库中目标特征数据挖掘方法[J].沈阳工业大学学报,2018,40(1):60-64. 被引量：13
7庞天杰,赵兴旺.一种基于先验信息的混合数据聚类个数确定算法[J].计算机科学,2016,43(2):101-104. 被引量：3

二级参考文献90

1陈向东,李平.基于色彩特征的CAMSHIFT视频图像汽车流量检测[J].沈阳工业大学学报,2015,37(2):183-188. 被引量：9
2赵宇,李兵,李秀,刘文煌,任守榘.混合属性数据聚类融合算法[J].清华大学学报（自然科学版）,2006,46(10):1673-1676. 被引量：9
3Xu Rui,Wunsch II Donald. Survey of clustering algorithms [ J ]. IEEE Transactions on Neural Networks,2005,16 ( 3 ) :645 - 678.
4Hart Jiawei, Kamber Micheline,Pei Jian. Data Mining: Concepts and Tech- niques[ M ]. 3rd ed. San Francisco :Morgan Kaufmann,2012.
5Macqueen J. Some methods for classification and analysis of multivari- ate observations[ C ]//Proceeding of the 5th Berkeley Symposium on Mathematical Statistics and Probability Berkeley, 1967.
6Huang Zhexue. A fast clustering algorithm to cluster very large categori- cal data sets in data mining[ C ]//Proceedings of the SIGMOD Work- shop on Research Issues on Data Mining and Knowledge Discovery Canada, 1997.
7Huang Zhexue. Extensions to the K-means algorithm for clustering large data sets with categorical values [ J ]. Data Mining and Knowledge Dis- covery, 1998,2 : 283 - 304.
8Li Cen, Biswas Gautam. Unsupervised learning with mixed numeric and nominal data[ J ]. IEEE Transactions on Knowledge and Data Engineer- ing,2002,14 (4) :673 - 690.
9He Zengyou, Xu Xiaofei, Deng Shengchun. Clustering mixed numeric and categorical data:A cluster ensemble approach [ EB/OL]. 2005. ht- tp ://arxiv. org/pdf/cs. AI/0509011.
10Hubert L, Arabic P. Comparing partitions [J].Journal of Classification, 1985,2(1) :193 -218.

共引文献63

1赵露.基于聚类分析的网络安全数据特征可视化融合研究[J].长春工程学院学报（自然科学版）,2020(2):94-97. 被引量：3
2李晓庆,唐昊,司加胜,苗刚中.面向混合属性数据集的改进半监督FCM聚类方法[J].自动化学报,2018,44(12):2259-2268. 被引量：8
3杨瑞仙,林进祯.基于海量数字资源的科研关系揭示方法研究述评[J].情报理论与实践,2015,38(8):95-99. 被引量：2
4薛艳锋,刘继华,高永强,高志娥,武彩红.一种加权模糊C均值聚类算法及其在图像分割中的应用[J].计算机应用与软件,2016,33(7):273-277. 被引量：6
5张宇献,彭辉灯,王建辉.基于异构值差度量的SOM混合属性数据聚类算法[J].仪器仪表学报,2016,37(11):2555-2562. 被引量：5
6邓峰.多跳网络中分类属性数据模糊聚类仿真[J].计算机仿真,2017,34(1):292-295. 被引量：12
7王东强,王晓霞.云存储中大数据优化粒子群聚类算法[J].电子设计工程,2017,25(2):26-30. 被引量：13
8夏火松,龙瑾,李芳,贺婷婷.基于高频关键词的离群点监测与异类知识研究——从文献分析视角[J].情报杂志,2017,36(5):181-186. 被引量：3
9邹国锋,傅桂霞,高明亮,尹丽菊,王科俊.融合类别和结构信息的多尺度协同耦合度量学习方法[J].模式识别与人工智能,2017,30(6):499-508. 被引量：1
10王星,呙鹏程,王玉冰,程越.基于线性回归分析的快速搜索聚类中心算法[J].系统工程与电子技术,2017,39(11):2614-2622. 被引量：4

同被引文献55

1林燕霞,谢湘生,张德鹏.复杂交互行为影响下的网络舆情演化分析[J].中国管理科学,2020,0(1):212-221. 被引量：29
2王兰成,陈立富.国内外网络舆情演化、预警和应对理论研究综述[J].图书馆杂志,2018,37(12):4-13. 被引量：26
3欧阳浩,戴喜生,王智文,王萌.基于信息熵的粗糙K-prototypes聚类算法[J].计算机工程与设计,2015,36(5):1239-1243. 被引量：4
4孙世超,杨东援.基于朴素贝叶斯分类器的公交通勤人群辨识方法[J].交通运输系统工程与信息,2015,15(6):46-53. 被引量：9
5夏棒,EMILION Richard,王惠文.Dirichlet混合样本的EM算法与动态聚类算法比较[J].北京航空航天大学学报,2019,45(9):1805-1811. 被引量：5
6杨杰明,吴启龙,曲朝阳,杨烁,阚中峰,高冶.MapReduce框架下基于抽样的分布式K-Means聚类算法[J].吉林大学学报（理学版）,2017,55(1):109-115. 被引量：6
7和敬涵,王紫琪,张大海.基于图论及模糊评价的广域后备保护分区方法[J].电力自动化设备,2017,37(2):75-82. 被引量：5
8于卫红.基于R+Hadoop框架的微信舆情热点挖掘[J].情报杂志,2017,36(2):97-101. 被引量：7
9郑怀宇.基于用户聚类的二分图网络协同推荐算法[J].沈阳工业大学学报,2018,40(3):316-321. 被引量：5
10梁泉,翁剑成,林鹏飞,周伟,荣建.基于个体出行图谱的公共交通通勤行为辨别方法研究[J].交通运输系统工程与信息,2018,18(2):100-107. 被引量：15

引证文献4

1徐春,王昭,孙彬.一种基于网民行为的倾向性密度聚类方法[J].沈阳工业大学学报,2022,44(1):68-73. 被引量：1
2李洁,许青,张露露,王英明.基于网格耦合的混合属性大数据聚类算法研究[J].信息工程大学学报,2022,23(2):218-223. 被引量：1
3陈晓彬,王学力,陈波,陈靖,黄觉慧.基于配网评价指标和聚类分析的电网区域划分算法[J].电子设计工程,2023,31(15):163-167.
4梁灯,蔡晓禹,彭博,邢茹茹.基于改进K-prototypes与GBDT的城市干道车辆出行群体辨识模型[J].华东交通大学学报,2023,40(5):49-58.

二级引证文献2

1王茜萌.基于行为聚类的电子商务恶意支付用户检测[J].信息与电脑,2023,35(3):25-27.
2李志伟,侯敏杰.基于滑动窗口的混合属性大数据聚类算法[J].信息与电脑,2024,36(5):49-52.

1呼晓庆,杨兆富.基于线粒体COⅠ、Cytb和COⅡ基因的中国草地螟不同地理种群遗传分化分析[J].昆虫学报,2019,62(6):720-733. 被引量：7
2朱珊娜.移动网络中技术资源信息有效管理仿真研究[J].计算机仿真,2018,35(1):416-419. 被引量：2
3鲍海燕.基于K-means算法的入侵检测系统研究[J].现代计算机,2019,0(23):9-13. 被引量：3
4姜智涵,朱军,周晓锋,李帅.基于信息熵的混合属性数据谱聚类算法[J].计算机应用研究,2019,36(8):2256-2260. 被引量：12
5赵莉,付世凤.一种改进的面向差分隐私保护的k-means聚类算法[J].信息与电脑,2019,0(14):49-52. 被引量：2
6沐燕舟,丁卫平,高峰,余利国,张琼.基于自适应PSO的改进K-means算法及其在电子病历聚类分析应用[J].计算机与数字工程,2019,47(8):1861-1865. 被引量：9
7向丽,戴晓晖.动态遗传算法在大数据聚类分析中的应用[J].信息记录材料,2019,20(8):19-21.
8吴睿.基于三维可视化技术的电力行业信息化管控平台建设探索[J].中国设备工程,2019,0(17):16-19. 被引量：6
9李仲恒,刘蓉晖.基于ISODATA的电力负荷曲线分类[J].上海电力学院学报,2019,35(4):327-332. 被引量：6
10唐伟,翟国锋,谷红娟.大数据背景下的多来源数据融合研究[J].统计与管理,2019,0(5):18-25. 被引量：5

沈阳工业大学学报

2019年第5期

浏览历史

内容加载中请稍等...

基于平均差异度的改进k-prototypes聚类算法被引量：4

参考文献7

二级参考文献90

共引文献63

同被引文献55

引证文献4

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

基于平均差异度的改进k-prototypes聚类算法 被引量：4

参考文献7

二级参考文献90

共引文献63

同被引文献55

引证文献4

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

基于平均差异度的改进k-prototypes聚类算法被引量：4