基于簇内簇间相异度的k-modes算法被引量：1

k-modes clustering algorithm based on dissimilarity of intra-cluster and inter-cluster

下载PDF

导出

摘要为提高k-modes算法的精度并解决初始簇中心选择问题,提出一种基于簇内簇间相异度的k-modes算法(IKMCA)。基于簇内簇间相似性对相异度系数进行改进,给出初始簇中心自主选择的具体方法。提出的簇内簇间相异度系数考虑特征值本身的相异性与其它相关特征对它们的区分性。提出的初始簇中心自主选择方法可以自动确定聚类个数和初始簇中心位置。实验结果表明,提出算法在聚类精度、纯度、召回率上均优于经典k-modes算法及其变体算法。 To increase the accuracy of k-modes algorithm and to solve the problem of the selection of the initial cluster centers,a k-modes clustering algorithm based on the dissimilarity of the intra-cluster and inter-cluster(IKMCA)was proposed.The dissimilarity was improved according to the similarity between the intra-cluster and inter-cluster and a specific method was provided for the self-determined selection of the initial cluster centers.This intra-cluster and inter-cluster dissimilarity not only took the dissimilarity of the characteristic values themselves into consideration,but also paid attention to their differentiation from other related characteristics.The self-determined selection of the initial cluster centers could automatically determine the number and the location of the initial cluster centers.Experimental results show that IKMCA algorithm is superior to the classic k-modes algorithm and its variants in clustering accuracy,purity and recall rate.

作者贾子琪宋玲 JIA Zi-qi;SONG Ling(School of Computer and Software,Nanyang Institute of Technology,Nanyang 473004,China;School of Computer,Electronics and Information,Guangxi University,Nanning 530004,China)

机构地区南阳理工学院计算机与软件学院广西大学计算机与电子信息学院

出处《计算机工程与设计》北大核心 2021年第9期2492-2500,共9页 Computer Engineering and Design

基金国家自然科学基金项目(61762030) 广西创新驱动重大专项基金项目(桂科AA17204017) 广西重点研发计划基金项目(桂科AB19110050、桂科AB18126094)。

关键词 k模式算法簇内簇间相似性分类型数据频率相异度系数 k-modes algorithm intra-cluster and inter-cluster similarity categorical data frequency dissimilarity coefficient

分类号 TP181 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献1

1双翼帆,顾幸生.基于改进的快速搜索聚类算法和高斯过程回归的催化重整脱氯前氢气纯度多模型建模方法[J].化工学报,2016,67(3):765-772. 被引量：14

二级参考文献13

1刘靖明,韩丽川,侯立文.基于粒子群的K均值聚类算法[J].系统工程理论与实践,2005,25(6):54-58. 被引量：122
2熊志化,黄国宏,邵惠鹤.Soft sensor modeling based on Gaussian processes[J].Journal of Central South University of Technology,2005,12(4):469-471. 被引量：2
3王华忠.高斯过程及其在软测量建模中的应用[J].化工学报,2007,58(11):2840-2845. 被引量：22
4李修亮,苏宏业,褚健.Multiple Model Soft Sensor Based on Affinity Propagation, Gaussian Process and Bayesian Committee Machine[J].Chinese Journal of Chemical Engineering,2009,17(1):95-99. 被引量：32
5吴瑶,罗雄麟,袁志宏.多频率系统动态插值神经网络软测量建模[J].化工进展,2009,28(8):1323-1327. 被引量：7
6杨慧中,张文清.基于特征加权模糊聚类的多模型软测量建模[J].控制工程,2011,18(4):524-526. 被引量：13
7唐志杰,唐朝晖,朱红求.一种基于多模型融合软测量建模方法[J].化工学报,2011,62(8):2248-2252. 被引量：13
8李雅芹,杨慧中.一种基于Bagging算法的高斯过程集成建模方法[J].东南大学学报（自然科学版）,2011,41(B09):93-96. 被引量：8
9陈贵华,王昕,王振雷,钱锋.基于模糊核聚类的乙烯裂解深度DE-LSSVM多模型建模[J].化工学报,2012,63(6):1790-1796. 被引量：18
10钱晓山,阳春华,徐丽莎.基于改进差分进化和最小二乘支持向量机的铝酸钠溶液浓度软测量[J].化工学报,2013,64(5):1704-1709. 被引量：12

共引文献13

1宁建会,刘莉.FHYA—02B型油田管柱智能测长仪的研制[J].测井与射孔,2000(1):71-73.
2吴喜军.压力容器模型材料Fe-Cu合金辐照脆化原因分析及防预方法[J].中国金属通报,2016(3):39-40.
3耿志强,王仲凯,朱群雄,韩永明.基于IDA-DEA的乙烯工业能效评价方法研究及应用[J].化工学报,2017,68(3):910-915. 被引量：2
4张孙力,杨慧中.一种基于改进扩张搜索聚类算法的软测量建模方法[J].南京理工大学学报,2017,41(5):574-580. 被引量：3
5杜洪波,白阿珍,朱立军.改进的K-means融合微粒群优化的基因选择方法[J].沈阳工程学院学报（自然科学版）,2018,14(1):66-70. 被引量：1
6杜洪波,白阿珍,朱立军.基于改进的密度峰值算法的K-means算法[J].统计与决策,2018,0(18):20-24. 被引量：12
7吉文鹏,杨慧中.基于改进扩张搜索聚类算法的多流形软测量建模[J].化工学报,2019,70(2):723-729. 被引量：2
8杜会尧,禄佳景,辜小花,杨利平,唐海红.基于PSO-ELM的油田机采系统精细化建模[J].重庆科技学院学报（自然科学版）,2019,21(6):62-69. 被引量：1
9何新礼,谢莉,杨慧中.基于DP-RFR的多模型软测量建模[J].控制工程,2020,27(1):64-69. 被引量：2
10刘禹含,曹萃文.基于LightGBM的催化重整装置产品预测及操作优化相关性分析[J].石油学报（石油加工）,2020,36(4):756-766. 被引量：4

同被引文献7

1韩京宇,徐立臻,董逸生.一种大数据量的相似记录检测方法[J].计算机研究与发展,2005,42(12):2206-2212. 被引量：32
2张平,党选举,陈皓,杨文雷.基于熵特征优选分组聚类的相似重复记录检测[J].传感器与微系统,2011,30(11):135-137. 被引量：4
3邱越峰,田增平,季文贇,周傲英.一种高效的检测相似重复记录的方法[J].计算机学报,2001,24(1):69-77. 被引量：72
4朱蔚恒,印鉴,邓玉辉,龙舜,邱诗定.大数据环境下高维数据的快速重复检测方法[J].计算机研究与发展,2016,53(3):559-570. 被引量：12
5毛伊敏,陶涛,曹文梁.基于网格密度和局部敏感哈希函数的并行化聚类算法[J].计算机应用研究,2021,38(5):1422-1427. 被引量：6
6余顺,张平,王曾.基于K-means算法的QRS波群检测研究[J].安徽职业技术学院学报,2021,20(1):25-28. 被引量：1
7袁满,穆永豪,王贵友,于再富.改进的SNM中文语义重复记录检测算法[J].吉林大学学报（信息科学版）,2021,39(3):348-356. 被引量：5

引证文献1

1张平,余顺.基于K-modes聚类分组的大数据相似重复记录检测研究[J].安徽职业技术学院学报,2022,21(1):24-29. 被引量：1

二级引证文献1

1唐磊,陈璇,王庆宇.基于Hough变换的企业财务重复数据批量剔除方法[J].河北北方学院学报（自然科学版）,2023,39(3):22-26.

1田茵.基于NVIVO对学前教育专业学生就业心理的质性分析[J].伊犁师范学院学报（社会科学版）,2021,39(2):77-86. 被引量：1
2陈俊芬,张明,赵佳成,谢博鋆,李艳.结合降噪和自注意力的深度聚类算法[J].计算机科学与探索,2021,15(9):1717-1727. 被引量：2
3李汉波,魏福义,张嘉龙,刘志伟.基于相异性邻域的改进K-means算法[J].现代信息科技,2021,5(7):67-70. 被引量：1
4瞿靖芮,郑喜灿,赵后雨,周娜,辛文韬,沈兴华.维和官兵创伤及压力暴露量表的初步编制及信效度检验[J].第二军医大学学报,2021,42(8):890-896.
5卜湛,王煜尧,马丽娜,蒋玖川,曹杰.基于动态类簇形成博弈的属性图聚类方法[J].计算机学报,2021,44(9):1824-1840. 被引量：6

计算机工程与设计

2021年第9期

浏览历史

内容加载中请稍等...

基于簇内簇间相异度的k-modes算法被引量：1

参考文献1

二级参考文献13

共引文献13

同被引文献7

引证文献1

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

基于簇内簇间相异度的k-modes算法 被引量：1

参考文献1

二级参考文献13

共引文献13

同被引文献7

引证文献1

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

基于簇内簇间相异度的k-modes算法被引量：1