自适应特征权重的K-means聚类算法被引量：10

K-means Clustering Algorithm Based on Adaptive Feature Weighted

下载PDF

导出

摘要为提高传统K-means聚类算法在医学数据聚类中的准确率和稳定性,提出了一种自适应特征权重的K-means聚类算法AFW-K-means。该算法首先通过计算属性的均方差选取初始聚类中心,然后根据当前的迭代结果,按照类内紧密、类间远离的原则调整属性在距离公式中的特征权重,以便更准确地反映数据点在欧氏空间中的真实距离,最后选取UCI上的BCW乳腺肿瘤等数据集对算法的有效性进行验证。结果表明:算法的准确率和稳定性均明显好于传统K-means算法。 In order to improve the accuracy and stability of traditional K-means algorithm on medical data clustering, proposed an adaptive feature weighted K-means clustering algorithm named AFW-K-means. Firstly, initial clustering center was chosen by calculating mean square deviation of feature attribute. Then,according to the results of each iteration,the feature attribute weight in distance formula is modified based on the principle of minimum-in-cluster-distance and maximum-between-cluster-distance, which can reflect the true distance among the data points in the Euclidean space. Finally, the validity of the proposed approach is demonstrated by the experiment of UCI data set such as Breast Cancer Wisconsin data set. The results showed that the algorithm has higher precision of prediction and better stability than traditional K-means algorithm.

作者李四海满自斌

机构地区甘肃中医学院兰州理工大学

出处《计算机技术与发展》 2013年第6期98-101,105,共5页 Computer Technology and Development

基金国家自然科学基金资助项目(51069004)

关键词 K—means 医学数据聚类自适应特征权重聚类评价混淆矩阵 K-means medical data clustering AFW cluster evaluation confusion matrix

分类号 TP181 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献11

1孙吉贵,刘杰,赵连宇.聚类算法研究[J].软件学报,2008(1):48-61. 被引量：1063
2袁方,周志勇,宋鑫.初始聚类中心优化的k-means算法[J].计算机工程,2007,33(3):65-66. 被引量：152
3周爱武,于亚飞.K-Means聚类算法的研究[J].计算机技术与发展,2011,21(2):62-65. 被引量：134
4XU Junling,XU Baowen,ZHANG Weifeng,ZHANG Wei,HOU Jun.Stable Initialization Scheme for K-Means Clustering[J].Wuhan University Journal of Natural Sciences,2009,14(1):24-28. 被引量：15
5Kang P, Cho S. K-means clustering seeds initialization based on centrality, sparsity, and isotropy [ C ]//Proceedings of the 10th International Conference on Intelligent Data Engineering and Automated Learning. Berlin: Springer ,2009 : 109-117.
6王熙照,王亚东,湛燕,袁方.学习特征权值对K-均值聚类算法的优化[J].计算机研究与发展,2003,40(6):869-873. 被引量：48
7Modha D S, Spangler W S. Feature Weighting in K-means Clustering [ J ]. Machine Learning,2003,52 (3) :217-237.
8杨鹤标,薛艳锋,冯进兰,沈项军,吴静丽.基于Fisher线性判别率的加权K-means聚类算法[J].计算机应用研究,2010,27(12):4439-4442. 被引量：5
9原福永,张晓彩,罗思标.基于信息熵的精确属性赋权K-means聚类算法[J].计算机应用,2011,31(6):1675-1677. 被引量：37
10Tsai C Y,Chiu C C. Developing a feature weight self-adjust- ment mechanism for a K- means clustering algorithm [ J ]. Computational Statistics & Data Analysis,2008,52(10) :4658 -4672.

二级参考文献57

1陆声链,林士敏.基于距离的孤立点检测研究[J].计算机工程与应用,2004,40(33):73-75. 被引量：44
2谷春亮,尹宝才,孔德慧,胡永利.基于三维多分辨率模型与Fisher线性判别的人脸识别方法[J].计算机学报,2005,28(1):97-104. 被引量：4
3陈雷,王延章.熵权法对融合网络服务质量效率保障研究[J].计算机工程与应用,2005,41(23):1-3. 被引量：3
4李洁,高新波,焦李成.基于特征加权的模糊聚类新算法[J].电子学报,2006,34(1):89-92. 被引量：113
5FAHIM A.M,SALEM A.M,TORKEY F.A,RAMADAN M.A.An efficient enhanced k-means clustering algorithm[J].Journal of Zhejiang University-Science A(Applied Physics & Engineering),2006,7(10):1626-1633. 被引量：30
6李业丽,秦臻.一种改进的k-means算法[J].北京印刷学院学报,2007,15(2):63-65. 被引量：9
7彭京,唐常杰,程温泉,石葆梅,乔少杰.一种基于层次距离计算的聚类算法[J].计算机学报,2007,30(5):786-795. 被引量：11
8http://archive.ics.uci.edu/ml/
9Mac Q J. Some methods for classification and analysis of mult- ivariate observations [ C ]//In: Proc. 5th Berkeley Symposium in Mathematics. Berkeley, USA : Univ of California, 1967.
10GUHA S, RASTOGI R, SHIM K. CURE: An efficient clustering algorithm for large databases [ C ]//Proceedings of the 1998 ACM SIGMOD International Conference on Management of Data. New York: ACM Press, 1998: 73-84.

共引文献1411

1丁小军,陈杰,李霖,徐碧通,朱晓姝.一种基于聚类结果稳定性来确定聚类数的方法[J].玉林师范学院学报,2020(3):43-47. 被引量：1
2赵春丽,王延博,万润之,孙丽平.基于R语言探析中医药治疗哮喘发作期的用药规律[J].世界科学技术-中医药现代化,2023,25(3):1011-1019. 被引量：4
3王玥,李文权,梁爽,余静财.基于改进聚类算法的共享汽车网点选址研究[J].武汉理工大学学报,2021,43(2):79-85.
4林耿堃,盛积良.乡村振兴时代背景下农民消费结构变迁研究[J].农业农村部管理干部学院学报,2021(2):76-81. 被引量：3
5高显义,林欣晖.基于文本聚类的变电工程变更特征识别研究[J].建筑经济,2020,41(S02):200-203. 被引量：2
6毛颖颖,杨新凯.融合拓扑势的自适应层次聚类算法研究[J].计算机应用研究,2020,37(S01):37-39.
7张睿恺,吴克河.基于优化特征集的LeNet-5攻击检测模型的态势感知技术[J].计算机应用研究,2020,37(S01):287-289. 被引量：3
8李对红,王裴岩 ,张桂平,张少阳.基于字簇的多模型中文分词方法研究[J].计算机应用研究,2020,37(2):355-359. 被引量：2
9尧少波,蒋励剑,赵文文,卢铮,吴昌聚,陈伟芳.耦合聚类的数据驱动稀薄流非线性本构计算方法[J].航空学报,2022,43(S02):43-56.
10段桂芹.基于改进密度的簇内均值最小距离聚类算法[J].智能计算机与应用,2021,11(12):82-86. 被引量：1

同被引文献122

1赵娟,彭彦昆,Sagar Dhakal,张雷蕾.基于机器视觉的苹果外观缺陷在线检测[J].农业机械学报,2013,44(S1):260-263. 被引量：43
2刘涛,吴功宜,陈正.一种高效的用于文本聚类的无监督特征选择算法[J].计算机研究与发展,2005,42(3):381-386. 被引量：37
3于林森,张田文.基于视觉与标注相关信息的图像聚类算法[J].电子学报,2006,34(7):1265-1269. 被引量：6
4王卫玲,刘培玉,刘克非.一种用于Web文本聚类的特征选择方法[J].计算机应用与软件,2007,24(1):154-156. 被引量：2
5刘剑毅,郑南宁,游屈波.一种基于小波的人脸衰老化合成方法[J].软件学报,2007,18(2):469-476. 被引量：7
6AGRAWAL R, CHANGHUA W, GROSKY W I. Image Cluste- ring Using Visual and Text Keywords[ C]//IEEE. Computational Intelligence in Robotics and Automation, 2007:49 -54.
7KUMAR Abhishek, RAI Piyush, DAUM Hal. Co-regularized multi-view Spectral Clustering[ C ]//Advances in Neural Informa- tion Processing Systems. 2011 : 1413 - 1421.
8BLEI David M, ANDREW Ng, JORDAN Andrew Y, et al. Latent Dirichlet Allocation [ J ]. the Tournal of Machine Learning Re-search, 2003, 3: 993-1022.
9LU Bai, GUO Jiafeng, LAN, Yanyan. Group Sparse Topical Coding: from Code to Topic[ C]//ACM. International Confer- ence on Web Search and Data Mining. 2013:315 -324.
10ZHU Jun, AHMED Amr, XING Eric P. Medlda: Maximum Mar- gin Supervised Topic Models [ J ]. Journal of Machine Learning Research, 2012, 13 : 2237 - 2278.

引证文献10

1熊志斌,朱剑锋,王冬.K-means聚类算法的研究和应用[J].电脑编程技巧与维护,2014(8):10-12. 被引量：5
2崔君君,于林森,李鹏.协同视觉信息与标注信息图像聚类[J].哈尔滨理工大学学报,2014,19(2):57-62. 被引量：3
3孙志鹏,钱雪忠,吴秦,邓杰.基于加权距离计算的自适应粗糙K-均值算法[J].计算机应用研究,2016,33(7):1987-1990. 被引量：5
4胡贤德,朱秀祥,李敬明,李苗.基于聚类算法的人脸衰老图像重构[J].长春师范大学学报,2016,35(10):34-38.
5徐倩,胡艳军.一种基于反馈的K-means分簇算法研究[J].信号处理,2017,33(8):1145-1151. 被引量：4
6梁涛,侯振国,邹继行,张迎娟.基于云计算平台的风电场SCADA系统的设计与应用[J].高技术通讯,2018,28(1):8-14. 被引量：10
7程鹏,柳林,刘晓,许传新,郭慧.基于多维特征聚类和用户评分的景点推荐算法[J].计算机工程与设计,2019,40(5):1322-1327. 被引量：5
8杨俊闯,赵超.K-Means聚类算法研究综述[J].计算机工程与应用,2019,55(23):7-14. 被引量：266
9Yang Yu,Sergio A.Velastin,Fei Yin.Automatic grading of apples based on multi-features and weighted K-means clustering algorithm[J].Information Processing in Agriculture,2020,7(4):556-565. 被引量：4
10郑仁鹏,郑雪钦,黄维彪.采用改进K-means算法的退役动力电池快速分选方法[J].厦门理工学院学报,2022,30(5):74-81. 被引量：1

二级引证文献303

1王炳琪,聂潇乾,严鹏,吴彬彬,高承帅.多站点低空防御系统关键技术研究[J].制导与引信,2019,0(4):17-22.
2杜康,周恒为,丁明明,叶峰,石彤非.聚类分析橡胶炭黑填充量与Yeoh模型参数的关联[J].应用化学,2021,38(6):675-684. 被引量：3
3许毅超.基于人工智能算法的河道智能监控预警系统研究及应用[J].水利科技,2023(4):29-31. 被引量：1
4王玥,李文权,梁爽,余静财.基于改进聚类算法的共享汽车网点选址研究[J].武汉理工大学学报,2021,43(2):79-85.
5胡小鹏,赵永杰,黄可心,项彦澍,梁冬泰,冯永飞,梁丹.基于深度学习与超像素的乒乓球运动轨迹检测[J].机械制造,2022,60(8):81-86. 被引量：3
6侯宝锁.基于Apriori改进算法及行为分析的旅游景区推荐系统[J].长春大学学报,2022,32(4):6-10.
7韩雪,王彤,薛文静.基于流通数据的纸质馆藏资源优化与读者服务研究[J].甘肃科技,2023,39(2):64-70.
8连雅君,王庆国,王雪茜,吴梦瑶,雷超芳,马重阳,翟昌明,周璐,魏玮,程发峰.胆汁淤积性肝炎大鼠模型中医证候探讨[J].中华中医药杂志,2018,33(12):5342-5345. 被引量：8
9赵蓉英,王嵩,董克.国内馆藏资源聚合模式研究综述[J].图书情报工作,2014,58(18):138-143. 被引量：20
10王华秋,聂珍,王斌.数字图书馆的语义图像检索综述[J].图书馆理论与实践,2015(4):6-10. 被引量：4

1吴启明,易云飞.文本聚类综述[J].河池学院学报,2008,28(2):86-91. 被引量：21
2刘燕驰,高学东,国宏伟,武森.应用分类方法进行聚类评价[J].计算机应用研究,2011,28(10):3637-3639. 被引量：1
3大风.轻松学习Word 2000(七)[J].中老年保健,2003(7):44-44.
4路红英,岳玉霞,高存宝.基于BCW和VB的Windows串行通信的实现[J].计算机系统应用,1998,7(10):18-20. 被引量：3
5薛立宏,史铁林,余佳兵.用BCW3.1开发数据采集软件的技巧与实例[J].电子与电脑,1996,3(4):53-56.
6刘敬军,李英华.用BCW开发Windows打印功能[J].软件,1995,16(6):44-49.
7郑军,王巍,杨武,杨永田.基于类间距离参数估计的文本聚类评价方法[J].计算机工程,2009,35(9):37-39. 被引量：6
8吕宗磊,王建东,徐涛.基于模态代表点的聚类评价方法[J].系统工程与电子技术,2009,31(8):1997-2002.
9窦如林,阎浩,严筱永.基于偏最小二乘的无线传感网多跳定位算法[J].金陵科技学院学报,2014,30(3):19-25. 被引量：2
10刘燕驰,高学东,国宏伟,武森.聚类有效性的组合评价方法[J].计算机工程与应用,2011,47(19):15-17. 被引量：16

计算机技术与发展

2013年第6期

浏览历史

内容加载中请稍等...

自适应特征权重的K-means聚类算法被引量：10

参考文献11

二级参考文献57

共引文献1411

同被引文献122

引证文献10

二级引证文献303

相关作者

相关机构

相关主题

浏览历史

自适应特征权重的K-means聚类算法 被引量：10

参考文献11

二级参考文献57

共引文献1411

同被引文献122

引证文献10

二级引证文献303

相关作者

相关机构

相关主题

浏览历史

自适应特征权重的K-means聚类算法被引量：10