基于k-means聚类算法的研究被引量：87

Research of Clustering Algorithm Based on K-means

下载PDF

导出

摘要分析研究聚类分析方法,对多种聚类分析算法进行分析比较,讨论各自的优点和不足,同时针对原k-means算法的聚类结果受随机选取初始聚类中心的影响较大的缺点,提出一种改进算法。通过将对数据集的多次采样,选取最终较优的初始聚类中心,使得改进后的算法受初始聚类中心选择的影响度大大降低;同时,在选取初始聚类中心后,对初值进行数据标准化处理,使聚类效果进一步提高。通过UCI数据集上的数据对新算法Hk-means进行检测,结果显示Hk-means算法比原始的k-means算法在聚类效果上有显著的提高,并对相关领域有借鉴意义。 Analyze and research the method of cluster analysis,analyze and compare many kinds of algorithms of cluster analysis,discuss their respective strengths and weaknesses.At the same time,according to the weaknesses of the cluster result of original k-means algorithm is significant influence by selecting the initial cluster centers randomly,a modified algorithm is proposed.Through taking sample many times to data set,choose final superior cluster center,bring down the impact of initial cluster centers to improved algorithm greatly.Simultaneously,the initial data is standadized once the initial cluster center is selected,makes cluster effect improved furthermore.Detecting new algorithm Hk-means through the date of UCI data set,the result shows that Hk-means algorithm is more prominent improved than initial k-means algorithm in cluster effect,and it＇s useful for conference to relative field.

作者黄韬刘胜辉谭艳娜

机构地区哈尔滨理工大学计算机科学与技术学院

出处《计算机技术与发展》 2011年第7期54-57,62,共5页 Computer Technology and Development

基金哈尔滨市后备带头人基金项目(2004AFXXJ039)

关键词数据挖掘聚类算法 K-MEANS算法 data mining clustering algorithm k-means algorithm

分类号 TP301.6 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献12

1Tan Pang-Ning,Steinbach M,Kuma V.Introduction to DataMining[M].北京:人民邮电出版社,2006:5-28.
2Han Jiawei, Micheline Kamber. Data mining concepts and techniques[M].北京:机械工业出版社,2006.
3孙吉贵,刘杰,赵连宇.聚类算法研究[J].软件学报,2008(1):48-61. 被引量：1079
4雷小锋,谢昆青,林帆,夏征义.一种基于K-Means局部最优性的高效聚类算法[J].软件学报,2008,19(7):1683-1692. 被引量：114
5周水庚,周傲英,曹晶,胡运发.一种基于密度的快速聚类算法[J].计算机研究与发展,2000,37(11):1287-1292. 被引量：89
6聂跃光,陈立潮,陈湖.基于密度的空间聚类算法研究[J].计算机技术与发展,2008,18(8):91-94. 被引量：6
7赵伟,张姝,李文辉.改进K-means的空间聚类算法[J].计算机应用研究,2008,25(7):1995-1997. 被引量：8
8毕华,梁洪力,王珏.重采样方法与机器学习[J].计算机学报,2009,32(5):862-877. 被引量：36
9Hand D J,Vinciotti V.Choosing k for two-class nearest neighbor classifiers with unbalance classes[J].Pattern Recognition Letter,2003,24(9):1555-1562.
10Cuba S,Rastogi R,Shim K.CURE:An efficient clustering algorithm for large databases[C]//In:Hass L M,Tiwary A.Proc.of the ACM SIGMOD Int'1 Conf.on Management of Data.New York:ACM Press,1998:73-84.

<12 >

二级参考文献71

1何中胜,刘宗田,庄燕滨.基于数据分区的并行DBSCAN算法[J].小型微型计算机系统,2006,27(1):114-116. 被引量：16
2李洁,高新波,焦李成.基于特征加权的模糊聚类新算法[J].电子学报,2006,34(1):89-92. 被引量：114
3Valiant L G. A theory of learnable. Communications of the ACM, 1984, 27(11): 1134-1142
4Kearns M, Valiant L G. Learning Boolean formulae or finite automata is as hard as factoring. Cambridge, MA: Harvard University Aiken Computation Laboratory. Technical Report TR-14-88, 1988
5Kearns M, Valiant L G. Cryptographic limitations on learning Boolean formulae and finite automata. Journal of the ACM, 1994, 41(1): 67-95
6Schapire R E. The strength of weak learnability. Machine Learning, 1990, 5(2): 197-227
7Dietterich T G. Ensemble methods in machine learning// Proceedings of the Multiple Classifier Systems. Cagliari, Italy, 2000:1-5
8Freund Y, Schapire R E. Experiments with a new Boosting algorithm//Proceedings of the Thirteenth International Conference on Machine Learning (ICML). Bari, Italy, 1996: 148-156
9Breiman L. Prediction games and arcing classifiers. Neural Computation, 1999, 11(7): 1493-1517
10Breiman L. Bagging predictors. Machine Learning, 1996, 24 (2) : 123-140

<12 3 4 5…8 >

共引文献1304

1吕政阳,邓涛,张丽艳.一种基于机器视觉的飞机钣金件跨粒度识别方法[J].仪器仪表学报,2020,41(2):195-204. 被引量：10
2丁小军,陈杰,李霖,徐碧通,朱晓姝.一种基于聚类结果稳定性来确定聚类数的方法[J].玉林师范学院学报,2020(3):43-47. 被引量：1
3王玥,李文权,梁爽,余静财.基于改进聚类算法的共享汽车网点选址研究[J].武汉理工大学学报,2021,43(2):79-85. 被引量：1
4林耿堃,盛积良.乡村振兴时代背景下农民消费结构变迁研究[J].农业农村部管理干部学院学报,2021(2):76-81. 被引量：3
5高显义,林欣晖.基于文本聚类的变电工程变更特征识别研究[J].建筑经济,2020,41(S02):200-203. 被引量：2
6毛颖颖,杨新凯.融合拓扑势的自适应层次聚类算法研究[J].计算机应用研究,2020,37(S01):37-39.
7张睿恺,吴克河.基于优化特征集的LeNet-5攻击检测模型的态势感知技术[J].计算机应用研究,2020,37(S01):287-289. 被引量：4
8李对红,王裴岩 ,张桂平,张少阳.基于字簇的多模型中文分词方法研究[J].计算机应用研究,2020,37(2):355-359. 被引量：2
9尧少波,蒋励剑,赵文文,卢铮,吴昌聚,陈伟芳.耦合聚类的数据驱动稀薄流非线性本构计算方法[J].航空学报,2022,43(S02):43-56.
10段桂芹.基于改进密度的簇内均值最小距离聚类算法[J].智能计算机与应用,2021,11(12):82-86. 被引量：1

<12 3 4 5…131 >

同被引文献733

1马飞,蒋莉.河流水质监测断面优化设置研究——以南运河为例[J].环境科学与管理,2006,31(8):171-172. 被引量：18
2杨国鹏,余旭初,陈伟,刘伟.基于核Fisher判别分析的高光谱遥感影像分类[J].遥感学报,2008,12(4):579-585. 被引量：24
3张红荣,张峰.传统的K-means聚类算法的研究与改进[J].咸阳师范学院学报,2010,25(4):59-62. 被引量：4
4朱佳贤.无指导学习环境下基于属性相关性分析和聚类算法的属性选择问题研究[J].管理学报,2005,2(S2):162-165. 被引量：2
5张爱卿.20世纪动机心理研究的历史探索[J].华中师范大学学报（人文社会科学版）,1999,38(3):30-35. 被引量：7
6林春实,方燕,全吉成.汉语文献自动分词与标引技术发展浅析[J].情报学报,1997,16(S1):37-40. 被引量：8
7王永刚,蔡飞志,Eng Keong Lua,胡建斌,陈钟.一种社交网络虚假信息传播控制方法[J].计算机研究与发展,2012,49(S2):131-137. 被引量：19
8陈小全,张继红.基于改进粒子群算法的聚类算法[J].计算机研究与发展,2012,49(S1):287-291. 被引量：31
9霍丹群,张苗苗,侯长军,秦辉,尹猛猛,沈才洪,张宿义,卢中明,张良.基于主成分分析和判别分析的白酒品牌鉴别方法[J].农业工程学报,2011,27(S2):297-301. 被引量：33
10江小平,李成华,向文,张新访,颜海涛.k-means聚类算法的MapReduce并行化实现[J].华中科技大学学报（自然科学版）,2011,39(S1):120-124. 被引量：79

<12 3 4 5…74 >

引证文献87

1杨通辉,高玲,臧丽.基于相似性的商品陈列研究[J].微型机与应用,2012,31(5):59-61.
2王晶,孙世群,邵超,孙尔宝.模糊聚类分析法在水质监测断面优化中的应用[J].广州化工,2012,40(7):153-154. 被引量：9
3吴琰嘉,唐正宁,李俊锋.CIEL*a*b*色空间中基于爬山聚类算法的网点面积率检测研究[J].包装工程,2012,33(19):149-152. 被引量：2
4詹辉煌,朱敏琛.一种改进的动态K-means聚类算法[J].微型机与应用,2012,31(20):74-76. 被引量：2
5米晓萍,张建峰.网络舆情算法的研究与应用[J].计算机光盘软件与应用,2012,15(22):5-7.
6张磊,张公让,张金广.一种网格化聚类算法的MapReduce并行化研究[J].计算机技术与发展,2013,23(2):60-64. 被引量：3
7刘芳,郭宇春.基于数据挖掘的用户忠诚度分析[J].计算机技术与发展,2013,23(7):14-17. 被引量：3
8闵锋,鲁统伟,邹旭.自适应子空间选择方法研究[J].计算机技术与发展,2013,23(10):83-86. 被引量：1
9翟东海,聂洪玉,崔静静,杜佳.基于自适应簇中心选择的文本聚类算法研究[J].成都信息工程学院学报,2013,28(6):617-622. 被引量：1
10杨永涛,李静.一种改进的K-means数字资源聚类算法[J].计算机技术与发展,2014,24(6):107-109. 被引量：1

<12 3 4 5…9 >

二级引证文献532

1杨惠烽,张琦,徐莉.改进的K-Means和Grabcut相结合的壁画分割方法[J].忻州师范学院学报,2023,39(5):26-33.
2陈立潮,王彦苏,曹建芳.基于Dense-YOLOv3的车型检测模型[J].计算机系统应用,2020(10):158-166. 被引量：3
3陈世楼,洪松琛,孙鹏.基于历史数据分析的采购策略智能推荐模型研究[J].企业改革与管理,2021(9):7-8. 被引量：4
4慕君林,马博,王云飞,任卓,刘双喜,王金星.基于深度学习的农作物病虫害检测算法综述[J].农业机械学报,2023,54(S02):301-313. 被引量：21
5刘湘,梁勇超,熊军,韩东,徐经碧,胡作平.基于回归预测算法的家用空调节能方法研究[J].家电科技,2022(S01):354-357. 被引量：1
6宗长富,文龙,何磊.基于欧几里得聚类算法的三维激光雷达障碍物检测技术[J].吉林大学学报（工学版）,2020,50(1):107-113. 被引量：25
7姚振康,高国飞,郑汉,黄兆察.基于谱聚类的城市轨道交通车站间客流分型研究[J].都市快轨交通,2022,35(2):99-104. 被引量：8
8吴兴惠,周玉萍,邢海花.利用随机森林算法对学生成绩评价与预测研究[J].电脑知识与技术,2020,0(4):254-255. 被引量：6
9赵源.基于K-means的上海地铁站点分级研究[J].智能计算机与应用,2021,11(4):14-16. 被引量：1
10于莉,刘志钢,石志峰,陈颖雪,张香明.基于图论的上海轨道交通站点客流等级预测研究[J].智能计算机与应用,2020,10(1):71-75. 被引量：2

<12 3 4 5…54 >

1王飞,秦小麟,刘亮,沈尧.云环境下基于数据流的k-means聚类算法[J].计算机科学,2015,42(11):235-239. 被引量：12
2李欢,刘锋,朱二周.基于改进K-means算法的海量数据分析技术研究[J].微电子学与计算机,2016,33(5):52-57. 被引量：9
3周岚.提升小画幅传感器画质的方法与思路[J].中外企业家,2015(12X):101-102.
4毛嘉莉.基于K-means的文本聚类算法[J].计算机系统应用,2009,18(10):85-87. 被引量：9
5刘其涛.一种提高CCD空间分辨力的方法研究[J].传感器与微系统,2006,25(2):36-37.
6党长青,宋风娟,朱全印,马凯.PC在高速数据采集卡设计中的应用[J].微计算机信息,2008,24(13):109-110.
7王新,刘永山,朱代春,刘新,张小潮.三维点云配准算法的研究[J].燕山大学学报,2016,40(6):524-531. 被引量：4
8王守觉,徐健,王宪保,覃鸿.基于仿生模式识别的多镜头人脸身份确认系统研究[J].电子学报,2003,31(1):1-3. 被引量：38
9王怀彬,刘凯,王鹏涛.特定应用环境下的入侵检测架构[J].天津大学学报,2006,39(B06):375-378.
10缪小亮,周政春,万旺根.三维场景动态模糊阴影算法实现[J].上海大学学报（自然科学版）,2007,13(2):138-141. 被引量：2

<12 >

计算机技术与发展

2011年第7期

职称评审材料打包下载

基于k-means聚类算法的研究被引量：87

参考文献12

二级参考文献71

共引文献1304

同被引文献733

引证文献87

二级引证文献532

相关作者

相关机构

相关主题

基于k-means聚类算法的研究 被引量：87

参考文献12

二级参考文献71

共引文献1304

同被引文献733

引证文献87

二级引证文献532

相关作者

相关机构

相关主题

微信扫一扫：分享

基于k-means聚类算法的研究被引量：87