一种引入参数无需确定聚类数的聚类算法被引量：3

A clustering algorithm with parameters that no need to determine the clustering number

下载PDF

导出

摘要针对传统k-均值聚类算法的两大缺点,即算法中需要知道确定的聚类数和初始种群选取的随机性,提出了一种新的聚类算法,即基于k-均值聚类算法的无需确定聚类数的聚类算法。这种算法是基于递增思想的聚类算法,最大的特色是无需事先知道聚类数,初始聚类数取1,初始聚类中心为所有数据点的聚类中心,算法中首先设定一个惩罚参数,对于确定的惩罚参数,运算时聚类数逐渐增加,直到收敛,即聚类数不再发生变化,就得到了所需的聚类数以及最终的聚类结果。运用于茶叶分类和各省市平均工资水平分析的2个实验也验证了这种算法的可行性,通过实验可知,这种聚类算法具有较好的全局收敛能力和较高的正确率,稳定性强,收敛速度快。 After analyzing the two shortcomings of the traditional k-means clustering algorithm, namely the need of knowing the number of clusters and the randomness of selecting the initial population, a new clustering algorithm based on k-means clus- tering algorithm with no need to determine the clustering number is proposed. This algorithm is a clustering algorithm based on incremental theory, without having to know the number of clusters. Let the initial number of clusters to be one, and the initial cluster center is the cluster center of all data points. Firstly a penalty parameter should be settled. For a determined penalty pa- rameter, the number of clusters gradually increases until convergence, which means that the number of clusters does not change again, and then the number of cluster and the final result of clustering can be got. The two classification experiments used in the classification of tea and analysis of average salary of the provinces and cities in China verify the feasibility of the algorithm. From the two experiments, it is shown that this algorithm has good global convergence ability, high accuracy, good stability and fast convergence.

作者周其林雷菊阳王昱栋张兰兰

机构地区上海工程技术大学机械工程学院

出处《河北工业科技》 CAS 2015年第2期123-128,共6页 Hebei Journal of Industrial Science and Technology

基金上海工程技术大学研究生科研创新资助项目(E109031401028)

关键词算法理论聚类算法 K-均值惩罚参数递增思想全局性 algorithm theory clustering algorithm k-means penalty parameter incremental theory global

分类号 TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献14

1谢娟英,蒋帅,王春霞,张琰,谢维信.一种改进的全局K-均值聚类算法[J].陕西师范大学学报（自然科学版）,2010,38(2):18-22. 被引量：47
2LIKAS A,VLASSIS M,VERBEEK J.The global K-means clustering algorithm[J].Pattern Recognition,2003,36(2):451-461.
3CHAKRABORTY S J,NAGWANI N K.Analysis and study of incremental K-means clustering algorithm[A].2011International Conference on communications and Information Science[C].Chandigarh:Springer-Verlag,2011:338-341.
4ZHONG Wei,ALTUN G,HARRISON R,et al.Improved K-means clustering algorithm for exploring local protein sequence motifs representing common structural property[J].IEEE Transactions on NanoBio Science,2005,4(3):255-265.
5WANG J T,SU X L.An improved K-means clustering algorithm[A].2011IEEE 3rd International Conference on Communication Software and Networks[C].Xi’an:[s.n.],2011:44-46.
6胡伟.改进的层次K均值聚类算法[J].计算机工程与应用,2013,49(2):157-159. 被引量：63
7张晓翊,孟德欣,余翠兰.基于K-means算法的学生试卷成绩分析[J].宁波大学学报（理工版）,2010,23(4):67-70. 被引量：6
8田金兰,朱林,张素琴,刘璐.Improvement and Parallelism of k-Means Clustering Algorithm[J].Tsinghua Science and Technology,2005,10(3):277-281. 被引量：2
9龙钧宇.基于均值聚类和决策树算法的学生成绩分析[J].计算机与现代化,2014(6):79-83. 被引量：13
10ZHANG Chunfei,FANG Zhiyi.An improved K-means clustering algorithm[J].Journal of Information and Computational Science,2013,10(1):193-199.

二级参考文献45

1刘鹏,姚正,尹俊杰.一种有效的C4.5改进模型[J].清华大学学报（自然科学版）,2006,46(z1):996-1001. 被引量：28
2李凯,李昆仑,崔丽娟.模型聚类及在集成学习中的应用研究[J].计算机研究与发展,2007,44(z2):203-207. 被引量：7
3夏姜虹.数据挖掘技术的常用方法分析[J].云南大学学报（自然科学版）,2011,33(S2):173-175. 被引量：5
4贺玲,吴玲达,蔡益朝.数据挖掘中的聚类算法综述[J].计算机应用研究,2007,24(1):10-13. 被引量：225
5谢崇宝,袁宏源,郭元裕.最优分类的模糊划分聚类改进方法[J].系统工程,1997,15(1):58-63. 被引量：12
6LiuBing.Web数据挖掘[M].北京:清华大学出版社,2009.
7Jain A K, Dubes R C. Algorithms for clustering data [ M]. Englewood Cliffs: Prentice-Hall, 1988 : 1-334.
8Huang Z. Extensions to the K-means algorithm for clustering large data sets with categorical values [J]. Data Ming and Knowledge Discovery, 1998, 2 (3): 283-304.
9Maulik U, Bandyopadhyay S. Genetic algorithm based clustering technique[J]. Pattern Recognition, 2000, 33 (9): 1 455-1 465.
10Selim S Z, Al-Sultan K S. A simulated annealing algorithm for the clustering[J]. Pattern Recognition, 1991, 24 (10):1 003-1 008.

共引文献129

1陈西江,安庆,班亚,王德欣,李坤,刘海鹏.融合高斯核及指数函数聚类的点云目标物提取[J].应用科学学报,2022,40(3):411-422.
2王辉,张望,范明.基于集群环境的K-Means聚类算法的并行化[J].河南科技大学学报（自然科学版）,2008,29(4):42-45. 被引量：10
3李春英,汤志康,曹元大.神经网络集成的城市道路状态判别模型研究[J].计算机工程与应用,2011,47(15):225-228. 被引量：1
4李春英,汤志康,郑芳平,曹元大.基于两级分类器串行的人脸识别[J].计算机工程与设计,2011,32(7):2485-2489.
5丁启伟,戴晨光,赵博.基于颜色特征利用色矩与BTC法进行影像聚类[J].测绘与空间地理信息,2011,34(3):162-164.
6边鹏,赵妍,苏玉召.一种改进的K-means算法最佳聚类数确定方法[J].现代图书情报技术,2011(9):34-40. 被引量：12
7黄敏,何中市,邢欣来,陈英.一种新的k-means聚类中心选取算法[J].计算机工程与应用,2011,47(35):132-134. 被引量：20
8张艳肖.基于遗传聚类算法的Web日志挖掘研究[J].信息技术,2011,35(12):10-12. 被引量：1
9谢娟英,马箐,谢维信.一种确定最佳聚类数的新算法[J].陕西师范大学学报（自然科学版）,2012,40(1):13-18. 被引量：11
10边鹏,苏玉召.基于检索日志的检索词推荐研究[J].图书情报工作,2012,56(9):31-36. 被引量：4

同被引文献21

1孙吉贵,刘杰,赵连宇.聚类算法研究[J].软件学报,2008(1):48-61. 被引量：1070
2朱剑,赵海,徐久强,张希元,陆育慧.WSN中基于跨层策略的低能耗/高可靠通信问题研究[J].系统仿真学报,2009,21(16):4975-4979. 被引量：1
3于亚飞,周爱武.一种改进的DBSCAN密度算法[J].计算机技术与发展,2011,21(2):30-33. 被引量：35
4杨光,耿贵宁,都婧,刘照辉,韩鹤.物联网安全威胁与措施[J].清华大学学报（自然科学版）,2011,51(10):1335-1340. 被引量：98
5栾咏红.基于Android的XML解析器的分析与比较[J].南京晓庄学院学报,2011,27(6):98-100. 被引量：15
6李凤华,苏铓,史国振,马建峰.访问控制模型研究进展及发展趋势[J].电子学报,2012,40(4):805-813. 被引量：127
7刘文懋,殷丽华,方滨兴,张宏莉.物联网环境下的信任机制研究[J].计算机学报,2012,35(5):846-855. 被引量：19
8周鸣争,汪军,严楠,刘涛.无线传感器网络中一种基于行为可信的访问控制机制[J].计算机科学,2012,39(B06):72-76. 被引量：4
9程芳权,彭智勇,宋伟,王书林,崔一辉.云环境下一种隐私保护的高效密文排序查询方法[J].计算机学报,2012,35(11):2215-2227. 被引量：21
10王浩,吴博,葛劲文,王平.物联网中基于受控对象的分布式访问控制[J].电子科技大学学报,2012,41(6):893-898. 被引量：2

引证文献3

1陈迪,周鸣争.物联网中基于跨层行为可信的访问控制机制[J].小型微型计算机系统,2016,37(9):2002-2006. 被引量：1
2朱林.基于改进的PEKS方案的高效搜索加密算法[J].河北工业科技,2016,33(6):470-473.
3黄海平,黄子平,陈湘萍,石晓红.基于密度聚类的Android用户界面构件推荐方法与实现[J].河北工业科技,2018,35(1):49-54.

二级引证文献1

1刘浩,陈志刚,张连明.P2P网络中基于准入度的任务访问控制模型[J].信息网络安全,2017(6):22-29. 被引量：1

1闫洪森,张野,孙娜,孔德冉,杨喜权.基于本体的知识库构建方法[J].情报科学,2007,25(9):1398-1400. 被引量：20
2姚春联.网络计划技术在施工管理中的应用水平分析[J].石油化工建设,2008,30(4):19-20.
3声音[J].现代企业文化,2009(16):9-10.
4章文军,许禄.自组织特征映射神经网络——用于茶叶分类[J].计算机与应用化学,2000,17(1):85-87. 被引量：6
5杨英.地区劳动力市场干部供求自动化系统的建立和软件:述评[J].管理观察,1994,0(9):39-39.
6蔡煜东,陆文聪.用自组织学习联想神经网络（LASSON^2）识别茶叶[J].食品科学,1995,16(10):21-23. 被引量：2
7陈孝敬,吴迪,何勇,李晓丽,刘守.基于多光谱图像颜色特征的茶叶分类研究[J].光谱学与光谱分析,2008,28(11):2527-2530. 被引量：16
8宫美望,王爱叶,康洪志,王召孟.采用双传感器信号合成技术的平面水平分析法[J].计量技术,2012(12):36-39. 被引量：2
9吴迪,陈孝敬,何勇.基于离散余弦变换和支持向量机的多光谱纹理图像的茶叶分类研究[J].光谱学与光谱分析,2009,29(5):1382-1385. 被引量：10
10杨莉.信息产业发展对于甘肃省总体经济发展贡献水平分析[J].甘肃理论学刊,2000(1):45-49. 被引量：1

河北工业科技

2015年第2期

浏览历史

内容加载中请稍等...

一种引入参数无需确定聚类数的聚类算法被引量：3

参考文献14

二级参考文献45

共引文献129

同被引文献21

引证文献3

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

一种引入参数无需确定聚类数的聚类算法 被引量：3

参考文献14

二级参考文献45

共引文献129

同被引文献21

引证文献3

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

一种引入参数无需确定聚类数的聚类算法被引量：3