基于半监督K-means的K值全局寻优算法被引量：11

Global Optimising K Value for Semi-Supervised K-means Algorithm

下载PDF

导出

摘要提出一种基于半监督K-means的K值全局寻优算法,该算法打破传统方法中采用样本类别作为K值的限定,利用少量标记数据即可指导和规划大量无监督数据.结合数据集自身的分布特点及聚类后各个簇内的监督信息,根据投票方法来指导簇中数据集的类别标记.实验表明,本文所提出的方法可以有效的寻找适合数据集的最佳K值和聚类的中心,提高聚类性能. In this paper, we propose a global optimising K value for semi-supervised K-means algorithm. It has broken the limits that traditional methods have in selecting samples as the K value. It can direct and plan a great amount of supervision data by using only a small amount of labled data. Combining the distribution characteristics of data sets and monitoring information in each cluster after clustering, we use the voting rule to guide the cluster labeling in the data sets. The experiments show that the method proposed in this paper can effectively find the best data sets for K values and clustering center and enhancing the performance of clustering.

作者孙雪李昆仑胡夕坤赵瑞

机构地区河北大学电子信息工程学院河北大学工商学院

出处《北京交通大学学报》 CAS CSCD 北大核心 2009年第6期106-109,共4页 JOURNAL OF BEIJING JIAOTONG UNIVERSITY

基金国家自然基金资助项目(60773062 60873100) 河北省科技支撑计划项目资助(072135188) 河北省教育厅科研计划项目资助(2008312)

关键词半监督聚类 constrained—K均值 K均值算法投票阈值 semi-supervised clustering constrained- K means K-means voting threshold

分类号 TP181 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献15

1米歇尔.机器学习[M].北京:机械工业出版社,2003.
2Wagstaff K, Cardie C, Rogers S, et al. Constrained K-Means Clustering with Background Knowledge[ C] //Brodley CE, Danyluk AP,eds. Proc.of the 18th lnt'l Conf. on Machine Learning. Williamstown: Morgan Kaufmann Publishers, 2001 : 577 - 584.
3杨剑,王珏,钟宁.流形上的Laplacian半监督回归[J].计算机研究与发展,2007,44(7):1121-1127. 被引量：15
4Mathias M, Adankon, Mohamed Cheriet. Learning Semi- Supervised SVM with Genetic Algorithm[ C]//Proceedings of International Joint Conference on Neural Networks, 2007:1825 - 1830.
5Noureddine G L, Farid M. Semi-Supervised Muhitemporal Classification with Support Vector Machines and Genetic Algorithms [ C ] // International Geoscience and Remote Sensing Symposium. Spain, 2007 : 2577 - 2580.
6李志圣,孙越恒,何丕廉,侯越先.基于k-means和半监督机制的单类中心学习算法[J].计算机应用,2008,28(10):2513-2516. 被引量：4
7高滢,刘大有,齐红,刘赫.一种半监督K均值多关系数据聚类算法[J].软件学报,2008,19(11):2814-2821. 被引量：22
8Brian Kulis, Sugato Basu, Inderjit Dhillon, et al. Semi-Supervised Graph Clustering: A Kernel Approach [ J ]. Machine LearnInz, 2009,1 (74) : 1 - 22.
9MacQueen J. Some Methods for Classification and Analysis of Multivariate Observations [ C ]//Proc. of the 5th Berkeley Symp. on Mathematical Statistics and Probability. Berkeley: University of California Press, 1967:281 -297.
10孙才志,王敬东,潘俊.模糊聚类分析最佳聚类数的确定方法研究[J].模糊系统与数学,2001,15(1):89-92. 被引量：84

二级参考文献39

1杨剑,李伏欣,王珏.一种改进的局部切空间排列算法[J].软件学报,2005,16(9):1584-1590. 被引量：36
2罗四维,赵连伟.基于谱图理论的流形学习算法[J].计算机研究与发展,2006,43(7):1173-1179. 被引量：76
3张伟.Fuzzy聚类算法中的一个新算法－－Fuzzy PFS聚类法[J].模糊数学,1987,3(4):51-56.
4Dzeroski S. Multi-Relational data mining: An introduction. ACM SIGKDD Explorations Newsletter, 2003,5(1):1-16.
5Dzeroski S, Lavrac N. Relational Data Mining. Berlin: Springer-Verlag, 2001. 339-364.
6Domingos P. Prospects and challenges for multi-relational data mining. ACM SIGKDD Explorations Newsletter, 2003,5(1):80-83.
7Bouchachia A. Learning with partly labeled data. Neural Computing and Applications, 2007,16(3):267-293.
8Zhu XJ. Semi-Supervised learning literature survey. Technical Report, Computer Sciences TR 1530, University of Wisconsin- Madison, 2007. 1-42.
9Chapelle O, Seholkopf B, Zien A. Semi-Supervised Learning. Cambridge: MIT Press, 2006. 3-14.
10Long B, Zhang F, Wu XY, Yu PS. Spectral clustering for multi-type relational data. In: Cohen WW, Moore A, eds. Proc. of the 23rd Int'l Conf. on Machine Learning. New York: ACM Press, 2006. 585-592.

共引文献131

1曹树志,项响琴.基于改进的K_Means算法的城市高架桥交通流分析[J].公路交通科技（应用技术版）,2010,6(10):261-264.
2梁晓雪,王锋.基于聚类的日志分析技术综述与展望[J].云南大学学报（自然科学版）,2009,31(S1):52-55. 被引量：6
3刘耀年,王卫,杨冬峰.基于模糊划分聚类的中长期用电量预测[J].东北电力学院学报,2004,24(4):39-42. 被引量：3
4郭伟,唐晓君,刘万军.一种基于划分的聚类算法分析与改进[J].辽宁工程技术大学学报（自然科学版）,2004,23(6):826-828. 被引量：4
5曹安照,张斌,张永荣,庆先好.模糊聚类在电力负荷预测中的应用[J].安徽工程科技学院学报（自然科学版）,2005,20(1):33-35. 被引量：1
6诸克军,成金华,郭海湘.模糊软分类中最佳聚类数的确定[J].管理科学学报,2005,8(3):8-14. 被引量：15
7张晓杰,王巍巍.基于C—均值模糊聚类的工程结构构件自动归并方法研究[J].四川建筑科学研究,2005,31(4):14-18. 被引量：2
8刘皓,张毅.基于模糊划分的针织纱质量综合评价方法的研究[J].天津工业大学学报,2005,24(4):55-58. 被引量：1
9肖春景,张敏.基于减法聚类与模糊c-均值的模糊聚类的研究[J].计算机工程,2005,31(B07):135-137. 被引量：22
10刘洪林,朱秋影,周振兴.模糊聚类分析及其在测井识别油气层中的应用[J].勘探地球物理进展,2005,28(6):425-427. 被引量：12

同被引文献84

1刘婷,郭海湘,诸克军,高思维.一种改进的遗传k-means聚类算法[J].数学的实践与认识,2007,37(8):104-111. 被引量：22
2邹秀萍,陈劭锋,宁淼,刘扬.中国省级区域碳排放影响因素的实证分析[J].生态经济,2009,25(3):34-37. 被引量：93
3何建坤,刘滨.作为温室气体排放衡量指标的碳排放强度分析[J].清华大学学报（自然科学版）,2004,44(6):740-743. 被引量：147
4王建会,申展,胡运发.一种实用高效的聚类算法[J].软件学报,2004,15(5):697-705. 被引量：26
5王志华,尹项根,张小波,黄雄,杨经超.利用CVT捕捉电压行波实现故障测距的分析与实践[J].电力系统自动化,2004,28(22):63-68. 被引量：29
6刘旭华,王劲峰.空间权重矩阵的生成方法分析与实验[J].地球信息科学,2002,4(2):38-44. 被引量：43
7孙雅明,王俊丰.基于分形理论的输电线路故障类型识别新方法[J].电力系统自动化,2005,29(12):23-28. 被引量：25
8杨善林,李永森,胡笑旋,潘若愚.K-MEANS算法中的K值优化问题研究[J].系统工程理论与实践,2006,26(2):97-101. 被引量：190
9王海起,王劲峰.一种基于空间邻接关系的k-means聚类改进算法[J].计算机工程,2006,32(21):50-51. 被引量：15
10钱线,黄萱菁,吴立德.初始化K-means的谱方法[J].自动化学报,2007,33(4):342-346. 被引量：32

引证文献11

1田森平,吴文亮.自动获取k-means聚类参数k值的算法[J].计算机工程与设计,2011,32(1):274-276. 被引量：18
2袁利永,王基一.一种改进的半监督K-Means聚类算法[J].计算机工程与科学,2011,33(6):138-143. 被引量：13
3张广斌,束洪春,于继来.利用广义电流模量的行波实测数据半监督聚类筛选[J].中国电机工程学报,2012,32(10):150-159. 被引量：14
4李翔宇,王开军,郭躬德.挑选聚类算法的网格连通图方法[J].计算机系统应用,2012,21(9):103-107.
5冯波,郝文宁,陈刚,占栋辉.K-means算法初始聚类中心选择的优化[J].计算机工程与应用,2013,49(14):182-185. 被引量：50
6李丹丹,刘锐,陈动.基于空间聚类分析的中国省域能源消费碳排放分布特征研究[J].北京师范大学学报（自然科学版）,2013,49(5):529-533. 被引量：5
7李卫军.K-means聚类算法的研究综述[J].现代计算机（中旬刊）,2014(8):31-32. 被引量：10
8张斌.基于回声状态网络的短期股价预测模型[J].计算机应用与软件,2017,34(5):268-272. 被引量：10
9曹丽君,吴湘华.k均值聚类算法归一化处理前后效果研究比较[J].电子制作,2014,22(16):50-51. 被引量：2
10邢艺馨,田爱奎,张立晔,常春红,郝本利.基于ORB与K-means聚类的图像匹配算法[J].智能计算机与应用,2020,10(9):77-80. 被引量：1

二级引证文献123

1张赫,于丁一,王睿,盛明洁.基于碳排放特征的中国省域低碳规划策略研究[J].建筑节能,2020,48(3):126-132. 被引量：2
2周国亮,宋亚奇,王桂兰,朱永利.状态监测大数据存储及聚类划分研究[J].电工技术学报,2013,28(S2):337-344. 被引量：41
3夏战国,万玲,蔡世玉,孙鹏辉.一种面向入侵检测的半监督聚类算法[J].山东大学学报（工学版）,2012,42(6):1-7. 被引量：9
4潘大庆.基于层次聚类的微博敏感话题检测算法研究[J].广西民族大学学报（自然科学版）,2012,18(4):56-59. 被引量：5
5尚冠宇,韩万兵,郭凡新,邓小鸿.改进的块差值无损鲁棒图像水印算法[J].计算机工程与设计,2013,34(3):809-813.
6罗德超,宫宝利,姬应江,刘鸿淼.基于改进k-均值算法的轻型车尾气排放数据聚类方法[J].汽车工程学报,2013,3(2):113-118.
7宋亚奇,周国亮,朱永利.智能电网大数据处理技术现状与挑战[J].电网技术,2013,37(4):927-935. 被引量：540
8樊晓光,路钊,王久崇,李国栋,谢朝政.基于密度和距离积的聚类中心选取方法[J].测控技术,2013,32(10):152-154. 被引量：5
9贾瑞玉,管玉勇,李亚龙.基于MapReduce模型的并行遗传k-means聚类算法[J].计算机工程与设计,2014,35(2):657-660. 被引量：22
10钱雪忠,赵建芳,贾志伟.基于约束投影的近邻传播聚类算法[J].计算机工程与科学,2014,36(3):524-529. 被引量：4

1蔡登江.粒子群优化算法在入侵检测系统中的应用[J].硅谷,2012,5(21):113-114.
2曾青松,贺卫国.局部敏感的半监督数据降维方法[J].湖南科技大学学报（自然科学版）,2009,24(3):78-81.
3张维,苗夺谦,高灿,李峰.基于粗糙集成学习的半监督属性约简[J].小型微型计算机系统,2016,37(12):2727-2732. 被引量：6
4孙秀娟,刘希玉.基于新聚类有效性函数的改进K-means算法[J].计算机应用,2008,28(12):3244-3247. 被引量：4
5陈允杰,张建伟,韦志辉,夏德深,王平安.改进的粒子群算法多模态生物医学图像配准[J].计算机工程与应用,2007,43(10):22-26. 被引量：3
6范朝冬,张英杰.基于海明距的改进免疫算法及其在SAT中的应用[J].系统工程学报,2011,26(3):408-413. 被引量：1
7崔鹏,张汝波.利用高斯域的半监督回归和主动学习[J].计算机工程,2009,35(15):187-189.
8赵钰,朱俊平,亢娟娜.改进的区域互信息和小波变换的图像配准[J].计算机工程与应用,2013,49(21):152-155. 被引量：6
9汤敏.结合形态学梯度互信息和多分辨率寻优的图像配准新方法[J].自动化学报,2008,34(3):246-250. 被引量：20
10关健,刘大昕.基于主成分分析的无监督异常检测[J].计算机研究与发展,2004,41(9):1474-1480. 被引量：7

北京交通大学学报

2009年第6期

浏览历史

内容加载中请稍等...

基于半监督K-means的K值全局寻优算法被引量：11

参考文献15

二级参考文献39

共引文献131

同被引文献84

引证文献11

二级引证文献123

相关作者

相关机构

相关主题

浏览历史

基于半监督K-means的K值全局寻优算法 被引量：11

参考文献15

二级参考文献39

共引文献131

同被引文献84

引证文献11

二级引证文献123

相关作者

相关机构

相关主题

浏览历史

基于半监督K-means的K值全局寻优算法被引量：11