密度峰值隶属度优化的半监督Self-Training算法

Semi-supervised Self-Training Algorithm for Density Peak Membership Optimization

下载PDF

导出

摘要现实中由于获取标签的成本很高,大部分的数据只含有少量标签。相比监督学习和无监督学习,半监督学习能充分利用数据集中的大量无标签数据和少量有标签数据,以较少的标签成本获得较高的学习性能。自训练算法是一种经典的半监督学习算法,在其迭代优化分类器的过程中,不断从无标签样本中选取高置信度样本并由基分类器赋予标签,再将这些样本和伪标签添加进训练集。选取高置信度样本是Self-Training算法的关键,受密度峰值聚类算法(DPC)启发,将密度峰值用于高置信度样本的选取,提出了密度峰值隶属度优化的半监督Self-Training算法(STDPM)。首先,STDPM利用密度峰值发现样本的潜在空间结构信息并构造原型树。其次,搜索有标签样本在原型树上的无标签近亲结点,将无标签近亲结点的隶属于不同类簇的峰值定义为簇峰值,归一化后作为密度峰值隶属度。最后,将隶属度大于设定阈值的样本作为高置信度样本,由基分类器赋予标签后添加进训练集。STDPM充分利用密度峰值所隐含的密度和距离信息,提升了高置信度样本的选取质量,进而提升了分类性能。在8个基准数据集上进行对比实验,结果验证了STDPM算法的有效性。 Most of data contain only a few labels because of high cost of obtaining them in reality.Compared with supervised learning and unsupervised learning,semi-supervised learning can obtain higher learning performance with less labeling cost by making full use of large amount of unlabeled data and small amount of labeled data in datasets.Self-Training algorithm is a classical semi-supervised learning algorithm.In the process of iteratively optimizing classifier,high-confidence samples are continuously selected from unlabeled samples and labeled by the base classifier.Then,these samples and pseudo-labels will be added into the training sets.Selecting high-confidence samples is a critical step in the Self-Training algorithm.Inspired by the density peaks clustering(DPC)algorithm,this paper proposes semi-supervised Self-Training algorithm for density peak membership optimization(STDPM),which uses density peak to select high-confidence samples.Firstly,STDPM takes density peak to discover the potential spatial structure information of the samples and constructs a prototype tree.Secondly,STDPM searches the unlabeled direct relatives of the labeled samples in the prototype tree,and defines the density peak of the unlabeled direct relatives that belong to different clusters as the clusters-peak.Then,clusters-peak is turned into the density peak membership after normalized.Finally,STDPM regards samples with membership greater than the set threshold as high-confidence samples that are labeled by the base classifier and added to the training set.STDPM makes full use of the density and distance information implied by the peak,which improves the selection quality of high-confidence samples and further improves the classification performance.Comparative experiments are conducted on 8 benchmark datasets,which verify the effectiveness of STDPM.

作者刘学文王继奎杨正国李冰聂飞平 LIU Xuewen;WANG Jikui;YANG Zhengguo;LI Bing;NIE Feiping(School of Information Engineering,Lanzhou University of Finance and Economics,Lanzhou 730020,China;Center for Optical Imagery Analysis and Learning,Northwestern Polytechnical University,Xi’an 710072,China)

机构地区兰州财经大学信息工程学院西北工业大学光学影像分析与学习中心

出处《计算机科学与探索》 CSCD 北大核心 2022年第9期2078-2088,共11页 Journal of Frontiers of Computer Science and Technology

基金国家自然科学基金(61772427,11801345) 甘肃省高等学校创新能力提升项目(2019B-97,2019A-069) 兰州财经大学科研项目(Lzufe2020B-0010,Lzufe2020B-011) 甘肃省科技计划项目(20CX9ZA057)。

关键词密度峰值隶属度簇峰值原型树近亲结点集自训练 density peak membership clusters-peak prototype tree direct relative node sets self-training

分类号 TP181 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献10

1陈叶旺,申莲莲,钟才明,王田,陈谊,杜吉祥.密度峰值聚类算法综述[J].计算机研究与发展,2020,57(2):378-394. 被引量：45
2丁志成,葛洪伟.优化分配策略的密度峰值聚类算法[J].计算机科学与探索,2020,14(5):792-802. 被引量：7
3丁世飞,徐晓,王艳茹.基于不相似性度量优化的密度峰值聚类算法[J].软件学报,2020,31(11):3321-3333. 被引量：28
4卫丹妮,杨有龙,仇海全.结合密度峰值和切边权值的自训练算法[J].计算机工程与应用,2021,57(2):70-76. 被引量：3
5艾震鹏,王振友.基于数据密度的半监督自训练分类算法[J].计算机应用研究,2019,36(4):1072-1074. 被引量：8
6刘沧生,许青林.基于密度峰值优化的模糊C均值聚类算法[J].计算机工程与应用,2018,54(14):153-157. 被引量：15
7钱雪忠,金辉.自适应聚合策略优化的密度峰值聚类算法[J].计算机科学与探索,2020,14(4):712-720. 被引量：9
8刘娟,万静.自然反向最近邻优化的密度峰值聚类算法[J].计算机科学与探索,2021,15(10):1888-1899. 被引量：11
9柏锷湘,罗可,罗潇.结合自然和共享最近邻的密度峰值聚类算法[J].计算机科学与探索,2021,15(5):931-940. 被引量：7
10韩嵩,韩秋弘.半监督学习研究的述评[J].计算机工程与应用,2020,56(6):19-27. 被引量：18

二级参考文献58

1陈松生,王蔚.改进的快速模糊C-均值聚类算法[J].计算机工程与应用,2007,43(10):167-169. 被引量：13
2杨剑,王珏,钟宁.流形上的Laplacian半监督回归[J].计算机研究与发展,2007,44(7):1121-1127. 被引量：15
3宋清昆,郝敏.一种改进的模糊C均值聚类算法[J].哈尔滨理工大学学报,2007,12(4):8-10. 被引量：26
4邓超,郭茂祖.基于Tri-Training和数据剪辑的半监督聚类算法[J].软件学报,2008,19(3):663-673. 被引量：30
5杨燕,靳蕃,KAMEL Mohamed.聚类有效性评价综述[J].计算机应用研究,2008,25(6):1630-1632. 被引量：117
6唐焕玲,林正奎,鲁明羽,邬俊.一种结合独立性模型与差异评估的Co-Training改进方案[J].计算机研究与发展,2008,45(11):1874-1881. 被引量：7
7王娇,罗四维,曾宪华.基于随机子空间的半监督协同训练算法[J].电子学报,2008,36(B12):60-65. 被引量：14
8齐淼,张化祥.改进的模糊C-均值聚类算法研究[J].计算机工程与应用,2009,45(20):133-135. 被引量：41
9刘坤朋,罗可.改进的模糊C均值聚类算法[J].计算机工程与应用,2009,45(21):97-98. 被引量：19
10高翠芳,吴小俊,张松顺.改进的半监督模糊聚类算法[J].控制与决策,2010,25(1):115-120. 被引量：6

共引文献124

1马茂源,吕佳.结合相似度的朴素贝叶斯半监督自训练方法[J].重庆师范大学学报（自然科学版）,2019,36(1):78-84. 被引量：3
2薛小娜,高淑萍,彭弘铭,吴会会.基于K近邻和多类合并的密度峰值聚类算法[J].吉林大学学报（理学版）,2019,57(1):111-120. 被引量：10
3吴会会,高淑萍,彭弘铭,赵怡.自适应模糊C均值聚类的数据融合算法[J].计算机工程与应用,2019,55(5):26-35. 被引量：16
4罗云松,吕佳.结合密度峰值优化模糊聚类的自训练方法[J].重庆师范大学学报（自然科学版）,2019,36(2):94-100. 被引量：8
5张岭军,李聪,段云龙.结合空间邻域信息的SAR图像变化检测[J].计算机工程与应用,2019,55(15):185-192. 被引量：3
6邵俊健,王士同.具有抗噪性能适用高维数据的增量式聚类算法[J].计算机科学与探索,2019,13(9):1553-1566. 被引量：10
7李昕,雷迎科.基于模糊邻域的比较密度峰值算法[J].信号处理,2019,35(11):1919-1928.
8朱明荣,盛子恒.基于模糊聚类的混合多传感器数据融合算法[J].舰船电子对抗,2019,42(6):53-57. 被引量：1
9陈小丹,咸鹤群.基于带大小约束聚类的数据库水印方案[J].青岛大学学报（自然科学版）,2020,33(1):18-24. 被引量：1
10卜秋瑾,段隆振,段文影.结合遗传k均值改进的密度峰值聚类算法[J].计算机工程与设计,2020,41(4):1012-1016. 被引量：8

1彭瑞,赵文智,张立强,陈学泓.基于多尺度对比学习的弱监督遥感场景分类[J].地球信息科学学报,2022,24(7):1375-1390. 被引量：3
2方旭琴,崔向宁,曲艺,林虹辰,蒋之林.基于中医传承辅助平台挖掘中药复方专利中治疗复发性口腔溃疡的用药规律[J].世界科学技术-中医药现代化,2022,24(3):1126-1136. 被引量：3
3徐雯,汤健,夏恒,乔俊飞.基于Bagging半监督深度森林回归的二噁英排放浓度软测量[J].仪器仪表学报,2022,43(6):251-259. 被引量：5

计算机科学与探索

2022年第9期

浏览历史

内容加载中请稍等...

密度峰值隶属度优化的半监督Self-Training算法

参考文献10

二级参考文献58

共引文献124

相关作者

相关机构

相关主题

浏览历史