一种成对约束限制的半监督文本聚类算法被引量：5

Pairwise Constrained Semi-supervised Text Clustering Algorithm

下载PDF

导出

摘要半监督聚类能利用少量标记数据来提高聚类算法性能,但大部分文本聚类算法无法直接应用成对约束等先验信息。针对文本数据高维稀疏的特点,提出了一种半监督文本聚类算法。将成对约束信息扩展后嵌入文档相似度矩阵,在此基础上根据已划分与未划分文档之间的统计信息逐步找出剩余未划分文本集合中密集的且与已划分聚类中心集合相似度较小的K个初始聚类中心集合,然后将剩余的相对较难区分的文档结合成对约束限制信息划分到K个初始聚类中心集合,最后通过融合成对约束违反惩罚的收敛准则函数对聚类结果进行进一步优化。算法在聚类过程中自动确定初始聚类中心集合,避免了K均值算法对初始聚类中心选择的敏感性。在几个中英文数据集上的实验结果表明,所提算法能有效地利用少量的成对约束先验信息提高聚类效果。 Semi-supervised clustering can use a small amount of tag data to improve the clustering performance, but most of the text clustering algorithms can not directly apply priori information such as pairwise constraints. As the characteristics of text data were high-dimensional and sparse,we proposed a semi-supervised document clustering algo- rithrru First,pairwise constraints were expanded and embedded in the document similarity matrix, then K density regions which have a small similarity with the already partitioned text collection were gradually searched in the remaining unpartitioned text collection as initial centroid. The remaining unpartitioned texts which are relatively difficult to distin- guish were assigned to the K initial centroid according to the constraints. Finally, the clustering result was optimized by the convergence criterion function through integration of punish violations of pairwise constraints. In the clustering process,it can automatically determines the initial centroids to avoid the sensitivity to the initial centroids of K-means algorithm. Experimental results show that the proposed algorithm can effectively use a small amount of pairwise con- straints to improve the clustering performance in Chinese and English text datasets.

作者王纵虎刘速

机构地区中国人民大学统计学院中国石油规划总院计算机信息中心

出处《计算机科学》 CSCD 北大核心 2016年第12期183-188,共6页 Computer Science

关键词聚类半监督向量空间模型成对约束文本 Clustering, Semi-supervised, VSM, Pairwise constraints, Text

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献10

1苏赢彬,杜学绘,夏春涛,曹利峰,陈华成.基于半监督聚类的文档敏感信息推导方法[J].计算机科学,2015,42(10):132-137. 被引量：4
2赵卫中,马慧芳,李志清,史忠植.一种结合主动学习的半监督文档聚类算法[J].软件学报,2012,23(6):1486-1499. 被引量：30
3李昆仑,曹铮,曹丽苹,张超,刘明.半监督聚类的若干新进展[J].模式识别与人工智能,2009,22(5):735-742. 被引量：50
4王娜,李霞.基于监督信息特性的主动半监督谱聚类算法[J].电子学报,2010,38(1):172-176. 被引量：33
5汪中,刘贵全,陈恩红.一种优化初始中心点的K-means算法[J].模式识别与人工智能,2009,22(2):299-304. 被引量：140
6李雪梅,王立宏,宋宜斌.一种混合约束的半监督聚类算法[J].模式识别与人工智能,2011,24(3):452-456. 被引量：2
7肖宇,于剑.基于近邻传播算法的半监督聚类[J].软件学报,2008,19(11):2803-2813. 被引量：165
8秦钰,荆继武,向继,张爱华.基于优化初始类中心点的K-means改进算法[J].中国科学院研究生院学报,2007,24(6):771-777. 被引量：10
9王玲,薄列峰,焦李成.密度敏感的半监督谱聚类[J].软件学报,2007,18(10):2412-2422. 被引量：94
10尹学松,胡思良,陈松灿.基于成对约束的判别型半监督聚类分析[J].软件学报,2008,19(11):2791-2802. 被引量：51

二级参考文献121

1龙军,殷建平,祝恩,赵文涛.主动学习研究综述[J].计算机研究与发展,2008,45(z1):300-304. 被引量：31
2李永森,杨善林,马溪骏,胡笑旋,陈增明.空间聚类算法中的K值优化问题研究[J].系统仿真学报,2006,18(3):573-576. 被引量：39
3苏金树,张博锋,徐昕.基于机器学习的文本分类技术研究进展[J].软件学报,2006,17(9):1848-1859. 被引量：387
4钱线,黄萱菁,吴立德.初始化K-means的谱方法[J].自动化学报,2007,33(4):342-346. 被引量：32
5Basu S, Banerjee A, Mooney RJ. A probabilistic framework for semi-supervised clustering. In: Boulicaut JF, Esposito F, Giannotti F, Pedreschi D, eds. Proc. of the 10th ACM SIGKDD Int'l Conf. on Knowledge Discovery and Data Mining. New York: ACM Press, 2004.59-68.
6Bilenko M, Basu S, Mooney RJ. Integrating constraints and metric learning in semi-supervised clustering. In: Brodley CE, ed. Proc. of the 21st Int'l Conf. on Machine Learning. New York: ACM Press, 2004. 81-88.
7Tang W, Xiong H, Zhong S, Wu J. Enhancing semi-supervised clustering: a feature projection perspective. In: Berkhin P, Caruana R, Wu XD, eds. Proc. of the 13th ACM SIGKDD Int'l Conf. on Knowledge Discovery and Data Mining. New York: ACM Press, 2007. 707-716.
8Basu S, Banerjee A, Mooney RJ. Active semi-supervision for pairwise constrained clustering. In: Jonker W, Petkovic M, eds. Proc. of the SIAM Int'l Conf. on Data Mining. Cambridge: MIT Press, 2004. 333-344.
9Yan B, Domeniconi C. An adaptive kernel method for semi-supervised clustering. In: Fiirnkranz J, Scheffer T, Spiliopoulou M, eds. Proc. of the 17th European Conf. on Machine Learning. Berlin: Sigma Press, 2006. 18-22.
10Yeung DY, Chang H. Extending the relevant component analysis algorithm for metric learning using both positive and negative equivalence constraints. Pattern Recognition, 2006,39(5):1007-1010.

共引文献490

1张颖,王琳,王丽华,王飞,张苗.基于最小二乘法和聚类的用电数据异常分析算法[J].河北电力技术,2019,0(5):4-6. 被引量：2
2於跃成,刘彩生,生佳根.分布式约束一致高斯混合模型[J].南京理工大学学报,2013,37(6):799-806. 被引量：3
3王海,高岭,陈东棋,任杰.一种基于用户行为的嵌入式功耗优化方法[J].系统仿真学报,2015,27(2):320-326.
4常瑞花.基于密集度量元的近邻传播聚类算法[J].微电子学与计算机,2015,32(5):1-5. 被引量：1
5陈兴蜀,吴小松,王文贤,王海舟.基于特征关联度的K-means初始聚类中心优化算法[J].四川大学学报（工程科学版）,2015,47(1):13-19. 被引量：29
6肖宇,于剑.基于近邻传播算法的半监督聚类[J].软件学报,2008,19(11):2803-2813. 被引量：165
7陈晓峰,王士同,曹苏群.基于半监督学习的核信任力传播聚类算法[J].江南大学学报（自然科学版）,2008,7(5):505-510.
8吴毓龙,袁平波.密度敏感的距离测度在特定图像聚类中的应用[J].计算机工程,2009,35(6):210-212. 被引量：2
9李琳娜,陈海蕊,王映龙.基于高阶逻辑的复杂结构数据半监督聚类[J].计算机科学,2009,36(9):196-200.
10孙可,刘杰,王学颖.K均值聚类算法初始质心选择的改进[J].沈阳师范大学学报（自然科学版）,2009,27(4):448-450. 被引量：15

同被引文献37

1王玲,薄列峰,焦李成.密度敏感的半监督谱聚类[J].软件学报,2007,18(10):2412-2422. 被引量：94
2尹学松,胡思良,陈松灿.基于成对约束的判别型半监督聚类分析[J].软件学报,2008,19(11):2791-2802. 被引量：51
3肖宇,于剑.基于近邻传播算法的半监督聚类[J].软件学报,2008,19(11):2803-2813. 被引量：165
4张晨光,李玉鑑.基于半监督学习的眉毛图像分割方法[J].计算机工程与应用,2009,45(21):139-141. 被引量：5
5方匡南,纪宏,路逊.股票技术指标相似性与有效性研究[J].统计与信息论坛,2009,24(9):26-30. 被引量：9
6冯晓磊,于洪涛.基于流形距离的半监督近邻传播聚类算法[J].计算机应用研究,2011,28(10):3656-3658. 被引量：6
7赵卫中,马慧芳,李志清,史忠植.一种结合主动学习的半监督文档聚类算法[J].软件学报,2012,23(6):1486-1499. 被引量：30
8常瑜,梁吉业,高嘉伟,杨静.一种基于Seeds集和成对约束的半监督聚类算法[J].南京大学学报（自然科学版）,2012,48(4):405-411. 被引量：7
9陈秀平,王明文,万剑怡,左家莉.基于Markov随机游走的渐进式半监督分类模型[J].江西师范大学学报（自然科学版）,2014,38(1):102-107. 被引量：1
10郭躬德,李南,陈黎飞.一种基于混合模型的数据流概念漂移检测算法[J].计算机研究与发展,2014,51(4):731-742. 被引量：13

引证文献5

1安强强,张峰,李赵兴,张雅琼.基于机器学习的图像分割研究[J].自动化与仪器仪表,2018,0(6):29-31. 被引量：4
2李晓红,冉宏艳,龚继恒,颜丽,马慧芳.基于改进相似度与类中心向量的半监督短文本聚类算法[J].计算机工程与科学,2018,40(9):1710-1716. 被引量：1
3柴变芳,吕峰,李文斌,王垚.基于主动学习先验的半监督K-means聚类算法[J].计算机应用,2018,38(11):3139-3143. 被引量：4
4张加惠,陈致远,赵峰,安志勇,谢青松.基于深层融合的股票文本主题识别[J].计算机科学,2019,46(S11):122-126.
5文静,俞卫琴.基于马氏距离的半监督近邻传播聚类算法[J].软件导刊,2023,22(7):59-65. 被引量：1

二级引证文献10

1李彩红,张慧娥,申海杰.K-means无监督机器学习算法在心脏CT图像分割中的应用[J].电脑知识与技术,2019,15(1):212-213. 被引量：3
2秦悦,丁世飞.半监督聚类综述[J].计算机科学,2019,46(9):15-21. 被引量：18
3曲琦,张正凯,许胜之.基于LSTM-ICNN的网络情报信息技术研究[J].电子测量技术,2019,42(18):144-148. 被引量：7
4韩嵩,韩秋弘.半监督学习研究的述评[J].计算机工程与应用,2020,56(6):19-27. 被引量：21
5于府平.基于点群聚类的计算机网络入侵节点选择算法研究[J].电子设计工程,2020,28(17):42-45.
6施伟,黄红蓝,冯旸赫,刘忠.面向多类别分类问题的子抽样主动学习方法[J].系统工程与电子技术,2021,43(3):700-708. 被引量：1
7王海霞,李凯勇.基于机器学习的图像敏感信息识别方法[J].现代电子技术,2021,44(19):66-70. 被引量：4
8张苏颖,许曙青.基于加权投票的主动密度峰值数据聚类算法[J].计算机应用与软件,2023,40(10):297-306. 被引量：1
9赵雅丽,郭鹏,胡乾坤,董科韬.基于云模型的风电机组出力异常监测方法[J].电力科学与工程,2024,40(8):70-78.
10林宽,李卓雅,李新民.基于高斯过程分类的小样本图像识别[J].人工智能与机器人研究,2022,11(4):341-347.

1张燕武,王国军,燕锋.普适计算认证过程基于粗糙集的隐私保护策略[J].计算机系统应用,2010,19(11):88-91.
2施侃晟,刘海涛,白英彩,宋文涛,洪亮亮.余弦度量和适应度函数改进的聚类方法[J].电子科技大学学报,2013,42(4):621-624. 被引量：4
3董立凯,曲守宁.Web日志挖掘技术在电子商务网站中的应用[J].山东轻工业学院学报（自然科学版）,2008,22(1):7-9. 被引量：3
4森林.善用Word中的“域”[J].网络与信息,2004,18(10):57-57.
5尧军奇.用Protel软件实现电路图的绘制及嵌入文档[J].UPS应用,2004(4):51-52.
6查志远,刘辉,尚振宏,李润鑫.基于l_(1/2)范数正则化的图像重建方法[J].计算机工程与应用,2016,52(18):173-178. 被引量：2
7杨世达,李庆华,阮幼林.改进遗传算法全局收敛性分析[J].计算机工程与设计,2005,26(7):1695-1697. 被引量：14
8赵文成.让产品宣传稿图文并茂[J].电脑迷,2009(22):75-75.
9Yingying She Huajing Fang.Fast consensus seeking for multi-agent systems[J].Journal of Systems Engineering and Electronics,2011,22(3):534-539. 被引量：3
10梁皓莹,赵利.基于SIP协议非语音信息扩展的应用研究[J].计算机应用,2008,28(B06):130-132. 被引量：1

计算机科学

2016年第12期

浏览历史

内容加载中请稍等...

一种成对约束限制的半监督文本聚类算法被引量：5

参考文献10

二级参考文献121

共引文献490

同被引文献37

引证文献5

二级引证文献10

相关作者

相关机构

相关主题

浏览历史

一种成对约束限制的半监督文本聚类算法 被引量：5

参考文献10

二级参考文献121

共引文献490

同被引文献37

引证文献5

二级引证文献10

相关作者

相关机构

相关主题

浏览历史

一种成对约束限制的半监督文本聚类算法被引量：5