一种结合主动学习的半监督文档聚类算法被引量：30

Efficiently Active Learning for Semi-Supervised Document Clustering

下载PDF

导出

摘要半监督文档聚类,即利用少量具有监督信息的数据来辅助无监督文档聚类,近几年来逐渐成为机器学习和数据挖掘领域研究的热点问题.由于获取大量监督信息费时费力,因此,国内外学者考虑如何获得少量但对聚类性能提高显著的监督信息.提出一种结合主动学习的半监督文档聚类算法,通过引入成对约束信息指导DBSCAN的聚类过程来提高聚类性能,得到一种半监督文档聚类算法Cons-DBSCAN.通过对约束集中所含信息量的衡量和对DBSCAN算法本身的分析,提出了一种启发式的主动学习算法,能够选取含信息量大的成对约束集,从而能够更高效地辅助半监督文档聚类.实验结果表明,所提出的算法能够高效地进行文档聚类.通过主动学习算法获得的成对约束集,能够显著地提高聚类性能.并且,算法的性能优于两个代表性的结合主动学习的半监督聚类算法. Semi-Supervised document clustering and employing limited prior knowledge to aid in unsupervised clustering, have recently become a topic of significant interest to data mining and machine learning communities. Because receiving supervised data may be expensive, it is important to attain the most informative knowledge to improve the clustering performance. This paper presents a semi-supervised document clustering algorithm with active learning for pairwise constraints, aiming at getting improved clustering performance. The semi-supervised document clustering algorithm is a constrained DBSCAN （cons-DBSCAN） algorithm, which incorporates pairwise constraints to guide the clustering process in DBSCAN. Basing on measure of constraint set utility and analysis of DBSCAN algorithm, an active learning approach is proposed to select informative document pairs for obtaining user feedbacks. Experimental results show that this proposed approach is effective in document clustering. The clustering performance of active Cons-DBSCAN has dramatically improved with selected pairwise constraints. Moreover, the proposed approach performs better than the two representative methods.

作者赵卫中马慧芳李志清史忠植

机构地区湘潭大学信息工程学院中国科学院计算技术研究所智能信息处理重点实验室西北师范大学数学与信息科学学院

出处《软件学报》 EI CSCD 北大核心 2012年第6期1486-1499,共14页 Journal of Software

基金国家自然科学基金(61105052,61070232) 湖南省自然科学基金(11JJ4051) 湖南省教育厅一般项目(10C1262) 湘潭大学博士启动基金(10QDZ42) 中国科学院计算技术研究所智能信息处理重点实验室开放基金(IIP2010-6) 西北师范大学青年教师科研能力提升计划骨干项目(NWNU-LKQN-10-1)

关键词半监督聚类文档聚类主动学习成对约束 semi-supervised clustering document clustering active learning pairwise constraint

分类号 TP181 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献2

1王玲,薄列峰,焦李成.密度敏感的半监督谱聚类[J].软件学报,2007,18(10):2412-2422. 被引量：94
2李昆仑,曹铮,曹丽苹,张超,刘明.半监督聚类的若干新进展[J].模式识别与人工智能,2009,22(5):735-742. 被引量：50

二级参考文献46

1Olivier C, Bernhard S, Alexander Z. Semi-Supervised Learning. Cambridge, USA : MIT Press, 2006 : 3 - 10.
2Blum A, Mitchell T. Combining Labeled and Unlabeled Data with Co-Training//Proe of the 11th Annual Conference on Computational Learning Theory. Madison, USA, 1998 : 92 - 100.
3Zhong Shi. Semi-Supervised Model-Based Document Clustering: A Comparative Study. Machine Learning, 2006, 65 ( 1 ) : 3 - 29.
4Wagstaff K, Cardie C, Rogers S, et al. Constrained K-means Clustering with Background Knowledge // Proc of 18th International Conference on Machine Learning. San Francisco, USA, 2001:577 -584.
5Wagstaff K, Cardie C. Clustering with Instance-Level Constraints// Proc of the 17th International Conference on Machine Learning. SanFrancisco, USA, 2000:1103 - 1110.
6Huang Desheng, Pan Wei. Incorporating Biological Knowledge into Distance-Based Clustering Analysis of Micro Array Gene Expression Data. Bioinformatics, 2006, 22 (10) : 1259 - 1268.
7Tari L, Baral C, Kim S. Fuzzy C-Means Clustering with Prior Biological Knowledge. Journal of Biomedical Informatics, 2009, 42 (1): 74-81.
8Ceccarelli M, Maratea A. Improving Fuzzy Clustering of Biological Data by Metric Learning with Side Information. International Journal of Approximate Reasoning, 2008, 47 ( 1 ) : 45 - 57.
9Huang Ruizhang, Lam W. An Active Learning Framework for Semi Supervised Document Clustering with Language Modeling. Data & Knowledge Engineering, 2008, 68 ( 1 ) : 49 - 67.
10Erman J, Mahanti A, Arlitt M, et al. Offline/Realtime Traffic Classification Using Semi-Supervised Learning. Performance Evaluation, 2007, 64(9/10/11/12): 1194- 1213.

共引文献139

1常瑞花.基于密集度量元的近邻传播聚类算法[J].微电子学与计算机,2015,32(5):1-5. 被引量：1
2肖宇,于剑.基于近邻传播算法的半监督聚类[J].软件学报,2008,19(11):2803-2813. 被引量：165
3陈晓峰,王士同,曹苏群.基于半监督学习的核信任力传播聚类算法[J].江南大学学报（自然科学版）,2008,7(5):505-510.
4吴毓龙,袁平波.密度敏感的距离测度在特定图像聚类中的应用[J].计算机工程,2009,35(6):210-212. 被引量：2
5李琳娜,陈海蕊,王映龙.基于高阶逻辑的复杂结构数据半监督聚类[J].计算机科学,2009,36(9):196-200.
6李昆仑,曹铮,曹丽苹,张超,刘明.半监督聚类的若干新进展[J].模式识别与人工智能,2009,22(5):735-742. 被引量：50
7王娜,李霞.基于监督信息特性的主动半监督谱聚类算法[J].电子学报,2010,38(1):172-176. 被引量：33
8赵莹,张健沛,杨静,王冠军.一种改进的分枝定界半监督支持向量机学习算法[J].电子学报,2010,38(2):449-454. 被引量：4
9董俊,王锁萍,熊范纶.可变相似性度量的近邻传播聚类[J].电子与信息学报,2010,32(3):509-514. 被引量：49
10刘铭,王晓龙,刘远超.基于词汇链的关键短语抽取方法的研究[J].计算机学报,2010,33(7):1246-1255. 被引量：14

同被引文献258

1龙军,殷建平,祝恩,赵文涛.主动学习研究综述[J].计算机研究与发展,2008,45(z1):300-304. 被引量：31
2宋明,刘宗田.基于数据交叠分区的并行DBSCAN算法[J].计算机应用研究,2004,21(7):17-20. 被引量：9
3周水庚,周傲英,金文,范晔,钱卫宁.FDBSCAN:一种快速 DBSCAN算法(英文)[J].软件学报,2000,11(6):735-744. 被引量：42
4徐杰,施鹏飞.图像检索中基于标记与未标记样本的主动学习算法[J].上海交通大学学报,2004,38(12):2068-2072. 被引量：7
5吕巍,蒋波,陈洁.基于K-means算法的中国移动市场顾客行为细分策略研究[J].管理学报,2005,2(1):80-84. 被引量：15
6张宁,贾自艳,史忠植.使用KNN算法的文本分类[J].计算机工程,2005,31(8):171-172. 被引量：97
7何振峰,熊范纶.结合限制的分隔模型及K-Means算法[J].软件学报,2005,16(5):799-809. 被引量：23
8赵军,金千里,徐波.面向文本检索的语义计算[J].计算机学报,2005,28(12):2068-2078. 被引量：28
9李东晖,杜树新,吴铁军.基于壳向量的线性支持向量机快速增量学习算法[J].浙江大学学报（工学版）,2006,40(2):202-206. 被引量：16
10张翔,肖小玲,徐光祐.基于最大熵估计的支持向量机概率建模[J].控制与决策,2006,21(7):767-770. 被引量：12

引证文献30

1张颖,王琳,王丽华,王飞,张苗.基于最小二乘法和聚类的用电数据异常分析算法[J].河北电力技术,2019,0(5):4-6. 被引量：2
2孟凡荣,张可为,朱牧.基于密度的半监督复杂网络聚类算法[J].计算机工程与设计,2014,35(1):271-275.
3王永贵,林琳,刘宪国.结合双粒子群和K-means的混合文本聚类算法[J].计算机应用研究,2014,31(2):364-368. 被引量：16
4孟光胜,赵志宇.基于两层主动学习策略的SVM分类方法[J].河南师范大学学报（自然科学版）,2014,42(2):158-162. 被引量：1
5谢科.融合协同训练和两层主动学习策略的SVM分类方法[J].湖南师范大学自然科学学报,2014,37(1):93-97. 被引量：1
6张静,聂章龙.基于主动学习的动态模糊聚类算法[J].计算机与现代化,2014(5):24-27.
7周萍,秦永彬,黄瑞章.结合seeds集和LDA的半监督文本聚类算法[J].计算机工程与设计,2014,35(6):1994-1998. 被引量：1
8卜旭松,刘立波,石磊.基于PAM和簇阈值的改进K-Means聚类算法[J].湖北工程学院学报,2015,35(3):36-39. 被引量：2
9李艳玲,颜永红.中文口语理解弱监督训练方法[J].计算机应用,2015,35(7):1965-1968. 被引量：2
10苏赢彬,杜学绘,夏春涛,曹利峰,陈华成.基于半监督聚类的文档敏感信息推导方法[J].计算机科学,2015,42(10):132-137. 被引量：4

二级引证文献92

1刘振宇,李钦富,杨硕,邓应强,刘芬,赖新明,白雪珂.一种基于主动学习和多种监督学习的情感分析模型[J].中国电子科学研究院学报,2020,15(2):171-176. 被引量：2
2赵学武,刘向娇,尹孟洋.数据挖掘常用聚类算法研究[J].电脑知识与技术,2014(6):3710-3712. 被引量：5
3田腾浩.优化初始聚类中心的K-Means算法[J].网络安全技术与应用,2014(9):42-43. 被引量：3
4杜家兴,张京京,孙剑桥.基于分治法的初始簇中心选取的K-means聚类算法的研究[J].信息系统工程,2015,0(9):116-118.
5万静,张义,何云斌,李松.基于KD-树和K-means动态聚类方法研究[J].计算机应用研究,2015,32(12):3590-3595. 被引量：16
6符保龙,张爱科.中心聚类和语义特征融合的网页信息文本挖掘方法[J].辽宁工程技术大学学报（自然科学版）,2016,35(1):85-88. 被引量：2
7何兆怡.一种基于模拟退火算法的密度聚类方法[J].福建电脑,2016,32(4):130-131.
8韩海.K进制遗传算法在聚类问题求解中的应用[J].无线互联科技,2016,13(17):135-136.
9茆汉国.基于K-均值与AGNES聚类算法的校园网行为分析系统研究[J].现代电子技术,2016,39(23):116-120. 被引量：5
10秦永彬,李解,黄瑞章,李晶.Semi-supervised Document Clustering Based on Latent Dirichlet Allocation (LDA)[J].Journal of Donghua University(English Edition),2016,33(5):685-688. 被引量：2

1原福永,杨治秋,王海霞.一种基于向量空间模型的文档聚类算法研究[J].信号处理,2005,21(z1):606-608.
2杨占华,杨燕.一种基于SOM和K-means的文档聚类算法[J].计算机应用研究,2006,23(5):73-74. 被引量：16
3闫军.带有成对约束半监督聚类算法C-DBSCAN的设计与实现[J].太原城市职业技术学院学报,2012(10):175-177.
4林庆,袁晓峰,吴旻.中文Web文档聚类算法研究[J].计算机工程与设计,2009,30(20):4759-4761. 被引量：3
5苑兆忠,姜华.Web挖掘技术在信息检索中的应用研究[J].聊城大学学报（自然科学版）,2006,19(1):74-77. 被引量：4
6魏建香,刘怀,苏新宁.基于遗传算法的文档聚类算法的设计与仿真(英文)[J].南京大学学报（自然科学版）,2009,45(3):432-438. 被引量：4
7陈曦,徐家宁,杨建雄.基于免疫网络的k-means文档聚类算法研究[J].计算机工程与设计,2008,29(10):2629-2631.
8李昕,钱旭,王自强.用于文档聚类的间隔流形学习算法研究[J].计算机工程,2010,36(15):40-42. 被引量：1
9吴景岚.一种基于GRASP的文档聚类算法[J].闽江学院学报,2009,30(5):62-65.
10陶惠,张妍,郝光权.基于向量空间的文档聚类算法分析[J].电脑知识与技术（过刊）,2011,17(7X):4781-4782. 被引量：2

软件学报

2012年第6期

浏览历史

内容加载中请稍等...

一种结合主动学习的半监督文档聚类算法被引量：30

参考文献2

二级参考文献46

共引文献139

同被引文献258

引证文献30

二级引证文献92

相关作者

相关机构

相关主题

浏览历史

一种结合主动学习的半监督文档聚类算法 被引量：30

参考文献2

二级参考文献46

共引文献139

同被引文献258

引证文献30

二级引证文献92

相关作者

相关机构

相关主题

浏览历史

一种结合主动学习的半监督文档聚类算法被引量：30