基于后缀树的半监督自适应多密度文本聚类算法被引量：3

Semi-supervised Adaptive Multi-density Document Clustering Algorithm Based on Suffix Tree

下载PDF

导出

摘要半监督文本聚类是文本聚类中的研究热点,广泛应用于数据挖掘和机器学习领域.现有基于划分和密度的半监督文本聚类算法不能适应多密度不平衡文本数据集的聚类.此外,基于向量空间的文档模型使用词或字向量表示文档特征,没有考虑到词组之间的关联性.针对以上问题,提出一种基于后缀树文档模型的半监督自适应多密度文本聚类算法.该算法基于后缀树文档模型表征文档间的相似度,使用K最近邻思想传播扩展簇标签,并在传播扩展过程中不断更新扩展阈值,以适应多密度不平衡的文本数据集.经实验验证,算法具有较高质量的聚类结果且能够适应多密度数据集. Semi-Supervised document clustering is one of the focuses in the research area of document clustering, which is widely usedin the field of machine learning and data mining. Existing document clustering methods based on partition and density cannot adapt tomulti-density and imbalance document datasets. Besides, the traditional document feature model based on vector space just used wordsvector to represent document feature without taking into account the correlation between phrases. To address these problems, we pro-posed a novel semi-supervised adaptive multi-density method based on suffix tree document model. The algorithm uses the suffix treedocument model to compute similarity between documents, using k-nearest-neighbor method to propagate and expand the cluster labelsand updating the expansion threshold in the process to adapt the multi-density datasets. The experiments proved that our method hadhigher quality of clustering results and accommodate multi-density datasets.

作者文平刘渊张春瑞

机构地区中国工程物理研究院计算机应用研究所

出处《小型微型计算机系统》 CSCD 北大核心 2016年第1期100-103,共4页 Journal of Chinese Computer Systems

基金中国工程物理研究院科学技术发展基金课题项目(2012A0403021)资助

关键词后缀树半监督多密度文本聚类 suffix tree semi-supervised multi-density document clustering

分类号 TP301 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献3

1高红艳,刘飞.基于局部相似性的K-means谱聚类算法[J].小型微型计算机系统,2014,35(5):1133-1136. 被引量：4
2胡洋,王井东,俞能海,华先胜.一种基于成对约束的半监督最大间隔聚类算法[J].小型微型计算机系统,2010,31(5):932-936. 被引量：1
3张寿华,刘振鹏.网络舆情热点话题聚类方法研究[J].小型微型计算机系统,2013,34(3):471-474. 被引量：25

二级参考文献27

1胡海波,王林.关于因特网自治系统的连接率的幂律关系[J].西安理工大学学报,2005,21(2):204-207. 被引量：6
2Cheung P-M,Kwok J T.A regularization framework for multiple-instance learning[C].Proceedings of the International Conference on Machine Learning,2006,193-200.
3Collobert R,Sinz F,Weston J,et al.Large scale transductive SVMs[J].Journal of Machine Learning Research,2006,7:1687-1712.
4Hoi S C H,Liu W,Lyu M R,et al.Learning distance metrics with contextual constraints for image retrieval[C].Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,2006,2072-2078.
5Klein D,Kamvar S D,Manning C D.From instance level constraints to space-level constraints:making the most of prior knowledge in data clustering[C].Proceedings of the International Conference on Machine Learning,2002,307-314.
6Noam Shental T H,Aharon Bar-Hillel,Weinshall D.Computing Gaussian mixture models with EM using equivalence constraints[C].Advances in Neural Information Processing Systems 16,2004.
7Smola A J,Vishwanathan S,Hoffman T.Kernel methods for missing variables[C].Proceedings of the 10th International Workshop on Artificial Intelligence and Statistics,2005,325-332.
8Valizadegan H,Jin R.Generalized maximum margin clustering and unsupervised kernel learning[C].Advances in Neural Information Processing Systems 19,2007,1417-1424.
9Wagstaff K,Cardie C,Rogers S,et al.Constrained K-means clustering with background knowledge[C].Proceedings of the International Conference on Machine Learning,2001,577-584.
10Xing E P,Ng A Y,Jordan M I,et al.Distance metric learning with application to clustering with side-information[C].Advances in Neural Information Processing Systems 15,2003.

共引文献27

1张伟佳,丛帅,崔巍.论网络舆情监测系统中关键词智能追踪模型的建立[J].计算机光盘软件与应用,2013,16(23):29-30. 被引量：1
2张昭,艾中良.一种基于用户关联分析的热点话题识别算法[J].计算机与现代化,2014(1):156-160. 被引量：2
3黄斐一,孙立军,孔繁盛.构建移动互联网业务安全框架[J].移动通信,2014,38(5):27-30. 被引量：1
4张杰,卓灵,朱韵攸.一种K-means聚类算法的改进与应用[J].电子技术应用,2015,41(1):125-128. 被引量：20
5马彦.大数据环境下微博舆情热点话题挖掘方法研究[J].现代情报,2014,34(11):29-33. 被引量：9
6李洪利,王箭.基于用户关联的热点话题检测方法[J].计算机与现代化,2015(4):20-25. 被引量：1
7王大鹏,张大为,张鹏.网络舆情热点挖掘系统设计与实现[J].软件导刊,2015,14(7):111-113.
8李爱萍,邸鹏,段利国.基于句子情感加权算法的篇章情感分析[J].小型微型计算机系统,2015,36(10):2252-2256. 被引量：11
9胡改丽,陈婷,陈福集,郑小雪.我国网络舆情热度分析文献综述[J].情报科学,2016,34(1):160-166. 被引量：13
10程春雷,夏家莉,曹重华,李光泉,曹中华.关系概念的Web文本主题抽取模型研究[J].小型微型计算机系统,2016,37(5):972-977. 被引量：1

同被引文献8

1吐尔地.托合提,艾克白尔.帕塔尔,艾斯卡尔.艾木都拉.语义词特征提取及其在维吾尔文文本分类中的应用[J].中文信息学报,2014,28(4):140-144. 被引量：15
2徐健锋,许园,许元辰,张远健,刘清.基于语义理解和机器学习的混合的中文文本情感分类算法框架[J].计算机科学,2015,42(6):61-66. 被引量：29
3孙师尧,妙全兴.基于改进SVM和HMM的文本信息抽取算法[J].计算机应用与软件,2015,32(11):281-284. 被引量：6
4王生生,玄雪花.基于定性空间推理的中文文本空间关系识别[J].吉林大学学报（理学版）,2016,54(3):529-534. 被引量：2
5柯钢.基于增强蜂群优化与K-means的文本聚类算法[J].计算机应用研究,2016,33(8):2298-2302. 被引量：8
6田诗宵,丁立新,郑金秋.基于密度峰值优化的K-means文本聚类算法[J].计算机工程与设计,2017,38(4):1019-1023. 被引量：26
7宋呈祥,陈秀宏,牛强.文本分类中基于CHI改进的特征选择方法[J].微电子学与计算机,2018,35(9):74-78. 被引量：5
8邱云飞,赵彬,林明明,王伟.结合语义改进的K-means短文本聚类算法[J].计算机工程与应用,2016,52(19):78-83. 被引量：14

引证文献3

1刘昆.机器学习算法在文本信息挖掘中的应用[J].网络安全技术与应用,2016(11):77-77. 被引量：3
2田夏利,熊莹.融入新的特征选择机制的文本数据聚类算法[J].计算机工程与设计,2021,42(3):734-741. 被引量：2
3王永刚,李靖,王文慧,曹传剑,王晓燕.基于和声搜索机制的特征选择与文本聚类分析[J].计算机工程与设计,2022,43(2):472-478.

二级引证文献5

1张永东.计算机文本信息挖掘技术在网络安全中的应用[J].信息与电脑,2018,30(14):140-141. 被引量：3
2李爱琳.基于计算机文本数据分析的信息安全防护研究[J].现代工业经济和信息化,2019,9(11):66-67. 被引量：2
3武越,刘向东,周晓俊,石兆军,李可.涉密环境下的非密办公网敏感信息监控系统设计[J].网络安全技术与应用,2020(7):28-31. 被引量：4
4王贤明,潘佳玲,胡智文.AR-Grams:一种应用于网络舆情热点发现的文本聚类方法[J].中国传媒大学学报（自然科学版）,2021,28(5):59-65. 被引量：2
5高新成,周中雨,王莉利,邵国铭,张强.基于二进制蜉蝣优化的特征选择及文本聚类算法[J].吉林大学学报（理学版）,2023,61(3):631-640. 被引量：2

1夏英,李克非,丰江帆.基于网格梯度的多密度聚类算法[J].计算机应用研究,2008,25(11):3278-3280. 被引量：4
2周悦来,谭建豪.基于网格和信息熵的多密度聚类算法[J].计算机系统应用,2011,20(10):189-192. 被引量：3
3顾鑫,李喆,王华,张尧,张凤,岑小锋.基于粒子滤波后验概率分布的多特征融合跟踪[J].传感技术学报,2014,27(12):1676-1680. 被引量：3
4张延祥,潘海侠.一种基于区分能力的多类不平衡文本分类特征选择方法[J].中文信息学报,2015,29(4):111-119. 被引量：7
5张宇.基于差分和肤色图像的人脸检测算法[J].电子科技大学学报,2005,34(4):497-500. 被引量：4
6陈滨,杨利斌,赵建军.基于SIFT特征的视频稳像算法[J].兵工自动化,2016,35(4):45-48. 被引量：1
7钟文良,黄瑞章.一种基于Pitman-Yor过程模型的不平衡文本数据集聚类算法[J].计算机与数字工程,2017,45(2):311-318.
8松本行弘.代码如散文[J].程序员,2008(11):130-131.
9文平,冷明伟,陈晓云.基于主动数据选取的半监督聚类算法[J].计算机应用研究,2012,29(8):2841-2844.
10赵双柱.SCMDFC算法研究与应用[J].网络安全技术与应用,2014(4):85-86.

小型微型计算机系统

2016年第1期

浏览历史

内容加载中请稍等...

基于后缀树的半监督自适应多密度文本聚类算法被引量：3

参考文献3

二级参考文献27

共引文献27

同被引文献8

引证文献3

二级引证文献5

相关作者

相关机构

相关主题

浏览历史

基于后缀树的半监督自适应多密度文本聚类算法 被引量：3

参考文献3

二级参考文献27

共引文献27

同被引文献8

引证文献3

二级引证文献5

相关作者

相关机构

相关主题

浏览历史

基于后缀树的半监督自适应多密度文本聚类算法被引量：3