一种基于最大公共子图的文本谱聚类算法被引量：2

A Text Spectral Clustering Algorithm Based on Maximum Common Subgraph

下载PDF

导出

摘要传统的基于空间向量的文本谱聚类方法容易忽略文本上下文之间的语义联系,通过图结构进行文本表示可以很好的解决这一问题,在此基础上,本文提出了基于最大公共子图的谱聚类算法——SC-MCS算法。该算法通过求解文本之间的最大公共子图来进行文本相似度的计算,最后进行文本聚类。实验结果表明,与传统的基于空间向量的文本谱聚类方法相比,该算法在准确率和召回率都取得了一定的提升。 When using the traditional text spectral clustering method based on vector space,the context semantic relations are easily ignored. But the problem can be solved by representing text through the graph structure,on the basis of which,a spectral clustering algorithm based on the maximum common subgraph was proposed（ hereafter called SC-MCS）. The algorithm calculates text similarity by solving the maximum common subgraph of texts.The experimental results show that compared with the traditional text spectral clustering method based on vector space,the algorithm has improved accuracy and recall rate.

作者冯仁群山陈笑蓉 FENG Renqunshan;CHEN Xiaorong(College of Computer Science and Technology, Guizhou University, Guiyang 550025, Chin)

机构地区贵州大学计算机科学与技术学院

出处《贵州大学学报（自然科学版）》 2018年第2期82-87,共6页 Journal of Guizhou University:Natural Sciences

基金国家自然科学基金项目资助(61363028)

关键词文本聚类谱聚类最大公共子图 text clustering spectral clustering maximum common subgraph

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献2

1蔡晓妍,戴冠中,杨黎斌.谱聚类算法综述[J].计算机科学,2008,35(7):14-18. 被引量：189
2周昭涛,卜东波,程学旗.文本的图表示初探[J].中文信息学报,2005,19(2):36-43. 被引量：17

二级参考文献35

1刘悦.[D].中科院计算所,2003.
2Baeza-Yates, R. and Ribeiro-Neto, B.,. Modern Information Retrieval [ M], 1st ed. Addison-Wesley-Longman, Reading, MA, 1999.
3Gerard Salton, A. Wong, C. S Yang, A Vector Space Model for Automatic Indexing [ A], Communications of the ACM,1975,18(11).
4J.M. Kleinberg. Authoritative sources in a hyperlinked environment [ A], In Proc. of the Ninth Annual ACM-SIAM Symposium on Discrete Algorithms, pages 668- 677, San Francisco, California, 1998.
5José Maria Gómez Hidalgo,Text Representation For AutoMatic Text Categoruation[A], 10th Conference of the European Chapter of the Association for Computational Linguistics(EACL03), 2003.
6Lewis, D. D., An Evaluation of Phrasal and Clustered Representations on A Text Categorization Task[ A], Proceedings of the Fifteenth Annual International ACM SIGIR Conference on Research and Development in Information Retrieval[C], 1992,37 - 50.
7Salton G, E. A. Fox and H. Wu. Extended boolean information retrieval [ A ], Communications of the ACM, 1983,26(11): 1022 - 1036.
8Jain A, Murty M, Flynn P. Data clustering.. A Review[J]. ACM Computing Surveys, 1999,31 (3) : 264-323.
9Fiedler M. Algebraic connectivity of graphs. Czech, Math. J. , 1973,23: 298-305.
10Malik J,Belongie S,Leung T, et al. Contour and texture analysis for image segmentation In Perceptual Organization for Artificial Vision Systems. Kluwer, 2000.

共引文献204

1汤世平,樊孝忠,朱建勇.基于潜在语义分析的本体空间表示模型研究[J].计算机应用与软件,2008,25(1):53-55.
2史旗凯,郭菊娥.基于管理问题信息抽取的主题识别研究[J].情报科学,2008,26(10):1558-1562.
3史旗凯,郭菊娥,马续补,叶金凤.基于SMA信息抽取的事实主题的识别研究[J].情报学报,2009,28(1):82-87. 被引量：1
4史旗凯,郭菊娥.基于SMA信息抽取的主题诊断研究[J].管理工程学报,2010,24(1):90-94.
5熊忠阳,暴自强,李智星,张玉芳.结合LSA的中文谱聚类算法研究[J].计算机应用研究,2010,27(3):917-918. 被引量：3
6尹洪英,徐丽群,曹永荣.基于谱聚类算法的城市路网动态分区研究[J].交通信息与安全,2010,28(1):16-19. 被引量：7
7张长帅,周大可,杨欣.半监督谱聚类比较研究[J].中国电子商情（通信市场）,2010(3):124-129.
8刘飒,章成志.多语言文本表示研究综述[J].现代图书情报技术,2010(6):33-41. 被引量：3
9郭昆,张岐山.基于灰关联分析的谱聚类[J].系统工程理论与实践,2010,30(7):1260-1265. 被引量：13
10刘建毅,王菁华,王枞.文本网络表示研究与应用[J].中国科技论文在线,2007,2(10):755-760. 被引量：2

同被引文献15

1叶志伟,尹宇洁,王明威,赵伟.一种基于杜鹃搜索算法的聚类分析方法[J].微电子学与计算机,2015,32(5):104-110. 被引量：6
2张晓琳,付英姿,褚培肖.杰卡德相似系数在推荐系统中的应用[J].计算机技术与发展,2015,25(4):158-161. 被引量：40
3周浩理,李太君,肖沙.基于微正则退火算法对K-means聚类算法的优化[J].电视技术,2015,39(17):139-142. 被引量：2
4闫婷,谢红薇.混合细菌觅食和粒子群的k-means聚类算法[J].微电子学与计算机,2016,33(6):59-62. 被引量：4
5田诗宵,丁立新,郑金秋.基于密度峰值优化的K-means文本聚类算法[J].计算机工程与设计,2017,38(4):1019-1023. 被引量：26
6贺思云,高建瓴,陈岚.基于改进人工蜂群算法的k-means聚类算法[J].贵州大学学报（自然科学版）,2017,34(5):83-87. 被引量：7
7周子杰,李勃,董蓉.基于特征提取及聚类算法的增量图片筛选系统[J].电视技术,2017,41(9):189-193. 被引量：1
8李云鹏,侯凌燕,王超.基于YOLOv2的复杂场景下车辆目标检测[J].电视技术,2018,42(5):100-106. 被引量：10
9初蓓,李占山,张梦林,于海鸿.基于森林优化特征选择算法的改进研究[J].软件学报,2018,29(9):2547-2558. 被引量：19
10黄宇.垂直搜索引擎的设计与构建[J].内蒙古科技与经济,2020,0(10):75-76. 被引量：2

引证文献2

1魏康园,何庆,徐钦帅.一种改进森林优化的K-means聚类算法[J].贵州大学学报（自然科学版）,2018,35(6):69-75. 被引量：8
2伍星.基于知识图谱的垂直搜索引擎智能化研究[J].科技与创新,2024(14):69-72. 被引量：1

二级引证文献9

1杨俊闯,赵超.K-Means聚类算法研究综述[J].计算机工程与应用,2019,55(23):7-14. 被引量：293
2马庚华,孙祎峥,邢金洋,翁心雨,王天童.公共及共享自行车接驳轨道交通方式选择概率[J].贵州大学学报（自然科学版）,2020,37(1):92-97. 被引量：2
3郭永坤,章新友,刘莉萍,丁亮,牛晓录.优化初始聚类中心的K-means聚类算法[J].计算机工程与应用,2020,56(15):172-178. 被引量：44
4田园,原野.基于改进K-means算法的电力大数据系统研究[J].电子设计工程,2021,29(2):76-80. 被引量：3
5黄学雨,程世超.KNN优化的密度峰值聚类算法[J].通信技术,2021,54(7):1608-1618. 被引量：6
6王洪涛.校车站点布局的仿真模拟[J].信息与电脑,2021,33(13):43-48.
7张尚,刘昱辰,王璐青.基于客户分类模型的IPTV用户价值分析[J].广播电视信息,2021,28(11):101-106. 被引量：2
8施雯,习佳宁.知识图谱个性化导学范式与实施路径——面向医、工交叉跨学科思维的冲突[J].办公自动化,2024,29(18):4-6.
9朱玲.基于K-means聚类算法分类的水果等级识别与应用[J].农机化研究,2020,42(8):46-50. 被引量：14

1周源,张超,唐杰,刘宇飞,张宇韬.基于主题变迁的领域发展路径智能化识别——以人工智能为例[J].图书情报工作,2018,62(14):62-71. 被引量：11
2耿巧曼,徐小力,吴国新,夏欣雨.一种改进空间向量模型的东巴文本表示方法[J].北京信息科技大学学报（自然科学版）,2018,33(3):57-60. 被引量：3
3岳文应.基于Doc2Vec与SVM的聊天内容过滤[J].计算机系统应用,2018,27(7):127-132. 被引量：5
4谢宗彦,黎巎,周纯洁.基于CNN和SOM的评论主题发现[J].情报科学,2018,36(6):30-34. 被引量：3
5侯庆霖.基于词向量及术语关系抽取方法的文本分类方法[J].移动通信,2018,42(7):12-17. 被引量：1

贵州大学学报（自然科学版）

2018年第2期

浏览历史

内容加载中请稍等...

一种基于最大公共子图的文本谱聚类算法被引量：2

参考文献2

二级参考文献35

共引文献204

同被引文献15

引证文献2

二级引证文献9

相关作者

相关机构

相关主题

浏览历史

一种基于最大公共子图的文本谱聚类算法 被引量：2

参考文献2

二级参考文献35

共引文献204

同被引文献15

引证文献2

二级引证文献9

相关作者

相关机构

相关主题

浏览历史

一种基于最大公共子图的文本谱聚类算法被引量：2