结合LSA的中文谱聚类算法研究被引量：3

Research of Chinese spectral clustering with LSA

下载PDF

导出

摘要传统的文本谱聚类需要的文本相似矩阵依赖于向量空间模型,忽略了词与词之间的语义关系,存在词频维数过高、计算代价高等问题。针对这些问题,提出了一种基于潜在语义分析(latent semantic analysis,LSA)的文本相似矩阵构造方法,利用奇异值分解(singular value decomposition,SVD)降维,在低维的语义空间表示文本,以此来提高同类文本间的语义相似度,并进行了相关对比实验。在该实验中,改进方法的聚类效果要好于传统的方法,从而验证了改进方法的有效性和可行性。 Traditional text samples similarity matrix for spectral cluster heavily rely on the vector space model which ignores the semantic relationship among terms. It will give rise to problems such as curse of dimensionality, feature redundancy and high computing cost. To solve the problems above, this paper proposed a new method based on LSA to solve it, which used SVD to lowering rank of matrices. The experimental results turn out that the new method enhances the cluster accuracy and less the data-process elapsed time.

作者熊忠阳暴自强李智星张玉芳

机构地区重庆大学计算机学院

出处《计算机应用研究》 CSCD 北大核心 2010年第3期917-918,共2页 Application Research of Computers

关键词文本聚类潜在语义分析奇异值分解谱聚类 text clustering LSA SVD spectral cluster

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献5

1HAN J, KAMBER M. Data mining: concept and techniques[ M]. San Fransisco: Morgan Kaufmann, 2001.
2蔡晓妍,戴冠中,杨黎斌.谱聚类算法综述[J].计算机科学,2008,35(7):14-18. 被引量：189
3戴新宇,田宝明,周俊生,陈家骏.一种基于潜在语义分析和直推式谱图算法的文本分类方法LSASGT[J].电子学报,2008,36(8):1626-1630. 被引量：7
4DEERWESTER S,DUMAIS S, FUMAS G W, et al. Indexing by latent semantic analysis[J]. Journal of the American Society for Information Science, 1990,41 (6) :391-407.
5SHI Jian-bo, MALIK J. Normalized cuts and image segmentation[J].IEEE Trans on Pattern Analysis and Machine Intelligence, 2000,22(8) :888-905.

二级参考文献46

1Jain A, Murty M, Flynn P. Data clustering.. A Review[J]. ACM Computing Surveys, 1999,31 (3) : 264-323.
2Fiedler M. Algebraic connectivity of graphs. Czech, Math. J. , 1973,23: 298-305.
3Malik J,Belongie S,Leung T, et al. Contour and texture analysis for image segmentation In Perceptual Organization for Artificial Vision Systems. Kluwer, 2000.
4Weiss Y. Segmentation using eigenvectors: A unified view//International Conference on Computer Vision 1999.
5Shi J,Malik J. Normalized cuts and image segmentation. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2000,22 (8) : 888-905.
6Wu Z, Leahy R. An optimal graph theoretic approach to data clustering: theory and its application to image segmentation [J]. IEEE Trans on PAMI,1993, 15(11):1101-1113.
7Hagen L, Kahng A 13. New spectral methods for ratio cut partitioning and clustering. IEEE Trans. Computer-Aided Design, 1992,11 (9) : 1074-1085.
8Sarkar S, Soundararajan P. Supervised learning of large perceptual organization: Graph spectral partitioning and learning automata. IEEE Transaction on Pattern Analysis and Machine Intelligence, 2000,22(5) : 504- 525.
9Ding C, He X, Zha H, et al. Spectral Min Max cut for Graph Partitioning and Data Clustering[C]//Proc. of the IEEE Intl Conf. on Data Mining. 2001 : 107-114.
10Meila M , Xu L. Multiway cuts and spectral clustering. U. Washington Tech Report. 2003.

共引文献194

1赵莹,张健沛,杨静,王冠军.一种改进的分枝定界半监督支持向量机学习算法[J].电子学报,2010,38(2):449-454. 被引量：4
2尹洪英,徐丽群,曹永荣.基于谱聚类算法的城市路网动态分区研究[J].交通信息与安全,2010,28(1):16-19. 被引量：7
3张长帅,周大可,杨欣.半监督谱聚类比较研究[J].中国电子商情（通信市场）,2010(3):124-129.
4郭昆,张岐山.基于灰关联分析的谱聚类[J].系统工程理论与实践,2010,30(7):1260-1265. 被引量：13
5孔万增,孙志海,杨灿,戴国骏,孙昌思核.基于本征间隙与正交特征向量的自动谱聚类[J].电子学报,2010,38(8):1880-1885. 被引量：37
6兰洋.改进谱聚类算法在高等院校人才选拔中的应用[J].信阳师范学院学报（自然科学版）,2010,23(4):614-617.
7钟将,孙启干,李静.面向文本分类的矩阵投影算法[J].计算机工程与应用,2010,46(35):129-132.
8刘志伟.谱聚类中的相似度矩阵研究[J].现代计算机,2010,16(11):67-69. 被引量：1
9高星,戴玮,黄利辉,李军莲,任慧玲,吴英杰.中文生物医学文献机构名称规范化研究[J].医学信息学杂志,2010,31(12):56-60. 被引量：6
10张力文,丁世飞,许新征,朱红,徐丽.一种基于成对约束的谱聚类算法[J].广西师范大学学报（自然科学版）,2010,28(4):38-41. 被引量：2

同被引文献32

1郭景峰,赵玉艳,边伟峰,李晶.基于改进的凝聚性和分离性的层次聚类算法[J].计算机研究与发展,2008,45(z1):202-206. 被引量：15
2李良俊,张斌,杨明.基于LSA降维的KNN文本分类算法[J].东北师大学报（自然科学版）,2007,39(2):33-36. 被引量：7
3王玲,薄列峰,焦李成.密度敏感的谱聚类[J].电子学报,2007,35(8):1577-1581. 被引量：61
4FIEDLER M. Algebraic connectivity of graphs [ J ]. Czechoslovak Mathematical Journal, 1973,23(98) :298-305.
5HENDRICKSON B,LELAND R. An improved spectral graph partitioning algorithm for mapping parallel computations [ J ] . SIAM Journal on Scientific Computing,l995,16(2) -452-469.
6HAGEN L, KAHNG A B. New spectral methods for ratio cut partitioning and clustering [ J ]. IEEE Trans Computer-Aided Design, 1992,11(9) : 1074-1085.
7SHI J, MALIK J. Normalized cuts and image segmentation[ J]. IEEE Trans on Pattern Analysis and Machine Intelligence,2000,22(8) :888-905.
8DHILLON I S. Co-clustering documents and words using bipartite spectral graph partitioning[ C]//Proc of the 7th ACM SIGKDD Internationa) Conference on Knowledge Discovery and Data Mining. New York:ACM,2001:269-274.
9DHILLON I S, GUAN Y, KULIS B, Weighted graph cuts without eigenvectors : a multilevel approach [ J ]. IEEE Trans on Pattern Analysis and Machine Intelligence,2007,29( 11) : 1944-1957.
10DING C,HE Xiao-feng, ZHA Hang-yuan, et al. A min-max cut al-gorithm for graph partitioning and data clustering [ C ]//Proo of IC-DM.2001 :107-114.

引证文献3

1刘汉强.免疫克隆选择图划分方法[J].计算机应用研究,2012,29(9):3516-3520. 被引量：1
2吴志媛,钱雪忠.基于PLSI的标签聚类研究[J].计算机应用研究,2013,30(5):1316-1319. 被引量：4
3符保龙,张爱科.中心聚类和语义特征融合的网页信息文本挖掘方法[J].辽宁工程技术大学学报（自然科学版）,2016,35(1):85-88. 被引量：2

二级引证文献7

1高宏宾,杨翠.基于权重与共现的标签聚类算法的研究[J].工业控制计算机,2014,27(6):116-117.
2李国臣,党帅兵,王瑞波,李济洪.基于字的分布表征的汉语基本块识别[J].中文信息学报,2014,28(6):18-25. 被引量：6
3刘汉强.半监督免疫克隆选择图划分方法[J].计算机工程与应用,2014,50(22):11-16. 被引量：1
4郭伟光.基于改进K-medoids算法的社会化标签聚类研究[J].赤峰学院学报（自然科学版）,2014,30(24):17-19.
5杨玉梅.基于信息熵改进的K-means动态聚类算法[J].重庆邮电大学学报（自然科学版）,2016,28(2):254-259. 被引量：20
6殷硕,王卫亚,柳有权.基于语义特征抽取的文本聚类研究[J].计算机技术与发展,2020,30(3):46-50. 被引量：3
7王雷,宋士杰,朱庆华.基于微信公众号文章的失真健康信息识别方法比较与优化[J].情报学报,2023,42(2):127-135. 被引量：3

1盖杰,王怡,武港山.潜在语义分析理论及其应用[J].计算机应用研究,2004,21(3):9-12. 被引量：35
2俞辉,赵玉国.基于LSA和PLSA的网页聚类算法研究[J].计算机系统应用,2008,17(4):65-68. 被引量：4
3ZHONG Jiang,SUN Qigan,LI Xue,WEN Luosheng.A Novel Feature Selection Method Based on Probability Latent Semantic Analysis for Chinese Text Classification[J].Chinese Journal of Electronics,2011,20(2):228-232. 被引量：11
4叶昭晖,杨高峰,杨岳湘.一种基于潜语义分析的中文网页自动摘要方法[J].广西大学学报（自然科学版）,2012,37(2):341-345. 被引量：1
5马海昌,赵学锋,杨晏,王济深.潜在语义分析在词汇相似度中的应用[J].甘肃科技纵横,2014,43(3):50-51.
6马庆杰,李炳龙.基于PLSA的即时通信取证方法[J].武汉大学学报（理学版）,2016,62(2):122-126.
7胡永丽,龚沛曾.基于模糊C均值和改进的LSA的文档聚类研究[J].计算机技术与发展,2010,20(12):126-129. 被引量：5
8伍春江,何桃顺,杨淼,卿冬梅.基于潜在语义的文献检索[J].科技致富向导,2013(6):13-13.
9普措才仁.基于潜在语义分析的藏文Web不良信息检索算法研究[J].西北民族大学学报（自然科学版）,2014,35(4):14-18. 被引量：2
10郭乔进,丁轶,李宁.一种基于上下文信息的乳腺肿块ROI检测方法[J].山东大学学报（理学版）,2010,45(7):70-75. 被引量：3

计算机应用研究

2010年第3期

浏览历史

内容加载中请稍等...

结合LSA的中文谱聚类算法研究被引量：3

参考文献5

二级参考文献46

共引文献194

同被引文献32

引证文献3

二级引证文献7

相关作者

相关机构

相关主题

浏览历史

结合LSA的中文谱聚类算法研究 被引量：3

参考文献5

二级参考文献46

共引文献194

同被引文献32

引证文献3

二级引证文献7

相关作者

相关机构

相关主题

浏览历史

结合LSA的中文谱聚类算法研究被引量：3