摘要
根据隐含语义分析(LSA)理论,提出了一种文本聚类的新方法。该方法应用LSA理论来构建文本集的向量空间模型,在词条的权重中引入了语义关系,消减了原词条矩阵中包含的“噪声”因素,从而更加突出了词和文本之间的语义关系。通过奇异值分解(SVD),有效地降低了向量空间的维数,从而提高了文本聚类的精度和速度。
This paper presents a new method of text clustering by latent semantic analysis. This method establishes vector space model of term weight by the theory of latent semantic analysis, and eliminates disadvantageous factors. This method decreases the number of vector, and advances the speed and precision of text clustering.
出处
《计算机工程》
CAS
CSCD
北大核心
2004年第5期21-22,37,共3页
Computer Engineering
基金
国家自然科学基金资助项目(60275020)
关键词
文本聚类
隐含语义分析
奇异值分解
向量空间模型
Text clustering
Latent semantic analysis
Singular value decomposition
Vector space model