摘要
文本自动分类是文本挖掘的基础,可广泛地应用于信息检索,web挖掘等领域.在分类前首先要将文本表示成计算机能处理的形式,提出了一种将隐含语义索引(LSI)与文本聚类相结合的中文文本自动分类的方法.在挖掘文本的语义信息,提高分类速度上均取得了较好的效果.通过实验验证了方法的有效性.
Text categorization(TC),the foundation of text mining,can be used in information retrieval and web data mining.Before text categorization the text should be converted to a model that can be processed in computer at first.A new algorithm that combines latent semantic indexing(LSI) and text clustering is given.Through the experiment this algorithm is fouhe effective.
出处
《河北师范大学学报(自然科学版)》
CAS
北大核心
2012年第1期24-26,83,共4页
Journal of Hebei Normal University:Natural Science
基金
河北省自然科学基金(602127)
关键词
文本分类
隐含语义检索
文本聚类
text categorization
latent semantic indexing
text clustering