摘要
文本聚类是W eb文本挖掘的一个重要分支,而文本表示方法是文本聚类的基础。重点讨论了文本表示方法中最常用到的向量空间模型,分析了其优势和不足,并基于一个文本处理实验,对V SM模型从可实现角度给出改进建议。
Text representation is the basis of text clustering that is also a branch of web documents mining. The usual vector space model in text representation is discussed and its disadvantages are analyzed. Based on a text clustering experiment, some advices are presented.
出处
《武汉理工大学学报(信息与管理工程版)》
CAS
2006年第4期56-59,81,共5页
Journal of Wuhan University of Technology:Information & Management Engineering
关键词
文本聚类
向量空间模型
文本表示
text clustering
vector space model
text representation