摘要
在信息检索中,潜在语义索引模型直接应用于文本分类时,由于对分类贡献大的特征可能丢失而效果不佳。而考虑了文本特征及分类信息的潜在语义文本分类模型(LSC)也因为本质上是线性模型而性能不高。为了提高分类性能,通过引入核函数,给出了一种非线性的潜在语义文本分类模型。该模型比LSC模型能更好地表示文档空间的潜在语义结构信息。在R eu ter-21578文档集上的实验结果表明,潜在语义文本分类模型有很好的分类性能。
Latent semantic indexing is an effective algorithm for information retrieval. However, some features, which contribute much to classification, may be ignored when it is applied to text classification. A latent semantic classification LSC model, which considers both text feature and classification information, is virtually a linear model and could not gain higher effectiveness. To enhance the classification performance, a nonlinear LSC model is proposed based on kernel function. This model can capture more l...
出处
《清华大学学报(自然科学版)》
EI
CAS
CSCD
北大核心
2005年第S1期1853-1856,共4页
Journal of Tsinghua University(Science and Technology)
基金
教育部重点科技资助项目(03070)
江西省自然科学基金资助项目(0311041)
关键词
文本分类
核方法
潜在语义索引
偏最小二乘分析
核偏最小二乘分析
text classification
kernel trick
latent semantic index
partial least squares
kernel partial least squares