摘要
文本被表示为向量空间模型后,是维数非常高的数据,对其进行维数约简是必要的。投影寻踪正是一种稳健的、非参数化的维数约简方法。提出了一种基于投影寻踪回归的文本自动分类模型。应用该模型,可以真实地描述高维数据的客观内在规律,从而达到提高文本分类精度的目的,岭函数拟合函数的合理选择是提高分类精度的关键,故对拟合函数的选取做了初步的研究。采用标准文档集R eu ters-21578进行了分类实验,同时在相同的预处理条件下,与目前常用的方法进行了对比实验。实验结果表明,该模型对文本自动分类具有较高的召回率和准确率。
When a text is expressed as a vector space model, it becomes high-dimensional data. Dimensional reduction is a feasible and effective method of analyzing highdimensional data, and projection pursuit technique is a statistical and nonparametric dimensional reduction method in which data does not need to satisfy normal distribution hypothesis. This paper presents an automated text classification model based on projection pursuit regression. The model can describe the external disciplinarian of high-dimensiona...
出处
《清华大学学报(自然科学版)》
EI
CAS
CSCD
北大核心
2005年第S1期1823-1827,共5页
Journal of Tsinghua University(Science and Technology)
基金
教育部重点科技资助项目(03070)
江西省自然科学基金资助项目(0311041)
江西师范大学校管课题青年成长基金(1090)
关键词
文本分类
维数约简
投影寻踪回归
text classification
dimension reduction
projection pursuit regression