摘要
在文本分类中,特征抽取是一项很重要的工作,抽取到的特征项质量的好坏直接影响到分类的效果。在研究了文本分类中常用的文本特征词预抽取方法的基础上,提出了一种基于词性选择的特征预抽取方法,结合IG方法进行特征抽取。在分类实验中实验结果显示,这种基于词性的特征预抽取方法在分类过程中可以在不降低分类精度的同时可以减少特征维数和训练时间。
The featurer extraction isn important task in a text classification,the characteristics of items will take a direct impact on the quality of classification results.This paper show a feature preextration method based on part of speech when author have studied common feture preextration methods and the new method iscarried to experiment combined with IG feature extraction method.The classification experiment results show that the feature peextration method based on part of speech can reduce the feature dimension and training time on the condition of guarantee accuracy of classification.
出处
《情报科学》
CSSCI
北大核心
2011年第1期86-88,92,共4页
Information Science
基金
河北省教育厅自然科学研究计划项目(2007405)
张家口市科学技术研究与发展计划项目(0921045B)
河北北方学院自然科学青年基金项目(Q2010008)
关键词
文本分类
特征
抽取方法
text classification
feature
tration method