摘要
特征选择方法的优劣直接影响到文本分类的效果。传统的特征选择算法是以全局的方式来选取特征,这种方式忽视了局部特征对分类效果的影响,有时候甚至会导致很多训练文档没有特征。因此,在传统的特征选择方法主要考虑文档集全局特征的基础上,增加词对单篇文档的贡献率的考虑,并结合ALOFT方法,提出了一个结合全局和局部信息的特征选择算法(GLFS)。在路透社文档集及复旦文档集上的实验结果表明,本文提出的算法在保证每个文档都有特征词的同时提高了分类效果。最后讨论了对特征权重的确定方法,经过重新计算特征权重后分类效果有了较大的提高。
Feature selection methods directly affect the effect of text categorization. Traditional feature selection algorithm is based on global approach,ignoring the influence of local features,and even makes a lot of training document has no features. Therefore,the paper proposed a feature selection algorithm combined with the ALOFT method,which unify the traditional globe features and contribution rate of a word to individual document to unify the global and local information( GLFS). Experimental results in the Reuters data set and Fudan data set showthat the method can ensure that each document has a characteristic word and improve classification performance. Furthermore,the paper discussed the influence of the newmethod of feature weights to classification.
出处
《山东大学学报(理学版)》
CAS
CSCD
北大核心
2016年第5期87-93,共7页
Journal of Shandong University(Natural Science)
基金
国家自然科学基金资助项目(61462045
61272212
61462043
61163006)
江西省自然科学基金资助项目(20151BAB217014)
江西省教育厅科学技术研究项目(GJJ150354)
关键词
全局和局部信息
特征选择
ALOFT
文本分类
特征权重
the global and local information
feature selection
ALOFT
text classification
feature weight