期刊文献+

结合全局和局部信息的特征选择算法 被引量:2

Feature selection combined with the global and local information(GLFS)
原文传递
导出
摘要 特征选择方法的优劣直接影响到文本分类的效果。传统的特征选择算法是以全局的方式来选取特征,这种方式忽视了局部特征对分类效果的影响,有时候甚至会导致很多训练文档没有特征。因此,在传统的特征选择方法主要考虑文档集全局特征的基础上,增加词对单篇文档的贡献率的考虑,并结合ALOFT方法,提出了一个结合全局和局部信息的特征选择算法(GLFS)。在路透社文档集及复旦文档集上的实验结果表明,本文提出的算法在保证每个文档都有特征词的同时提高了分类效果。最后讨论了对特征权重的确定方法,经过重新计算特征权重后分类效果有了较大的提高。 Feature selection methods directly affect the effect of text categorization. Traditional feature selection algorithm is based on global approach,ignoring the influence of local features,and even makes a lot of training document has no features. Therefore,the paper proposed a feature selection algorithm combined with the ALOFT method,which unify the traditional globe features and contribution rate of a word to individual document to unify the global and local information( GLFS). Experimental results in the Reuters data set and Fudan data set showthat the method can ensure that each document has a characteristic word and improve classification performance. Furthermore,the paper discussed the influence of the newmethod of feature weights to classification.
出处 《山东大学学报(理学版)》 CAS CSCD 北大核心 2016年第5期87-93,共7页 Journal of Shandong University(Natural Science)
基金 国家自然科学基金资助项目(61462045 61272212 61462043 61163006) 江西省自然科学基金资助项目(20151BAB217014) 江西省教育厅科学技术研究项目(GJJ150354)
关键词 全局和局部信息 特征选择 ALOFT 文本分类 特征权重 the global and local information feature selection ALOFT text classification feature weight
  • 相关文献

参考文献3

  • 1谭松波.高性能文本分类算法研究[D].中国科学院研究生院(计算技术研究所)2006
  • 2Fabrizio Sebastiani.Machine learning in automated text categorization[J]. ACM Computing Surveys (CSUR) . 2002 (1)
  • 3SANTANA L E A,DE OLIVEIRA D F,CANUTO A M P,et al.A Comparative Analysis of Feature Selection Methods for Ensembles with Different Combination Methods. Proceedings of International Joint Conference on Neural Networks . 2007

共引文献3

同被引文献9

引证文献2

二级引证文献5

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部