期刊文献+

基于新型文档频的平均互信息改进研究

下载PDF
导出
摘要 互信息未考虑单个特征词发生的频率,不仅造成了互信息评价函数倾向于选择特征的稀有词,而且还过滤掉了经常出现的高频词。当特征关键词和类别都增多时,得到的特征关键词与类别之间的平均互信息变小,说明数据在处理过程中去掉了信息,不会创造出新的信息。为此把文档频引进平均互信息,使其对平均互信息的缺点进行修正。实验证明,该方法具有训练和测试速度快,特征提取速度非常快等特点。
出处 《软件导刊》 2012年第5期138-139,共2页 Software Guide
  • 相关文献

参考文献2

二级参考文献11

  • 1张海龙,王莲芝.自动文本分类特征选择方法研究[J].计算机工程与设计,2006,27(20):3840-3841. 被引量:45
  • 2寇苏玲,蔡庆生.中文文本分类中的特征选择研究[J].计算机仿真,2007,24(3):289-291. 被引量:30
  • 3Lewis D D.Feature selection and feature extraction for text categorization[C]//Proceedings of the Workshop on Speech and Natural Language, 1992: 23-26.
  • 4Yang Y,Pedersen J O.A comparative study on feature selection in text categorization[C]//ICML 1997:412-420.
  • 5Ng H T,Goh W B,Low K L.Feature seleetion,perceptron learning,and a usability case study for text categorization[C]//Proceedings of the 20th ACM Intemationai Conference on Research and Development in Information Retrieval,SIGIR-97,1997:67-73.
  • 6John G H,Kohavi R,Pfleger K.Irrelevant feature and the subset selection problem[C]//Proceedings of the 11th International Conference on Machine Learning,New Jersey, 1994:121-129.
  • 7Delgado M,Martin-Bautists M J,Sanchez D,et al.Mining text data:special features and patterns[C]//Proceedings of ESF Exploratory Workshop,London,U K,2002:32-38.
  • 8Yang Y,Pedersen J O.A comparative study on feature selection in text categorization[C]//Proc of the 14th Int'l Conf on Machine Learning(ICML'97).Nashville:Morgan Kaufinann Publishers,1997:412-420.2007,24(3):289-291.
  • 9曾黄麟.智能计算[M].重庆:重庆大学出版社,2004..
  • 10徐燕,李锦涛,王斌,孙春明.基于区分类别能力的高性能特征选择方法[J].软件学报,2008(1):82-89. 被引量:83

共引文献9

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部