一种基于信息增益的特征选择方法被引量：11

BASED ON THE INFORMATION GAIN TEXT FEATURE SELECTION METHOD

下载PDF

导出

摘要本文提出了一种基于信息增益改进的信息增益特征选择选择方法。首先对数据集按类进行特征选择,减少数据集不平衡性对特征选取的影响。其次运用特征出现概率计算信息增益权值,降低低频词对特征选择的干扰。最后使用离散度分析特征在每类中的信息增益值,过滤掉高频词中的相对冗余特征,并对选取的特征应用信息增益差值做进一步细化,获取均匀精确的特征子集。通过对照不同算法的测评函数值,表明本文选取的特征子集具有更好的分类能力。 In this paper, based on information gain improved information gain feature selection in text. First class feature selection data set, reducing the imbalance of the data sets feature selection. Followed by the use of the characteristics of the calculated probability of occurrence information gain we reduce the low - frequency words feature selection interference. The final dispersion analysis feature information gain value in each category, to fil- ter out h - frequency words the relatively redundant features, and select the characteristics of the application of information gain the difference further refinement, to obtain uniform and accurate feature subset. Control algo- rithm evaluation function value, indicating that the paper selected feature subset has better classification ability.

作者黄志艳

机构地区泰山职业技术学院

出处《山东农业大学学报（自然科学版）》 CSCD 北大核心 2013年第2期252-256,共5页 Journal of Shandong Agricultural University：Natural Science Edition

关键词特征选择文本分类信息增益 Feature selection text classification information gain

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献6

1Mladenic D, GrobelnkM. Feature selection for unbalanced class distribution and naive Bayes[ C] //Proceedings of the 16th Int' 1 Con. f on Ma- chine Learning(ICML'99). San Francisco:Morgan Kaufmann Publishers, 1999:258 -267.
2YANG Y, PEDERSEN J. A Comparative Study on feature selection in text categorization [ C ]//Proceedings of the 14th International Conference on Machine Learning( ICML'97 ). Nashvillr: Morgan Kaufmann Publishers. 1997:412 -420.
3刘庆和,梁正友.一种基于信息增益的特征优化选择方法[J].计算机工程与应用,2011,47(12):130-132. 被引量：55
4杨玉珍,刘培玉,朱振方,邱烨.应用特征项分布信息的信息增益改进方法研究[J].山东大学学报（理学版）,2009,44(11):48-51. 被引量：14
5单丽莉,刘秉权,孙承杰.文本分类中特征选择方法的比较与改进[J].哈尔滨工业大学学报,2011,43(S1):319-324. 被引量：25
6许朝阳.文本分类中特征选择方法的分析和改进[J].计算机与现代化,2010(4):37-39. 被引量：2

二级参考文献27

1唐焕玲,孙建涛,陆玉昌.文本分类中结合评估函数的TEF-WA权值调整技术[J].计算机研究与发展,2005,42(1):47-53. 被引量：26
2徐凤亚,罗振声.文本自动分类中特征权重算法的改进研究[J].计算机工程与应用,2005,41(1):181-184. 被引量：56
3李文斌,刘椿年,陈嶷瑛.基于特征信息增益权重的文本分类算法[J].北京工业大学学报,2006,32(5):456-460. 被引量：19
4YANG Yiming. A comparative study on feature selection in text categorization[ C/OL]// Proceedings of the Fourteenth International Conference on Machine Learning, 1997: 412-420. [2009-04-20], http://www. cs. cmu. edu/- yiming/papers. yy/icm197. ps. gz.
5Ng H T,Goh W B,Low K L.Feature selection,perceptron learning and a usability case study for text categorization[C]//Proceedings of the 20th ACM International Conference on Research and Development in Information Retrieval(SIGIR-97).1997:67-73.
6Mladenic D,Grobelnk M.Feature selection for unbalanced class distribution and naive Bayes[C]//Proceedings of the 16th Int'1 Conf.on Machine Learning(ICML'99).San Francisco:Morgan Kaufmann Publishers,1999:258-267.
7Yang Y,Pedersen J P.A comparative study on feature selection in text categorization[C]//Proceedings of the 14th Int'1 Conference on Machine Learning(ICML'97).1997:412-420.
8Li H F,Jiang T,Zhang K S.Efficient and robust feature extraction by maximum margin criterion[C]//Proceedings of the Advances in Neural Information Processing Systems.Vancouver,Canada:MIT,2003:97-104.
9Mitchell T.机器学习[M].曾华军,等译.北京:机械工业出版社,2007.
10Lewis D D,Ringuette M.A comparison of two learning algorithms for text categorization[C]//Proceedings of the Third Annual Symposium on Document Analysis and Information Retrieval.Las Vegas,USA,1994:81-93.

共引文献88

1葛志,常青,江山,柯文俊,杜泽峰.典型软件的故障仿真和预测方法[J].计算机应用研究,2020,37(S01):230-234.
2杨玉珍,刘培玉,姜沛佩.向量空间模型中结合句法的文本表示研究[J].计算机工程,2011,37(3):58-60. 被引量：6
3文翰,肖南峰.基于特征分布的半监督分类[J].北京工业大学学报,2012,38(1):75-80. 被引量：1
4赵静,刘培玉,许明英.邮件过滤中特征选择方法的性能评价与分析[J].计算机应用研究,2012,29(2):693-697. 被引量：7
5黄先珍,杨玉珍,刘培玉.信息过滤中基于统计与规则的关键词抽取研究[J].计算机工程,2012,38(2):57-59. 被引量：9
6苏丹,周明全,王学松,任玉芝.一种基于最少出现文档频的文本特征提取方法[J].计算机工程与应用,2012,48(10):164-166. 被引量：6
7孙珠婷,顾倩颐.领域概念术语提取中特征项自动抽取方法[J].计算机工程与设计,2012,33(8):3189-3193. 被引量：3
8郭亚维,刘晓霞.文本分类中信息增益特征选择方法的研究[J].计算机工程与应用,2012,48(27):119-122. 被引量：28
9刘海峰,李凯齐,汪泽焱.基于灰关系与信息增益融合的文本分类模型[J].微电子学与计算机,2012,29(10):94-98.
10任永功,杨荣杰,尹明飞,马名威.基于信息增益的文本特征选择方法[J].计算机科学,2012,39(11):127-130. 被引量：31

同被引文献79

1刘海峰,姚泽清,汪泽焱,张学仁.基于位置的文本特征加权方法研究[J].微电子学与计算机,2009,26(2):188-192. 被引量：9
2单丽莉,刘秉权,孙承杰.文本分类中特征选择方法的比较与改进[J].哈尔滨工业大学学报,2011,43(S1):319-324. 被引量：25
3王建会,王洪伟,申展,胡运发.一种实用高效的文本分类算法[J].计算机研究与发展,2005,42(1):85-93. 被引量：20
4侯汉清 ,章成志 ,郑红 .Web概念挖掘中标引源加权方案初探[J].情报学报,2005,24(1):87-92. 被引量：32
5杨建华,谢高岗,张广兴,李忠诚.一种高效的业务流分类算法[J].电子学报,2006,34(3):549-552. 被引量：2
6苏金树,张博锋,徐昕.基于机器学习的文本分类技术研究进展[J].软件学报,2006,17(9):1848-1859. 被引量：378
7沈萍,冯国政.信息增益在地震趋势估计中的应用[J].中国地震,1996,12(4):378-382. 被引量：2
8王卫玲,刘培玉,初建崇.一种改进的基于条件互信息的特征选择算法[J].计算机应用,2007,27(2):433-435. 被引量：23
9巩军,刘鲁.一种k-NN文本分类器的改进方法[J].情报学报,2007,26(1):56-59. 被引量：10
10郑凤萍.一种新的中文文本分类算法[J].现代情报,2007,27(3):143-144. 被引量：2

引证文献11

1谭学清,周通,罗琳.一种基于类平均相似度的文本分类算法[J].现代图书情报技术,2014(9):66-73. 被引量：4
2许琦.基于向量空间模型的个性化信息过滤系统研究与开发[J].计算机与数字工程,2014,42(10):1940-1944. 被引量：3
3申健,夏靖波,张晓燕,赵广辉,付凯.基于分治排序策略的流量二次特征选择[J].电子学报,2017,45(1):128-134. 被引量：3
4马志程,顾凯成,杨鹏.基于文本分类的电企舆情识别方案设计与实现[J].电子设计工程,2017,25(3):28-31. 被引量：4
5牛玉霞.基于词频信息改进的IG特征选择算法在文本分类中的应用研究[J].软件工程,2017,20(12):19-22. 被引量：1
6刘海峰,刘守生,宋阿羚.基于词频分布信息的优化IG特征选择方法[J].计算机工程与应用,2017,53(4):113-117. 被引量：9
7董露露,马宁.基于改进信息增益的特征选择方法研究[J].萍乡学院学报,2019,36(3):84-90. 被引量：2
8王海涛,向竹君,刘健,袁建锋.基于中心向量的KNN分类方法在城市属性信息获取中的应用[J].测绘与空间地理信息,2021,44(3):16-20. 被引量：1
9毛莺池,曹海,平萍,李晓芳.基于最大联合条件互信息的特征选择[J].计算机应用,2019,39(3):734-741. 被引量：12
10刘亚文,温勇.基于最大化联合互信息和最小化联合熵的特征选择[J].应用数学进展,2023,12(4):1451-1460.

二级引证文献44

1李天彩,刘欣,王波,席耀一,王晓雯.短文本信息流中的用户建模与应用[J].信息工程大学学报,2016,17(2):225-230. 被引量：1
2胡辉,胡松,陈伽,蔡昭权.基于向量空间模型的网页过滤分析[J].电子技术与软件工程,2016(12):9-10.
3贺科达,朱铮涛,程昱.基于改进TF-IDF算法的文本分类方法研究[J].广东工业大学学报,2016,33(5):49-53. 被引量：22
4李智杰,曾文,乔晓东.知识组织系统构建技术研究[J].情报理论与实践,2017,40(1):115-120. 被引量：4
5陈庄,杨春玉.面向监理工程的文本分类技术研究[J].重庆理工大学学报（自然科学）,2017,31(10):187-191. 被引量：1
6韩军兵,哈力旦.阿布都热依木,古力努尔.艾尔肯,何燕.改进信息增益的维吾尔文特征选择方法[J].计算机工程与应用,2017,53(23):34-38. 被引量：3
7刘纪伟,赵月显,赵杨.一种基于统计排序的网络流量特征选择方法[J].电子技术应用,2018,44(1):84-87. 被引量：10
8牛玉霞.基于词频信息改进的IG特征选择算法在文本分类中的应用研究[J].软件工程,2017,20(12):19-22. 被引量：1
9谢攀,邓珍荣,朱益立.结合文本信息量和聚类的文本裁剪算法[J].计算机工程与设计,2018,39(3):880-884. 被引量：2
10高宝林,周治国,杨文维,肖泽力.基于类别和改进的CHI相结合的特征选择方法[J].计算机应用研究,2018,35(6):1660-1662. 被引量：7

1胡颖.基于信息增益的文本特征选择方法[J].计算机与数字工程,2013,41(3):460-462. 被引量：6
2任永功,杨荣杰,尹明飞,马名威.基于信息增益的文本特征选择方法[J].计算机科学,2012,39(11):127-130. 被引量：31
3许朝阳.文本分类中特征选择方法的分析和改进[J].计算机与现代化,2010(4):37-39. 被引量：2
4陈涛,宋妍,谢阳群.改进的信息增益特征选择方法在文本聚类中的应用[J].现代图书情报技术,2004(12):7-9. 被引量：2
5朱颢东,钟勇.基于改进的ID3信息增益的特征选择方法[J].计算机工程,2010,36(8):37-39. 被引量：8
6刘春英.基于关联度的代价敏感决策树生成方法[J].长春工业大学学报,2013,34(2):218-222. 被引量：3
7刘新,刘任任.一种基于主题词表的快速中文文本分类技术[J].情报学报,2008,27(3):323-327. 被引量：1
8徐凯,周先琳.用户评论中的产品特征抽取方法研究[J].鄂州大学学报,2015,22(6):107-109.
9董微,刘学,倪宏.基于信息增益的自适应特征选择方法[J].计算机工程与设计,2014,35(8):2856-2859. 被引量：8
10蔡龙飞.无线网络传感器应用分析综述[J].科技资讯,2006,4(19):88-89.

山东农业大学学报（自然科学版）

2013年第2期

浏览历史

内容加载中请稍等...

一种基于信息增益的特征选择方法被引量：11

参考文献6

二级参考文献27

共引文献88

同被引文献79

引证文献11

二级引证文献44

相关作者

相关机构

相关主题

浏览历史

一种基于信息增益的特征选择方法 被引量：11

参考文献6

二级参考文献27

共引文献88

同被引文献79

引证文献11

二级引证文献44

相关作者

相关机构

相关主题

浏览历史

一种基于信息增益的特征选择方法被引量：11