不均衡数据集上文本分类的特征选择研究被引量：20

A Study of Feature Selection for Text Categorization on Imbalanced Data

下载PDF

导出

摘要文本自动分类是信息检索与数据挖掘领域的研究热点与核心技术.文本分类中数据集的不均衡问题是一个在实际应用中普遍存在的问题.如何在不影响整体分类性能的基础上,提高稀有类别的分类效果是解决不均衡数据集问题的基本要求.从特征选择的角度出发,提出选择具有较强类别信息的词条是提高稀有类别分类性能的关键.一般而言,具有较强类别信息的词条不是高频词,甚至有倾向于稀有词的趋势.提出了解决不均衡数据集问题的一个途径--构造形如DFICF的特征选择方法.在Reuters语料上进行实验,实验结果表明该特征选择方法的效果比IG,DF都要好,特别是在微平均指标上.从而表明该方法对稀有类别的分类效果有明显的改进.

作者徐燕李锦涛王斌孙春明张森

机构地区中国科学院计算技术研究所华北电力大学

出处《计算机研究与发展》 EI CSCD 北大核心 2007年第z2期58-62,共5页 Journal of Computer Research and Development

基金国家自然科学基金项目(60473002,60603094) 北京市自然科学基金项目(4051004)

关键词不均衡数据集特征选择文本分类信息检索

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献13

1苏金树,张博锋,徐昕.基于机器学习的文本分类技术研究进展[J].软件学报,2006,17(9):1848-1859. 被引量：378
2[2]Y Yang,JO Pedersen.A comparative study on feature selection in text categorization.In:Proc of the 14th Int'lConf on Machine Learning (ICML-97).San Francisco:Morgan Kaufmann Publishers,1997.412-420
3[3]NV Chawla,N Japkowicz,A Kotcz.Editorial:Special issue on learning from imbalanced data sets.SIGKDD Explorations Newsletters,2004,6(1):1-6
4[4]D Mladenic,M Grobelnk.Feature selection for unbalanced class distribution and naive bayes.In:Proc of the 16th Int'lConf on Machine Learning (ICML'99).San Francisco:Morgan Kaufmann Publishers,1999.258-267
5陆玉昌,鲁明羽,李凡,周立柱.向量空间法中单词权重函数的分析和构造[J].计算机研究与发展,2002,39(10):1205-1210. 被引量：126
6[6]Bong,Chih How,K Narayanan.An empirical study of feature selection for text categorization based on term weightage.IEEE/WIC/ACM Int'lConf on Web Intelligence(WI'04),Beijing,2004
7[7]Shoushan Li,Chengqing Zong.A new approach to feature selection for text categorization.IEEE Int'lConf on Natural Language Processing and Knowledge Engineering (NLP-KE),Wuhan,2005
8[8]Castillo MDd,Serrano JI.A multistrategy approach for digital text categorization from imbalanced documents.SIGKDD Explorations Newsletter,2004,6(1):70-79
9[9]Z Zheng,X Wu,R Srihari.Feature selection for text categorization on imbalanced data.SIGKDD Explorations,2004,6(1):80-89
10[10]G Forman.An extensive empirical study of feature selection metrics for text classification.Journal of Machine Learning Research,2003,3(1):1289-1305

二级参考文献4

1王建会,王洪伟,申展,胡运发.一种实用高效的文本分类算法[J].计算机研究与发展,2005,42(1):85-93. 被引量：20
2李荣陆,王建会,陈晓云,陶晓鹏,胡运发.使用最大熵模型进行中文文本分类[J].计算机研究与发展,2005,42(1):94-101. 被引量：95
3李凡,鲁明羽,陆玉昌.关于文本特征抽取新方法的研究[J].清华大学学报（自然科学版）,2001,41(7):98-101. 被引量：78
4陈毅松,汪国平,董士海.基于支持向量机的渐进直推式分类学习算法[J].软件学报,2003,14(3):451-460. 被引量：88

共引文献496

1李林,刁磊,唐詹,柏召,周晗,郭旭超.基于BERT_Stacked LSTM的农业病虫害问句分类方法[J].农业机械学报,2021,52(S01):172-177. 被引量：4
2姚学恒,张萍,闫立伟,操诚.基于机器学习的企业秘密文档自动分类方法[J].产业与科技论坛,2020,19(7):44-45.
3陈丹雯,徐建军,谢毓湘,吴玲达.虚拟新闻自动生成系统的设计与实现[J].系统仿真学报,2006,18(z1):157-160.
4赵燕平,李超.网络安全信息挖掘中的特征选择与专利分析研究[J].中国管理科学,2004,12(z1):514-518. 被引量：3
5张小艳,李强.基于SVM的分类方法综述[J].科技信息,2008(28):344-345. 被引量：23
6王辉,左万利,袁华.一种基于质心与本体的文本分类方法[J].计算机研究与发展,2007,44(z2):6-11. 被引量：3
7袁志坚,贾焰.基于误差反馈的高速Web文本流快速近似分类[J].计算机研究与发展,2007,44(z3):13-17.
8贾志洋,高炜,王勇刚.结合信息检索技术的半监督文本分类方法[J].苏州大学学报（自然科学版）,2012,28(1):34-39. 被引量：1
9姜澜,李秀坤,单丽莉.一种新的词语权重计算方法[J].哈尔滨工业大学学报,2011,43(S1):315-318. 被引量：1
10陈思,钱铭宇,刘昌明.文本分类技术研究进展[J].电脑编程技巧与维护,2009(S1):22-24.

同被引文献191

1曾雪强,王明文,陈素芬.一种基于潜在语义结构的文本分类模型[J].华南理工大学学报（自然科学版）,2004,32(z1):99-102. 被引量：27
2刘建香.复杂网络及其在国内研究进展的综述[J].系统科学学报,2009,17(4):31-37. 被引量：72
3麦美琦,郭澄泓.质子泵抑制剂Lansoprazole和Pantoprazole的药理与临床[J].国外医药（合成药．生化药．制剂分册）,1993,14(5):279-281. 被引量：4
4张宇,刘挺,文勖.基于改进贝叶斯模型的问题分类[J].中文信息学报,2005,19(2):100-105. 被引量：47
5余正涛,樊孝忠.基于最大熵模型的汉语问句语义组块分析[J].计算机工程,2005,31(17):3-5. 被引量：5
6张亮,黄河燕,胡春玲.基于Ontology的中文问答系统问题分类研究[J].中国图书馆学报,2006,32(2):60-65. 被引量：3
7刘胥影,吴建鑫,周志华.一种基于级联模型的类别不平衡数据分类方法[J].南京大学学报（自然科学版）,2006,42(2):148-155. 被引量：23
8廖莎莎,江铭虎.中文文本分类中基于概念屏蔽层的特征提取方法[J].中文信息学报,2006,20(3):22-28. 被引量：12
9李文斌,刘椿年,陈嶷瑛.基于特征信息增益权重的文本分类算法[J].北京工业大学学报,2006,32(5):456-460. 被引量：19
10余俊英,王明文,盛俊.文本分类中的类别信息特征选择方法[J].山东大学学报（理学版）,2006,41(3):10-13. 被引量：5

引证文献20

1靖红芳,王斌,杨雅辉,徐燕.基于类别分布的特征选择框架[J].计算机研究与发展,2009,46(9):1586-1593. 被引量：18
2邹权,郭茂祖,刘扬,王峻.类别不平衡的分类方法及在生物信息学中的应用[J].计算机研究与发展,2010,47(8):1407-1414. 被引量：26
3范小丽,刘晓霞.文本分类中互信息特征选择方法的研究[J].计算机工程与应用,2010,46(34):123-125. 被引量：30
4钟将,孙启干,李静.面向文本分类的矩阵投影算法[J].计算机工程与应用,2010,46(35):129-132.
5徐红国,王素格.基于改进的类别分布特征选择方法[J].中北大学学报（自然科学版）,2011,32(2):139-142.
6王文晶,宋小香,李茹.面向问题分类的汉语框架网特征选择[J].计算机与现代化,2011(8):9-12.
7张玉芳,王勇,熊忠阳,刘明.不平衡数据集上的文本分类特征选择新方法[J].计算机应用研究,2011,28(12):4532-4534. 被引量：8
8陈振伟,廖祥文.结合AB-SMOTE和C-SVM的中文倾向性句子识别[J].福州大学学报（自然科学版）,2012,40(3):310-315. 被引量：2
9廖一星,潘雪增.面向不平衡文本的特征选择方法[J].电子科技大学学报,2012,41(4):592-595. 被引量：5
10郭亚维,刘晓霞.文本分类中信息增益特征选择方法的研究[J].计算机工程与应用,2012,48(27):119-122. 被引量：28

二级引证文献182

1占梦玲,曹明卓,李秀敏,苗明三.基于中西医临床病症特点的癫痫动物模型分析[J].中药药理与临床,2022,38(3):177-181.
2骆魁永.一种面向不均衡数据集的CHI特征选择改进算法[J].商丘师范学院学报,2021,37(6):9-13.
3王义,戴月明.基于混合互信息算法的文本情感分析[J].计算机应用研究,2020,37(2):337-341.
4林舒杨,李翠华,江弋,林琛,邹权.不平衡数据的降采样方法研究[J].计算机研究与发展,2011,48(S3):47-53. 被引量：31
5翟东海,王佳君,聂洪玉,崔静静.基于互信息的热点词发现和突发性话题检测研究[J].西藏大学学报（社会科学版）,2013,28(4):82-87. 被引量：2
6郑敏姜.基于数据立方体的特征提取方法[J].福建电脑,2010,26(3):18-20.
7陈金坦,康恒政,杨燕,周伟雄.一种用于不平衡数据的分类算法[J].山东大学学报（工学版）,2011,41(2):96-101. 被引量：1
8徐红国,王素格.基于改进的类别分布特征选择方法[J].中北大学学报（自然科学版）,2011,32(2):139-142.
9李霞,王连喜,蒋盛益.面向不平衡问题的集成特征选择[J].山东大学学报（工学版）,2011,41(3):7-11. 被引量：5
10张玉芳,王勇,熊忠阳,刘明.不平衡数据集上的文本分类特征选择新方法[J].计算机应用研究,2011,28(12):4532-4534. 被引量：8

1冀秀春,刘振会.Excel在统计学教学过程中的应用[J].中国信息技术教育,2010(4):89-89.
2余俊英,王明文,盛俊.文本分类中的类别信息特征选择方法[J].山东大学学报（理学版）,2006,41(3):10-13. 被引量：5
3戴洪,朱明,刘守群.支持增量学习的文本单类别分类算法[J].计算机工程与应用,2008,44(27):157-158. 被引量：1
4世界最小移动硬盘[J].中国市场,2005(8):4-4.
5盛志伟,刘仕筠.基于Aglets的分布式入侵检测系统研究[J].微计算机信息,2009,25(24):57-58.
6张延祥,潘海侠.一种基于区分能力的多类不平衡文本分类特征选择方法[J].中文信息学报,2015,29(4):111-119. 被引量：7
7苗德成,张晓东,吴江,王博奇.一种基于数据挖掘技术的战机识别算法[J].战术导弹控制技术,2007,15(1):56-59. 被引量：1
8夏晔,钱松荣.SVM算法在网站分类中的应用研究[J].计算机应用与软件,2012,29(11):222-224. 被引量：2
9王煜,徐建民.基于RBF神经网络和决策树的文本分类方法[J].计算机工程与应用,2005,41(14):175-178. 被引量：4
10华航CAD/CAM系统[J].现代制造,1994,0(6):10-10.

计算机研究与发展

2007年第z2期

浏览历史

内容加载中请稍等...

不均衡数据集上文本分类的特征选择研究被引量：20

参考文献13

二级参考文献4

共引文献496

同被引文献191

引证文献20

二级引证文献182

相关作者

相关机构

相关主题

浏览历史

不均衡数据集上文本分类的特征选择研究 被引量：20

参考文献13

二级参考文献4

共引文献496

同被引文献191

引证文献20

二级引证文献182

相关作者

相关机构

相关主题

浏览历史

不均衡数据集上文本分类的特征选择研究被引量：20