一种面向不均衡数据集的CHI特征选择改进算法

An improved CHI feature selection algorithm for unbalanced data sets

下载PDF

导出

摘要在文本分类中,不均衡数据集广泛存在.本文从特征选择优化方面出发,分析了特征项在类内和类间的分布情况以及不均衡数据集下文档的差异性对CHI特征选择影响,引入了类内词频概率因子、类间文档概率集中因子和类内均匀因子对传统卡方统计模型进行改进,提出了一种改进的CHI特征选择方法.实验结果表明,与改进前的方法相比,该方法在不均衡数据集上具有更好的分类效果. In text classification,unbalanced data sets exist widely.From the aspect of feature selection optimization,this paper analyzes the distribution of feature items within and between classes and the influence of document differences under unbalanced data sets on CHI feature selection,introduces the probability factor of word frequency within classes,the probability concentration factor of document between classes and the uniformity factor within classes to improve the traditional CHI square statistical model,and proposes an improved CHI feature selection method.The experimental results show that compared with the improved method,this method has better classification effect on the unbalanced data set.

作者骆魁永 LUO Kuiyong(School of Information Engineering,Xinyang Agriculture and Forestry University,Xinyang 464000,China)

机构地区信阳农林学院信息工程学院

出处《商丘师范学院学报》 CAS 2021年第6期9-13,共5页 Journal of Shangqiu Normal University

基金校级青年基金资助项目(20200115)

关键词不均衡数据集 CHI 特征选择 unbalanced data set CHI feature selection

分类号 TP311.13 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献7

1黄章树,叶志龙.基于改进的CHI统计方法在文本分类中的应用[J].计算机系统应用,2016,25(11):136-140. 被引量：13
2谢娜娜,房斌,吴磊.不均衡数据集上文本分类方法研究[J].计算机工程与应用,2013,49(20):118-121. 被引量：11
3邱云飞,王威,刘大有,邵良杉.基于方差的CHI特征选择方法[J].计算机应用研究,2012,29(4):1304-1306. 被引量：30
4裴英博,刘晓霞.文本分类中改进型CHI特征选择方法的研究[J].计算机工程与应用,2011,47(4):128-130. 被引量：39
5熊忠阳,张鹏招,张玉芳.基于χ~2统计的文本分类特征选择方法的研究[J].计算机应用,2008,28(2):513-514. 被引量：44
6王灿辉,张敏,马少平.自然语言处理在信息检索中的应用综述[J].中文信息学报,2007,21(2):35-45. 被引量：50
7代六玲,黄河燕,陈肇雄.中文文本分类中特征抽取方法的比较研究[J].中文信息学报,2004,18(1):26-32. 被引量：228

二级参考文献85

1徐燕,李锦涛,王斌,孙春明,张森.不均衡数据集上文本分类的特征选择研究[J].计算机研究与发展,2007,44(z2):58-62. 被引量：20
2麦美琦,郭澄泓.质子泵抑制剂Lansoprazole和Pantoprazole的药理与临床[J].国外医药（合成药．生化药．制剂分册）,1993,14(5):279-281. 被引量：4
3陈治纲,何丕廉,孙越恒,郑小慎.基于向量空间模型的文本分类系统的研究与实现[J].中文信息学报,2005,19(1):36-41. 被引量：43
4唐焕玲,孙建涛,陆玉昌.文本分类中结合评估函数的TEF-WA权值调整技术[J].计算机研究与发展,2005,42(1):47-53. 被引量：26
5徐凤亚,罗振声.文本自动分类中特征权重算法的改进研究[J].计算机工程与应用,2005,41(1):181-184. 被引量：56
6张莉,孙钢,郭军.基于K-均值聚类的无监督的特征选择方法[J].计算机应用研究,2005,22(3):23-24. 被引量：29
7苏祺,昝红英,胡景贺,项锟.词性标注对信息检索系统性能的影响[J].中文信息学报,2005,19(2):58-65. 被引量：8
8赵军,金千里,徐波.面向文本检索的语义计算[J].计算机学报,2005,28(12):2068-2078. 被引量：28
9金澎,刘毅,王树梅.汉语分词对中文搜索引擎检索性能的影响[J].情报学报,2006,25(1):21-24. 被引量：6
10周宇,覃征.聚类分析中特征选择的研究[J].计算机应用研究,2006,23(5):55-57. 被引量：2

共引文献376

1李奕霖,周艳平.基于孪生网络和字词向量结合的文本相似度匹配[J].计算机系统应用,2022,31(10):295-302. 被引量：1
2龚丽娟,王昊,张紫玄,朱立平.Word2Vec对海关报关商品文本特征降维效果分析[J].数据分析与知识发现,2020,4(2):89-100. 被引量：7
3张莉.网页自动分类技术概念分析[J].娄底职业技术学院学报（职教与经济研究）,2007(2):58-62.
4张培颖.基于Web内容和日志挖掘的个性化网页推荐系统[J].计算机系统应用,2008,17(9):9-11. 被引量：6
5郑婧,孙卫.国内自然语言处理技术研究与应用的状态[J].数字图书馆论坛,2008(7):27-31. 被引量：1
6黄永文,何中市,伍星.用户评论的分类获取[J].计算机应用,2009,29(3):846-848. 被引量：5
7贾志洋,高炜,王勇刚.结合信息检索技术的半监督文本分类方法[J].苏州大学学报（自然科学版）,2012,28(1):34-39. 被引量：1
8尤晶晶.基于贝叶斯的垃圾邮件过滤优化算法[J].烟台职业学院学报,2008(2):80-83.
9刘春艳.基于信息可视化的文本挖掘研究领域前沿与演化分析[J].图书情报工作,2011,55(S2):270-272. 被引量：5
10陈涛,宋妍,谢阳群.改进的信息增益特征选择方法在文本聚类中的应用[J].现代图书情报技术,2004(12):7-9. 被引量：2

1吴丹云,邵海亚.基于因子分析法构建住培指导医师岗位胜任力模型[J].南京医科大学学报（社会科学版）,2021,21(5):496-501. 被引量：4
2姚凤禄.统计语言学视域下《端午的鸭蛋》的句长研究[J].名作欣赏（评论版）（中旬）,2021(10):170-172.
3霍震,杨子昭,王岩峰,刘卫东,周恢,高谦.基于SLP法和AHP法的离散物料智能生产线设计与仿真[J].现代制造工程,2021(10):50-59. 被引量：3

商丘师范学院学报

2021年第6期

浏览历史

内容加载中请稍等...

一种面向不均衡数据集的CHI特征选择改进算法

参考文献7

二级参考文献85

共引文献376

相关作者

相关机构

相关主题

浏览历史