文本分类中一种特征选择方法研究被引量：10

Study on feature selection method in text classification

下载PDF

导出

摘要针对文本分类中传统特征选择方法卡方统计量和信息增益的不足进行了分析,得出文本分类中的特征选择关键在于选择出集中分布于某类文档并在该类文档中均匀分布且频繁出现的特征词。因此,综合考虑特征词的文档频、词频以及特征词的类间集中度、类内分散度,提出一种基于类内类间文档频和词频统计的特征选择评估函数,并利用该特征选择评估函数在训练集每个类别中选取一定比例的特征词组成该类别的特征词库,而训练集的特征词库则为各类别特征词库的并集。通过基于SVM的中文文本分类实验表明,该方法与传统的卡方统计量和信息增益相比,在一定程度上提高了文本分类的效果。 The traditional feature selection method of chi-square test and information gain in text classification has its inherent defect. This paper analyzed the key of feature selection in text classification being to select feature words distributed evenly and frequently in each type of documents. This should consider not only the document frequency and term frequency of feature words, but also the inter class concentration degree and the intra class scatter degree of feature words. It proposed a feature selection evaluation function that is based on document frequency of within-class and between-class and term frequency statistics. The feature selection evaluation function could select a certain proportion of the feature words in each category of the training set to form the corresponding class of the feature word library. The entire feature word library of the training set could be composed by each of such classes as a result. It carried out the experiment of Chinese text classification based on SVM. The experimental results show that the proposed method improves the effectiveness of text classification to a certain extent, compared with the traditional chi-square test and information gain.

作者赵婧邵雄凯刘建舟王春枝 Zhao Jing;Shao Xiongkai;Liu Jianzhou;Wang Chunzhi(School of Computer Science,Hubei University of Technology,Wuhan 430068,China)

机构地区湖北工业大学计算机学院

出处《计算机应用研究》 CSCD 北大核心 2019年第8期2261-2265,共5页 Application Research of Computers

基金国家自然科学基金面上资助项目(61772180)

关键词文本分类特征选择分散度集中度频度 text classification feature selection distribution concentration frequency

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献5

1戚孝铭,施亮.基于模拟退火及蜂群算法的优化特征选择算法[J].计算机工程与设计,2013,34(8):2917-2921. 被引量：9
2叶敏,汤世平,牛振东.一种基于多特征因子改进的中文文本分类算法[J].中文信息学报,2017,31(4):132-137. 被引量：10
3董微,刘学,倪宏.基于信息增益的自适应特征选择方法[J].计算机工程与设计,2014,35(8):2856-2859. 被引量：8
4任永功,杨荣杰,尹明飞,马名威.基于信息增益的文本特征选择方法[J].计算机科学,2012,39(11):127-130. 被引量：31
5郭正斌,张仰森,蒋玉茹.一种面向文本分类的特征向量优化方法[J].计算机应用研究,2017,34(8):2299-2302. 被引量：13

二级参考文献43

1单丽莉,刘秉权,孙承杰.文本分类中特征选择方法的比较与改进[J].哈尔滨工业大学学报,2011,43(S1):319-324. 被引量：25
2陈治纲,何丕廉,孙越恒,郑小慎.基于向量空间模型的文本分类系统的研究与实现[J].中文信息学报,2005,19(1):36-41. 被引量：43
3Yang Yi-ming, Pedersen J O. A Comparative Study on feature selection in text categorization [C]//Proceedings of the 14th In- ternational Conference on Machine Learning (ICML ' 97). Nash- villr = Morgan Kaufmann Publishers, 1997 412-420.
4Ng H, Goh W, Low K. Feature selection, perceptron learning and a usability case study {or text categorization [C]//Procee- dings o{ the g0th ACM International Conference onResearch and Development in InformationRetrieval(SIGIR-97). 1997 : 67-73.
5Wang Bin,Jones G J F, Pan Wen-feng. Using online linear clas- sifiers to filter spam emails[J]. Pattern Analysis Applica- tions, 2006,9(4) : 339-351.
6Zheng Zhachui, Wu Xiao-yun, Srihari R. Feature Selection for Text Categorization on Imbalaneed Data[J]. ACM SIGKDD Ex- plorations Newsletter, 2004(6) : 80-89.
7Xu Yan, Chen Lin. Term-frequency Based Feature Selection Methods for Text Categorization[C]//Proceedings of the 2010 Fourth International Conference on Genetic and Evolutionary Computing, Dec, 2010 : 280-283.
8Robertson S E, Walker S, Jones S, et al. Okapi at tree-3 [C]// Gaithersburg M D. Proceedings of the Third Text Retrieval Conference (TR[C-3). USA= the National Inst. of Stan- dardsTechnology(NIST) &Defense Advanced Research Pro- jects Agency(DARPA). 1994 :109-126.
9Hu Qing-hua, Yu Da-ren, Xie Zong-xia. Neighborhood classifiers [Z]. Scienc Edirect. Dec. 2006.
10Marco Lippi, Manfred Jaeger, Paolo Frasconi, et al. Relationalinformation gain [J]. Machine Learning, 2011, 83 ( 2 ):219-239.

共引文献65

1张继超,刘宁,宋伟东,李建飞.一种特征选择的全极化雷达影像分类方法[J].测绘科学,2022,47(6):127-134. 被引量：2
2马建国,杨金山,赵静,赵秀云.综合物探在宾州浸出油厂找水的应用[J].黑龙江水利科技,2000,28(2):64-65.
3袁力,陈阳,赵勇.面向TRIZ理论使用者的多标签专利分类[J].计算机科学,2013,40(11A):255-258. 被引量：7
4蒋宗礼,时福林.基于链接关系的网页分类优化算法[J].计算机与现代化,2014(5):14-17. 被引量：2
5刘小敏,王昊,李心蕾,邓三鸿.不同特征粒度在微博短文本分类中作用的比较研究[J].情报科学,2018,36(12):126-133. 被引量：9
6李文慧,张英俊,潘理虎.多因素影响特征选择的短文本分类方法[J].计算机系统应用,2018,27(12):216-221. 被引量：3
7韩耀廷,许志伟,刘利民.基于Storm云平台的增量文本分类机制研究[J].内蒙古工业大学学报（自然科学版）,2018,37(4):279-286.
8石慧,贾代平,苗培.基于词频信息的改进信息增益文本特征选择算法[J].计算机应用,2014,34(11):3279-3282. 被引量：16
9赵靖,皮建勇.粗糙集属性约简在文本分类中的性能研究[J].微型机与应用,2015,34(21):81-84.
10李亚楠,郭海湘,刘晓,李诒靖.基于自适应差分演化的特征选择算法在石油储层识别中的应用[J].系统工程理论与实践,2015,35(11):2968-2979.

同被引文献80

1曹新西,徐晨婕,侯亚冰,王媛,樊娜,徐富升,王耀刚.1990—2025年我国高发慢性病的流行趋势及预测[J].中国慢性病预防与控制,2020,28(1):14-19. 被引量：119
2赵亚楠,陈艳昆,陈茜,乔连生,张景芳,蔡涟漪,裴艳玲,张燕玲.中药中CYP酶抑制成分的发现[J].中国中药杂志,2020,45(4):923-931. 被引量：5
3王杨,许闪闪,李昌,艾世成,张卫东,甄磊,孟丹.基于支持向量机的中文极短文本分类模型[J].计算机应用研究,2020,37(2):347-350. 被引量：30
4李卫疆,常伟,余正涛.加快排序文档的剪枝决策树和分块方法[J].计算机应用研究,2020,37(1):193-197. 被引量：1
5单丽莉,刘秉权,孙承杰.文本分类中特征选择方法的比较与改进[J].哈尔滨工业大学学报,2011,43(S1):319-324. 被引量：25
6王亮申,欧宗瑛,朱玉才,侯杰,于京诺.基于SVM的图像分类[J].计算机应用与软件,2005,22(5):98-99. 被引量：18
7卢苇,彭雅.几种常用文本分类算法性能比较与分析[J].湖南大学学报（自然科学版）,2007,34(6):67-69. 被引量：31
8姜鹤,陈丽亚.SVM文本分类中一种新的特征提取方法[J].计算机技术与发展,2010,20(3):17-19. 被引量：16
9王盛,樊兴华,陈现麟.利用上下位关系的中文短文本分类[J].计算机应用,2010,30(3):603-606. 被引量：38
10李雄飞,李军,董元方,屈成伟.一种新的不平衡数据学习算法PCBoost[J].计算机学报,2012,35(2):202-209. 被引量：63

引证文献10

1黄汉威.琴韵音响数码影音中心——AVR9928[J].实用影音技术,2000(3):18-19.
2丁月,汪学明.基于改进特征加权的朴素贝叶斯分类算法[J].计算机应用研究,2019,36(12):3597-3600. 被引量：24
3林晓农.物联网中非结构化信息特征自动提取方法研究[J].贵阳学院学报（自然科学版）,2021,16(1):17-21.
4成洁.一种基于SVM的英/美式英语的文本分类方法[J].电子设计工程,2021,29(14):70-74. 被引量：4
5丁胜夺,赵刚,阎红巧,刘洪太.基于遗传理论的改进数据过采样方法[J].计算机系统应用,2022,31(2):185-190.
6段友祥,张晓天.基于主动学习的SVM评论内容分类算法的研究[J].计算机与数字工程,2022,50(3):608-612. 被引量：5
7吴绪玲.基于混合优化的双模深度学习文本分类方法[J].西南大学学报（自然科学版）,2022,44(11):234-242. 被引量：1
8谭静仪,蔡灿,林爱华,董雪.基于SVM算法的冠心病分类预测案例研究[J].医学信息,2023,36(1):37-41.
9王根生,黄学坚.基于Word2vec和改进型TF-IDF的卷积神经网络文本分类模型[J].小型微型计算机系统,2019,40(5):1120-1126. 被引量：40
10王维虎,刘艳超,杨雷,蒋超.基于支持向量机的大学生心理健康分析模型研究[J].心理学进展,2022,12(5):1631-1637.

二级引证文献73

1菡冰.Windows95/NT环境下MFC多线程编程技术Step By Step[J].电脑编程技巧与维护,2000(5):40-48.
2于游,付钰,吴晓平.中文文本分类方法综述[J].网络与信息安全学报,2019,5(5):1-8. 被引量：37
3田璐萍,嵇启春.基于眼部信息融合的疲劳驾驶检测的研究[J].国外电子测量技术,2019,38(10):26-29. 被引量：6
4Shengli Zhou,Xin Wang,Zerui Yang.Monitoring and Early Warning of New Cyber-Telecom Crime Platform Based on BERT Migration Learning[J].China Communications,2020,17(3):140-148. 被引量：5
5黄光华,殷锋,冯九林.一种交叉验证和距离加权方法改进的KNN算法研究[J].西南民族大学学报（自然科学版）,2020,46(2):172-177. 被引量：7
6王孟轩,张胜,王月,雷霆,杜渂.改进的CRNN模型在警情文本分类中的研究与应用[J].应用科学学报,2020,38(3):388-400. 被引量：1
7杜梦星,王彦伟.基于CNN的突发事件预警系统的设计与实现[J].武汉工程大学学报,2020,42(2):207-212.
8赵献立,王志明.机器学习算法在农业机器视觉系统中的应用[J].江苏农业科学,2020,48(12):226-231. 被引量：9
9雷霆,王孟轩.基于NLP的新冠肺炎疫情研判系统设计与实现[J].电信快报（网络与通信）,2020(6):21-25. 被引量：2
10王根生,潘方正.融合多元异构信息的矩阵分解推荐算法[J].小型微型计算机系统,2020,41(7):1406-1412. 被引量：3

1张妤,邓廷勇,夏冰.基于LS-SVM的中文文本情感分类[J].科学技术创新,2019(26):56-57. 被引量：2
2孙云,赵高斌.从汉英平行新闻语料词频看“一带一路”倡议[J].传媒论坛,2019,0(16):33-34.
3李华龙,孙扬.建筑工程绿色施工技术的应用研究[J].产城（上半月）,2019(3):97-97.
4蔡雨昕.基于决策树的图像数据分类[J].现代商贸工业,2019,40(28):189-189. 被引量：1
5方玉萍,万荣,方达.中文文本未登录词识别的研究[J].电脑知识与技术,2019,15(7Z):203-204.
6刘毓,刘陆,高尹,杨柳.基于属性相容性的随机森林算法[J].西安邮电大学学报,2019,24(3):71-75. 被引量：1
7黄罡.基于并集及特殊点求解的稳定域边界分析方法[J].智能电网（汉斯）,2019,9(4):164-171.
8朱文峰,于舒娟,何伟.基于IG_CDmRMR的二阶段特征选择方法[J].计算机工程,2019,45(9):183-187. 被引量：2
9张丹丹,白庆笙.整合数字资源,建设优质新形态教材——以《动物学实验》为例[J].高校生物学教学研究（电子版）,2019,9(3):55-60. 被引量：3
10杨帆.基于在线比较评论情感分析的方法探索[J].中国市场,2019,0(25):185-186. 被引量：1

计算机应用研究

2019年第8期

浏览历史

内容加载中请稍等...

文本分类中一种特征选择方法研究被引量：10

参考文献5

二级参考文献43

共引文献65

同被引文献80

引证文献10

二级引证文献73

相关作者

相关机构

相关主题

浏览历史

文本分类中一种特征选择方法研究 被引量：10

参考文献5

二级参考文献43

共引文献65

同被引文献80

引证文献10

二级引证文献73

相关作者

相关机构

相关主题

浏览历史

文本分类中一种特征选择方法研究被引量：10