混合CHI和MI的改进文本特征选择方法被引量：6

An Improved Text Feature Selection Method Mixed CHI and MI

下载PDF

导出

摘要特征选择在文本分类技术中是一个重要的关键部分,特征选择的好坏直接决定最终的分类结果。卡方统计量(CHI-square statistic,CHI)和互信息(mutual information,MI)是特征选择模块经常使用的方法。针对卡方统计量方法不考虑词频的不足,引入词频因子。考虑互信息方法倾向选择低频词的缺点,并研究特征词在不同类别文档内的分布情况对互信息方法的特征选择的影响,通过引入特征的词频因子和调节参数对卡方统计量方法和互信息方法进行改进,并混合改进后的卡方统计量方法和互信息方法,提出一种混合的特征选择算法(CHMI)。通过对CHI方法、MI方法、改进的CHI方法、改进的MI方法和CHMI方法进行实验对比,使用CHMI方法进行特征选择,使最终分类结果的查准率和F1值都有了提高,验证了CHMI方法的有效性。 Feature selection is a key part of text classification,and the choices of features directly determine the final classification result.CHI-square statistic(CHI)and mutual information(MI)are commonly used in feature selection.In order to solve the shortcoming of word frequency and analyze the distribution of the feature words in the documents within the categories,the word frequency factors and adjust parameter are introduced into the original CHI-square selection method and mutual information method,and then the improved CHI and improved MI are clustered to obtain a mixed feature selection algorithm(CHMI).By comparing CHI,MI,improved CHI,improved MI and CHMI with experiment,the CHMI improves the accuracy of classification and F1 values,which verifies its validity.

作者王振邱晓晖 WANG Zhen;QIU Xiao-hui(School of Communication and Information Engineering,Nanjing University of Posts and Telecommunications,Nanjing 210003,China)

机构地区南京邮电大学通信与信息技术学院

出处《计算机技术与发展》 2018年第4期87-90,94,共5页 Computer Technology and Development

基金江苏省自然科学基金(BK2011789) 东南大学毫米波国家重点实验室开放课题(K201318)

关键词文本分类特征选择卡方统计互信息词频因子调节参数 text categorization feature selection CHI statistics MI word frequency factor adjust parameter

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献8

1苏金树,张博锋,徐昕.基于机器学习的文本分类技术研究进展[J].软件学报,2006,17(9):1848-1859. 被引量：387
2焦庆争,蔚承建.一种可靠信任推荐文本分类特征权重算法[J].计算机应用研究,2010,27(2):472-474. 被引量：6
3李军怀,付静飞,蒋文杰,费蓉,王怀军.基于MRMR的文本分类特征选择方法[J].计算机科学,2016,43(10):225-228. 被引量：9
4樊存佳,汪友生,王雨婷.一种改进的CHI文本特征选择方法[J].计算机与现代化,2016(11):7-11. 被引量：5
5裴英博,刘晓霞.文本分类中改进型CHI特征选择方法的研究[J].计算机工程与应用,2011,47(4):128-130. 被引量：39
6闫屹,张燕平,耿筱媛.基于CHI值特征选取和覆盖的文本分类方法[J].计算机技术与发展,2008,18(5):79-81. 被引量：4
7邱云飞,王威,刘大有,邵良杉.基于方差的CHI特征选择方法[J].计算机应用研究,2012,29(4):1304-1306. 被引量：30
8熊志斌,刘冬.朴素贝叶斯在文本分类中的应用[J].软件导刊,2013,20(2):49-51. 被引量：12

二级参考文献50

1林鸿飞,杨志豪,赵晶.基于内容和合作模式的信息推荐机制[J].中文信息学报,2005,19(1):48-55. 被引量：14
2唐焕玲,孙建涛,陆玉昌.文本分类中结合评估函数的TEF-WA权值调整技术[J].计算机研究与发展,2005,42(1):47-53. 被引量：26
3王建会,王洪伟,申展,胡运发.一种实用高效的文本分类算法[J].计算机研究与发展,2005,42(1):85-93. 被引量：20
4李荣陆,王建会,陈晓云,陶晓鹏,胡运发.使用最大熵模型进行中文文本分类[J].计算机研究与发展,2005,42(1):94-101. 被引量：95
5张莉,孙钢,郭军.基于K-均值聚类的无监督的特征选择方法[J].计算机应用研究,2005,22(3):23-24. 被引量：29
6周宇,覃征.聚类分析中特征选择的研究[J].计算机应用研究,2006,23(5):55-57. 被引量：2
7苏金树,张博锋,徐昕.基于机器学习的文本分类技术研究进展[J].软件学报,2006,17(9):1848-1859. 被引量：387
8YANG Yi-ming, LIU X. A re-examination of text categorization methods[ C]//Proc of the 22nd Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. 1999: 42- 49.
9JOACHIMS T. A probabilistic analysis of the Rocchio algorithm with TFIDF for text categorization[ C]//Proc of the 14th International Conference on Machine Learning. 1997:143-151.
10JOSANG A, KNAPSKOG S J. A metric for trusted systems[ C]// Proc of the 21st National Security Conference. 1998:16-29.

共引文献467

1骆魁永.一种面向不均衡数据集的CHI特征选择改进算法[J].商丘师范学院学报,2021,37(6):9-13.
2李林,刁磊,唐詹,柏召,周晗,郭旭超.基于BERT_Stacked LSTM的农业病虫害问句分类方法[J].农业机械学报,2021,52(S01):172-177. 被引量：6
3姚学恒,张萍,闫立伟,操诚.基于机器学习的企业秘密文档自动分类方法[J].产业与科技论坛,2020,19(7):44-45.
4张小艳,李强.基于SVM的分类方法综述[J].科技信息,2008(28):344-345. 被引量：23
5王辉,左万利,袁华.一种基于质心与本体的文本分类方法[J].计算机研究与发展,2007,44(z2):6-11. 被引量：3
6徐燕,李锦涛,王斌,孙春明,张森.不均衡数据集上文本分类的特征选择研究[J].计算机研究与发展,2007,44(z2):58-62. 被引量：20
7袁志坚,贾焰.基于误差反馈的高速Web文本流快速近似分类[J].计算机研究与发展,2007,44(z3):13-17.
8贾志洋,高炜,王勇刚.结合信息检索技术的半监督文本分类方法[J].苏州大学学报（自然科学版）,2012,28(1):34-39. 被引量：1
9刘春艳.基于信息可视化的文本挖掘研究领域前沿与演化分析[J].图书情报工作,2011,55(S2):270-272. 被引量：5
10陈思,钱铭宇,刘昌明.文本分类技术研究进展[J].电脑编程技巧与维护,2009(S1):22-24.

同被引文献45

1靳小波.文本分类综述[J].自动化博览,2006,23(z1):24-29. 被引量：16
2单丽莉,刘秉权,孙承杰.文本分类中特征选择方法的比较与改进[J].哈尔滨工业大学学报,2011,43(S1):319-324. 被引量：25
3刘群,张华平,俞鸿魁,程学旗.基于层叠隐马模型的汉语词法分析[J].计算机研究与发展,2004,41(8):1421-1429. 被引量：198
4庞景安.Web文本特征提取方法的研究与发展[J].情报理论与实践,2006,29(3):338-340. 被引量：17
5黄昌宁,赵海.中文分词十年回顾[J].中文信息学报,2007,21(3):8-19. 被引量：249
6毛勇,周晓波,夏铮,尹征,孙优贤.特征选择算法研究综述[J].模式识别与人工智能,2007,20(2):211-218. 被引量：95
7周炎涛,唐剑波,王家琴.基于信息熵的改进TFIDF特征选择算法[J].计算机工程与应用,2007,43(35):156-158. 被引量：28
8陈国松,黄大荣.基于信息熵的TFIDF文本分类特征选择算法研究[J].湖北民族学院学报（自然科学版）,2008,26(4):401-404. 被引量：5
9施聪莺,徐朝军,杨晓江.TFIDF算法研究综述[J].计算机应用,2009,29(B06):167-170. 被引量：218
10王海鹃,韩立新,甄志龙.基于索引项权重的文本特征选择方法[J].计算机工程与设计,2010,31(5):1149-1151. 被引量：4

引证文献6

1张丐卓.文本挖掘及其在信息内容安全中的应用[J].华北科技学院学报,2018,15(2):115-121. 被引量：2
2张强强,苏变萍,李敏.基于改进CHI的新的短文本混合特征选择方法[J].信息与电脑,2018,30(16):34-36.
3段国仑,谢钧,郭蕾蕾,王晓莹.Web文档分类中TFIDF特征选择算法的改进[J].计算机技术与发展,2019,29(5):49-53. 被引量：4
4蔡镇,高健,秦晓军.基于改进CHI和带权ECE结合的特征选择方法[J].计算机应用研究,2019,36(10):2962-2964. 被引量：4
5陈鹏,李勇志,余肖生.基于特征选择模型的钓鱼网站快速识别方法[J].计算机技术与发展,2021,31(4):40-45. 被引量：4
6冷婷,叶仁玉,徐思蓉.最大相关最小冗余两阶段文本特征选择方法[J].安徽理工大学学报（自然科学版）,2024,44(3):83-89.

二级引证文献14

1山火.数字用户线技术发展的辩证[J].电子产品世界,2000,7(4):8-8.
2陈欢,黄勃,刘文竹,高永彬,姜晓燕.基于Python的网络新闻爬虫与检索[J].软件导刊,2019,18(5):168-171. 被引量：10
3黄敬轩,刘康军,云辰太,梁楚衡,江健武.基于Java和Python的辅助评标系统的设计与实现[J].工业控制计算机,2021,34(3):18-20. 被引量：2
4成洁.一种基于SVM的英/美式英语的文本分类方法[J].电子设计工程,2021,29(14):70-74. 被引量：4
5文武,万玉辉,张许红,文志云.基于改进CHI和PCA的文本特征选择[J].计算机工程与科学,2021,43(9):1645-1652. 被引量：5
6姚严志,李建良.基于类信息的TF-IDF权重分析与改进[J].计算机系统应用,2021,30(9):237-241. 被引量：7
7毛典辉,梁秀霞,赵爽,郝治昊.面向区块链平台的庞氏骗局模式检测方法[J].计算机技术与发展,2022,32(5):153-159. 被引量：1
8凌永标,毛峰,杨岚岚,邱兴卫,张志锐,张杰.基于混合注意力网络的安全工器具检测[J].计算机技术与发展,2022,32(6):209-214.
9吴宗卓.文本分类中TF-IDF算法的改进研究[J].计算技术与自动化,2022,41(2):84-86. 被引量：8
10甄志龙,张居晓.卡方统计中基于KL散度的高维文本数据特征筛选[J].统计与决策,2022(17):43-46. 被引量：4

1YANG Zhen,YAO Fei,FAN Kefeng,HUANG Jian.Text Dimensionality Reduction with Mutual Information Preserving Mapping[J].Chinese Journal of Electronics,2017,26(5):919-925. 被引量：2
2Parham PAHLAVANI,Behnaz BIGDELI.A mutual information-Dempster-Shafer based decision ensemble system for land cover classification of hyperspectral data[J].Frontiers of Structural and Civil Engineering,2017,11(4):774-783. 被引量：2
3Saurav Mallik,Zhongming Zhao.Towards integrated oncogenic marker recognition through mutual information-based statist!cally significant feature extraction： an association rule mining based study on cancer expression and methylation profiles[J].Frontiers of Electrical and Electronic Engineering in China,2017,5(4):302-327. 被引量：5
4粟欣,张向宇,曾捷.基于网络功能虚拟化的网络切片管理方案[J].科学技术与工程,2017,17(29):289-295. 被引量：6
5邓远文,丁颂,何珊珊,王江.智能化商品包装机控制系统设计[J].南方农机,2018,49(1):35-37.
6陶永才,赵国桦,石磊,卫琳.一种改进的MapReduce互信息文本特征选择机制[J].小型微型计算机系统,2018,39(3):433-438. 被引量：7
7余德亮,范雯杰,蒋涌,黄兆富,魏威.多通道温湿度采集系统设计[J].气象水文海洋仪器,2018,35(1):67-70. 被引量：2
8唐建勋.由微识真——对牵连运动问题的深度分析[J].中学物理教学参考,2017,0(9):51-53. 被引量：2
9徐军,田军,刘佰弘,郑伟卓,李伟,陶树清,吕松岑.两种前路术式治疗单节段脊髓型颈椎病的对比研究[J].中国病毒病杂志,2008,10(1):15-18.
10隋晓艳,姜桂艳,曹朋亮,杜春承.基于DEA-CA-MI的全国沿海主要港口运营效率评价[J].宁波大学学报（理工版）,2018,31(1):82-88. 被引量：5

计算机技术与发展

2018年第4期

浏览历史

内容加载中请稍等...

混合CHI和MI的改进文本特征选择方法被引量：6

参考文献8

二级参考文献50

共引文献467

同被引文献45

引证文献6

二级引证文献14

相关作者

相关机构

相关主题

浏览历史

混合CHI和MI的改进文本特征选择方法 被引量：6

参考文献8

二级参考文献50

共引文献467

同被引文献45

引证文献6

二级引证文献14

相关作者

相关机构

相关主题

浏览历史

混合CHI和MI的改进文本特征选择方法被引量：6