混合CHI与IG的特征选择方法研究被引量：1

Research on feature selection method combined CHI and IG

下载PDF

导出

摘要随着信息技术的飞速发展以及网民规模的扩大,互联网数据量与日俱增,其中含有大量非结构化文本数据,因此,文中分类已成为当前的研究热点。特征选择的好坏直接影响文本分类的精度。传统单一的特征选择方法侧重点不同,使用不同的特征选择方法选择后的特征子集可能差别较大,进而导致不稳定的分类结果。文中提出了一种混合CHI与IG的特征选择方法,引入了融合特征的指标SOM(Score of Mixed),将特征根据SOM值排序,通过预定的阈值进行特征筛选,得出相对稳定且具代表性的特征子集。实验结果表明,使用该方法进行特征选择,文本分类的效果相比使用其他特征选择方法有一定的提升。 With the rapid development of information technology and the expansion of Internet users,the amount of Internet data is increasing day by day,which contains a large amount of unstructured text data.Therefore,text categorization has become a hot research topic.The quality of feature selection directly affects the accuracy of text classification.The traditional single feature selection method has different emphasis.Feature subsets selected by using different feature selection methods may differ greatly,which leads to unstable classification results.In this paper,a feature selection method combined CHI and IG is proposed.The SOM(Score of Mixed)is introduced.The features are sorted according to the SOM value.The feature is screened by a predetermined threshold to obtain a relatively stable and representative subset of features.The experimental results show that using this method for feature selection,the effect of text classification has a certain improvement compared with other feature selection methods.

作者唐康汪海涛姜瑛陈星 TANG Kang;WANG Hai-tao;JIANG Ying;CHEN Xing(Yunnan Key Laboratory of Computer Technology Applications,Kunming University of Science and Technology,Kunming 650500,China)

机构地区昆明理工大学云南省计算机技术应用重点实验室

出处《信息技术》 2019年第2期53-57,共5页 Information Technology

基金国家自然科学基金资助项目(61462049)

关键词特征选择卡方统计信息增益混合方法 feature selection Chi-square statistics Information gain Hybrid method

分类号 TP301.6 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献3

1袁磊.基于改进CHI特征选择的情感文本分类研究[J].传感器与微系统,2017,36(5):47-51. 被引量：13
2徐戈,王厚峰.自然语言处理中主题模型的发展[J].计算机学报,2011,34(8):1423-1436. 被引量：236
3邓万宇,刘丹,董莹莹,张莎莎,刘光达.多模场景下的高维数据的特征选择及分类研究[J].信息技术,2018,42(7):39-42. 被引量：1

二级参考文献72

1Deerwester S C, Dumais S T, Landauer T K, et al. Indexing by latent semantic analysis. Journal of the American Society for Information Science, 1990.
2Hofmann T. Probabilistic latent semantic indexing//Proceedings of the 22nd Annual International SIGIR Conference. New York: ACM Press, 1999:50-57.
3Blei D, Ng A, Jordan M. Latent Dirichlet allocation. Journal of Machine Learning Research, 2003, 3: 993-1022.
4Griffiths T L, Steyvers M. Finding scientific topics//Proceedings of the National Academy of Sciences, 2004, 101: 5228 5235.
5Steyvers M, Gritfiths T. Probabilistic topic models. Latent Semantic Analysis= A Road to Meaning. Laurence Erlbaum, 2006.
6Teh Y W, Jordan M I, Beal M J, Blei D M. Hierarchical dirichlet processes. Technical Report 653. UC Berkeley Statistics, 2004.
7Dempster A P, Laird N M, Rubin D B. Maximum likelihood from incomplete data via the EM algorithm. Journal of the Royal Statistical Society, 1977, B39(1): 1-38.
8Bishop C M. Pattern Recognition and Machine Learning. New York, USA: Springer, 2006.
9Roweis S. EM algorithms for PCA and SPCA//Advances in Neural Information Processing Systems. Cambridge, MA, USA: The MIT Press, 1998, 10.
10Hofmann T. Probabilistic latent semantic analysis//Proceedings of the Fifteenth Conference on Uncertainty in Artificial Intelligence. Stockholm, Sweden, 1999:289- 296.

共引文献247

1刘娜,肖智博,路莹,唐晓君,肖鹏.自适应主题融合的多文档自动摘要算法[J].中南大学学报（自然科学版）,2013,44(S2):205-209.
2汤雁冰.氧化铜铁矿石中伴生金银的回收[J].有色矿山,2000,29(3):28-31. 被引量：2
3阳小兰,钱程.基于主题提取和记忆模型的新闻推荐系统设计[J].计算机与数字工程,2012,40(6):47-50. 被引量：1
4周亦鹏,杜军平.基于时空情境模型的主题跟踪[J].华南理工大学学报（自然科学版）,2012,40(8):82-87. 被引量：1
5陈叶旺,王华珍,李海波,钟必能,陈锻生.基于百度百科与文本分类的网络文本语义主题抽取方法[J].小型微型计算机系统,2012,33(12):2605-2610. 被引量：9
6乐小虬,洪娜.面向社会文本流数据探测爆发主题方法浅析[J].现代图书情报技术,2012(10):21-27.
7朱然,李德华.新闻聚合系统中的数据挖掘技术初探[J].电脑知识与技术,2013(1):148-151. 被引量：2
8许冶冰,刘超.基于主题的文档与代码间关联关系的提取研究[J].计算机工程与应用,2013,49(5):70-76. 被引量：3
9方锴.专家检索研究综述[J].科协论坛（下半月）,2013(2):102-104. 被引量：1
10李春英,汤庸,陈国华,汤志康.面向学术社区的专家推荐模型[J].智能系统学报,2012,7(4):365-369. 被引量：11

同被引文献18

1沈志斌,白清源.文本分类中特征权重算法的改进[J].南京师范大学学报（工程技术版）,2008,8(4):95-98. 被引量：14
2施聪莺,徐朝军,杨晓江.TFIDF算法研究综述[J].计算机应用,2009,29(B06):167-170. 被引量：218
3杨凯峰,张毅坤,李燕.基于文档频率的特征选择方法[J].计算机工程,2010,36(17):33-35. 被引量：27
4张瑜,张德贤.一种改进的特征权重算法[J].计算机工程,2011,37(5):210-212. 被引量：20
5任永功,杨荣杰,尹明飞,马名威.基于信息增益的文本特征选择方法[J].计算机科学,2012,39(11):127-130. 被引量：31
6路永和,李焰锋.改进TF-IDF算法的文本特征项权值计算方法[J].图书情报工作,2013,57(3):90-95. 被引量：54
7郑霖,徐德华.基于改进TFIDF算法的文本分类研究[J].计算机与现代化,2014(9):6-9. 被引量：27
8赵小华,马建芬.文本分类算法中词语权重计算方法的改进[J].电脑知识与技术,2009,0(12X):10626-10628. 被引量：9
9赵迎光,范少萍,安新颖.学科背景知识在医学文本特征抽取中的应用[J].医学信息学杂志,2017,38(4):50-54. 被引量：1
10王理冬.基于信息增益的文本特征选择方法[J].电脑知识与技术,2017,13(9):242-244. 被引量：1

引证文献1

1杜若鹏,鲜国建,寇远涛.基于改进TF-IDF-CHI算法的农业科技文献文本特征抽取[J].数字图书馆论坛,2019(8):18-24. 被引量：9

二级引证文献9

1蒋庆朝,徐硕,陈孟婕,王立华.基于主题词频共现的渔业科学数据推荐[J].现代计算机,2020,26(5):7-11. 被引量：1
2杜若鹏,寇远涛,朱亮.基于近20年中文核心期刊文献计量的番茄研究主题与热点分析[J].中国蔬菜,2020(11):85-91. 被引量：13
3周泽聿,王昊,赵梓博,李跃艳,张小琴.融合关联信息的GCN文本分类模型构建及其应用研究[J].数据分析与知识发现,2021,5(9):31-41. 被引量：4
4张阳,王小宁.基于Word2Vec词嵌入和高维生物基因选择遗传算法的文本特征选择方法[J].计算机应用,2021,41(11):3151-3155. 被引量：9
5吴华瑞,郭威,邓颖,王郝日钦,韩笑,黄素芳.农业文本语义理解技术综述[J].农业机械学报,2022,53(5):1-16. 被引量：11
6甄志龙,张居晓.卡方统计中基于KL散度的高维文本数据特征筛选[J].统计与决策,2022(17):43-46. 被引量：4
7香慧敏,白涛,李东亚,马楠.基于词向量与多特征融合的农业文本自动标引研究[J].新疆农业大学学报,2022,45(6):486-492.
8杜若鹏,张洁,姚蔚,朱亮.基于专利文献计量分析的白菜科技发展趋势[J].北方园艺,2023(5):144-150. 被引量：3
9杜若鹏,张洁,寇远涛.基于共现词分析的专业科技信息平台用户画像主题标注方法改进[J].数字图书馆论坛,2023,19(9):58-63.

1乔麟婷.决策树算法研究[J].课程教育研究,2018(48):224-225. 被引量：4
2杜冲,周长银,李悦,李潇宁.集成特征选择方法在基因表达数据上的应用[J].山东科技大学学报（自然科学版）,2019,38(1):85-90. 被引量：2
3赵冰清,林林,耿仕洁.自媒体短视频的内容创新策略研究[J].传媒,2019,0(4):47-48. 被引量：5
4李弗不.2018年高考全国卷Ⅰ作文评析[J].新世纪智能,2018(25):12-15.
5石玉莲.运用仪典教育功能提升大学生党支部凝聚力研究[J].课程教育研究,2018(40):70-71.
6胡敏,陈元会,黄宏程.基于用户隐式行为特征的最大熵推荐算法[J].计算机工程与设计,2019,40(2):405-411. 被引量：3
7李建,付小斌,吴媛媛.基于优化ID3的井漏类型分类算法[J].计算机工程,2019,45(2):290-295. 被引量：10
8刘艳,程璐,孙林.基于K-S检验和邻域粗糙集的特征选择方法[J].河南师范大学学报（自然科学版）,2019,47(2):21-28. 被引量：33
9张傲,陈兰岚,魏琛.基于MPGA的混合特征选择算法在驾驶压力检测中的应用[J].华东理工大学学报（自然科学版）,2019,45(1):125-132. 被引量：2

信息技术

2019年第2期

浏览历史

内容加载中请稍等...

混合CHI与IG的特征选择方法研究被引量：1

参考文献3

二级参考文献72

共引文献247

同被引文献18

引证文献1

二级引证文献9

相关作者

相关机构

相关主题

浏览历史

混合CHI与IG的特征选择方法研究 被引量：1

参考文献3

二级参考文献72

共引文献247

同被引文献18

引证文献1

二级引证文献9

相关作者

相关机构

相关主题

浏览历史

混合CHI与IG的特征选择方法研究被引量：1