基于相关性和冗余度的联合特征选择方法被引量：15

Joint Feature Selection Method Based on Relevance and Redundancy

下载PDF

导出

摘要比较研究了与类别信息无关的文档频率和与类别信息有关的信息增益、互信息和χ2统计特征选择方法,在此基础上分析了以往直接组合这两类特征选择方法的弊端,并提出基于相关性和冗余度的联合特征选择算法。该算法将文档频率方法分别与信息增益、互信息和χ2统计方法联合进行特征选择,旨在删除冗余特征,并保留有利于分类的特征,从而提高文本情感分类效果。实验结果表明,该联合特征选择方法具有较好的性能,并且能够有效降低特征维数。 Based on a comparative study of four feature selection methods,including document frequency（DF） unrelated to class information,and information gain（IG）,mutual information（MI） and chi-square statistic（CHI）,which are relatedto class information,we analyzed the disadvantages of combining these two kinds of methods directly and proposed a joint feature selection method based on relevance and redundancy to joint DF and one of IG,MI and CHI.This approach aims to eliminate redundant features,find useful features for classification and consequently improve the accuracy of text sentiment classification.The results of the experiment show that the proposed method can not only improve the performance but also reduce the feature dimension.

作者周城葛斌唐九阳肖卫东

机构地区国防科技大学信息系统工程重点实验室

出处《计算机科学》 CSCD 北大核心 2012年第4期181-184,共4页 Computer Science

基金国家自然科学基金(60903225) 国防科技大学优秀研究生创新基金(S100502)资助

关键词文本情感分类联合特征选择相关性冗余特征 Text sentiment classification Joint feature selection Relevance Redundant feature

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献13

1Yang Y. A Comparative Study on Feature Selection in Text Categorization[A].Nashville:Morgan Kaufmann,1997.412-420.
2孙国菊,张杰.中文文本分类的特征选取评价[J].哈尔滨理工大学学报,2005,10(1):76-78. 被引量：14
3代六玲,黄河燕,陈肇雄.中文文本分类中特征抽取方法的比较研究[J].中文信息学报,2004,18(1):26-32. 被引量：228
4李玉鑑,周兰珍,操卫平.基于DF和CHI的联合特征提取方法及其应用[J].北京工业大学学报,2008,34(9):995-1000. 被引量：9
5Lewis D D. Feature Selection and Feature Extraction for Text Categorization[A].San Francisco,USA:Morgan Kaufmann,1992.212-217.
6Dunning T E. Accurate methods or the statistics of surprise and coincidence[A].1993.61-74.
7Koller D,Sahami M. Toward Optimal Feature Selection[A].San Francisco,USA:Morgan Kaufmann,1996.284-292.
8Yu L,Liu H. Efficient Feature Selection via Analysis of Relevance and Redundancy[J].Journal of Machine Learning Research,2004.1205-1224.
9Press W H,Teukolsky S A,Vetterling W T. Numerical Recipes in C[M].Cambridge:Cambridge University Press,1988.
10唐慧丰,谭松波,程学旗.基于监督学习的中文情感分类技术比较研究[J].中文信息学报,2007,21(6):88-94. 被引量：136

二级参考文献37

1黄昌宁等.对自动分词的反思[A]..语言计算与基于内容的文本处理[C].北京:清华大学出版社,2003,7.26-38.
2黄萱菁吴立德.独立于语种的文本分类方法[C]..2000International Conference on Multilingual Information Processing[C].,2000..
3YANG Yiming. An Evaluation of Statistical Approaches to Text Categorization[J]. Information Retrieval, 1997, 1 (1):69-90.
4YANG Yiming, Xin Liu. A Re-examination of Text cAtegorization Methods[A]. In: Proc of the 22nd Annual International ACM SIGIR Conference on Research and Development in Information Retrieval[C]. Berkeley: ACM Press, 1999. 42-49.
5YANG Yiming. A Comparative Study on Feature Selection in Text Categorization[C]. The 14th International Conference on Machine Learning, Nashville, 1997.
6MCCALLUM A, NIGAM K. A Comparison of Event Models for Naive Bayes Text Classification[C]. In AAAI-98 Workshop on Learning for Text Categorization, Madison, 1998.
7Franco Salvetti, Stephen Lewis, Christoph Reichenbach. Automatic Opinion Polarity Classification of Movie Reviews[J]. Colorado Research in Linguistics, 2004, Volume 17, Issue 1.
8Bo Pang, Lillian Lee, and Shivakumar Vaithyanathan. Thumbs up? Sentiment classification using machine learning techniques[A]. In: Proceedings of the 2002 Conference on Empirical Methods in Natural Language Processing (EMNLP), pages 79 86.
9Aidan Finn, Nicholas Kushmerick, and Barry Smyth. Genre classification and domain transfer for information filtering[A]. In: Fabio Crestani, Mark Girolami, and Cornelis J. van Rijsbergen, editors, Proceedings of ECIR-02, 24th European Colloquium on Information Retrieval Research, Glasgow, UK. Springer Verlag, Heidelberg, DE.
10Janyce Wiebe, Rebecca Bruce, Matthew Bell, Melanie Martin, and Theresa Wilson. A corpus study of evaluative and speculative language[A]. In: Proceedings of the 2nd ACL SIGdial Workshop on Discourse and Dialogue, 2001.

共引文献375

1龚丽娟,王昊,张紫玄,朱立平.Word2Vec对海关报关商品文本特征降维效果分析[J].数据分析与知识发现,2020,4(2):89-100. 被引量：8
2骆魁永.一种面向不均衡数据集的CHI特征选择改进算法[J].商丘师范学院学报,2021,37(6):9-13.
3杨梦月,卫伟,陆慧娟,卢海峰.基于差分进化的中文情感分类集成算法研究[J].计量学报,2020,41(2):225-230. 被引量：2
4张莉.网页自动分类技术概念分析[J].娄底职业技术学院学报（职教与经济研究）,2007(2):58-62.
5张培颖.基于Web内容和日志挖掘的个性化网页推荐系统[J].计算机系统应用,2008,17(9):9-11. 被引量：6
6刘怀亮,张治国,马志辉,孙蕾.基于SVM与KNN的中文文本分类比较实证研究[J].情报理论与实践,2008,31(6):941-944. 被引量：10
7何忠育,王勇,王瑛,陈新,廖朝辉.基于分布式计算的网络舆情分析系统的设计[J].警察技术,2010(3):19-22. 被引量：6
8贾志洋,高炜,王勇刚.结合信息检索技术的半监督文本分类方法[J].苏州大学学报（自然科学版）,2012,28(1):34-39. 被引量：1
9尤晶晶.基于贝叶斯的垃圾邮件过滤优化算法[J].烟台职业学院学报,2008(2):80-83.
10陈涛,宋妍,谢阳群.改进的信息增益特征选择方法在文本聚类中的应用[J].现代图书情报技术,2004(12):7-9. 被引量：2

同被引文献127

1刘永丹,曾海泉,李荣陆,胡运发.基于语义分析的倾向性文本过滤[J].通信学报,2004,25(7):78-85. 被引量：34
2陈曦,李翔晨,李炜,楼宗元.基于信息熵的谣言信息度量方法[J].华中科技大学学报（自然科学版）,2013,41(S1):413-417. 被引量：5
3李德毅,刘常昱.论正态云模型的普适性[J].中国工程科学,2004,6(8):28-34. 被引量：897
4张丽新,王家钦,赵雁南,杨泽红.机器学习中的特征选择[J].计算机科学,2004,31(11):180-184. 被引量：18
5刘靖明,韩丽川,侯立文.基于粒子群的K均值聚类算法[J].系统工程理论与实践,2005,25(6):54-58. 被引量：122
6李德毅,孟海军,史雪梅.隶属云和隶属云发生器[J].计算机研究与发展,1995,32(6):15-20. 被引量：1250
7朱嫣岚,闵锦,周雅倩,黄萱菁,吴立德.基于HowNet的词汇语义倾向计算[J].中文信息学报,2006,20(1):14-20. 被引量：326
8徐琳宏,林鸿飞,杨志豪.基于语义理解的文本倾向性识别机制[J].中文信息学报,2007,21(1):96-100. 被引量：123
9王卫玲,刘培玉,初建崇.一种改进的基于条件互信息的特征选择算法[J].计算机应用,2007,27(2):433-435. 被引量：23
10陈彬,洪家荣,王亚东.最优特征子集选择问题[J].计算机学报,1997,20(2):133-138. 被引量：96

引证文献15

1付慧琳,杨勤,王倩,牟廉明.葡萄酒质量综合定量评价方法研究[J].内江师范学院学报,2013,28(6):4-7. 被引量：1
2任永功,杨雪,杨荣杰,胡志冬.基于信息增益特征关联树的文本特征选择算法[J].计算机科学,2013,40(10):252-256. 被引量：9
3李敏,卡米力.木依丁.特征选择方法与算法的研究[J].计算机技术与发展,2013,23(12):16-21. 被引量：23
4王忠民,曹栋.基于蚁群算法的行为识别特征优选方法[J].西安邮电大学学报,2014,19(1):73-77. 被引量：21
5王忠民,王斌.多频段时域分解的行为识别特征优选方法[J].计算机应用研究,2015,32(7):1956-1958. 被引量：6
6徐健锋,许园,许元辰,张远健,刘清.基于语义理解和机器学习的混合的中文文本情感分类算法框架[J].计算机科学,2015,42(6):61-66. 被引量：29
7邢玉娟,张成文,谭萍,曹晓丽.基于信息增益和支持向量机的网络新闻评论情感观点分类[J].兰州文理学院学报（自然科学版）,2015,29(5):55-58. 被引量：2
8闫健卓,李鹏英,方丽英,龙丽英,刘欣悦.基于X^2统计的改进文本特征选择方法[J].计算机工程与设计,2016,37(5):1391-1394. 被引量：8
9邢玉娟,谭萍,曹晓丽.基于多约简Fisher-VSM和SVM的文本情感分类[J].计算机应用与软件,2016,33(9):301-305. 被引量：1
10尚志刚,董永慧,李蒙蒙,李志辉.基于偏最小二乘回归的鲁棒性特征选择与分类算法[J].计算机应用,2017,37(3):871-875. 被引量：9

二级引证文献113

1刘逸竹,李晴,吴文斌.遥感提取灌溉耕地的特征优选——以中国北方为例[J].中国农业资源与区划,2021,42(9):27-35. 被引量：2
2杨梦月,卫伟,陆慧娟,卢海峰.基于差分进化的中文情感分类集成算法研究[J].计量学报,2020,41(2):225-230. 被引量：2
3陶全桧,安俊秀,陈宏松.基于跨模态融合ERNIE的多模态情感分析研究[J].成都信息工程大学学报,2022,37(5):501-507. 被引量：2
4刘飞飞.特征选择算法及应用综述[J].办公自动化,2018,23(21):47-49. 被引量：4
5石慧,贾代平,苗培.基于词频信息的改进信息增益文本特征选择算法[J].计算机应用,2014,34(11):3279-3282. 被引量：16
6衡霞,王忠民.基于手机加速度传感器的人体行为识别[J].西安邮电大学学报,2014,19(6):76-79. 被引量：33
7王忠民,屈肃.一种极速学习机人体行为识别模型迁移方法[J].西安邮电大学学报,2015,20(1):49-54. 被引量：8
8朱旭东,梁光明,冯雁.基于改进SFS特征选择BP识别算法[J].现代电子技术,2015,38(12):1-4. 被引量：3
9宋辉,王忠民.基于稀疏矩阵字典的移动用户行为识别方法[J].计算机应用研究,2015,32(9):2590-2592. 被引量：3
10钱慎一,朱艳玲,朱颢东.基于多层挖掘策略的特征选择及在科技文献分类中的应用[J].兰州理工大学学报,2015,41(6):109-113. 被引量：1

1石敏,康耀红.一种联合的文本分类特征抽取函数[J].海南大学学报（自然科学版）,2005,23(4):347-350.
2陈绯,郑华.一种免疫克隆特征选择算法在文本分类中的应用[J].计算机工程与科学,2009,31(9):119-121. 被引量：2
3李粤,李星,刘辉,许静芳.一种改进的文本网页分类特征选择方法[J].计算机应用,2004,24(7):119-121. 被引量：8
4姚哲,陶剑文.多源适应多标签分类框架[J].计算机工程与应用,2017,53(7):88-96. 被引量：24
5蔡小森.Word2007插入图形无法组合怎么办[J].电脑迷,2008,0(16):82-82.
6冀俊忠,吴金源,吴晨生,杜芳华.基于类别加权和方差统计的特征选择方法[J].北京工业大学学报,2014,40(10):1593-1602. 被引量：11
7黄杰,吴平东,马树元,陈之龙.无需时钟同步和网络时延预测的远程控制补偿器研究[J].机械工程学报,2004,40(11):158-162. 被引量：3
8张晓平,刘桂雄,洪晓斌,刘美.降低WSN目标失跟率的自适应采样频率方法[J].华南理工大学学报（自然科学版）,2009,37(8):61-64. 被引量：3
9李冬,房俊.基于HBase的交通数据区域查询方法[J].计算机与数字工程,2017,45(2):230-234. 被引量：4
10廖传柱,潘婷婷,江铭炎.Contourlet变换域的稀疏表示分类方法[J].内蒙古师范大学学报（自然科学汉文版）,2016,45(1):89-93. 被引量：2

计算机科学

2012年第4期

浏览历史

内容加载中请稍等...

基于相关性和冗余度的联合特征选择方法被引量：15

参考文献13

二级参考文献37

共引文献375

同被引文献127

引证文献15

二级引证文献113

相关作者

相关机构

相关主题

浏览历史

基于相关性和冗余度的联合特征选择方法 被引量：15

参考文献13

二级参考文献37

共引文献375

同被引文献127

引证文献15

二级引证文献113

相关作者

相关机构

相关主题

浏览历史

基于相关性和冗余度的联合特征选择方法被引量：15