文本多分类中的特征选择研究被引量：2

Feature Selection for Multi-Class Text Categorization

下载PDF

导出

摘要特征选择是数据挖掘和机器学习等领域内重要的预处理步骤,近年来得到了广泛的关注。文本数据的高维性往往会影响分类等数据挖掘任务的效率,因此特征选择常被作为文本分类过程中的重要组成部分,以达到降维的目的。随着分类技术的快速发展,类别的日益细化,文本的多类分类问题为特征选择方法提出了更多的挑战。本文面向文本多类分类的应用背景,阐述了目前特征选择方法所面临的主要挑战,给出了多分类特征选择方法的主要种类。本文沿着相关研究的发展路线,由易至难,由浅入深,通过对目前多分类特征选择算法的应用情况进行总结,并进行综述评论,最后对全文进行了概括,提出了未来可能的研究方向。 As an important pre-processing step in data mining and machine learning, feature selection has been gradually developed. The high-dimensional characteristics of text data always declines the performance of categorization. Hence, feature selection can be employed as a dimension-reduction measure. With the fast evolution of classification methods and refinement of categories, muhi-class text categorization gives rise to more challenges for feature selection. In this paper, we present a survey of the main problems and the state of-art feature selection methods, following the development track. Finally, we conclude the whole paper and give some future directions of research.

作者王博贾焰杨树强韩伟红

机构地区国防科学技术大学计算机学院

出处《计算机工程与科学》 CSCD 北大核心 2010年第8期90-93,148,共5页 Computer Engineering & Science

基金国家863计划资助项目(2006AA01Z451 2007AA01Z474 2007AA010502) 国家自然科学基金资助项目(60873204) NCET060928

关键词特征选择文本分类数据挖掘层次结构 feature selection text categorization data mining hierarchical structure

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献41

1Scbastiani F. Machine Learning in Automated Text Categorization[J]. ACM Computing Surveys, 2002,34 (1) : 1-47.
2Chakrabarti S, Dora B, et al. Scalable Feature Selection, Classification and Signature Generation for Organizing Large Text Databases Into Hierarchical Topic Taxonomies [J]. VLDB Journal, 1998,7(3):163-178.
3Forman G. An Experimental Study of Fcature Selection Metrics for Text Categorization[J].Journal of Machine Learning Research, 2003,3( 1 ) : 1289-1305.
4Sebastiani F. Machine I.earning in Aulomated Text Categorization[J]. ACM Computing Surveys, 2002,34 ( 1 ) : 1-47.
5Quinlan J R. Constructing Decision Tree,C4.5:Programs for Machine Learning[M]. New York: Morgan Kaufman Publishers, 1993.
6Lewis D D. Feature Selection and Feature Extraction for Text Categorization[C]//Proc of Speech and Natural I.anguage Workshop, 1992:212-217.
7Koller D, Sahami M. Hierarchically Classifying Documents Using Very Few Words[C]//Proc of the 14th Int'l Conf on Machine Learning ICML, 1997 : 170-178.
8Mladenic D, Grobelnik M. Feature Selection for Unbalanced Class Distribution and Naive Bayes[C]//Proc of the 16th Int'l Conf on Machine Learning, 1999:258-267.
9Schutze H, Hull D A,Pedersen J O. A Comparison of Classifiers and Document Representations for the Routing Problem [C]//Proc of the ACM-SIGIR Int'l Conf on Research and Development in Information Retrieval, 1995 : 229-237.
10Forman G. An Extensive Empirical Study of Feature Selection Metrics for Text Classification[J]. Special Issue on Variable and Feature Selection, 2003,3 ( 1 ) : 1289-1305.

同被引文献41

1王练,李云,汪血焰.高维特征集选择模型研究[J].重庆邮电学院学报（自然科学版）,2005,17(1):113-116. 被引量：2
2任江涛,黄焕宇,孙婧昊,印鉴.基于相关性分析及遗传算法的高维数据特征选择[J].计算机应用,2006,26(6):1403-1405. 被引量：16
3尚文倩,黄厚宽,刘玉玲,林永民,瞿有利,董红斌.文本分类中基于基尼指数的特征选择算法研究[J].计算机研究与发展,2006,43(10):1688-1694. 被引量：38
4孙晋文,肖建国.基于SVM文本分类中的关键词学习研究[J].计算机科学,2006,33(11):182-184. 被引量：12
5马金娜,田大钢.基于支持向量机的中文文本自动分类研究[J].系统工程与电子技术,2007,29(3):475-478. 被引量：14
6毛勇,周晓波,夏铮,尹征,孙优贤.特征选择算法研究综述[J].模式识别与人工智能,2007,20(2):211-218. 被引量：95
7黄睿,何明一,杨少军.一种适用于小样本问题的基于边界的特征提取算法[J].计算机学报,2007,30(7):1173-1178. 被引量：6
8Fukunaga K.Introduction of Statistical Pattern Recognition[M].2nd ed.Waltham:Academic Press,1991.
9He X F,Niyogi P.Locality preserving projections[C]//Vancouver,Whistler,Eds.Advances in Neural Information Process-ing Systems.Cambridge:MIT Press,2003.
10Cai D,He X H,Han J W.Semi-supervised discriminant analysis[C]//Eleventh IEEE International Conference on Computer Vision.Brazil:Rio de Janeiro,2007.

引证文献2

1杨杨,吕静.高维数据的特征选择研究[J].南京师范大学学报（工程技术版）,2012,12(1):57-63.
2阿力木江.艾沙,吐尔根.依布拉音,库尔班.吾布力,艾山.吾买尔.基于SVM的维吾尔文文本分类研究[J].计算机工程与科学,2012,34(12):150-154. 被引量：11

二级引证文献11

1阿力木江.艾沙,吐尔根.依布拉音,库尔班.吾布力,瓦依提.阿不力孜,艾山.吾买尔.基于类别分布差异和特征熵的维吾尔语文本特征选择[J].计算机应用研究,2013,30(10):2958-2961. 被引量：5
2张亚军,吴晓林,贺琛琛.浅谈新疆多语种智能化研究现状[J].电脑知识与技术,2014(1):138-140.
3阿力木江.艾沙,库尔班.吾布力,吐尔根.依布拉音.维吾尔文Bigram文本特征提取[J].计算机工程与应用,2015,51(3):216-221. 被引量：3
4如先姑力.阿布都热西提,贺一峰,亚森.艾则孜.基于文本分类的维吾尔文数字取证研究[J].现代电子技术,2016,39(10):9-13. 被引量：1
5赵旭东,亚森.艾则孜.基于互信息和余弦相似度的维吾尔文不良文档信息过滤方案[J].电子设计工程,2016,24(16):109-112. 被引量：3
6阿丽亚.艾尔肯,哈力旦.阿布都热依木,何燕,吴冰冰.基于深度置信网络的维吾尔文垃圾短信分类技术研究[J].计算机工程与科学,2016,38(10):2134-2139. 被引量：6
7阿力甫.阿不都克里木,李晓.基于TextRank算法和互信息相似度的维吾尔文关键词提取及文本分类[J].计算机科学,2016,43(12):36-40. 被引量：8
8如先姑力.阿布都热西提,亚森.艾则孜,年梅.基于广泛相似度的维吾尔语文档分类方案[J].计算机工程与设计,2017,38(6):1686-1691.
9韩军兵,哈力旦.阿布都热依木,古力努尔.艾尔肯,何燕.改进信息增益的维吾尔文特征选择方法[J].计算机工程与应用,2017,53(23):34-38. 被引量：3
10刘一然,骆力明.基于SVM的学科试题自动分类研究[J].计算机应用与软件,2019,36(1):197-203. 被引量：8

1周瑛,潘志薇.网络环境中的数据完整性和数据安全问题研究[J].图书情报工作,2001,45(4):48-50. 被引量：7
2许海涛.对等网与入侵检测的探讨[J].硅谷,2011,4(5):9-9.
3钟家洪,夏勇.论传感器使用中的抗干扰技术[J].科技风,2012(18):44-44.
4程杰仁,殷建平,刘运,钟经伟.蜜罐及蜜网技术研究进展[J].计算机研究与发展,2008,45(z1):375-378. 被引量：35
5靳延安,李瑞轩,文坤梅,辜希武,卢正鼎,段东圣.社会标注及其在信息检索中的应用研究综述[J].中文信息学报,2010,24(4):52-62. 被引量：13
6王忠勇,蔡远利.非线性控制系统中的混沌现象及其控制方法[J].非线性动力学学报,1997,4(4):317-324. 被引量：5
7范崇阳.生物传感器的发展和应用[J].传感器技术,1995,14(2):1-5. 被引量：3
8刘落飞.宏病毒及其防治[J].华中电力,2000,13(3):52-54. 被引量：1
9贾贵,贾志清.构建企业小型局域网[J].扬子石油化工,1999,14(4):35-37.
10陈家本.日本发展造船焊接机器人的历程及主要种类[J].焊接研究与生产,1997,6(1):22-23. 被引量：2

计算机工程与科学

2010年第8期

浏览历史

内容加载中请稍等...

文本多分类中的特征选择研究被引量：2

参考文献41

同被引文献41

引证文献2

二级引证文献11

相关作者

相关机构

相关主题

浏览历史

文本多分类中的特征选择研究 被引量：2

参考文献41

同被引文献41

引证文献2

二级引证文献11

相关作者

相关机构

相关主题

浏览历史

文本多分类中的特征选择研究被引量：2