文本分类中一种新的特征选择方法被引量：3

A new feature selection method for text categorization

导出

摘要文本分类面临的一个主要问题就是如何降低文本巨大的特征维数,并且保持分类精度甚至提高分类精度。针对该问题,提出了一种基于信息论的特征再提取方法,旨在删除稀疏分布的特征、保留有利于分类的特征。使用该方法时配合特征选择方法,可进一步降低特征维数。实验结果表明,该方法能将特征维数降低到几百维,而且能提高分类器的性能。 How to reduce feature dimension while maintaining categorization accuracy is a key issue of text categorization.A new method based on information theory was proposed to solve this problem.This approach aims to eliminate sparsely distributed features and find features useful for categorization.Working with these feature reduction methods,it could further reduce the feature dimension.The performance of this proposed method was tested on benchmark text classification problems.The results showed that it could not only reduce the feature dimension to hundreds but also improve the performance.

作者王法波许信顺

机构地区山东大学计算机科学与技术学院

出处《山东大学学报（工学版）》 CAS 北大核心 2010年第4期8-11,18,共5页 Journal of Shandong University（Engineering Science）

基金山东省自然科学基金资助项目(Q2008G06) 教育部留学归国人员科研启动基金资助项目山东大学自主创新基金资助项目(2009TS033)

关键词文本分类特征选择熵互信息信息增益卡方统计 text categorization feature selection entropy mutual information information gain CHI square statistics

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献11

1YANG Y M, PEDERSEN J O. A comparative study on feature selection in text categorization [ C ]// Proc of the 14th International Conference on Machine Learning ICML97. [ S. l. ] : [ s. n. ], 1997:412-420.
2JOLLIFFE I T. Principal component analysis [ M ]. New York: Springer Verlag, 1986.
3BAKER L D, MCCALLUM A K. Distributional clustering of words for text classification [ C]// Proc of 21st Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. Melbourne, Australia: [ s. n. ], 1998:96-103.
4MARTINES A M, KAK A C. PCA versus LDA [ J ]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2001, 23 (2):228-233.
5唐亮,段建国,许洪波,梁玲.基于互信息最大化的特征选择算法及应用[J].计算机工程与应用,2008,44(13):130-133. 被引量：35
6SALTON G, WONG A, YANG C S. A vector space model for automatic indexing [ J ]. Communications of the ACM, 1975, 18:613-620.
7陆玉昌,鲁明羽,李凡,周立柱.向量空间法中单词权重函数的分析和构造[J].计算机研究与发展,2002,39(10):1205-1210. 被引量：126
8李凡,鲁明羽,陆玉昌.关于文本特征抽取新方法的研究[J].清华大学学报（自然科学版）,2001,41(7):98-101. 被引量：78
9Thomas Abeea, Yves Vab, Yvan Saeys. Java-ML: a machine learning library [ J 1. Journal of Machine Learning Research, 2009, 10: 931-934.
10李荣陆.中文文本分类语料[EB/OL].[2008-01-20].http://www.nip.org.cn/docs/doclist.php.

二级参考文献8

1Yang Yiming,Pedersen J O.A comparative study on feature selection in text categorization[C]//Proc of the 14th International Conference on Machine Learning ICML97,1997:412-420.
2Karypis G,Han E.Fast supervised dimensionality reduction algorithm with applications to document categorization and retrieval[C]// Proc of the 9th ACM International Conference on Information and Knowledge Management CIKM-00.New York,US:ACM Press,2000: 228-233.
3Baker L D,McCallum A K.Distributional clustering of words for text classification[C]//Proc of the 21st Annual International ACM SIGIR, 1998 :96-103.
4谭松波语料库[DB/OL].http://lcc.software.ict.ac.cn/-tansongbo/corpusl.php.
5Jolliffe I T.Principal component analysis[M].New York:Spriger Verlag, 1986.
6Martinez A M,Kak A C.PCA versus LDA[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2001,23(2):228-233.
7Yang Y，http://citeseernjneccom/yang97comparativehtml，1997年
8李凡,鲁明羽,陆玉昌.关于文本特征抽取新方法的研究[J].清华大学学报（自然科学版）,2001,41(7):98-101. 被引量：78

共引文献228

1陈丹雯,徐建军,谢毓湘,吴玲达.虚拟新闻自动生成系统的设计与实现[J].系统仿真学报,2006,18(z1):157-160.
2张脂平,林世平.Web文本挖掘中特征提取算法的分析及改进[J].福州大学学报（自然科学版）,2004,32(z1):63-66. 被引量：1
3赵燕平,李超.网络安全信息挖掘中的特征选择与专利分析研究[J].中国管理科学,2004,12(z1):514-518. 被引量：3
4于波,于慧娜,孙立镌.基于概念格的网站信息资源的知识抽取[J].科技资讯,2007,5(2). 被引量：1
5徐燕,李锦涛,王斌,孙春明,张森.不均衡数据集上文本分类的特征选择研究[J].计算机研究与发展,2007,44(z2):58-62. 被引量：20
6姜澜,李秀坤,单丽莉.一种新的词语权重计算方法[J].哈尔滨工业大学学报,2011,43(S1):315-318. 被引量：1
7单丽莉,刘秉权,孙承杰.文本分类中特征选择方法的比较与改进[J].哈尔滨工业大学学报,2011,43(S1):319-324. 被引量：25
8李长虹,李堂秋.一种改进的特征选择方法在文本分类系统中的应用[J].学术问题研究,2005,0(1):94-98.
9陈淑珍.Web文本挖掘中的特征表示与特征提取技术[J].三明高等专科学校学报,2004,21(2):53-57. 被引量：2
10施洁斌.基于支持向量机的文本自动分类试验研究[J].现代图书情报技术,2004(7):27-29.

同被引文献44

1牟廉明.k子凸包分类方法[J].山西大学学报（自然科学版）,2011,34(3):374-380. 被引量：5
2YOON K, KWEK S. A data reduction approach for resolving the imbalanced data issue in functional genomics [ J ]. Neural Comput & Applic, 2007 (16) :295-306.
3ZHENG Zhaohui, WU Xiaoyun, ROHINI Srihari. Feature selection for text categorization on imbalanced data [J]. SIGKDD Explorations, 2004, 6( 1 ) :80-89.
4JIANG Shengyi, WANG Lianxi. Unsupervised feature selection based on clustering [ C ]//Proceedings of IEEE Fifth International Conference on Bio-Inspired Computing: Theories and Applications (BIC-TA). Changsha: IEEE, 2010: 263-270.
5YU L, LIU H. Efficient feature selection via analysis of relevance and redundancy [J]. Journal of Machine Learning Research, 2004, 5 : 1205-1224.
6TSYMBAL A, PECHENIZKIY M, CUNNINGHAM P. Sequential genetic search for ensemble feature selection C ]//Proceedings of the Nineteenth International Joint Conference on Artificial Intelligence, San Francisco: Morgan Kaufmann, 2005: 877-882.
7LIU X Y, WU J, ZHOU Z H. Exploratory under-sampiing for class-imbalance learning [ J ]. IEEE Transactions on Systems, Man and Cybernetics-part B, 2009, 39(2) :539-550.
8ASUNCION A, NEWMAN D. UCI repository of machine learning databases [DB/OL ]. [ 2009-04-03 ]. http ://www. its. u ci. edu/-mlearn/MLRep-ository, html.
9BARANDELA R, SANCHEZ J S, GARCIA V. Strategies for learning in class imbalance problems [J]. Pattern Recognition, 2003, 36 ( 3 ) : 849-851.
10ELAZMEH W, JAPKOWICZ N, MATWIN S. Evaluating misclassification in imbalanced data [J ]. LNCS, 2006, 4212: 126-137.

引证文献3

1李霞,王连喜,蒋盛益.面向不平衡问题的集成特征选择[J].山东大学学报（工学版）,2011,41(3):7-11. 被引量：5
2张新猛,蒋盛益.一种基于相似度概率的不确定分类数据聚类算法[J].山东大学学报（工学版）,2011,41(3):12-16. 被引量：5
3牟廉明.自适应特征选择加权k子凸包分类[J].山东大学学报（工学版）,2018,48(5):32-37.

二级引证文献10

1张宏兵,陆建峰,汤九斌.一种基于近似EMD的DBSCAN改进算法[J].山东大学学报（工学版）,2012,42(4):35-40. 被引量：5
2张云霞,崔晓松,邹丽.一种基于十八元语言值模糊相似矩阵的聚类方法[J].山东大学学报（工学版）,2013,43(1):34-40. 被引量：6
3姚旭,王晓丹,张玉玺,薛爱军.基于正则化互信息和差异度的集成特征选择[J].计算机科学,2013,40(6):225-228. 被引量：3
4尹华,胡玉平.基于随机森林的不平衡特征选择算法[J].中山大学学报（自然科学版）,2014,53(5):59-65. 被引量：32
5吉兴全,韩国正,李可军,傅荣荣,朱仰贺.基于密度的改进K均值聚类算法在配网区块划分中的应用[J].山东大学学报（工学版）,2016,46(4):41-46. 被引量：5
6魏波,张文生,李元香,夏学文,吕敬钦.一种选择特征的稀疏在线学习算法[J].山东大学学报（工学版）,2017,47(1):22-27.
7余自林,张晓龙.基于有效特征选择的高价值移动通信用户预测方法[J].武汉科技大学学报,2017,40(2):149-154. 被引量：5
8谢娟英,王明钊,周颖,高红超,许升全.非平衡基因数据的差异表达基因选择算法研究[J].计算机学报,2019,42(6):1232-1251. 被引量：11
9肖满生,张龙信,张晓丽,胡永祥.一种改进的区间型不确定数据模糊聚类方法[J].电子与信息学报,2020,42(8):1968-1974. 被引量：7
10帕提古丽.木沙.基于概率分布相似性的不确定数据聚类算法研究[J].高考,2016,0(36):147-147.

1韩峰,王铁良,焦李成.一种求解线性方程组的算法[J].数值计算与计算机应用,2005,26(1):65-73. 被引量：1
2张琳,邵天昊.云计算环境下的一种改进的贝叶斯文本分类算法[J].计算机科学,2014,41(S1):339-342. 被引量：4
3霍亚松,张锟.非重叠低维度梯度方向直方图[J].模式识别与人工智能,2014,27(3):242-247. 被引量：2
4潘承恩.改进的小脑控制神经网络算法研究[J].计算机仿真,2011,28(7):181-184.
5张晓桂,高波.面向印刷机械的虚拟装配系统研究与开发[J].中国机械工程,2007,18(22):2717-2720. 被引量：1
6吴岸雄.基于RBF神经网络的人脸识别方法[J].肇庆学院学报,2014,35(2):27-31. 被引量：1
7谢珊珊,白光伟,曹磊.基于区域划分的连通支配集协议[J].计算机工程与设计,2012,33(4):1319-1323. 被引量：4
8高智勇,王林.基于Gabor变换的表情识别系统的设计[J].中南民族大学学报（自然科学版）,2010,29(1):78-82. 被引量：3
9马冯艳.主分量分析和线性判别分析在分类问题中的应用[J].科技视界,2015(13):52-52.
10李斌,杨国庆.一种基于稀疏分布记忆模型的汉字联想记忆方法[J].计算机研究与发展,1994,31(4):61-65. 被引量：1

山东大学学报（工学版）

2010年第4期

浏览历史

内容加载中请稍等...

文本分类中一种新的特征选择方法被引量：3

参考文献11

二级参考文献8

共引文献228

同被引文献44

引证文献3

二级引证文献10

相关作者

相关机构

相关主题

浏览历史

文本分类中一种新的特征选择方法 被引量：3

参考文献11

二级参考文献8

共引文献228

同被引文献44

引证文献3

二级引证文献10

相关作者

相关机构

相关主题

浏览历史

文本分类中一种新的特征选择方法被引量：3