SVM文本分类中一种新的特征提取方法被引量：16

A New Feature Selection Method in SVM Text Categorization

下载PDF

导出

摘要随着互联网的迅速发展,面向重要网络媒体海量发布信息实现智能分类,对于网络信息监管、舆论引导工作有着深远的意义。文中针对在文本分类中的特征选取问题,描述了一种基于法矢量权重的特征评价和选取方法。将此方法与SVM学习算法进行结合,在路透社标准文本测试集上进行了对比评估。实验结果显示,此特征选取方法相对于传统的特征选取方法可以产生更优的分类性能。此特征提取方法提供一种有效的途径,在基本保持分类器性能的前提下显著地减少特征空间的维数,进而提升系统的资源利用效率。 With the rapid development of Intemet, it has momentous significance for the task of the surveillance and management of network and leading the public to carry out the intelligence classification of the massive amount of information that released by the important network medium. This paper describes a feature selection method based on the weight of normal from SVM model. Using this feature scoring method with SVM learning algorithm on standard Reuters test set to compare other traditional feature selection method： Odds Ra- tio, Information Gain. Experimental results show that the normal weight based method yield better classification performance. This feature selection method provides an effective way to maintain the classification performance while reducing the dimension of feature space and significantly enhances the efficiency of computing resources.

作者姜鹤陈丽亚

机构地区上海交通大学电子信息与电气工程学院

出处《计算机技术与发展》 2010年第3期17-19,23,共4页 Computer Technology and Development

基金上海科委项目(08511501902) 国家自然科学基金项目(60672068)

关键词文本分类特征提取支持向量机资源受限 text categorization feature selection support vector machine resource constraint

分类号 TP181 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献9

1孙晋文,肖建国.自动文本分类中的智能处理技术[J].计算机科学,2003,30(8):18-20. 被引量：6
2刘丽珍,宋瀚涛.文本分类中的特征选取[J].计算机工程,2004,30(4):14-15. 被引量：40
3Joachims T. Text Categorization with Support Vector Machines: Learning with Many Relevant Features[C]//In Europearl Conference on Machine Learning (ECML). Chemnitz, Germany: [ s. n. ], 1998:137 - 142.
4刁倩,王永成,张惠惠,何骥.文本自动分类中的词权重与分类算法[J].中文信息学报,2000,14(3):25-29. 被引量：27
5Gartner T, Flach P A. WBCsvm Weighted Bayesian Classification based on support vector machine[ C]//18th Int. Conf. on Machine Learning. WiUianstown, USA: [ s. n. ], 2001 : 154 - 161.
6Sindhawani V, Pushpak B, Subrata R. Information Theoretic Feature Crediting in Multiclass Support Vector Machine[C]// 1st SIAM Int. Conf. on Data Mining. Chicago, IL, USA: [ s. n. ] ,2001:1 - 18.
7Lewis D D, Yang Y, Rose T, et al. RCV1 : A New Benchmark Collection for Text Categorization Research[ J ]. Journal of Machine Learning Research,2004(5) :361 - 397.
8任纪生,王作英.基于特征有序对量化表示的文本分类方法[J].清华大学学报（自然科学版）,2006,46(4):527-529. 被引量：4
9庞剑锋,卜东波,白硕.基于向量空间模型的文本自动分类系统的研究与实现[J].计算机应用研究,2001,18(9):23-26. 被引量：293

二级参考文献29

1黄萱青吴立德.独立于语种的文本分类方法[M].,2000.37-43.
2鲁松白硕等.文本中词语权重计算方法的改进[M].,2000.31-36.
3卜东波.聚类/分类理论研究及其在大模型文本挖掘的应用：博士论文[M].,2000..
4[1]Warren R Greiff. A Theory of Term Weighting Based on Exploratory Data Analysis, www. cs. umass.edu/～ greiff/
5[2]Kaski S, Lagus K, Honkela T et al. Statistical Aspects of the WFEBSOM System in Organizing Document Collections. Computer Science and Statistics, 1998, (29) :281 - 290
6Maron M. Automatic indexing: an experimental inquiry. Journal of the Association for Computing Machinery,1961(3).
7Hayes P J,Weinstein S P. CONSTRUE/TIS: a system for content-based indexing of a database of news stories. In: Proc. of IAAI-90, 2nd Conf. on Innovative Application of Artifical Intelligence, 1990.
8Lewis D D, Ringuette M. A comparison of two learning algorithms for text categorization. In:Proc of SDAIR-94,3rd Annual Symposium on Document Analysis and Information Retrieval,Las Vegas, US, 1994.
9Cohen W W,Singer Y. Context-sensitive learning methods for text categorization ,SIGIR-96.
10Dumains S,Platt J,Heckerman D. Inductive Learning Algorithms and Representations for Text Categoriztion,in CIKM-98,1998.

共引文献359

1安艳辉,董五洲,游自英.基于改进的朴素贝叶斯文本分类研究[J].河北省科学院学报,2007,24(1):22-25. 被引量：7
2蒋英华.利用数据挖掘算法实现一个XML文档分类器[J].科技资讯,2005,3(25):66-70.
3周永健,郑玉明,廖湖声.基于模糊聚类的文本分类器[J].微电子学与计算机,2006,23(z1):137-140. 被引量：1
4李粤,安捷,李星.排序融合算法在校园网搜索引擎中的应用[J].大连理工大学学报,2005,45(z1):257-260. 被引量：2
5蒋宗礼,肖华,赵钦.WebSifter:个性化网络搜索辅助系统[J].清华大学学报（自然科学版）,2005,45(S1):1903-1907. 被引量：5
6贺国旗,张强.基于用户模型的文献检索研究[J].雁北师范学院学报,2002,18(5):29-32. 被引量：1
7王洪,贾惠波,徐端颐.基于中文学术期刊人工标引的自动分类新算法[J].现代图书情报技术,2002(S1):59-62. 被引量：1
8刘怀亮,张治国,马志辉,孙蕾.基于SVM与KNN的中文文本分类比较实证研究[J].情报理论与实践,2008,31(6):941-944. 被引量：10
9孔颖,裘彬强,徐从富.基于CART算法的垃圾邮件过滤模型设计与实现[J].计算机应用,2009,29(2):374-376. 被引量：4
10李渝勤,孙丽华.基于规则的自动分类在文本分类中的应用[J].中文信息学报,2004,18(4):9-14. 被引量：20

同被引文献146

1韦永壮,袁春风,黄宜华.CCDet:一种高效的大规模中文重复网页检测方法[J].计算机研究与发展,2013,50(S2):140-152. 被引量：4
2于津凯,王映雪,陈怀楚.一种基于N-Gram改进的文本特征提取算法[J].图书情报工作,2004,48(8):48-50. 被引量：17
3姚宏宇,李弼程.基于广义图像灰度共生矩阵的图像检索方法[J].计算机工程与应用,2004,40(34):98-100. 被引量：19
4于海征.基于奇异值分解的数字图像的特征提取[J].工程数学学报,2004,21(F12):131-134. 被引量：12
5唐发明,王仲东,陈绵云.一种新的二叉树多类支持向量机算法[J].计算机工程与应用,2005,41(7):24-26. 被引量：50
6张芬,陶亮,孙艳.基于混合核函数的SVM及其应用[J].计算机技术与发展,2006,16(2):176-178. 被引量：23
7汪志云,黄梦为,胡钋,饶强.基于直方图的图像增强及其MATLAB实现[J].计算机工程与科学,2006,28(2):54-56. 被引量：60
8陈思睿,张永,杨志勇.基于粗糙集的特征选择方法的研究[J].计算机工程与应用,2006,42(21):159-161. 被引量：7
9宋玲,马军,连莉,张志军.文档相似度综合计算研究[J].计算机工程与应用,2006,42(30):160-163. 被引量：41
10杨斌,路游.基于统计学习理论的支持向量机的分类方法[J].计算机技术与发展,2006,16(11):56-58. 被引量：15

引证文献16

1郭晓,蒋宗礼.基于网页结构与链接关系的中文文本分类方法[J].现代电子技术,2010,33(22):54-56. 被引量：3
2刘文,吴陈.一种新的中文文本分类算法——One Class SVM-KNN算法[J].计算机技术与发展,2012,22(5):83-86. 被引量：4
3兰远东,邓辉舫.基于Kullback-Leibler与PCA的概率密度比值估计[J].计算机技术与发展,2012,22(6):107-110.
4闫巧,冷成朝.基于信息增益的混合垃圾邮件特征选择方法[J].计算机工程与应用,2012,48(27):90-93. 被引量：1
5刘静.基于奇异值分解的车牌特征提取方法研究与实现[J].电子设计工程,2012,20(19):8-10. 被引量：2
6焦蓬蓬,郭依正,刘丽娟,卫星.灰度共生矩阵纹理特征提取的Matlab实现[J].计算机技术与发展,2012,22(11):169-171. 被引量：57
7张培颖,王雷全.基于语义距离的文本分类方法[J].计算机技术与发展,2013,23(1):128-130. 被引量：4
8刘盼盼,李雷.SVM图像分割中最优权值组合核函数的研究[J].计算机技术与发展,2013,23(3):96-100. 被引量：2
9刘静.基于最小二乘支持向量机车牌字符特征识别[J].计算机技术与发展,2013,23(5):195-198. 被引量：2
10赖娟,金澎,洪艳伟.文本分类中的主动多域学习[J].西南师范大学学报（自然科学版）,2014,39(7):108-114. 被引量：3

二级引证文献139

1杨仙保,张王菲,孙斌,高志海,李毅夫,王晗.基于GEE和Sentinel-2时序数据的呼伦贝尔沙地及其周边植被类型识别研究[J].遥感技术与应用,2022,37(4):982-992. 被引量：3
2骆鹏傲,朱红,刘奕君,姜新国.人工神经网络和图像纹理特征提取在肿瘤鉴别诊断中的应用[J].湖南工程学院学报（自然科学版）,2013,23(3):28-33. 被引量：1
3丁霄云,刘功申,孟魁.基于一类SVM的不良信息过滤算法改进[J].计算机科学,2013,40(11A):86-90. 被引量：3
4孙书省,王立伟,张文宇,王娟娟.基于数值分析碎纸片拼接复原的研究[J].安徽工程大学学报,2013,28(4):78-82.
5黄英来,田少卿,孙晓芳,张博文.基于灰度投影法的乐器板材纹理分析方法[J].计算机工程与应用,2014,50(6):161-164. 被引量：1
6周原,姚汝贤,姚巧鸽.一种基于图像增强的弱光背景下车辆牌照识别方法[J].微型电脑应用,2014,30(3):30-31.
7白宁.基于特征选择融合的垃圾邮件过滤方法[J].计算机应用与软件,2014,31(4):31-34. 被引量：2
8李雷,施冬艳.基于自动样本和PSO优化组合核的图像分割[J].计算机技术与发展,2014,24(6):79-82. 被引量：1
9陈成钢,艾涛.基于灰度共生矩阵的纹理分析的统计方法[J].天津农学院学报,2014,21(2):33-38. 被引量：3
10王萍,张媛,李聪,徐考基.基于灰度共生矩阵的特征构建及超折射滤除[J].计算机技术与发展,2014,24(8):1-5. 被引量：1

1靳文婷,刘鹏.舆情信息平台设计与实现[J].信息系统工程,2012,25(6):28-28.
2刘秀松.基于改进的SVM文本分类建模[J].情报理论与实践,2007,30(6):841-843. 被引量：7
3柴春梅,李翔,林祥.基于改进KNN算法实现网络媒体信息智能分类[J].计算机技术与发展,2009,19(1):1-4. 被引量：7
4卢香清,李洪安,康宝生,张振莲.图最短路径并行化及其应用研究[J].计算机工程与应用,2012,48(14):38-43. 被引量：3
5刘森,李英勃.汽车行业数据仓库应用敏捷型ETL过程的研究[J].现代计算机,2015,21(23):3-6.
6刘巧红,单贵.Python语言整数运算实现机制分析与性能评估[J].计算机系统应用,2011,20(2):169-172. 被引量：2
7陈海红.多核SVM文本分类研究[J].软件,2015,36(5):7-10. 被引量：27
8郭玮.中文分词在网络信息监管系统的应用[J].信息与电脑（理论版）,2015(2):15-16.
9拓守恒.基于改进PSO的SVM文本分类研究[J].电脑开发与应用,2010,23(10):3-5. 被引量：3
10国家互联网信息办公室：我国将推出网络安全审查制度[J].中国信息安全,2014(6):16-16.

计算机技术与发展

2010年第3期

浏览历史

内容加载中请稍等...

SVM文本分类中一种新的特征提取方法被引量：16

参考文献9

二级参考文献29

共引文献359

同被引文献146

引证文献16

二级引证文献139

相关作者

相关机构

相关主题

浏览历史

SVM文本分类中一种新的特征提取方法 被引量：16

参考文献9

二级参考文献29

共引文献359

同被引文献146

引证文献16

二级引证文献139

相关作者

相关机构

相关主题

浏览历史

SVM文本分类中一种新的特征提取方法被引量：16