文本表示方式对线性支持向量机分类性能的影响被引量：4

IMPACT OF TEXT REPRESENTATIONS ON PERFORMANCE OF LINEAR SUPPORT VECTOR MACHINES

导出

摘要二十世纪九十年代以来自动文本分类技术受到人们的广泛重视,取得了大量的研究成果,但这些研究大多集中在机器学习算法本身的创新或改进上面,涉及文本表示的理论或实验研究都相对较少,通过在语料库Reuters-21578上进行大量对比实验,本文着重考查了影响文本表示的五个主要因素:"功能词"、"词根"、"取值方式"、"权方式"和"规范化",对线性支持向量机分类性能的影响以及这些因素之间的交互作用,找到了能显著提高文本分类效果的最佳文本表示方式. Automatic text categorization techniques have attracted broad attentions in recent years. Research work has gained much progress in this field. But most previous studies focus on the innovation or improvement of various machine learning algorithms using in text categorization. Theoretic and experimental studies concerning text representations are relatively few. By extensive comparative experiments on the benchmark corpus Reuters-21578, the impact of five text representation factors: stopwords, word stemming, indexing, scaling, and normalization on the performance of linear support vector machines has been studied in detail and the best text representation approach which outperforms the prevailing ones is obtained in this paper.

作者宋枫溪陈才扣刘树海杨静宇

机构地区炮兵学院一系南京理工大学计算机系

出处《模式识别与人工智能》 EI CSCD 北大核心 2004年第2期161-166,共6页 Pattern Recognition and Artificial Intelligence

关键词文本分类文本表示支持向量机实验设计线性分类 Text Categorization Text Representation Support Vector Machines Design of Experiments Linear Oassification

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献9

1Sebastiani F. Machine Learning in Automated Text Categorization.ACM Computing Surveys, 2002, 34(1):1-47.
2Salton G, McGill M J. An Introduction to Modem Information Retrieval. New York: McGraw-Hill, 1983.
3Baker L D, McCallum A K. Distributional Clustering of Words for Text Categorisation. In: Proc of the 21st ACM International Conference on Research and Development in Infommtion Retrieval.Melbourne, Australia, 1998, 96- 103.
4Dumais S, Platt J, Heckemaan D, Sahanfi M. Inductive Learning Algorithrrks and Representations for Text Categorization. In: Proc of the 7th ACM International Conference on Information and Knowledge Management. Washington, USA, 1998, 148- 155.
5Yang Y, Liu X. An Re-Evaluation of Text Categorization Methods. In: Proc of the 22nd ACM International Conference on Research and Development in Information Retrieval. Berkeley, USA,1999, 42 - 49.
6Ma J, Zhao Y, Ahalt S. OSU SVM Classifier Matlab Toolbox(ver3.00). http://www, eleceng, ohio- state, edu/-maj/osu.
7Lewis D. Reuters-21578, Distribution 1. 0. http://www, research. art. corn/- lewis/reut ers21578, html.
8Porter M F. An Algorithm for Suffix Striping. Program, 1980, 14(3): 130- 137.
9Yang Y, Pedersen J O. A Comparative Study on Feature Selection in Text Categorization. In: Proc of the 14th International Conference on Machine Learning. Nashville, USA, 1997, 412 - 420.

同被引文献28

1王红军,徐林,张继宏.一种模糊综合决策汉语谓词识别算法[J].四川大学学报（自然科学版）,2004,41(z1):630-634. 被引量：1
2宋枫溪,高林.文本分类器性能评估指标[J].计算机工程,2004,30(13):107-109. 被引量：33
3罗振声,郑碧霞.汉语句型自动分析和分布统计算法与策略的研究[J].中文信息学报,1994,8(2):1-19. 被引量：21
4陈文亮,朱靖波,朱慕华,姚天顺.基于领域词典的文本特征表示[J].计算机研究与发展,2005,42(12):2155-2160. 被引量：22
5SEBASTIANI F. Machine learning in automated text categorization [J]. ACM Computing Surveys, 2002, 34(1): 1-47.
6SALTON G, MCGILL M J. An introduction to modem information retrieval[ M]. [ S. l. ] : McGraw-Hill, 1983.
7SHANKAR S, KARYPIS G. A feature weight adjustment algorithm for document categorization [ C]//6th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York: ACM, 2000.
8DEBOLE F, SEBASTIANI F. Supervised term weighting for automated text categorization [ C]// SAC 03: 18th ACM Symposium on Applied Computing. New York: ACM, 2003:784-788.
9YANG YI-MING. An evaluation of statistical approaches to text categorization[ J]. Information Retrieval, 1999, 1 (1) : 69 - 90.
10Sebastiani F. Machine Learning in Automated Text Categorization.ACM Computing Surveys, 2002,34(1):1-47.

引证文献4

1宋枫溪,刘树海,杨静宇,夏赛飞.最大散度差分类器及其在文本分类中的应用[J].计算机工程,2005,31(5):8-10. 被引量：8
2饶文碧,柯慧燕,张丽.一种扩展的基于VSM的Web文本分类算法[J].计算机应用与软件,2006,23(10):113-115. 被引量：2
3高秀梅,陈芳,宋枫溪,金忠.特征权对贝叶斯分类器文本分类性能的影响[J].计算机应用,2008,28(12):3080-3083. 被引量：3
4张宜浩,金澎.谓词自动识别中的特征选择度量研究[J].计算机工程与科学,2012,34(9):188-192. 被引量：2

二级引证文献15

1刘海峰,王元元,张学仁,刘守生.基于散度差准则的文本特征降维研究[J].计算机应用研究,2008,25(7):1971-1973. 被引量：5
2刘海峰,姚泽清,刘守生,王倩.文本分类中基于核的非线性判别[J].应用科学学报,2008,26(6):627-631. 被引量：4
3刘海峰,姚泽清,张述祖,王元元.文本分类中一种基于核的最大散度差特征抽取方法[J].计算机应用研究,2009,26(1):102-104.
4刘海峰,王元元,姚泽清,张述祖.文本分类中一种混合型特征降维方法[J].计算机工程,2009,35(2):194-196. 被引量：11
5刘海峰,王元元,姚泽清,张述祖.文本分类中基于散度差的线性特征抽取方法[J].计算机工程与设计,2009,30(7):1749-1752.
6石芙芙,董祥军,陈修宽.负关联规则在Web文档分类中的研究[J].信息化纵横,2009(13):1-3.
7李会,王立峰.Web网页文本特征选择方法研究[J].计算机工程与设计,2010,31(16):3724-3727. 被引量：4
8刘海峰,姚泽清,刘守生.一种基于核的正交化最大散度差文本特征抽取[J].情报学报,2010,29(5):847-852.
9王珉,胡茑庆,秦国军.LRE试车数据挖掘中基于最大散度差的模糊聚类分析方法[J].国防科技大学学报,2011,33(3):164-168. 被引量：3
10郭志伟,李玮,张涛,王攀峰.基于兴趣域的P2P气象资料搜索机制研究[J].计算机技术与发展,2012,22(8):192-195.

132位技术引领信息安全新时代[J].信息安全与通信保密,2005(9):56-57.
2朱雪松.试析未来计算机与计算机技术的发展[J].新农村（黑龙江）,2013(14):255-255. 被引量：1
3赵伟燕,王静宇.基于MapReduce编程模型的TFIDF算法研究[J].微型机与应用,2013,32(4):71-73.
4尚文倩,黄厚宽,刘玉玲,林永民,瞿有利,董红斌.文本分类中基于基尼指数的特征选择算法研究[J].计算机研究与发展,2006,43(10):1688-1694. 被引量：38
5蒲筱哥.Web自动文本分类技术研究综述[J].情报学报,2009,28(2):233-241. 被引量：9
6老买.应用创生机选购看性能[J].中国计算机用户,2003(39):30-30.
7祁瑞华.基于依存关系的中文微博作者性别识别[J].数据分析与知识发现,2017,1(2):58-63. 被引量：1
8丁磊,钱云涛.不同程度的监督机制在自动文本分类中的应用[J].计算机应用与软件,2004,21(6):65-68. 被引量：1
9陈洪文.智能建筑控制系统的发展与应用[J].建筑与设备,2010(4):31-34.
10潘云鹤,孙守迁,包恩伟.CAID改变工业设计[J].中国计算机用户,2002(45):43-43.

模式识别与人工智能

2004年第2期

浏览历史

内容加载中请稍等...

文本表示方式对线性支持向量机分类性能的影响被引量：4

参考文献9

同被引文献28

引证文献4

二级引证文献15

相关作者

相关机构

相关主题

浏览历史

文本表示方式对线性支持向量机分类性能的影响 被引量：4

参考文献9

同被引文献28

引证文献4

二级引证文献15

相关作者

相关机构

相关主题

浏览历史

文本表示方式对线性支持向量机分类性能的影响被引量：4