基于SVM与KNN的中文文本分类比较实证研究被引量：10

Empirical Study of the Comparison of SVM and KNN-based Categorization of Chinese Text

下载PDF

导出

摘要本文详细介绍了中文文本分类过程以及SVM和KNN两种方法在中文文本分类中的具体步骤,给出了中文文本分类的模型。通过实验对SVM算法和传统的KNN算法应用于文本分类效果进行了比较性实证研究。研究表明,SVM分类器较KNN在处理中文文本分类问题上有更良好的分类效果,有较高的查全率和查准率。 After describing the categorization process of the Chinese text and the concrete steps of using SVM and KNN to categorize the Chinese text,a model of Chinese text categorization is proposed.An empirical study of using the SVM algorithm and the traditional KNN algorithm to categorize the Chinese text is conducted.The experiment shows that,compared with KNN,SVM has better categorization effect of the Chinese text and higher recall ratio and pertinency ratio.

作者刘怀亮张治国马志辉孙蕾

机构地区西安电子科技大学经济管理学院

出处《情报理论与实践》 CSSCI 北大核心 2008年第6期941-944,共4页 Information Studies:Theory & Application

基金国家自然科学基金资助项目"基于语义网的多媒体检索与数据挖掘"(项目编号:70503022) 中国博士后基金项目"基于支持向量机的视频语义检索研究"(项目编号:20060400996)的研究成果之一

关键词支持向量机文本分类实证研究 support vector machine text categorization empirical study

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献9

1姚天顺,张桂平,吴映明.基于规则的汉语自动分词系统[J].中文信息学报,1990,4(1):37-43. 被引量：43
2郝春风,王忠民.一种用于大规模文本分类的特征表示方法[J].计算机工程与应用,2007,43(15):170-172. 被引量：12
3胡学钢,董学春,谢飞.基于词向量空间模型的中文文本分类方法[J].合肥工业大学学报（自然科学版）,2007,30(10):1261-1264. 被引量：14
4孙国菊,张杰.中文文本分类的特征选取评价[J].哈尔滨理工大学学报,2005,10(1):76-78. 被引量：14
5刘丽珍,宋瀚涛.文本分类中的特征选取[J].计算机工程,2004,30(4):14-15. 被引量：40
6张宁,贾自艳,史忠植.使用KNN算法的文本分类[J].计算机工程,2005,31(8):171-172. 被引量：98
7[8]Vapnik V.The nature of statistical learning theory[M].New York:Springer-Verlag,1995
8刘秀松.基于改进的SVM文本分类建模[J].情报理论与实践,2007,30(6):841-843. 被引量：7
9孙建涛,郭崇慧,陆玉昌,石纯一.多项式核支持向量机文本分类器泛化性能分析[J].计算机研究与发展,2004,41(8):1321-1326. 被引量：16

二级参考文献43

1张云涛,龚玲,王永成.An improved TF-IDF approach for text classification[J].Journal of Zhejiang University-Science A(Applied Physics & Engineering),2005,6(1):49-55. 被引量：4
2翟林,刘亚军.支持向量机的中文文本分类研究[J].计算机与数字工程,2005,33(3):21-23. 被引量：14
3王海涌,郑丽英,刘丽艳.基于文本表示的特征项权值确定方法研究[J].甘肃科学学报,2005,17(3):86-89. 被引量：8
4C Cortes, V N Vapnik. Support vector networks. Machine Learning, 1995, 20(3): 273-297
5C Burges. A tutorial on support vector machines for pattern recongnition. Data Mining and Knowledge Discovery, 1998, 2(2): 1～43
6T Joachims. Text categorization with support vector machines:Learning with many relevant features. In: C Nedellec ed. Proc of ECML-98. Heidelberg: Springer-Verlag, 1998. 137～142
7E Leopold, J Kindermann. Text categorization with support vector machines, How to represent texts in input space? Machine Learning, 2002,46(1-3): 423～444
8N Cristianini, J S Taylor. An Introduction to Support Vector Machines and Other Kernel-based Learning Methods. New York:Cambridge University Press, 2000
9Y Yang, S Slattery, R Ghani. A study of approaches to hypertext categorization. Journal of Intelligent Information Systems, 2002,18(2/3): 219～241
10V N Vapnik. Statistical Learning Theory. New York:John Wiley & Sons, 1998

共引文献230

1周永健,郑玉明,廖湖声.基于模糊聚类的文本分类器[J].微电子学与计算机,2006,23(z1):137-140. 被引量：1
2苏芳仲,林世平.Web文本挖掘中的一种中文分词算法研究及其实现[J].福州大学学报（自然科学版）,2004,32(z1):67-71. 被引量：5
3付艳梅.智能答疑系统的中文分词[J].湖北工业大学学报,2009,24(1):65-67. 被引量：4
4常娟.针对短文本数据的自动分类方法比较研究[J].消费导刊,2008,0(4):177-178.
5孙茂松,邹嘉彦.汉语自动分词研究评述[J].当代语言学,2001,3(1):22-32. 被引量：101
6李淑文.试论文本自动分类[J].现代计算机,2004,10(7):38-41. 被引量：2
7亢临生,张永奎.利用分词属性解决歧义切分[J].电脑开发与应用,1994,7(4):2-5. 被引量：4
8亢临生,张永奎.基于标记的分词算法[J].山西大学学报（自然科学版）,1994,17(3):283-286. 被引量：4
9张江.基于规则的分词方法[J].计算机与现代化,2005(4):18-20. 被引量：15
10任国锋,李德华,潘莹.一种改进的基尼指数特征权重算法[J].计算机与数字工程,2010,38(12):8-13. 被引量：1

同被引文献117

1刘逸竹,李晴,吴文斌.遥感提取灌溉耕地的特征优选——以中国北方为例[J].中国农业资源与区划,2021,42(9):27-35. 被引量：2
2习妍,孔丽华,姜璐璐.科技期刊融合出版中网络平台效能的发挥——以《中国科学数据(中英文网络版)》为例[J].编辑学报,2019,31(S02):169-173. 被引量：4
3徐朝军.基础教育资源目录系统的设计与实现[J].电化教育研究,2009,30(3):71-75. 被引量：3
4李渝勤,孙丽华.基于规则的自动分类在文本分类中的应用[J].中文信息学报,2004,18(4):9-14. 被引量：20
5刘群,张华平,俞鸿魁,程学旗.基于层叠隐马模型的汉语词法分析[J].计算机研究与发展,2004,41(8):1421-1429. 被引量：198
6张爱丽,刘广利,刘长宇.基于SVM的多类文本分类研究[J].情报杂志,2004,23(9):6-7. 被引量：7
7王秀娟,郭军,郑康锋.文本分类中一种新的特征选择方法[J].计算机应用,2005,25(3):661-663. 被引量：15
8张宁,贾自艳,史忠植.使用KNN算法的文本分类[J].计算机工程,2005,31(8):171-172. 被引量：98
9朱远平,戴汝为.基于SVM决策树的文本分类器[J].模式识别与人工智能,2005,18(4):412-416. 被引量：24
10陈涛,谢阳群.文本分类中的特征降维方法综述[J].情报学报,2005,24(6):690-695. 被引量：79

引证文献10

1任国锋,李德华,潘莹.一种改进的基尼指数特征权重算法[J].计算机与数字工程,2010,38(12):8-13. 被引量：1
2施聪莺,徐朝军,杨晓江.基于规则和Rocchio分类器的学前综合教育资源分类[J].现代图书情报技术,2009(7):75-79. 被引量：1
3胡改蝶,马建芬.文本分类中一种特征选择方法的改进[J].计算机与现代化,2011(5):20-21. 被引量：1
4魏紫京,孟繁疆,郭俊军.基于农业信息搜索引擎分类器的设计与实现[J].农机化研究,2014,36(3):186-189. 被引量：2
5罗新.基于随机森林的文本分类模型研究[J].农业图书情报学刊,2016,28(11):50-54. 被引量：3
6赵彤,刘斌,李涛.基于非均衡局部敏感哈希的并行文本分类研究[J].微电子学与计算机,2017,34(12):67-73.
7吴艾薇,雷景生.面向电力客户投诉信息的短文本分类算法的改进技术[J].上海电力学院学报,2017,33(6):597-600. 被引量：3
8尹乐民,张宁.基于网络评论的旅游景点感知形象研究——以崂山风景区为例[J].中共青岛市委党校青岛行政学院学报,2018(2):47-50. 被引量：2
9隗中杰.文本分类中TF-IDF权重计算方法改进[J].软件导刊,2018,17(12):39-42. 被引量：12
10谢林蕾,向熠,章成志.面向融合出版前沿主题发现的学术论文未来工作句挖掘研究[J].情报工程,2023,9(5):123-138.

二级引证文献25

1龚丽娟,王昊,张紫玄,朱立平.Word2Vec对海关报关商品文本特征降维效果分析[J].数据分析与知识发现,2020,4(2):89-100. 被引量：7
2石梦琪,姜楠.我国国企改革政策体系的议题分布结构研究[J].企业改革与管理,2020,0(5):6-8.
3赵永鑫,张友华,辜丽川,胡嘉伟,陈莹.基于Nutch的农村信息服务移动垂直搜索引擎研究[J].洛阳理工学院学报（自然科学版）,2015,25(3):53-56. 被引量：1
4胡改蝶,樊孝仁,崔艺馨.文本分类中基于改进特征选择方法的研究[J].计算机与数字工程,2016,45(7):1290-1292. 被引量：1
5李道亮,杨昊.农业物联网技术研究进展与发展趋势分析[J].农业机械学报,2018,49(1):1-20. 被引量：210
6董微,赵捷.基于密度分布单类支持向量机的科技文献分类研究[J].情报工程,2018,4(3):67-72. 被引量：2
7唐建伟,苏红,严家明,张建文,王金川,王恩俊.矿用干式变压器局部放电模式识别方法[J].工矿自动化,2019,45(1):76-80. 被引量：9
8胡同,朱国华,黄力乾.智能规范执法系统的设计实现[J].电脑编程技巧与维护,2019(6):131-132.
9杜若鹏,鲜国建,寇远涛.基于改进TF-IDF-CHI算法的农业科技文献文本特征抽取[J].数字图书馆论坛,2019(8):18-24. 被引量：9
10许甜华,吴明礼.一种基于TF-IDF的朴素贝叶斯算法改进[J].计算机技术与发展,2020,30(2):75-79. 被引量：17

1吴春琼.决策树与神经网络的分类比较[J].福建电脑,2010,26(7):53-54. 被引量：3
2张文静,王备战,张志宏.基于图的特征选择算法综述[J].安徽大学学报（自然科学版）,2017,41(1):10-20. 被引量：5
3陈婕.防火墙在网络安全中的应用[J].电脑知识与技术（技术论坛）,2005(12):54-55.
4张枝令.结构化数据及非结构化数据的分类方法[J].宁德师专学报（自然科学版）,2007,19(4):417-420. 被引量：14
5王斌,赵智超,邵华清.文本分类算法研究[J].计算机光盘软件与应用,2011(12):117-117.
6冀胜利,李波.基于SVM的中文文本分类算法[J].重庆工学院学报（自然科学版）,2008,22(7):84-87. 被引量：5
7王海林,张雅君.基于LDA的长短文本分类比较[J].数字技术与应用,2016,34(10):230-230. 被引量：4
8蔡芬.基于企业门户的单点登录研究[J].福建电脑,2006,22(9):50-51.
9袁辉华.数据挖掘的分类及在交通系统中的应用[J].硅谷,2010,3(23):2-2.
10杨阳.“面向对象思想”在文本分类中的体现[J].软件导刊,2009,8(1):40-41.

情报理论与实践

2008年第6期

浏览历史

内容加载中请稍等...

基于SVM与KNN的中文文本分类比较实证研究被引量：10

参考文献9

二级参考文献43

共引文献230

同被引文献117

引证文献10

二级引证文献25

相关作者

相关机构

相关主题

浏览历史

基于SVM与KNN的中文文本分类比较实证研究 被引量：10

参考文献9

二级参考文献43

共引文献230

同被引文献117

引证文献10

二级引证文献25

相关作者

相关机构

相关主题

浏览历史

基于SVM与KNN的中文文本分类比较实证研究被引量：10