一种文本分类的在线SVM学习算法被引量：13

An On-line Learning Algorithm for Text Categorization with Support Vector Machines

下载PDF

导出

摘要本文提出了一种用于文本分类的RBF支持向量机在线学习算法。利用RBF核函数的局部性,该算法仅对新训练样本的某一大小邻域内且位于“可能带”中的训练样本集进行重新训练,以实现对现有SVM的更新。为高效的实现该邻域大小的自适应确定,使用ξa泛化错误估计在所有现有训练样本集上对当前SVM的泛化错误进行定性估计。同时引入泛化能力进化因子,使得结果SVM在分类效果上具有自动调整能力,并防止分类能力的退化。在TREC-5真实语料上的对比测试结果表明,该算法显著地加速了增量学习的过程而同时保证结果SVM的分类效果。 This paper suggests an on-line incremental learning algorithm based on RBF SVMs for text categorization problem. By exploiting the locality of RBF kennels, our algorithm updates current SVM using a subset of possible support candidates both in certain neighborhood of the new coming document and in a possible band. The size of subset is decided adaptively and efficiently by using of ζα generation error estimator on all the available training samples to qualitatively estimate the generation error rate. We also use an evolutionary factor of generation ability to make resulting SVMs adaptive on classifying precision and guarantee the generation ability of them. Comparative experiments on real-life TREC - 5 corpus show thai our algorithm can remarkably accelerate the process of incremental learning while retains the classifying precision.

作者代六玲黄河燕陈肇雄

机构地区北京理工大学软件学院中国科学院计算机语言信息工程研究中心

出处《中文信息学报》 CSCD 北大核心 2005年第5期11-15,23,共6页 Journal of Chinese Information Processing

基金国家自然科学基金支持项目(60272088)

关键词计算机应用中文信息处理文本分类在线学习增量学习支持向量机 SMO computer application Chinese information processing text categorization on-line learning incremental learning SVM SMO

分类号 TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献13

1T Joachims. Text Categorization with Support Vector Machines: Iearning with Many Relevant Features [A]. Proceedings of ECML-98, 10th European Conference on Machine Learning[C]. 1997.
2Ji He, Ah-Hwee Tan and Chew-Lira Tan. A Comparative Study on Chinese Text Categorization Methods [A]. In: the PRICAI'2000 International Workshop on Text and Web Mining[C]. August 2000. Melbourne, Australia. 24- 35.
3代六玲,黄河燕,陈肇雄.中文文本分类中特征抽取方法的比较研究[J].中文信息学报,2004,18(1):26-32. 被引量：228
4V N VapniK. The Nature of Statistical Learning Theory [M]. Springer, New York, 1998.
5J Kivinen, A.J. SmolaandR. C. Williamson. Online learningwith kernels [A]. In: Proc. Advances in Neural Information Processing Systems[C], Cambridge, MA, 2002.
6L Ralaivola, F. d'Alche-Buc. Incremental Support Vector Machine Learning: a Local Approach [A]. In: Proceedings of ICANN'01[C], Vienna, Austria, 2001.
7N Syed, H Liu, and K Sung. Incremental learning with support vector machines [A]. In: Proc. of the Int. Joint Conf. on Artificial Intelligence (IJCAI)[C], 1999.
8T. Joachims. Estimating the generalization performance ofasvm efficiently [A]. In: Proc. ofthe17th Int. Conf. on Machine Learning[C].Morgan Kaufmann, 2000.
9S S Keerthi. Improvements to Platt's SMO algorithm for SVM classifier design [J]. Neural Computation, Vol. 13,March 2001, 637 - 649.
10L Bottou, V Vapnik, Local learning algorithms [J]. Neural computation, 4(6), 888- 900, 1992.

二级参考文献4

1黄昌宁等.对自动分词的反思[A]..语言计算与基于内容的文本处理[C].北京:清华大学出版社,2003,7.26-38.
2何新贵,彭甫阳.中文文本的关键词自动抽取和模糊分类[J].中文信息学报,1999,13(1):9-15. 被引量：54
3孙丽华,张积东,李静梅.一种改进的kNN方法及其在文本分类中的应用[J].应用科技,2002,29(2):25-27. 被引量：36
4朱寰,阮彤,于庆喜.文本分割算法对中文信息过滤影响研究[J].计算机工程与应用,2002,38(13):62-65. 被引量：11

共引文献227

1龚丽娟,王昊,张紫玄,朱立平.Word2Vec对海关报关商品文本特征降维效果分析[J].数据分析与知识发现,2020,4(2):89-100. 被引量：6
2骆魁永.一种面向不均衡数据集的CHI特征选择改进算法[J].商丘师范学院学报,2021,37(6):9-13.
3张莉.网页自动分类技术概念分析[J].娄底职业技术学院学报（职教与经济研究）,2007(2):58-62.
4张培颖.基于Web内容和日志挖掘的个性化网页推荐系统[J].计算机系统应用,2008,17(9):9-11. 被引量：6
5贾志洋,高炜,王勇刚.结合信息检索技术的半监督文本分类方法[J].苏州大学学报（自然科学版）,2012,28(1):34-39. 被引量：1
6尤晶晶.基于贝叶斯的垃圾邮件过滤优化算法[J].烟台职业学院学报,2008(2):80-83.
7陈涛,宋妍,谢阳群.改进的信息增益特征选择方法在文本聚类中的应用[J].现代图书情报技术,2004(12):7-9. 被引量：2
8王秀娟,郭军,郑康锋.文本分类中一种新的特征选择方法[J].计算机应用,2005,25(3):661-663. 被引量：15
9张玉叶,李连,刘海见,王春歆.文本过滤中的特征抽取应用研究[J].海军航空工程学院学报,2005,20(1):139-141. 被引量：4
10杨应全,文汝.网络环境下文本自动分类分析[J].科技文献信息管理,2005,19(1):31-34.

同被引文献187

1罗远胜,王明文,曾雪强.基于核方法的潜在语义文本分类模型[J].清华大学学报（自然科学版）,2005,45(S1):1853-1856. 被引量：4
2李红莲,王春花,袁保宗,朱占辉.针对大规模训练集的支持向量机的学习策略[J].计算机学报,2004,27(5):715-719. 被引量：53
3祁亨年.支持向量机及其应用研究综述[J].计算机工程,2004,30(10):6-9. 被引量：183
4钱铁云,王元珍,冯小年.结合类频率的关联中文文本分类[J].中文信息学报,2004,18(6):30-36. 被引量：12
5周新栋,王挺.基于N元语言模型的文本分类方法[J].计算机应用,2005,25(1):11-13. 被引量：11
6陈治纲,何丕廉,孙越恒,郑小慎.基于向量空间模型的文本分类系统的研究与实现[J].中文信息学报,2005,19(1):36-41. 被引量：43
7王映,常毅,谭建龙,白硕.基于N元汉字串模型的文本表示和实时分类的研究与实现[J].计算机工程与应用,2005,41(5):88-91. 被引量：5
8廉洁.词汇短语对第二语言习得的作用[J].外语界,2001(4):29-34. 被引量：127
9卢娇丽,郑家恒.基于粗糙集的文本分类方法研究[J].中文信息学报,2005,19(2):66-70. 被引量：16
10陈文亮,朱慕华,朱靖波,姚天顺.基于Bootstrapping的文本分类模型[J].中文信息学报,2005,19(2):86-92. 被引量：6

引证文献13

1陈志雄,陈健,闵华清.基于信息增益的中文文本关联分类[J].中文信息学报,2007,21(3):61-68. 被引量：1
2刘华.基于关键短语的文本分类研究[J].中文信息学报,2007,21(4):34-41. 被引量：14
3谢飞.支持向量机及其应用研究[J].安徽教育学院学报,2007,25(3):56-59. 被引量：1
4刘华.汉语信息处理中短语优势的理据及实验证明[J].语言文字应用,2007(4):129-135. 被引量：3
5许璐蕾.面向搜索引擎的文本自动分类系统实现[J].苏州市职业大学学报,2007,18(4):79-81. 被引量：1
6王秉卿,张奇,吴立德,黄萱菁.机器学习的查询扩展在博客检索中的应用[J].中文信息学报,2008,22(6):98-102. 被引量：1
7匡琳.支持向量机在文本分类中的应用的概述[J].科技资讯,2008,6(36):218-219. 被引量：2
8田宝明,戴新宇,陈家骏.一种基于随机森林的多视角文本分类方法[J].中文信息学报,2009,23(4):48-54. 被引量：8
9王彦明,奉永桃,奉国和.1999-2008年我国SVM文本分类文献计量分析[J].图书情报工作,2009,53(20):106-109. 被引量：2
10曹均阔,黄萱菁.基于依赖关系的定义类问题回答系统[J].自动化学报,2009,35(11):1429-1435.

二级引证文献37

1孙源,胡志军.基于高频词和AUC优化的随机森林文本分类模型[J].数学的实践与认识,2020,0(1):10-15. 被引量：2
2常娟.针对短文本数据的自动分类方法比较研究[J].消费导刊,2008,0(4):177-178.
3刘华.面向对外汉语教学的话题聚类研究[J].外语研究,2008,25(5):55-60. 被引量：5
4盛宇,刘俊熙,郭金兰,龙怡.自然语言理解心理学在短文本分类中的实证研究[J].现代情报,2009,29(8):4-7. 被引量：2
5潘丽芳,杨炳儒.基于簇的K最近邻(KNN)分类算法研究[J].计算机工程与设计,2009,30(18):4260-4262. 被引量：27
6刘玲玲,梁颖红,张永刚,韩艳,姚建民.基于决策树的关键短语抽取[J].江南大学学报（自然科学版）,2010,9(1):71-74. 被引量：3
7赵敏涯.结合语言模型的自动文本分类的应用研究[J].计算机与现代化,2010(3):141-143.
8张志平.基于“中文新闻信息分类与代码”文本分类[J].太原理工大学学报,2010,41(4):402-405. 被引量：5
9胡凌云,胡桂兰,徐勇,李龙澍.基于Web的新闻文本分类技术的研究[J].安徽大学学报（自然科学版）,2010,34(6):66-70. 被引量：7
10周丽红,刘勘.基于关联规则的科技文献分类研究[J].图书情报工作,2012,56(4):12-16. 被引量：7

1杨静宇,魏兴国,孙怀江.一种快速SVM学习算法[J].南京理工大学学报,2003,27(5):530-535. 被引量：6
2吕宏伟.一种改进的半监督增量SVM学习算法[J].科学技术与工程,2010,10(1):238-240.
3耿德根,施方.用高级语言开发MCS—51单片机的工具DVCC—52单片机开发系统[J].单片微机及应用,1991(3):33-35.
4李文兵.C—5FOXBASE接口程序设计实践[J].软件,1993,14(11):16-22.
5刘珍,孙京诰.一种改进的细菌觅食优化算法[J].华东理工大学学报（自然科学版）,2016,42(2):225-232. 被引量：7
6叶菲,罗景青,俞志富.一种改进的并行处理SVM学习算法[J].微电子学与计算机,2009,26(2):40-43. 被引量：6
7李睿,张九蕊,毛莉.基于EREF的PSO-AdaBoost训练算法[J].计算机应用研究,2012,29(1):127-129. 被引量：4
8张艳,兰光华,郁生阳,杨静宇.一种快速SVM学习算法[J].计算机工程与应用,2006,42(32):36-38. 被引量：2
9殷小舟.一种改进的结合K近邻法的SVM分类算法[J].中国图象图形学报,2009,14(11):2299-2303. 被引量：11
10吴华锋,陈信强,毛奇凰,张倩楠,张寿春.基于自然选择策略的蚁群算法求解TSP问题[J].通信学报,2013,34(4):165-170. 被引量：76

中文信息学报

2005年第5期

浏览历史

内容加载中请稍等...

一种文本分类的在线SVM学习算法被引量：13

参考文献13

二级参考文献4

共引文献227

同被引文献187

引证文献13

二级引证文献37

相关作者

相关机构

相关主题

浏览历史

一种文本分类的在线SVM学习算法 被引量：13

参考文献13

二级参考文献4

共引文献227

同被引文献187

引证文献13

二级引证文献37

相关作者

相关机构

相关主题

浏览历史

一种文本分类的在线SVM学习算法被引量：13