基于SVM的Web文本快速增量分类算法被引量：6

Fast incremental learning SVM for Web text classification

下载PDF

导出

摘要针对基于支持向量机的Web文本分类效率低的问题,提出了一种基于支持向量机Web文本的快速增量分类FVI-SVM算法。算法保留增量训练集中违反KKT条件的Web文本特征向量,克服了Web文本训练集规模巨大,造成支持向量机训练效率低的缺点。算法通过计算支持向量的共享最近邻相似度,去除冗余支持向量,克服了在增量学习过程中不断加入相似文本特征向量而导致增量学习的训练时间消耗加大、分类效率下降的问题。实验结果表明,该方法在保证分类精度的前提下,有效提高了支持向量机的训练效率和分类效率。 In Web text classification,with extremely large scale of the training set and the characteristic of changing rapidly,this paper proposed an algorithm named FVI-SVM based on incremental SVM for fast Web text classification.In order to conquer the problem of low efficiency of SVM which was aroused by a large scale of training set,datas in incremental training set which violate conditions of KKT would be exterminated.In order to conquer the problem of redundant support vectors which lead to the increasing of taining time consumption and decreasing of classification efficiency in incremental learning,exterminated the redundant support vectors by calculating shared nearest neighbors similarity.Experimental results show that the proposed method enhances the training and classification efficiency on a premise ensure the accuracy of classification.

作者丁文军薛安荣

机构地区江苏大学计算机科学与通信工程学院

出处《计算机应用研究》 CSCD 北大核心 2012年第4期1275-1278,共4页 Application Research of Computers

基金高校博士点基金资助项目(20093227110005) 校高级人才启动基金资助项目(09JDG041) 省科技型企业创新资金资助项目(BC2010172)

关键词支持向量机支持向量最优分类超平面 KKT条件文本特征向量 support vector machine（SVM） support vector optimal separating hyper-plane Karush-Kuhn-Tucher（KKT） text feature vector

分类号 TP393.09 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献6

1PRONOBIS A,LUO Jie,CAPUTO B.The more you learn,the less youstore:memory-controlled incremental SVM for visual place recognition[J].Image and Vision Computing,2010,28(7):1080-1097.
2DUAN Hua,SHAO Xiao-jian,HOU Wei-zhen,et al.An incrementallearning algorithm for Lagrangian support vector machines[J].Pat-tern Recognition Letters,2009,30(15):1384-1391.
3吴崇明,王晓丹,白冬婴,张宏达.基于类边界壳向量的快速SVM增量学习算法[J].计算机工程与应用,2010,46(23):185-187. 被引量：8
4YI Yang,WU Jian-sheng,XU Wei.Incremental SVM based on re-served set for network intrusion detection[J].Experts Systems withApplications,2011,38(6):7698-7707.
5SALTON G,WONG A,YANG C S.A vector space model for automa-tic indexing[J].Communication of the ACM,1975,18(11):613-620.
6NGUYEN D,HO T B.A bottom-up method for simplifying supportvector solutions[J].IEEE Trans on Neural Networks,2006,17(3):792-796.

二级参考文献10

1李东晖,杜树新,吴铁军.基于壳向量的线性支持向量机快速增量学习算法[J].浙江大学学报（工学版）,2006,40(2):202-206. 被引量：16
2Vapnik V N.The nature of statistical learning theory[M].2nd ed. New York: Springer-Verlag, 2000.
3Zhang Yizhuo.Constructing multiple support vector machines ensemble based on fuzzy integral and rough reducts[C]//Proceedings of 2nd IEEE Conference on Industrial Electronics and Applications, 2007:1256-1259.
4Kivinen J, Smola A J,Williamson R C.Online learning with kernels[C]//Proc of Advances in Neural Information Processing Systems, Cambridge, MA, 2002.
5Cauwenberghs G, Poggio T.Incremental and decrementa! support vector machine leaming[J].Machine Learning ,2001,44( 13 ) :4098-4151.
6Syed N, Liu H, Sung K K.Incremental learning with support vector machines[C]//Proc of Workshop on Support Vector Machines at the International Joint Conference on Artificial Intellgence(IJCAI-99), Stockholm, Sweden, 1999.
7Barber C B, Dobkin D P, Huhdanpaa H T.The quickhull algorithm for convex hulls[EB/OL].http ://www.qhull.org.
8Bennett K P,Bredensteiner E J.Duality and geometry in SVM classifiers[M].San Francisco,CA:Morgan Kaufmann,2000.
9Keerthi S S, Shevade S K, Bhattacharyya C, et al.A fast iterative nearest point algorithm for support vector machine classifier design[J].IEEE Transaction on Neural Network, 2000, 11 (1): 124-136.
10萧嵘,王继成,孙正兴,张福炎.一种SVM增量学习算法[J].南京大学学报（自然科学版）,2002,38(2):152-157. 被引量：24

共引文献7

1文波,单甘霖,段修生.基于KKT条件与壳向量的增量学习算法研究[J].计算机科学,2013,40(3):255-258. 被引量：10
2卞桂龙,丁毅,沈海斌.适用于智能传感器系统的SVM集成研究[J].传感器与微系统,2014,33(8):44-47. 被引量：2
3曹健,孙世宇,段修生,张泽建.基于KKT条件的SVM增量学习算法[J].火力与指挥控制,2014,39(7):139-143. 被引量：12
4段修生,曹健,孙世宇,张泽建.一种新的超球SVDD增量学习方法[J].计算机应用与软件,2015,32(2):163-166. 被引量：2
5白东颖,王刚,张泚.基于中心凸包算法与增量学习的SVM算法研究[J].火力与指挥控制,2015,40(3):20-23. 被引量：1
6黄建校,邵曦.一种改进的SVM增量学习算法研究[J].无线互联科技,2017,14(3):46-49. 被引量：1
7张代俐,汪廷华,朱兴淋.SVM样本约简算法研究综述[J].计算机科学,2024,51(7):59-70. 被引量：1

同被引文献51

1彭昱忠,元昌安,王艳,覃晓.基于内容理解的不良信息过滤技术研究[J].计算机应用研究,2009,26(2):433-438. 被引量：19
2王学军,赵琳琳,王爽.基于主动学习的视频对象提取方法[J].吉林大学学报（工学版）,2013,43(S1):51-54. 被引量：3
3李明星,衡萍,董沛武,陈健.Web日志挖掘中的用户序列模式识别[J].哈尔滨工业大学学报,2005,37(11):1570-1572. 被引量：6
4陈晓红,秦杨.基于Web数据挖掘的高效关联规则研究[J].计算机工程与科学,2005,27(11):48-51. 被引量：9
5刘晔,王泽兵,冯雁,古红英.基于增量支持向量机的DoS入侵检测[J].计算机工程,2006,32(4):179-180. 被引量：7
6周宽久,王艳萍,李瑶.Web用户聚类算法[J].计算机工程与应用,2006,42(16):184-186. 被引量：5
7刘兵.Web数据挖掘[M].北京:清华大学出版社,2009.
8范明,孟小峰.数据挖掘概念与技术:第二版[M].北京:机械工业出版社,2007.
9Cortes C, Vapnik V. Support Vector Networks[ J]. Machine Learning, 1995,20(3) :273 -297.
10Syed N, Liu H, Sung K. Incremental Learning with Support Vector Ma- chines [ C ]//Proe. of International Joint Conference on Artificial Intel- ligence. Stockholm, Sweden : [ s. n. ] , 1999:272 - 276.

引证文献6

1贾长云,梁海军.基于B-ISVM算法的物联网云存储数据伪装不良信息检测[J].计算机科学,2013,40(2):95-97. 被引量：3
2程军锋.Web数据挖掘研究[J].重庆三峡学院学报,2013,29(3):43-45. 被引量：11
3姬五胜,张玉,李益敏,刘阁,郭宏.微波电路三维集成辅助设计软件[J].计算机应用与软件,2013,30(12):308-310.
4耿姣.基于邻界区的快速增量SVM入侵检测算法的研究[J].计算机应用与软件,2013,30(12):322-324.
5王友卫,刘元宁,凤丽洲,朱晓冬.基于用户兴趣集的在线垃圾邮件快速识别新方法[J].电子学报,2015,43(10):1963-1970. 被引量：2
6陈斌,东一舟,毛明荣.基于增量学习算法的校园网垃圾邮件检测模型[J].计算机应用,2017,37(1):206-211. 被引量：1

二级引证文献17

1周力.大数据时代的数据挖掘技术及应用研究[J].中国科技纵横,2018,0(7):7-8.
2李平荣.大数据时代的数据挖掘技术与应用[J].重庆三峡学院学报,2014,30(3):45-47. 被引量：54
3过正,侯振泉.数据挖掘技术与应用[J].中国新通信,2015,17(12):63-63.
4陈永峰.大数据背景下数据挖掘在高校固定资产统计中的应用研究[J].河北软件职业技术学院学报,2015,17(2):6-9. 被引量：8
5李文艳.大数据时代下数据挖掘技术的应用[J].数字技术与应用,2016,34(5):74-74. 被引量：6
6夏超,胡辰昱,谢峰,李萌.数据挖掘技术与应用[J].大东方,2016,0(7):275-275.
7张沛朋,魏楠.基于数据挖掘技术的个性化移动推荐系统设计研究[J].西安文理学院学报（自然科学版）,2017,20(2):41-45. 被引量：5
8高雷阜,赵世杰,于冬梅,徒君.耦合负类样本裁剪与非对称错分惩罚的非均衡SVM算法[J].电子学报,2017,45(12):2978-2986. 被引量：3
9胡小娟,刘磊,邱宁佳.基于主动学习和否定选择的垃圾邮件分类算法[J].电子学报,2018,46(1):203-209. 被引量：16
10刘子欢.大数据下数据挖掘技术的应用研究[J].数字技术与应用,2020,38(1):34-34. 被引量：2

1蒋望东,陆小艺,林士敏.处理缺失数据的朴素贝叶斯分类增量算法[J].科学技术与工程,2008,8(14):3812-3815. 被引量：2
2苏晓珂,郑远攀,万仁霞.基于共享最近邻的离群检测算法[J].计算机应用研究,2012,29(7):2426-2428. 被引量：2
3卢苇,彭雅.几种常用文本分类算法性能比较与分析[J].湖南大学学报（自然科学版）,2007,34(6):67-69. 被引量：31
4王秀华,秦振吉.基于层次K-均值聚类的支持向量机模型[J].计算机应用与软件,2014,31(5):172-176. 被引量：1
5耿姣.基于邻界区的快速增量SVM入侵检测算法的研究[J].计算机应用与软件,2013,30(12):322-324.
6仝奇,胡双演,叶霞,张仲敏,李俊山.定向蚕食快速增量SVDD算法及其应用[J].电光与控制,2016,23(10):49-53. 被引量：3
7李霞,蒋盛益.一种垃圾邮件快速识别方法[J].小型微型计算机系统,2013,34(3):498-502. 被引量：2
8曹海,孙婧,史喜斌.基于特征迭代的短文本去重算法[J].计算机工程,2015,41(12):54-57. 被引量：4
9李东晖,杜树新,吴铁军.基于壳向量的线性支持向量机快速增量学习算法[J].浙江大学学报（工学版）,2006,40(2):202-206. 被引量：16
10田大东,邓伟.改进的K均值聚类算法在支持矢量机中的应用[J].计算机工程与应用,2007,43(32):161-163. 被引量：3

计算机应用研究

2012年第4期

浏览历史

内容加载中请稍等...

基于SVM的Web文本快速增量分类算法被引量：6

参考文献6

二级参考文献10

共引文献7

同被引文献51

引证文献6

二级引证文献17

相关作者

相关机构

相关主题

浏览历史

基于SVM的Web文本快速增量分类算法 被引量：6

参考文献6

二级参考文献10

共引文献7

同被引文献51

引证文献6

二级引证文献17

相关作者

相关机构

相关主题

浏览历史

基于SVM的Web文本快速增量分类算法被引量：6