一种聚簇消减大规模数据的支持向量分类算法被引量：10

Cluster Method of Support Vector Machine to Solve Large-scale Data Set Classification

下载PDF

导出

摘要针对支持向量分类机对大规模数据集训练速度慢的瓶颈,提出一种聚簇消减数据集方法。首先建立样本中心距离函数,计算聚簇集的比例半径,然后利用聚簇集镜像扫描样本点确定簇集类,同一类样本特性的聚簇集中只保留代表样本点,建立异类点删除矩阵,通过上述方法消减样本集。证明了这种簇消减算法有较低的时间复杂度,并利用实验说明了保留代表点的有效意义。最后通过随机数据和UCI标准数据库验证了算法在保证分类精度的同时提高了分类速度。 A cluster Support Vector Machines （C-SVM） method for large-scale data set classification was presented to accelerate speed. Firstly, using function of centre distance calculated radius ratio. Then, data set was scanned by cluster mirror. By remaining representative data for cluster and installing deleted matrix sample set was remarkably reduced. It is proved that the new method has lower time complexity. Experiments with random data and UCI databases verify the efficiency of the C-SVM. Moreover, classification accuracy is gained at adjustment threshold value.

作者陈光喜徐健成彦

机构地区桂林电子科技大学数学与计算科学学院安徽财经大学统计与应用数学学院

出处《计算机科学》 CSCD 北大核心 2009年第3期184-188,共5页 Computer Science

基金国家自然科学基金(编号:10501009和10661005) 桂电软环境项目和安徽财经大学青年基金资助

关键词支持向量机聚簇集大规模数据集训练速度 SVM, Cluster, Large-scale data set, Training speed

分类号 TP181 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献8

1王晓丹,王积勤.支持向量机训练和实现算法综述[J].计算机工程与应用,2004,40(13):75-78. 被引量：56
2李红莲,王春花,袁保宗.一种改进的支持向量机NN-SVM[J].计算机学报,2003,26(8):1015-1020. 被引量：71
3白亮,老松杨,胡艳丽.支持向量机训练算法比较研究[J].计算机工程与应用,2005,41(17):79-81. 被引量：15
4胡懋智,古红英.各种不同类型的支持向量机及其性能比较分析[J].计算机工程与应用,2005,41(12):37-40. 被引量：8
5徐健,陈光喜.大规模数据分类的支持向量预处理方法[J].计算机应用,2007,27(B12):257-259. 被引量：2
6Zheng Chun-Hong,Jiao Li-Cheng. Fuzzy Pre-extracting Method For Support Vector Machine[A]//Proceedings of the First International Conference on Machine Learning and Cybernetics. Beijing, November 2002 : 4-5
7Mangasarian O L, Musicant D R. Successive overrelaxation for support vector machines[J]. IEEE Tangasarian on Neural Networks, 1999,10: 1032-1037
8Vapnik V N. Statistical Learning Theory[M]. New York: Wiley, 1998

二级参考文献68

1胡懋智,古红英.各种不同类型的支持向量机及其性能比较分析[J].计算机工程与应用,2005,41(12):37-40. 被引量：8
2白亮,老松杨,胡艳丽.支持向量机训练算法比较研究[J].计算机工程与应用,2005,41(17):79-81. 被引量：15
3陆波,尉询楷,毕笃彦.支持向量机在分类中的应用[J].中国图象图形学报,2005,10(8):1029-1035. 被引量：23
4CristianiniN Shawe-TaylorJ 李国正译.支持向量机导论[M].北京:电子工业出版社,2004..
5Hearst M A, Dumais S T, Osman E, Platt J, Scholkopf B.Support Vector Machines. IEEE Intelligent Systems, 1998, 13(4) : 18-28.
6Ke Hai-Xin,Zhang Xue-Gong. Editing support vector machines.In: Proceedings of International Joint Conference on Neural Networks, Washington, USA, 2001, 2:1464-1467.
7Vapnik V N. An overview of statistical learning theory. IEEE Transactions on Neural Networks, 1999, 10 (5): 988-999.
8Vapnik V N. Statistical Learning Theory. 2nd ed. New York:Springer-Verlag : 1999.
9Klaus-Robert Mailer, Sebastian Mika, Gunnar Raetsch, Koji Tsuda, and Bernhard Schoelkopf. An introduction to kernel-based learning algorithms. IEEE Transactions on Neural Networks, 2001, 12 (2): 181-201.
10Burges C J C. A tutorial on support vector machines for pattern recognition. Data Mining and Knowledge Discovery, 1998, 2(2): 121-167.

共引文献139

1谢小辉,黄钞.大型回转体铆钉裂纹机器视觉在线自动检测[J].中国测试,2021,47(S01):136-140. 被引量：4
2何升.支持向量机在基于内容的图像检索中的应用[J].考试周刊,2007(16):87-88.
3洪文鹏,陈重.模拟退火优化的支持向量机在氨法脱硫效率预测中的应用[J].化工自动化及仪表,2012,39(11):1446-1449.
4孙玉峰,郑晟,晋娜娜.基于谐波小波分析的矿井提升机故障诊断[J].煤炭技术,2015,34(2):263-265. 被引量：1
5李红莲,王春花,袁保宗,朱占辉.针对大规模训练集的支持向量机的学习策略[J].计算机学报,2004,27(5):715-719. 被引量：53
6黄发良,钟智.用于分类的支持向量机[J].广西师范学院学报（自然科学版）,2004,21(3):75-78. 被引量：14
7胡正平,张晔.基于类间最近邻支持向量信息测度排序的快速分类算法研究[J].中国图象图形学报,2005,10(6):758-761.
8张国云,章兢.一种新的分裂层次聚类SVM多值分类器[J].控制与决策,2005,20(8):931-934. 被引量：9
9胡正平,张晔.基于支持向量信息测度排序的快速分类算法[J].系统工程与电子技术,2005,27(8):1467-1470.
10王春林,周昊,周樟华,凌忠钱,李国能,岑可法.基于支持向量机的大型电厂锅炉飞灰含碳量建模[J].中国电机工程学报,2005,25(20):72-76. 被引量：98

同被引文献74

1李红莲,王春花,袁保宗,朱占辉.针对大规模训练集的支持向量机的学习策略[J].计算机学报,2004,27(5):715-719. 被引量：53
2钱晓东,王正欧.基于改进KNN的文本分类方法[J].情报科学,2005,23(4):550-554. 被引量：19
3王煜,徐建民.基于RBF神经网络和决策树的文本分类方法[J].计算机工程与应用,2005,41(14):175-178. 被引量：4
4王华忠,俞金寿.核函数方法及其模型选择[J].江南大学学报（自然科学版）,2006,5(4):500-504. 被引量：40
5T. W. Hsieh, J. S. Taur , S. Y. Kung .A KNN-Scoring Based Core-Growing Approach to Cluster Analysis[J]. Journal of Signal Processing Systems, 2009,(10): 1939-8018.
6KIM C J, HWANG K B. Naive Bayes classier learning with feature selection for spam detection, in social bookmarking [ C ]//Lecture Notes in Computer Science. Berlin: Springer-Verlag, 2008.
7LIU Xiao-zhang, FENG Guo-can. Kernel bisecting K-means cluste- ring for SVM training sample reduction[ C]//Proc of the 19th Interna- tional Conference on Pattern Recognition. 2008:1-4.
8XU Yan-zi, QIN Hua. A new optimazation method of large-scale SVMs based on kernel distance clustering[ C]//Proc of International Computational Intelligence and Software Engineering. 2009:1-4.
9HOTHO A, JASCHKE R, SCHMITZ C, et al. Emergent semantics in bibSonomy [ M ]. Liskowsky : GI Jahrestagung, 2006 : 305- 312.
10MADKOUR A, HEFNI T, HEFN Y A, et al. Using semantic features to detect spamming in social bookmarking systems [ C ]//Lecture Notes in Computer Science. Berlin: Springer-Verlag , 2008.

引证文献10

1王春艳,程霜梅,杨鑫.基于聚簇样本约减的K-近邻神经网络分类器[J].情报科学,2010,28(10):1547-1549.
2覃希,苏一丹.用双层减样法优化大规模SVM垃圾标签检测模型[J].计算机应用研究,2011,28(6):2095-2098. 被引量：5
3覃华,丁立朵,符丽锦,覃希.用核K-means聚类和半定规划SVM实现垃圾标签检测[J].计算机应用研究,2013,30(4):1179-1182.
4张永,浮盼盼,张玉婷.基于分层聚类及重采样的大规模数据分类[J].计算机应用,2013,33(10):2801-2803. 被引量：5
5耿丽娟,李星毅.用于大数据分类的KNN算法研究[J].计算机应用研究,2014,31(5):1342-1344. 被引量：62
6王洪斌,孙婧.核K均值聚类改进神经网络垃圾标签检测模型[J].科技通报,2014,30(2):185-187. 被引量：1
7王刚.LM-Smith神经网络泛函稳定性控制设计[J].科技通报,2014,30(8):179-181.
8王兆龙.基于中心向量KNN算法的改进[J].哈尔滨师范大学自然科学学报,2017,33(2):18-21.
9刘述昌,张忠林.基于中心向量的多级分类KNN算法研究[J].计算机工程与科学,2017,39(9):1758-1764. 被引量：10
10刘占波,闫实,王晓丽,石莉,陈志国.数据挖掘技术在教师教学评价中的应用研究[J].软件,2019,40(2):70-73. 被引量：1

二级引证文献83

1冯蕴天,王国良,韩慧,许雄,陈翔,吴若无,邰宁.面向电磁大数据的未知雷达辐射源智能识别[J].太赫兹科学与电子信息学报,2021,19(4):589-595. 被引量：4
2张兴科.大数据分析与挖掘技术在高校学生线上学习中的应用研究[J].现代职业教育,2020,0(1):146-147. 被引量：3
3覃华,丁立朵,符丽锦,覃希.用核K-means聚类和半定规划SVM实现垃圾标签检测[J].计算机应用研究,2013,30(4):1179-1182.
4覃希,苏一丹,张雯.商空间框架下的大规模SVM数据集约减法[J].计算机科学,2013,40(12):104-107.
5王洪斌,孙婧.核K均值聚类改进神经网络垃圾标签检测模型[J].科技通报,2014,30(2):185-187. 被引量：1
6习扬,苏一丹,覃希.用KPCA-SVM的方法检测垃圾标签的研究[J].计算机技术与发展,2014,24(5):65-69.
7胡小生.基于双支持向量机的大样本分类算法[J].佛山科学技术学院学报（自然科学版）,2015,33(4):26-30. 被引量：1
8王茜,习磊.基于行业分布的企业网络信息安全威胁及对策研究[J].价值工程,2015,34(20):50-53.
9孙芯宇,吴江,蒲强.基于稳定性语义聚类的相关模型估计[J].计算机应用,2016,36(5):1313-1318. 被引量：1
10万会芳,杜彦璞.K近邻和Logistic回归分类算法比较研究[J].洛阳理工学院学报（自然科学版）,2016,26(3):83-86. 被引量：5

1王岩,裴世春,王存堂,高建伟,王伟,薄力影,郭怡璠,魏峻.基于蝙蝠算法的支持向量机参数优化[J].宝鸡文理学院学报（自然科学版）,2015,35(3):1-6.
2王象刚.基于K均值随机森林快速算法及入侵检测中的应用[J].科技通报,2013,29(8):76-78. 被引量：2
3董哲,郭东伟,周春光.BP算法中样本特性及参数α，β两阶段动态调整[J].吉林大学自然科学学报,1995(1):33-36. 被引量：3
4凌萍,荣祥胜,高大金.一种基于收缩超平面的支持向量分类算法[J].小型微型计算机系统,2014,35(12):2717-2726.
5王靖程,曹晖,张彦斌,任志文.基于最小化界外密度的SVDD参数优化算法[J].系统工程与电子技术,2015,37(6):1446-1451. 被引量：4
6飘零雪.专治拖延症让你打字不停歇[J].电脑迷,2012(3):69-69.
7杨俊燕,张优云,朱永生.ε不敏感损失函数支持向量机分类性能研究[J].西安交通大学学报,2007,41(11):1315-1320. 被引量：17
8晁学鹏.一种基于K均值聚类的下采样算法[J].科技通报,2013,29(8):73-75. 被引量：3
9许洪贵,赵琨,田英杰.鲁棒半监督ν-支持向量分类机[J].系统科学与数学,2010,30(2):265-273.
10于明,陈冀川.基于自组织特征映射网络的纹理分类研究[J].河北工学院学报,1994,23(1):34-43.

计算机科学

2009年第3期

浏览历史

内容加载中请稍等...

一种聚簇消减大规模数据的支持向量分类算法被引量：10

参考文献8

二级参考文献68

共引文献139

同被引文献74

引证文献10

二级引证文献83

相关作者

相关机构

相关主题

浏览历史

一种聚簇消减大规模数据的支持向量分类算法 被引量：10

参考文献8

二级参考文献68

共引文献139

同被引文献74

引证文献10

二级引证文献83

相关作者

相关机构

相关主题

浏览历史

一种聚簇消减大规模数据的支持向量分类算法被引量：10