基于近邻密度改进的SVM不平衡数据集分类算法

Imbalanced dataset classification algorithm based on NDSVM

下载PDF

导出

摘要针对不平衡数据集数据分布不均匀及边界模糊的特点,提出基于近邻密度改进的SVM(NDSVM)不平衡数据集分类算法.该算法先计算多数类内每个样本的近邻密度值,然后依据该密度值选出多数类中位于边界区域、靠近边界区域的与少数类数目相等的样本分别与少数类完成SVM初始分类,最后用所得的支持向量机和剩余的多数类样本完成初始分类器迭代优化.人工数据集和UCI数据集的实验结果表明,与WSVM、ALSMOTE-SVM和基本SVM算法相比,本文算法分类效果良好,能有效改进SVM算法在分布不均匀及边界模糊数据集上的分类性能. Aimed at the data of uneven distribution and indistinct boundary in imbalanced dataset, imbalanced dataset classification algorithm based on neighbor density support vector machine（NDSVM）is proposed. In this algorithm, neighbor density value of each sample in the majority is solved firstly. According to the density, the data which on the majority class border or close to the border is equal to the minority samples in quantity, which are selected and the minority class complete SVM initial classification. Then the resulting support vector machine and residual data in the majority class optimize the initial classifier. The simulation results of experiments on the manual and UCI dataset show that compared with WSVM, ALSMOTE-SVM and SVM, NDSVM has better classification performance, which effectively improve the classification performance of SVM algorithm on the uneven distribution and indistinct boundary in imbalanced dataset.

作者刘悦婷 LIU Yueting(School of Media Engineering, Lanzhou University of Arts and Science, Lanzhou 730000, Chin)

机构地区兰州文理学院传媒工程学院

出处《延边大学学报（自然科学版）》 CAS 2018年第1期43-48,共6页 Journal of Yanbian University（Natural Science Edition）

基金 2015年甘肃省高等学校科研项目(2015B-132)

关键词支持向量机不平衡数据集近邻密度分布不均匀边界区域 support vector machine imbalanced dataset neighbor density uneven distribution boundary

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献8

1翟云,杨炳儒,曲武.不平衡类数据挖掘研究综述[J].计算机科学,2010,37(10):27-32. 被引量：37
2李勇,刘战东,张海军.不平衡数据的集成分类算法综述[J].计算机应用研究,2014,31(5):1287-1291. 被引量：75
3程险峰,李军,李雄飞.一种基于欠采样的不平衡数据分类算法[J].计算机工程,2011,37(13):147-149. 被引量：21
4李荣陆,胡运发.基于密度的kNN文本分类器训练样本裁剪方法[J].计算机研究与发展,2004,41(4):539-545. 被引量：98
5张永,李卓然,刘小丹.基于主动学习SMOTE的非均衡数据分类[J].计算机应用与软件,2012,29(3):91-93. 被引量：23
6王超学,张涛,马春森.基于聚类权重分阶段的SVM解不平衡数据集分类[J].计算机工程与应用,2015,51(21):133-137. 被引量：9
7刘万里,刘三阳,薛贞霞.不平衡支持向量机的平衡方法[J].模式识别与人工智能,2008,21(2):136-141. 被引量：15
8杨扬,李善平.基于实例重要性的SVM解不平衡数据分类[J].模式识别与人工智能,2009,22(6):913-918. 被引量：14

二级参考文献169

1张琦,吴斌,王柏.非平衡数据训练方法概述[J].计算机科学,2005,32(10):181-186. 被引量：10
2郑恩辉,李平,宋执环.不平衡数据知识挖掘:类分布对支持向量机分类的影响[J].信息与控制,2005,34(6):703-708. 被引量：17
3韩慧,王路,温明,王文渊.不均衡数据集学习中基于初分类的过抽样算法[J].计算机应用,2006,26(8):1894-1897. 被引量：11
4Phua C, Alahakoon D, Lee V. Minority Report in Fraud Detection: Classification of Skewed Data. ACM SIGKDD Explorations Newsletter, 2004, 6 ( 1 ) : 50 - 59.
5Zheng Zhaohui, Srihari R. Optimally Combining Positive and Negative Features for Text Categorization [ EB/OL]. [ 2003-08-24 ]. http ://www. site. uottwa. ca/-nat/Workshop2003/zheng.pdf.
6Ertekin S, Huang Jian, Bottou L, et al. Learning on the Border: Active Learning in Imbalanced Data Classification [ EB/OL ]. [ 2007-11-08 ]. http://www. personal. psu. edu/juh177/pubs/ CIKM2007. pdf.
7Kubat M, Matwin S. Addressing the Curse of Imbalanced Training Sets: One Sided Selection// Proc of the 14th International Conference on Machine Learning. Nashville, USA, 1997: 179- 186.
8Barandela R, Valdovinos R M, Sanchez J S, et al. The Imbalanced Training Sample Problem: Under or over Sampling// Proc of the Joint IAPR International Workshops on Structural, Syntactic and Statistical Pattern Recognition. Lisbon, Portugal, 2004 : 806 - 814.
9Chawla N V, Hall L O, Bowyer K W, et al. Smote: Synthetic Minority Over-Sampling Technique. Journal of Artificial Intelligence Research, 2002, 16 : 321 - 357.
10Han Hui, Wang Wenyuan, Mao Binghua. Borderline Smote: A New Over-Sampling Method in Imbalanced Data Sets Learning//Proc of the International Conference on Intelligent Computing. Hefei, China, 2005 : 878 -887.

共引文献253

1李村合,姜宇,李帅.基于不等距超平面距离的模糊支持向量机[J].计算机系统应用,2020(10):185-191. 被引量：6
2刘海青,李智桥,李元诚.基于C-lightGBM的用户窃电检测[J].计算机应用研究,2020,37(S01):298-300. 被引量：12
3姚学恒,张萍,闫立伟,操诚.基于机器学习的企业秘密文档自动分类方法[J].产业与科技论坛,2020,19(7):44-45.
4郑凌铭,舒胜文,陈彬,吴涵,黄建业,钱健.强台风环境下基于格点化和支持向量机的10 kV杆塔受损量预测方法[J].高电压技术,2020,46(1):42-51. 被引量：15
5李荣陆,王建会,陈晓云,陶晓鹏,胡运发.使用最大熵模型进行中文文本分类[J].计算机研究与发展,2005,42(1):94-101. 被引量：96
6华北,曹先彬.基于代表样本动态生成的中文网页分类[J].计算机应用,2006,26(10):2502-2504. 被引量：2
7李订芳,胡文超,何炎祥.基于共享最近邻聚类和模糊集理论的分类器[J].控制与决策,2006,21(10):1103-1108. 被引量：5
8王煜,白石,王正欧.用于Web文本分类的快速KNN算法[J].情报学报,2007,26(1):60-64. 被引量：33
9屈军,林旭.文本分类中特征提取方法的比较与分析[J].现代计算机,2007,13(4):10-13. 被引量：8
10印鉴,谭焕云.基于χ~2统计量的kNN文本分类算法[J].小型微型计算机系统,2007,28(6):1094-1097. 被引量：13

1胡一伟.论戏剧演出的三类伴随文本[J].四川戏剧,2018(6):15-20. 被引量：2
2梁宇乾,袁希平,甘淑.基于LIDAR点云回光强度信息的KNN算法与BP神经网络算法分类对比研究[J].软件导刊,2018,17(4):77-81. 被引量：4
3陈真真,何先弟.颅脑损伤患者视神经鞘直径与头颅CT计分的相关性[J].包头医学院学报,2018,34(3):1-2. 被引量：3
4张成坤,韩敏.基于边缘保持滤波的高光谱影像光谱-空间联合分类[J].自动化学报,2018,44(2):280-288. 被引量：10
5张姝茵,侯彪,焦李成,吴倩.基于稀疏自编码器和边缘保持的Wishart马尔科夫随机场的极化SAR图像分类（英文）[J].红外与毫米波学报,2018,37(2):177-183. 被引量：1
6张高伟,韩文妥,崔丽娟,万发荣.V-4Cr-4Ti/Ti扩散连接的初步研究[J].稀有金属材料与工程,2018,47(5):1537-1542. 被引量：3
7李俊丽,张继福.基于属性聚类的离群数据挖掘算法[J].中北大学学报（自然科学版）,2018,39(3):310-315. 被引量：3
8林佳,王海明,郭强生,刘晓斌,周丹.基于机器视觉的裸片表面缺陷在线检测研究[J].电子工业专用设备,2018,47(2):13-16.
9于晓飞,葛洪伟.自动确定聚类中心的势能聚类算法[J].计算机科学与探索,2018,12(6):1004-1012. 被引量：9
10晋晓飞,王浩,宗卫佳,王鹏程,王策.自主移动机器人避障技术研究现状[J].传感器与微系统,2018,37(5):5-9. 被引量：21

延边大学学报（自然科学版）

2018年第1期

浏览历史

内容加载中请稍等...

基于近邻密度改进的SVM不平衡数据集分类算法

参考文献8

二级参考文献169

共引文献253

相关作者

相关机构

相关主题

浏览历史