基于邻近样本类别判断的不平衡数据分类算法被引量：2

An Imbalanced Data Classification Algorithm Based on Adjacent Samples Labels Judgment

下载PDF

导出

摘要数据类间分布不均衡是不平衡数据集分类效果不好的主要原因,为了克服类间分布的不均衡,本文提出了一种基于邻近样本类别判断的不平衡数据分类算法。首先,对待判定样本,计算它的k个最邻近样本,然后将待判定样本的类别指派到它的k个最邻近中的多数类。由于本文所提出的不平衡数据分类算法在类别决策时,只考虑少量的邻近样本的类别,而不是考虑所有的训练样本,因此可以较好地克服类间不平衡对少数类分类结果的影响。在客户流失数据集上的仿真实验充分证明了本文算法能较好地处理不平衡数据分类问题。 Uneven distribution between ctasses is the main reason for the bad effects of imbalanced data sets classification, in order to overcome the uneven distribution between classes, in this paper, we proposed an imbalanced data classification algorithm based on adjacent samples labels judgment. First, for the sample undetermined, calculate its k most adjacent samples, and then assign the sample undetermined to the most common class among its k nearest neighbors. As the imbalanced data classification algorithm proposed in this paper only considered the categories of a small number of neighboring samples, rather than considering those of all the training samples, so it can overcome the influence to the minority class caused by the uneven distribution between classes. The simulation experiments on churn datasets fully proved that the proposed algorithm can effectively deal with unbalanced data classification.

作者胡艳

机构地区北京农业职业学院信息技术系

出处《科技通报》北大核心 2013年第10期58-60,共3页 Bulletin of Science and Technology

关键词不平衡数据集邻近样本数据分类少数类 imbalanced data sets adjacent samples data classification the minority class

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献7

1Pawlak Z I. Rough sets[J]. International Journal of ParallelProgramming, 1982,11 (5): 341-356.
2Japkow Iczn, Stephen S. The class imbalance problem: asystematic study [J]. Intelligent Data Analysis Journal,2002,6 (5): 429-450.
3徐尽.基于线性判别分析的数据集可分性判定算法[J].科技通报,2013,29(4):31-32. 被引量：5
4Domngos P. METACOST: a general method for makingclassifiers cost sensitive [C]//. Proceedings of the 5 th In-ternational Conference on Knowledge Discovery and DataMining. San Diego, CA:ACM Press, 1999: 155-164.
5Han J W, Kamber M著.范明译.Data Mining Concepts andTechnique(第二版)[M].北京:机械工业出版社,200.1:257-259.
6Cortes C, Vapnik V. Support vector networks [J]. MachineLearning, 1995, 20: 273-297.
7Rumelhart D E, Hinton G E, Williams R J. Learning rep-resentations by back -propagating errors [J]. Nature,1986,323 (6088): 533-536.

二级参考文献2

1胡学坤,李金霞,宋淑娜,高尚.基于粗糙集与模糊支持向量机的模式分类方法研究[J].科技通报,2010,26(2):249-252. 被引量：11
2张铃.支持向量机理论与基于规划的神经网络学习算法[J].计算机学报,2001,24(2):113-118. 被引量：38

共引文献4

1陈庆,黄蕾,李雪梅.基于主成分判别分析的高光谱遥感影像分类方法[J].地理空间信息,2016,14(1):76-78. 被引量：4
2杨凌帆,刘倩,张雨金,周郅皓,周杭霞.基于光伏发电影响因素分析的集成建模及预测应用[J].中国计量大学学报,2019,30(2):158-165. 被引量：3
3韩虹,孙鹏,王运宏,单大国.基于线性判别分析分离印章与签名字迹的研究[J].警察技术,2020(6):59-61. 被引量：1
4王新,徐捷,穆宝忠.液体物质X射线衍射物相分析研究[J].实验室科学,2022,25(4):33-36.

同被引文献12

1潘泉,于昕,程咏梅,张洪才.信息融合理论的基本方法与进展[J].自动化学报,2003,29(4):599-615. 被引量：183
2林舒杨,李翠华,江弋,林琛,邹权.不平衡数据的降采样方法研究[J].计算机研究与发展,2011,48(S3):47-53. 被引量：31
3杨智明.面向不平衡数据的支持向量机分类方法研究[D].哈尔滨:哈尔滨工业大学,2009.
4Chang Ruey-Feng; Wu Wen-Jie; Woo Kyung Moon, et al. Support vector machines for diagnosis of breast tumors on US im- ages [J]. Academic radiology, 2003, 10(2): 189-197.
5Veropoulos K, Campbell C, Cristianini N. Controlling the sen- sitivity of support vector machines [C]. Proceedings of the interna- tional joint conference on artificial intelligence. 1999, 1999: 55-60.
6刘海涛,黄敏,朱启兵,王聪.基于支持向量机的不平衡数据分类算法的研究[J].计算机应用研究,2009,26(8):2874-2875. 被引量：8
7程险峰,李军,李雄飞.一种基于欠采样的不平衡数据分类算法[J].计算机工程,2011,37(13):147-149. 被引量：21
8秦传东,刘三阳,张市芳.基于不平衡数据分类的一种平衡模糊支持向量机[J].计算机科学,2012,39(6):188-190. 被引量：6
9郑义.多层分布式大型差异数据库优化入侵检测仿真[J].计算机仿真,2013,30(11):400-403. 被引量：12
10丁福利,孙立民.处理不平衡样本集的欠采样算法[J].计算机工程与设计,2013,34(12):4345-4350. 被引量：7

引证文献2

1王若成.从高程数据中提取目标地形坡度和粗糙度方法研究[J].微电子学与计算机,2014,31(3):177-180.
2韩芳,孙立民.不平衡样本集的欠采样算法研究[J].福建电脑,2014,30(12):16-18.

1谢凯,张涛,奚玲,李文祥,平西建.k均值聚类的混合异构图像隐写分析[J].应用科学学报,2014,32(5):543-550.
2李国和,牛晓亮,孙红军,唐先明,韩宝东.提高时序数据识别精度的方法及应用[J].计算机工程与应用,2011,47(13):188-190.
3朱明旱,李树涛,叶华.基于稀疏表示的遮挡人脸表情识别方法[J].模式识别与人工智能,2014,27(8):708-712. 被引量：17
4赵悦品.网络信息安全防范与Web数据挖掘系统的设计与实现[J].现代电子技术,2017,40(4):61-65. 被引量：13
5钱锦昕,余嘉元.认知诊断中基于神经网络的PSP方法[J].心理科学,2010,33(4):915-917. 被引量：7
6包晓敏,汪亚明.基于最小错误率贝叶斯决策的苹果图像分割[J].农业工程学报,2006,22(5):122-124. 被引量：19
7李艳翠,孙静,周国栋,冯文贺.基于清华汉语树库的复句关系词识别与分类研究[J].北京大学学报（自然科学版）,2014,50(1):118-124. 被引量：19
8张先飞,郭志刚,刘嵩,程磊,田雨暄.基于触发词指导的自相似度聚类事件检测[J].计算机科学,2010,37(3):212-214. 被引量：12
9牛杰,卜雄洙,钱堃,李众.一种融合全局及显著性区域特征的室内场景识别方法[J].机器人,2015,37(1):122-128. 被引量：13
10鲍蕾,黄曙光,李永成.一种K-means聚类和超球结合的多类分类算法[J].计算机应用研究,2011,28(5):1764-1766. 被引量：1

科技通报

2013年第10期

浏览历史

内容加载中请稍等...

基于邻近样本类别判断的不平衡数据分类算法被引量：2

参考文献7

二级参考文献2

共引文献4

同被引文献12

引证文献2

相关作者

相关机构

相关主题

浏览历史

基于邻近样本类别判断的不平衡数据分类算法 被引量：2

参考文献7

二级参考文献2

共引文献4

同被引文献12

引证文献2

相关作者

相关机构

相关主题

浏览历史

基于邻近样本类别判断的不平衡数据分类算法被引量：2