利用自然最近邻的不平衡数据过采样方法被引量：2

Oversampling Method for Unbalanced Data by Natural Nearest Neighbor

下载PDF

导出

摘要针对现有过采样方法存在的易引入噪声点、合成样本重叠的问题,提出一种基于自然最近邻的不平衡数据过采样方法。确定少数类样本的自然最近邻,每个样本的近邻个数由算法自适应计算生成,反映了样本分布的疏密程度。基于自然近邻关系对少数类样本聚类,由位于同一类簇中密集区域的核心点和稀疏区域的非核心点生成新样本。在二维合成数据集和UCI数据集上的对比实验验证了该方法的可行性和有效性,提高了不平衡数据的分类精度。 Aiming at the problem of introducing noise points and synthesizing overlapping samples in existing oversampling methods,this paper proposes an oversampling method based on natural nearest neighbors.The proposed method firstly determines the natural nearest neighbor for minority samples.Each sample’s number of nearest neighbors is generated by adaptive calculation in the algorithm,which reflects the density of distribution.After cluster analysis for minority samples based on relations of natural neighbor,this method generates new samples using core points in dense area and non-core points in sparse area from the same cluster.The comparison experiments on a two-dimensional synthesis dataset and UCI datasets verify the feasibility and effectiveness of this method and improve the classification accuracy of unbalanced data.

作者孟东霞李玉鑑 MENG Dongxia;LI Yujian(School of Financial Technology,Hebei Finance University,Baoding,Hebei 071051,China;School of Artificial Intelligence,Guilin University of Electronic Technology,Guilin,Guangxi 541004,China)

机构地区河北金融学院金融科技学院桂林电子科技大学人工智能学院

出处《计算机工程与应用》 CSCD 北大核心 2021年第2期91-96,共6页 Computer Engineering and Applications

基金河北省高校智慧金融应用技术研发中心基金(XGZJ2020008) 国家自然科学基金(61876010)。

关键词不平衡数据集过采样自然最近邻聚类 imbalanced data set over sampling natural nearest neighbor clustering

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献6

1李萍,龚晓峰,雒瑞森.基于自然近邻的自适应关联融合聚类算法[J].计算机工程,2020,46(6):108-114. 被引量：3
2周晓敏,曹付元,余丽琴.一种基于样本分层的双向过采样方法[J].计算机科学,2019,46(12):83-88. 被引量：5
3王颖,王欣,唐万梅.融合用户自然最近邻的协同过滤推荐算法[J].计算机工程与应用,2018,54(7):77-83. 被引量：11
4金辉,钱雪忠.自然最近邻优化的密度峰值聚类算法[J].计算机科学与探索,2019,13(4):711-720. 被引量：22
5朱庆生,唐汇,冯骥.一种基于自然最近邻的离群检测算法[J].计算机科学,2014,41(3):276-278. 被引量：11
6夏英,李刘杰,张旭,裴海英.基于层次聚类的不平衡数据加权过采样方法[J].计算机科学,2019,46(4):22-27. 被引量：11

二级参考文献26

1Gogoi P, Borah B, Bhattaeharyya D K. Outlier identification using symmetric neighborhoodsJ]. Procedia Technology, 2012, 6 239-246.
2Breunig M M, Kriegel H P, etal. IX)F:identifying density-based local outliers[-J. Proc. of 2000 ACM SIGMOD international conference on Management of data. ACM Sigmod Record, 2000, 29(2):93-104.
3Hautamaki V, Karkkainen I. Outlier detection using k-nearest neighbor graphiC]//Proc. 17th IEEE Int. Conf. on Pattern Rec- ognition. 2004,3 : 430-433.
4Angiulli, F, Palopoli L. Detecting outlying properties of excep- tional objects E J']. ACM Transaction on Database Systems, 2009,34(1):62-74.
5Richard J, Chris (2. Fuzzy-rough nearest neighbor classification and prediction [J]. Theoretical Computer Science, 2011, 412(42) : 5871-5884.
6PandyaD H, Upadhyay S H, Harsha S P. Fault diagnosis of rol- ling element bearing with intrinsic mode function of acoustic e- mission data using APF-kNNJ]. Expert Systems with Applica- tions,2013,40(10) :4137-4145.
7Xu Yong, Zhu Qi, et al. Coarse to fine K nearest neighbor classi- fier FJ]. Pattern Recognition Letters, 2013,34(9) : 980-936.
8黄创光,印鉴,汪静,刘玉葆,王甲海.不确定近邻的协同过滤推荐算法[J].计算机学报,2010,33(8):1369-1377. 被引量：217
9罗辛,欧阳元新,熊璋,袁满.通过相似度支持度优化基于K近邻的协同过滤算法[J].计算机学报,2010,33(8):1437-1445. 被引量：126
10陈思,郭躬德,陈黎飞.基于聚类融合的不平衡数据分类方法[J].模式识别与人工智能,2010,23(6):772-780. 被引量：28

共引文献57

1文静云,古平,吴庭君.基于加权自然邻域属性和熵的离群检测算法[J].数字技术与应用,2015,33(2):136-139.
2张丽平,经海东,李松,崔环宇.路网中基于Voronoi图的反向最近邻查询方法[J].计算机科学,2015,42(8):231-235. 被引量：1
3李艳琦.企业机密信息网络传输泄露优化检测仿真研究[J].计算机仿真,2017,34(5):385-388.
4王婷婷,翟俊海,张明阳,郝璞.基于HBase和SimHash的大数据K-近邻算法[J].山东大学学报（工学版）,2018,48(3):54-59. 被引量：1
5王永,邓永恒,李晓光.考虑非对称用户偏好的推荐算法[J].计算机工程与应用,2018,54(23):1-6. 被引量：1
6苏庆,章静芳,林正鑫,李小妹,蔡昭权,曾永安.改进模糊划分聚类的协同过滤推荐算法[J].计算机工程与应用,2019,55(5):118-123. 被引量：16
7申晋祥,鲍美英.基于用户聚类与项目划分的优化推荐算法[J].计算机系统应用,2019,28(6):159-164. 被引量：9
8李士果,卢建云,邓剑勋.基于自然最近邻的离群检测方法研究[J].智能计算机与应用,2019,9(4):40-44. 被引量：1
9吴航,江红.融合潜在社交信任模型的协同过滤推荐[J].计算机工程与应用,2019,55(20):114-121. 被引量：5
10申晋祥,鲍美英.基于项目关联的Slope One协同过滤算法研究[J].计算机与数字工程,2019,47(8):1856-1860.

同被引文献9

1Bo SUN,Haiyan CHEN,Jiandong WANG,Hua XIE.Evolutionary under-sampling based bagging ensemble method for imbalanced data classification[J].Frontiers of Computer Science,2018,12(2):331-350. 被引量：11
2赵楠,张小芳,张利军.不平衡数据分类研究综述[J].计算机科学,2018,45(B06):22-27. 被引量：47
3江昊琛,魏子麒,刘璘,陈俊.非均衡数据分类经典方法综述与面向医疗领域的实验分析[J].计算机科学,2022,49(1):80-88. 被引量：4
4贺作伟,陶佳晴,冷强奎,翟军昌,孟祥福.带有超长方体约束的少数类样本生成机制[J].计算机应用研究,2022,39(10):3055-3060. 被引量：1
5李蒙蒙,刘艺,李庚松,郑奇斌,秦伟,任小广.不平衡多分类算法综述[J].计算机应用,2022,42(11):3307-3321. 被引量：12
6陆宇,赵凌云,白斌雯,姜震.基于改进的半监督聚类的不平衡分类算法[J].计算机应用,2022,42(12):3750-3755. 被引量：4
7谢子鹏,包崇明,周丽华,王崇云,孔兵.类不平衡数据的EM聚类过采样算法[J].计算机科学与探索,2023,17(1):228-237. 被引量：7
8陶佳晴,贺作伟,冷强奎,翟军昌,孟祥福.基于Tomek链的边界少数类样本合成过采样方法[J].计算机应用研究,2023,40(2):463-469. 被引量：4
9雷明珠,王浩,贾蓉,白琳,潘晓英.基于特征间关系合成少数类样本的过采样算法[J].计算机应用,2024,44(5):1428-1436. 被引量：1

引证文献2

1陶佳晴,贺作伟,冷强奎,翟军昌,孟祥福.基于Tomek链的边界少数类样本合成过采样方法[J].计算机应用研究,2023,40(2):463-469. 被引量：4
2冷强奎,孙薛梓,孟祥福.基于样本势和噪声进化的不平衡数据过采样方法[J].计算机应用,2024,44(8):2466-2475.

二级引证文献4

1马贺,宋媚,祝义.改进边界分类的Borderline-SMOTE过采样方法[J].南京大学学报（自然科学版）,2023,59(6):1003-1012. 被引量：1
2吴帅,陈宁江.基于密度峰值和K近邻的密度均衡采样方法[J].广西大学学报（自然科学版）,2023,48(4):931-942.
3冷强奎,孙薛梓,孟祥福.基于样本势和噪声进化的不平衡数据过采样方法[J].计算机应用,2024,44(8):2466-2475.
4张琳,仝照民,刘耀林,段志强.基于TOD模式及语义功能的共享单车潮汐流与建成环境非线性关联研究[J].地理与地理信息科学,2024,40(5):17-27.

1王亮,冶继民.整合DBSCAN和改进SMOTE的过采样算法[J].计算机工程与应用,2020,56(18):111-118. 被引量：15
2孙烨珩.基于CatBoost的护士离职预测研究[J].科技和产业,2020,20(12):227-232.
3王俊红,闫家荣.基于欠采样和代价敏感的不平衡数据分类算法[J].计算机应用,2021,41(1):48-52. 被引量：24
4樊名鲁,王艳,纪志成.基于特征生成的轴承不均衡数据故障诊断[J].系统仿真学报,2020,32(12):2438-2448. 被引量：5
5潘国兵,龚明波,贺民,邬程欢,唐小淇,杨吕,欧阳静.基于Stacking模型融合的专变用户电费回收风险识别方法[J].电力自动化设备,2021,41(1):152-158. 被引量：9
6刘晶,秦国帅,孟德凯,贺伯君,季海鹏.数据融合驱动的余热锅炉阀门调节方法[J].燕山大学学报,2021,45(1):76-86. 被引量：4
7陈安平,刘彩霞,刘启超.经济增速放缓对个体收入和就业的影响研究[J].产经评论,2020,11(6):127-144. 被引量：3
8潘艳艳,范友芬,李吉良,崔胜勇,黄能,晋国营,陈粹,张淳.基于16S核糖体RNA高通量测序的特重度烧伤患者肠道菌群动态变化分析[J].中华烧伤杂志,2020,36(12):1159-1166. 被引量：3
9耿利敏,沈文星.全球林产品空间结构与比较优势的动态演变--兼论我国林产品比较优势培育目标的选择[J].林业科学,2020,56(11):187-197. 被引量：7
10武炜杰,张景祥.有新类的动态数据流分类算法研究[J].计算机科学与探索,2021,15(1):132-140. 被引量：3

计算机工程与应用

2021年第2期

浏览历史

内容加载中请稍等...

利用自然最近邻的不平衡数据过采样方法被引量：2

参考文献6

二级参考文献26

共引文献57

同被引文献9

引证文献2

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

利用自然最近邻的不平衡数据过采样方法 被引量：2

参考文献6

二级参考文献26

共引文献57

同被引文献9

引证文献2

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

利用自然最近邻的不平衡数据过采样方法被引量：2