基于异构距离的集成分类算法研究被引量：13

Imbalanced heterogeneous data ensemble classification based on HVDM-KNN

下载PDF

导出

摘要针对异构数据集下的不均衡分类问题,从数据集重采样、集成学习算法和构建弱分类器3个角度出发,提出一种针对异构不均衡数据集的分类方法HVDM-Adaboost-KNN算法(heterogeneous value difference metric-Adaboost-KNN),该算法首先通过聚类算法对数据集进行均衡处理,获得多个均衡的数据子集,并构建多个子分类器,采用异构距离计算异构数据集中2个样本之间的距离,提高KNN算法的分类准性能,然后用Adaboost算法进行迭代获得最终分类器。用8组UCI数据集来评估算法在不均衡数据集下的分类性能,Adaboost实验结果表明,相比Adaboost等算法,F1值、AUC、G-mean等指标在异构不均衡数据集上的分类性能都有相应的提高。 A novel classification method,the heterogeneous value difference metric-Adaboost-KNN(HVDM-AdaboostKNN),is proposed to achieve data resampling,to obtain an ensemble learning algorithm,and to construct a weak classifier for addressing the imbalanced classification of a heterogeneous dataset.This algorithm initially equalizes the dataset using a clustering algorithm to obtain several equalized data subsets and constructs several sub-classifiers.Further,the heterogeneous distance is used to calculate the distance between two samples in the heterogeneous dataset to improve the classification accuracy of the KNN algorithm.Subsequently,the Adaboost algorithm is used to iteratively obtain the final classifier.Eight groups of UCI datasets are used to evaluate the classification performance of the algorithm in imbalanced datasets.The Adaboost experimental results denote that the classification performance of indices,such as the F1 value,AUC,and G-means,using the heterogeneous imbalanced datasets was better when compared with that exhibited by other algorithms.

作者张燕杜红乐 ZHANG Yan;DU Hongle(School of Math and Computer Application,Shangluo University,Shangluo 726000,China)

机构地区商洛学院数学与计算机应用学院

出处《智能系统学报》 CSCD 北大核心 2019年第4期733-742,共10页 CAAI Transactions on Intelligent Systems

基金陕西省自然科学基础研究计划项目(2015JM6347) 陕西省教育厅科技计划项目(15JK1218) 商洛学院科学与技术项目(18sky014) 商洛学院科技创新团队建设项目(18SCX002) 商洛学院重点学科建设项目,学科名:数学”

关键词异构数据不均衡数据异构距离集成学习过取样欠取样 heterogeneous data imbalanced data heterogeneous value difference metric ensemble learning over sampling undersampling

分类号 TP391.4 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献3

1胡峰,王蕾,周耀.基于三支决策的不平衡数据过采样方法[J].电子学报,2018,46(1):135-144. 被引量：30
2武森,刘露,卢丹.基于聚类欠采样的集成不均衡数据分类算法[J].工程科学学报,2017,39(8):1244-1253. 被引量：12
3陈旭,刘鹏鹤,孙毓忠,沈曦,张磊,王晓青,孙晓平,程伟.面向不均衡医学数据集的疾病预测模型研究[J].计算机学报,2019,42(3):596-609. 被引量：44

二级参考文献9

1杨智明,乔立岩,彭喜元.基于改进SMOTE的不平衡数据挖掘方法研究[J].电子学报,2007,35(B12):22-26. 被引量：31
2曾志强,吴群,廖备水,高济.一种基于核SMOTE的非平衡数据集分类方法[J].电子学报,2009,37(11):2489-2495. 被引量：49
3张永,李卓然,刘小丹.基于主动学习SMOTE的非均衡数据分类[J].计算机应用与软件,2012,29(3):91-93. 被引量：23
4李江,金辉,刘伟.基于分形SMOTE重采样集成算法圈定区域化探异常[J].计算机应用研究,2012,29(10):3744-3747. 被引量：4
5翟云,王树鹏,马楠,杨炳儒,张德政.基于单边选择链和样本分布密度融合机制的非平衡数据挖掘方法[J].电子学报,2014,42(7):1311-1319. 被引量：18
6王超学,张涛,马春森.面向不平衡数据集的改进型SMOTE算法[J].计算机科学与探索,2014,8(6):727-734. 被引量：25
7朱亚奇,邓维斌.一种基于不平衡数据的聚类抽样方法[J].南京大学学报（自然科学版）,2015,51(2):421-429. 被引量：5
8王磊,黄河笑,吴兵,郑任儿.基于主题与三支决策的文本情感分析[J].计算机科学,2015,42(6):93-96. 被引量：11
9李诒靖,郭海湘,李亚楠,刘晓.一种基于Boosting的集成学习算法在不均衡数据中的分类[J].系统工程理论与实践,2016,36(1):189-199. 被引量：59

共引文献80

1向菲,谢耀谈.基于混合采样与迁移学习的患者评论识别模型[J].数据分析与知识发现,2020,4(2):39-47. 被引量：2
2谢国民,王嘉良.基于混合采样与IHBA-SVM的变压器故障辨识方法[J].电子测量与仪器学报,2022,36(12):77-85. 被引量：7
3张杜娟,苏曦.基于改进极限学习机的疾病预测研究[J].电子测量技术,2020(9):56-60. 被引量：1
4穆伟蒙,宋燕,窦军.基于密度峰值聚类算法的自适应加权过采样算法[J].智能计算机与应用,2022,12(6):46-53. 被引量：1
5张清华,吕功勋,陈玉洪,谢秦.基于字符型属性值更新的动态三支决策模型[J].电子学报,2019,47(2):344-350. 被引量：7
6李国和,张腾,吴卫江,洪云峰,周晓明.面向机器学习的训练数据集均衡化方法[J].计算机工程与设计,2019,40(3):812-818. 被引量：12
7段刚龙,张兴冉,马鑫,王建仁.小米智能手机定价现状及问题分析——基于随机森林模型[J].当代经济,2019,36(5):95-98.
8张燕,杜红乐.面向不均衡数据的动态抽样集成学习算法[J].计算机应用与软件,2019,36(6):271-276. 被引量：2
9林怀逸,刘箴,柴玉梅,刘婷婷,柴艳杰.基于词向量预训练的不平衡文本情绪分类[J].中文信息学报,2019,33(5):132-142. 被引量：7
10郭英杰,胡峰,于洪,张红亮.基于时间粒的铝电解过热度预测模型[J].南京大学学报（自然科学版）,2019,55(4):624-632. 被引量：6

同被引文献158

1黄修丹.数据挖掘领域中的聚类分析及应用[J].闽江学院学报,2004,25(5):44-47. 被引量：5
2谷淑化,吕维先,马于涛.关于数据挖掘中聚类分析算法的比较[J].现代计算机,2005,11(3):26-29. 被引量：4
3黎铭,周志华.基于多核集成的在线半监督学习方法[J].计算机研究与发展,2008,45(12):2060-2068. 被引量：12
4赵俊杰,盛剑锋,陶新民.一种基于特征加权的KNN文本分类算法[J].电脑学习,2010(2):84-86. 被引量：4
5陈明,何书萍,李凡长.Finsler度量在KNN算法中的应用研究[J].计算机科学与探索,2011,5(11):1021-1026. 被引量：3
6叶明全,胡学钢,胡东辉,吴信东.基于属性值分类的多层次粗糙集模型[J].模式识别与人工智能,2013,26(5):481-491. 被引量：9
7吴建鑫,周志华,沈学华,陈兆乾.一种选择性神经网络集成构造方法[J].计算机研究与发展,2000,37(9):1039-1044. 被引量：27
8徐丹丹,陈松灿.基于客户端的个性化邮件再过滤系统[J].中国科学：信息科学,2018,48(12):1681-1696. 被引量：1
9左仁广.基于深度学习的深层次矿化信息挖掘与集成[J].矿物岩石地球化学通报,2019,38(1):53-60. 被引量：20
10马力,宫玉龙.文本情感分析研究综述[J].电子科技,2014,27(11):180-184. 被引量：20

引证文献13

1钱卓昊.数据驱动的属性值分类法及其在属性泛化中的应用[J].智能计算机与应用,2021,11(4):77-81.
2张喆,汤永利.基于集成学习的全云化健康大数据整合系统设计[J].现代电子技术,2020,43(22):173-176. 被引量：6
3熊学锋,彭小庆,曹鑫.基于改进ORM的Oracle数据库异构资源整合方法研究[J].电子设计工程,2020,28(21):38-41. 被引量：9
4高峡,吴涛,高月仁.云计算环境下电子政务大数据系统填补及分类算法[J].电子设计工程,2020,28(23):73-79. 被引量：4
5张慧,许大炜.基于集成学习的英文语义识别方法研究与实现[J].电子设计工程,2020,28(24):43-47.
6熊学锋,张涵,荣功立,宋凯,孔德诗.基于并行分类算法的电网输电量异常数据检测方法研究[J].电子设计工程,2020,28(24):91-94. 被引量：6
7陆兴华,黄浩瀚,邱纪涛,孙宜帆.基于压缩感知的异构网络数据动态重构算法[J].计算机技术与发展,2021,31(3):133-137.
8沈学利,秦鑫宇.密度Canopy的增强聚类与深度特征的KNN算法[J].计算机科学与探索,2021,15(7):1289-1301. 被引量：2
9陈昌娜,李昭桦.基于增量集成学习的动态自适应SDN入侵检测[J].计算技术与自动化,2021,40(3):177-183. 被引量：3
10段翔兮,张华,高艺文,孙永超,胡蓉.基于kNN算法的电力系统设备隐患在线识别方法研究[J].电气传动,2021,51(22):69-73. 被引量：8

二级引证文献42

1庄良源.云平台基础上的专利数据库设计[J].电子技术与软件工程,2020(22):127-128.
2李海波,刘序,李屹.林业电子政务网站的信息分类方法[J].信息与电脑,2021,33(5):222-224.
3程江洲,何艳,鲍刚,潘飞.基于CK-means算法的用户用电负荷聚类分析[J].计算机仿真,2021,38(7):63-67. 被引量：4
4贺宗平,贺曦冉,秦新国.一种Python ORM框架性能测试分析方法研究[J].现代信息科技,2021,5(6):83-86. 被引量：4
5张健.云计算背景下大数据自动分类处理系统设计[J].电子测试,2021,32(16):72-73. 被引量：1
6仲亮.一种基于大数据的政务专业人员系统的数据治理研究[J].新一代信息技术,2021,4(15):29-34. 被引量：1
7葛听雨,应雨龙,王申华,张菲菲,李靖超.基于轴向积分双谱与灰色关联分类器的通信辐射源识别[J].上海电力大学学报,2022,38(1):82-88. 被引量：2
8花洁,李伟.基于人工神经网络的电网负荷数据分类方法[J].能源与环保,2022,44(2):264-269. 被引量：2
9童瀛,周宇,姚焕章,梁剑,薛虎.面向私有云的虚拟化网络密文数据防泄漏模型设计[J].西安工程大学学报,2022,36(1):129-135. 被引量：3
10张骞.面向电子数字文献保存的元数据存储系统设计[J].电子设计工程,2022,30(7):26-29. 被引量：1

1白梅娟,肖书忠,艾成伟,赵超,黄远,侯帅,黄伟建.基于GA的负相关剪切集成不平衡行为分类研究[J].河北工程大学学报（自然科学版）,2019,36(1):103-107.
2余传明,王峰,安璐.基于深度学习的领域知识对齐模型研究:知识图谱视角[J].情报学报,2019,38(6):641-654. 被引量：14
3胡海根,孔祥勇,周乾伟,管秋,陈胜勇.基于深层卷积残差网络集成的黑色素瘤分类方法[J].计算机科学,2019,46(5):247-253. 被引量：8
4罗党,刘敏.灰色异构数据信息下的随机多准则决策方法[J].控制与决策,2018,33(12):2227-2233. 被引量：3
5白祎花.大数据网络用户隐私信息自适应加密设计实现路径[J].自动化技术与应用,2019,38(5):48-50.
6安学宏.DR组织均衡技术在胸腰段椎体摄影中的应用[J].人人健康,2019(10):269-270.
7汪彦.基于视觉传达特征的艺术品颜色分拣方法优化[J].兰州工业学院学报,2019,26(3):73-77. 被引量：2
8HAN Yan,XU Shao-yuan,DONG Yan-shou.An Improvement in Ordered Cone b-metric Spaces Over Banach Algebras[J].Chinese Quarterly Journal of Mathematics,2019,34(1):43-51.
9Hejun Wang,Niufa Fang,Jiazu Zhou.Continuity of the solution to the even logarithmic Minkowski problem in the plane[J].Science China Mathematics,2019,62(7):1419-1428. 被引量：3
10张殿伦,肖爽,张友文,崔宏宇.基于稀疏时变水声信道的判决反馈均衡算法[J].哈尔滨工程大学学报,2019,40(5):892-898. 被引量：5

智能系统学报

2019年第4期

浏览历史

内容加载中请稍等...

基于异构距离的集成分类算法研究被引量：13

参考文献3

二级参考文献9

共引文献80

同被引文献158

引证文献13

二级引证文献42

相关作者

相关机构

相关主题

浏览历史

基于异构距离的集成分类算法研究 被引量：13

参考文献3

二级参考文献9

共引文献80

同被引文献158

引证文献13

二级引证文献42

相关作者

相关机构

相关主题

浏览历史

基于异构距离的集成分类算法研究被引量：13