基于遗传实例和特征选择的K近邻训练集优化方法被引量：4

K-Nearest Neighbor Classification Training Set Optimization Method Based on Genetic Instance and Feature Selection

下载PDF

导出

摘要 K近邻的分类性能依赖于训练集的质量。设计高效的训练集优化算法具有重要意义。针对传统的进化训练集优化算法效率较低、误删率较高的不足,提出了一种遗传训练集优化算法。该算法采用基于最大汉明距离的高效遗传算法,每次交叉保留父代并生成两个新的具有最大汉明距离的子代,既提高了效率,又保证了种群多样性。该算法将局部的噪声样本删除策略与特征选择策略相结合。首先使用决策树算法确定噪声样本存在的范围,然后使用遗传算法精准删除此范围内的噪声样本和全局的噪声特征,降低了误删率,提高了效率。该算法采用基于最近邻规则的验证集选择策略,进一步提高了遗传算法实例选择和特征选择的准确度。在15个标准数据集上,该方法相较于协同进化实例特征选择算法IFS-CoCo、加权协同进化实例特征选择算法CIW-NN、进化特征选择算法EIS-RFS、进化实例选择算法PS-NN、K近邻算法KNN,在分类精度上分别平均提升了2.18%,2.06%,5.61%,4.06%和4.00%。实验结果表明,所提方法的分类精度和优化效率优于当前的进化训练集优化算法。 The classification performance of K-Nearest Neighbor depends on the quality of training set.It is significant to design an efficient training set optimization algorithm.Two major drawbacks of traditional evolutionary training set optimization algorithm are low efficiency and removing the non-noise samples and features by mistake.To address these issues,this paper proposes a genetic training set optimization algorithm.The algorithm uses the efficient genetic algorithm based on the maximum Hamming distance.Each cross preserves the parent and generates two new children with the largest Hamming distance,which not only improves the efficiency but also ensures the population diversity.In the proposed algorithm,the local noise sample deletion strategy is combined with the feature selection strategy.Firstly,the decision tree is used to determine the range of noise samples.Then the genetic algorithm is used to remove the noise samples in this range and select the features simultaneously.It reduces the risk of mistaken and improves the efficiency.At last,the 1NN-based selection strategy of validation set is used to improve the instance and feature selection accuracy of the genetic algorithm.Compared with co-evolutionary instance feature selection algorithm(IFS-CoCo),weighted co-evolutionary instance feature selection algorithm(CIW-NN),evolutionary feature selection algorithm(EIS-RFS,evolutionary instance selection algorithm(PS-NN)and traditional KNN,the average improvement of the proposed algorithm in classification accuracy is 2.18%,2.06%,5.61%,4.06%,4.00%,respectively.The experiments results suggest that the proposed method has higher classification accuracy and optimization efficiency.

作者董明刚黄宇扬敬超 DONG Ming-gang;HUANG Yu-yang;JING Chao(College of Information Science and Engineering,Guilin University of Technology,Guilin,Guangxi 541004,China;Guangxi Key Laboratory of Embedded Technology and Intelligent System,Guilin,Guangxi 541004,China)

机构地区桂林理工大学信息科学与工程学院广西嵌入式技术与智能系统重点实验室

出处《计算机科学》 CSCD 北大核心 2020年第8期178-184,共7页 Computer Science

基金国家自然科学基金(61563012,61802085,61203109) 广西自然科学基金(2014GXNSFAA118371,2015GXNSFBA139260) 广西嵌入式技术与智能系统重点实验室基金(2018A-04)。

关键词遗传算法 K近邻实例选择特征选择噪声样本决策树 Genetic algorithm K-nearest neighbor Instance selection Feature selection Noise sample Decision tree

分类号 TP181 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献3

1黄宇扬,董明刚,敬超.面向K最近邻分类的遗传实例选择算法[J].计算机应用,2018,38(11):3112-3118. 被引量：7
2王颖,杨余旺.基于堆和邻域共存信息的KNN相似图算法[J].计算机科学,2018,45(5):196-200. 被引量：1
3冯贵兰,周文刚.基于Spark平台的并行KNN异常检测算法[J].计算机科学,2018,45(B11):349-352. 被引量：9

二级参考文献9

1张雪萍,龚康莉,赵广才.基于MapReduce的K-Medoids并行算法[J].计算机应用,2013,33(4):1023-1025. 被引量：33
2郭一鹏,梁吉业,赵兴旺.基于MapReduce的混合数据孤立点检测算法[J].小型微型计算机系统,2014,35(9):1961-1966. 被引量：3
3陈运文,吴飞,吴庐山,刘博.基于异常检测的时间序列研究[J].计算机技术与发展,2015,25(4):166-170. 被引量：14
4马闯,吴涛,段梦雅.基于K近邻隶属度的聚类算法研究[J].计算机工程与应用,2016,52(10):55-58. 被引量：10
5苟杰,马自堂,张喆程.PODKNN:面向大数据集的并行离群点检测算法[J].计算机科学,2016,43(7):251-254. 被引量：7
6古凌岚,彭利民.基于相对密度和流形上k近邻的聚类算法[J].计算机科学,2016,43(12):213-217. 被引量：2
7邹云峰,张昕,宋世渊,倪巍伟.基于局部密度的快速离群点检测算法[J].计算机应用,2017,37(10):2932-2937. 被引量：26
8冯立伟,张成,李元,谢彦红.基于统计模量和局部近邻标准化的局部离群因子故障检测方法[J].计算机应用,2018,38(4):965-970. 被引量：10
9Muhammad Arif,Muhammad Usman Akram,Fayyaz-ul-Afsar Amir Minhas.Pruned fuzzy K-nearest neighbor classifier for beat classification[J].Journal of Biomedical Science and Engineering,2010,3(4):380-389. 被引量：2

共引文献14

1王竹泉,路万忠.应收账款分析评价的方法及指标体系[J].经济管理,2000,26(4):31-32. 被引量：2
2张钊,陈向东.B/S+C/S架构和KNN算法的远程体温监护系统[J].单片机与嵌入式系统应用,2019,19(7):32-35. 被引量：6
3王兴达,刘雪峰.Spark平台在单光子成像测量矩阵生成与评估中的应用[J].计算机应用与软件,2019,36(8):55-59.
4张伯麟,刘荣海,郑欣,杨迎春,陈磊,万书亭.X射线图像三维重建的自标定优化算法[J].计算机工程与科学,2019,41(8):1474-1481. 被引量：4
5孙元元,张德生,张晓.基于CURE聚类算法改进的原型选择算法[J].计算机系统应用,2019,28(8):162-169. 被引量：2
6刘依菲,郭红月,刘晓东.基于样本选择的二型AFS分类方法研究[J].南京理工大学学报,2019,43(4):402-407. 被引量：1
7杨立月,王移芝.Spark在集成学习文本情感分析中的应用[J].计算机应用与软件,2020,37(6):130-134. 被引量：3
8刘昊,常颖,邢岩.基于生态系统神经网络的入侵检测算法[J].指挥控制与仿真,2020,42(4):45-50. 被引量：1
9钟彩,彭春富,杜微,杨兴耀.一种图像分类识别算法的研究[J].电子技术与软件工程,2020(18):130-131.
10王菽裕,宋俊芳,王蒙,吴思,关琛夕.基于参考人脸表情的多特征融合表情识别算法[J].现代电子技术,2021,44(7):77-81. 被引量：2

同被引文献28

1陈志贤.垃圾邮件过滤技术研究综述[J].计算机应用研究,2009,26(5):1612-1615. 被引量：13
2闭小梅,闭瑞华.KNN算法综述[J].科技创新导报,2009,6(14):31-31. 被引量：36
3廖阔,付建胜,杨万麟.改进的ReliefF算法用于雷达距离像目标识别[J].电子测量与仪器学报,2010,24(9):831-836. 被引量：13
4翟军昌,秦玉平,车伟伟.垃圾邮件过滤中信息增益的改进研究[J].计算机科学,2014,41(6):214-216. 被引量：8
5王青松,魏如玉.基于短语的贝叶斯中文垃圾邮件过滤方法[J].计算机科学,2016,43(4):256-259. 被引量：10
6崔鸿雁,徐帅,张利锋,Roy E.Welsch,Berthold K.P.Horn.机器学习中的特征选择方法研究及展望[J].北京邮电大学学报,2018,41(1):1-12. 被引量：44
7窦小凡.KNN算法综述[J].通讯世界,2018,25(10):273-274. 被引量：27
8胡盛寿,高润霖,刘力生,朱曼璐,王文,王拥军,吴兆苏,李惠君,顾东风,杨跃进,郑哲,陈伟伟,代表中国心血管病报告编写组.《中国心血管病报告2018》概要[J].中国循环杂志,2019,34(3):209-220. 被引量：3416
9黄飞腾,郝红光,陈维娜,孙佳艺,史文韬,张璐野,王子夫.基于动态特征的电子签名笔迹分类识别研究[J].现代计算机,2020,26(7):84-88. 被引量：5
10谢娟英,郑清泉,吉新媛.F-score结合核极限学习机的集成特征选择算法[J].陕西师范大学学报（自然科学版）,2020,48(2):1-8. 被引量：9

引证文献4

1李永红,汪盈,李腊全,赵志强.一种改进的特征选择算法在邮件过滤中的应用[J].计算机科学,2022,49(S02):740-744. 被引量：4
2谭静仪,蔡灿,林爱华,董雪.基于KNN算法的冠心病分类预测[J].现代养生,2022,22(12):1026-1028.
3秦文科.改进遗传算法在结构损伤诊断中的应用研究[J].工程技术研究,2022,7(14):13-15. 被引量：1
4葛倩,张光斌,张小凤.基于最大信息系数的ReliefF和支持向量机交互的自动特征选择算法[J].计算机应用,2022,42(10):3046-3053. 被引量：4

二级引证文献9

1赵蒙韩,曹建农,张郁佳.基于特征异质性优选的面向对象建筑物提取[J].遥感信息,2023,38(4):66-72. 被引量：2
2白明辉,袁绍军.基于机器学习的分布式发电并网保护研究[J].微型电脑应用,2023,39(12):73-76.
3冯健文,林璇.基于词义特性的电子邮件敏感信息过滤仿真[J].计算机仿真,2023,40(10):210-213.
4王宇,邵丹,赵雪莲,李媛媛.基于类别的混合式特征选择方法在文本分类中的研究[J].长江信息通信,2023,36(12):38-41. 被引量：2
5钟静,方冰,朱江.基于稀疏矩阵结构的特征选择算法现状研究[J].信息网络安全,2024(3):352-362.
6林小题,秦玉海,于昕彤.基于BERT的垃圾邮件分类的同义词替换攻击研究[J].网络安全技术与应用,2024(4):45-48.
7余秋宏.改进遗传算法在计算机数学建模中的应用[J].信息系统工程,2024(9):59-62.
8朱瑞,张丽杰.多指纹融合和区域细化的WiFi室内定位方法[J].导航定位学报,2024,12(5):62-69.
9赵锦芳.简述特征选择[J].应用数学进展,2023,12(3):1188-1194. 被引量：1

1方佳良,李智,查伟强,翁秉宇,李世春,唐红艳,雷小林.基于预测的含大量光伏电源主动配电网孤网运行两阶段故障恢复策略[J].智慧电力,2018,46(11):47-52. 被引量：9
2王维嘉,孙亚运,孙洪亮,范强.基于多目标优化技术的多源异构数据分类研究[J].计算机与数字工程,2020,48(1):130-136. 被引量：9
3宋颖丽,白会肖,郭献崇.ZFDk码的构作及应用[J].数学的实践与认识,2020,50(12):266-270.
4李晓娜,张斌.二元叠加码M(i:d,k,n)的检纠错性质[J].数学的实践与认识,2020,50(11):309-313. 被引量：1
5张永,刘浩科,张洁.基于类属特征和实例相关性的多标签分类算法[J].模式识别与人工智能,2020,33(5):439-448. 被引量：12
6朱珍珍,王泽楷,施泽凯.钢水“脱氧合金化”配料方案的优化[J].信息记录材料,2020,21(6):35-36.
7范一鸣.住房流动、父代资助与青年群体的阶层分化——基于北上广青年群体的实证分析[J].中国青年研究,2020(8):43-50. 被引量：5
8毕凤荣,黄宇,张立鹏,沈鹏飞,吕大立.基于区间灰数理论的汽车声品质主观评价方法研究[J].汽车工程,2020,42(7):933-940. 被引量：5
9郑林,祝令伟,纪雪,关佳瑶,景洁,王莹,梁冰,陈萍,郭学军.广东省候鸟副溶血性弧菌的分离与鉴定[J].中国兽医学报,2020,40(6):1162-1169.
10秦玉成.全钢智能硫化机的开发与应用[J].科技经济市场,2020(6):1-3. 被引量：1

计算机科学

2020年第8期

浏览历史

内容加载中请稍等...

基于遗传实例和特征选择的K近邻训练集优化方法被引量：4

参考文献3

二级参考文献9

共引文献14

同被引文献28

引证文献4

二级引证文献9

相关作者

相关机构

相关主题

浏览历史

基于遗传实例和特征选择的K近邻训练集优化方法 被引量：4

参考文献3

二级参考文献9

共引文献14

同被引文献28

引证文献4

二级引证文献9

相关作者

相关机构

相关主题

浏览历史

基于遗传实例和特征选择的K近邻训练集优化方法被引量：4