不平衡数据集上的Relief特征选择算法被引量：15

Relief Feature Selection Algorithm on Unbalanced Datasets

下载PDF

导出

摘要 Relief算法为系列特征选择方法,包括最早提出的Relief算法和后来拓展的ReliefF算法,核心思想是对分类贡献大的特征赋予较大的权值;特点是算法简单,运行效率高,因此有着广泛的应用。但直接将Relief算法应用于有干扰的数据集或不平衡数据集,效果并不理想。基于Relief算法,提出一种干扰数据特征选择算法,称为阈值-Relief算法,有效消除了干扰数据对分类结果的影响。结合K-means算法,提出两种不平衡数据集特征选择算法,分别称为K-means-ReliefF算法和K-means-Relief抽样算法,有效弥补了Relief算法在不平衡数据集上表现出的不足。实验证明了本文算法的有效性。 Relief algorithm is a series of feature selection method. It includes the basic principle of Relief algorithm and its later extensions reliefF algotithm. Its core concept is to weight more on features that have essential contributions to classification. Relief algorithm is simple and efficient, thus being widely used. However, algorithm performance is not satisfied when applying the algorithm to noisy and unbal- anced datasets. In this paper, based on the Relief algorithm, a feature selection method is proposed, called threshold-Relief algorithm, which eliminates the influence of noisy data on classification results. Combining with the K-means algorithm, two unbalanced datasets feature selection methods are pro- posed, called K-means-ReliefF algorithm and K-means-relief sampling algorithm, respectively, which can compensate for the poor performance of Relief algorithm in unbalanced datasets. Experiments show the effectiveness of the proposed algorithms.

作者菅小艳韩素青崔彩霞

机构地区太原师范学院计算机系

出处《数据采集与处理》 CSCD 北大核心 2016年第4期838-844,共7页 Journal of Data Acquisition and Processing

基金国家自然科学基金(61273294)资助项目山西省科技基础条件平台(2014091004-0104)资助项目

关键词特征选择 RELIEF算法 RELIEFF算法不平衡数据集 feature selection Relief algorithm ReliefF algorithm unbalanced datasets

分类号 TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献5

1林舒杨,李翠华,江弋,林琛,邹权.不平衡数据的降采样方法研究[J].计算机研究与发展,2011,48(S3):47-53. 被引量：31
2钱宇华,梁吉业,王锋.面向非完备决策表的正向近似特征选择加速算法[J].计算机学报,2011,34(3):435-442. 被引量：26
3刘全金,赵志敏,李颖新.基于特征间距的二次规划特征选取算法[J].数据采集与处理,2015,30(1):126-136. 被引量：3
4黄莉莉,汤进,孙登第,罗斌.基于多标签ReliefF的特征选择算法[J].计算机应用,2012,32(10):2888-2890. 被引量：37
5李嘉,黄程韦,余华.语音情感的维度特征提取与识别[J].数据采集与处理,2012,27(3):389-393. 被引量：8

二级参考文献50

1李颖新,阮晓钢.基于基因表达谱的肿瘤亚型识别与分类特征基因选取研究[J].电子学报,2005,33(4):651-655. 被引量：18
2黄兵,周献中,张蓉蓉.基于信息量的不完备信息系统属性约简[J].系统工程理论与实践,2005,25(4):55-60. 被引量：41
3徐章艳,刘作鹏,杨炳儒,宋威.一个复杂度为max（O（｜C｜｜U｜），O（｜C^2｜U／C｜））的快速属性约简算法[J].计算机学报,2006,29(3):391-399. 被引量：234
4刘胥影,吴建鑫,周志华.一种基于级联模型的类别不平衡数据分类方法[J].南京大学学报（自然科学版）,2006,42(2):148-155. 被引量：23
5韩素青,王珏.Second Attribute Algorithm Based on Tree Expression[J].Journal of Computer Science & Technology,2006,21(3):383-392. 被引量：3
6杨明.一种基于改进差别矩阵的属性约简增量式更新算法[J].计算机学报,2007,30(5):815-822. 被引量：112
7张道强陈松灿.高维数据降维方法.中国计算机学会通讯,2009,5(8):15-22.
8Barbara A, Spellman D, Willingham T. Current di-rections in cognitive science [M]. Beijing: Beijing Normal University Press, 2007: 1-5.
9Picard R W. Affective Computing [M]. Cambridge: MIT Press, 1997.
10Tolkmitt F J, Scherer K R. Effect of experimentally induced stress on vocal parameters [J]. J Exp Psy- chol: Human Percept Perform, 1986, 12 (3): 302- 313.

共引文献99

1梁吉业,李超伟,魏巍.基于Rough Sets的特征选择研究进展[J].山西大学学报（自然科学版）,2012,35(2):211-218. 被引量：2
2杨习贝,颜成,陈才,於东军.多粒度空间中的粗糙隶属度与知识粒度[J].淮阴工学院学报,2012,21(3):1-5.
3黄莉莉,汤进,孙登第,罗斌.基于多标签ReliefF的特征选择算法[J].计算机应用,2012,32(10):2888-2890. 被引量：37
4杨习贝,黄佳玲,周君仪,杨静宇.不完备系统中基于特征相容块的粗糙集[J].山东大学学报（工学版）,2012,42(5):1-6. 被引量：2
5杨习贝,宋晓宁,张明,杨静宇.粗糙集理论中基于依赖空间的分布约简[J].系统工程与电子技术,2012,34(11):2318-2322.
6纪霞,李龙澍,齐平.基于属性分辨度的不完备决策表属性约简算法[J].华南理工大学学报（自然科学版）,2013,41(1):83-88. 被引量：3
7郭丽娟,倪子伟,江弋,邹权.集成降采样不平衡数据分类方法研究[J].计算机科学与探索,2013,7(7):630-638. 被引量：3
8张伟,徐章艳,王晓宇.一种结合概率启发信息和知识粒度的属性约简算法[J].计算机应用与软件,2013,30(7):43-45. 被引量：3
9丁福利,孙立民.基于支持向量机的不平衡样本分类研究[J].科学技术与工程,2014,22(3):81-85. 被引量：7
10钟巍,孔祥维,尤新刚,王波.基于分数倒谱变换的取证语音拼接特征提取与分析[J].数据采集与处理,2014,29(2):248-253. 被引量：6

同被引文献149

1吴昊,张杭.基于高阶累积量与神经网络的干扰识别算法[J].军事通信技术,2008,29(1):67-71. 被引量：11
2林舒杨,李翠华,江弋,林琛,邹权.不平衡数据的降采样方法研究[J].计算机研究与发展,2011,48(S3):47-53. 被引量：31
3蒋盛益,谢照青,余雯.基于代价敏感的朴素贝叶斯不平衡数据分类研究[J].计算机研究与发展,2011,48(S1):387-390. 被引量：21
4黄京华.丛生竹黄酮类化合物的分析研究及其在分类上的应用[J].竹子研究汇刊,1993,12(1):18-28. 被引量：17
5丁雨龙,赵奇僧,陈志银,汪全胜.竹叶结构的比较解剖及其对系统分类意义的评价[J].南京林业大学学报（自然科学版）,1994,18(3):1-6. 被引量：33
6胡成华,喻富根,陈玲.竹果胚体类型及其系统分类[J].云南植物研究,1994,16(4):367-372. 被引量：5
7张汉尧,刘小珍,孙茂胜,杨宇明.竹子形态标记聚类分析研究[J].竹子研究汇刊,2005,24(1):25-28. 被引量：5
8耿伯介,温太辉.试论竹类植物营养体分类[J].竹子研究汇刊,1989,8(2):17-29. 被引量：9
9马银晓,姚敏.支持向量机在植物分类中的应用[J].科技通报,2007,23(3):404-407. 被引量：4
10蒋琳,彭黎.基于支持向量机的特征提取方法研究与应用[J].计算机工程与应用,2007,43(20):210-213. 被引量：10

引证文献15

1程凤伟,王文剑,张珍珍.面向高维小样本数据的层次子空间ReliefF特征选择算法[J].南京大学学报（自然科学版）,2023,59(6):928-936.
2李欣,许高建,李绍稳.一种优化的SVM竹类属种识别方法[J].重庆科技学院学报（自然科学版）,2017,19(5):98-101. 被引量：4
3闫瑞姣,尹四清.选择性神经网络集成的微博用户信用评估模型[J].计算机工程与设计,2018,39(5):1478-1483. 被引量：6
4戴建国,张国顺,郭鹏,曾窕俊,崔美娜,薛金利.基于无人机遥感可见光影像的北疆主要农作物分类方法[J].农业工程学报,2018,34(18):122-129. 被引量：65
5胥威汀,刘俊勇,唐权,邱高,王云玲,杨新婷,李奥.含风电系统断面TTC运行规则的极限学习机提取方法[J].电力系统保护与控制,2018,46(23):135-142. 被引量：4
6陈赓,田波,宫健,冯存前.雷达有源干扰鉴别技术综述[J].现代防御技术,2019,47(5):113-119. 被引量：7
7徐玲玲,迟冬祥.面向不平衡数据集的机器学习分类策略[J].计算机工程与应用,2020,56(24):12-27. 被引量：60
8杨晶东,孟一飞,荀镕基,余少卿.集成学习机制下的鼻炎辅助诊断模型[J].数据采集与处理,2021,36(4):684-696. 被引量：1
9石宇强,董学文,陈柏志.改进ReliefF算法在水泥工艺故障诊断中的应用[J].机械设计,2022,39(2):40-45. 被引量：1
10程凤伟,常浩.面向非平衡数据的大间隔近邻Relief算法[J].山西大学学报（自然科学版）,2022,45(4):1014-1022. 被引量：1

二级引证文献155

1张楠楠,张晓,白铁成,袁新涛,马瑞,李莉.基于无人机可见光影像的新疆棉田田间尺度地物识别[J].农业机械学报,2023,54(S02):199-205. 被引量：1
2杨蜀秦,王鹏飞,王帅,唐云松,宁纪锋,奚亚军.基于MHSA+DeepLab v3+的无人机遥感影像小麦倒伏检测[J].农业机械学报,2022,53(8):213-219. 被引量：7
3唐燕雯.基于聚类算法的农用无人机远程监控系统研究[J].农机化研究,2020,42(9):222-227. 被引量：1
4程凤伟,王文剑,张珍珍.面向高维小样本数据的层次子空间ReliefF特征选择算法[J].南京大学学报（自然科学版）,2023,59(6):928-936.
5瞿伟廉,陈朝晖,徐幼麟.被动及半主动摩擦阻尼器对合肥翡翠电视塔地震反应的控制[J].地震工程与工程振动,2000,20(2):101-106. 被引量：7
6于凤军.x^3振荡器及其周期[J].工科物理,2000,10(4):20-21.
7岳想想,李绍稳.基于PCA-IAGNES的竹材分类模型研究[J].洛阳理工学院学报（自然科学版）,2018,28(2):67-70. 被引量：1
8朱秀芳,李石波,肖国峰.基于无人机遥感影像的覆膜农田面积及分布提取方法[J].农业工程学报,2019,35(4):106-113. 被引量：28
9李龙,李旭青,吴伶,杨秀峰,孙鹏飞.基于决策树和神经网络的农作物分类研究——以廊坊市为例[J].红外,2019,40(3):24-31. 被引量：4
10黄登红,周忠发,吴跃,朱孟,尹林江,崔亮.基于无人机可见光影像的高原丘陵盆地区山药植株识别[J].热带地理,2019,39(4):571-582. 被引量：13

1范黎林,王士斌.不平衡数据集的决策树算法[J].河南师范大学学报（自然科学版）,2013,41(2):154-157.
2曾庆鹏,吴水秀,王明文.模式识别中的特征提取研究[J].微计算机信息,2008,24(1):220-221. 被引量：20
3罗涛,戴逸松,赵晓明.数据测量中干扰数据的剔除与取代[J].数据采集与处理,1991,6(3):6-9. 被引量：4
4王和勇,樊泓坤,姚正安,李成安.不平衡数据集的分类方法研究[J].计算机应用研究,2008,25(5):1301-1303. 被引量：24
5杨志伟,努尔布力,贾雪,胡亮.基于ReliefF的入侵特征选择方法[J].吉林大学学报（理学版）,2015,53(3):505-510. 被引量：5
6阿里木.赛买提,哈力木拉提.买买提,艾尔肯.赛甫丁,吐尔根.依不拉因.改进的ReliefF算法在哈萨克斯拉夫文识别中的应用[J].计算机工程与设计,2017,38(2):453-459. 被引量：1
7邓宗武.reliefF算法在数据发布隐私保护中的应用研究[J].电脑知识与技术,2016,12(5X):1-2.
8孙全尚.不平衡数据集分类方法研究[J].科教文汇,2013(27):92-93. 被引量：3
9任克强,张国萍,赵光甫.基于相对文档频的平衡信息增益降维方法[J].江西理工大学学报,2008,29(5):68-71. 被引量：3
10张杰,张谦.小波分析在入侵检测中的应用[J].计算机安全,2009(3):33-34.

数据采集与处理

2016年第4期

浏览历史

内容加载中请稍等...

不平衡数据集上的Relief特征选择算法被引量：15

参考文献5

二级参考文献50

共引文献99

同被引文献149

引证文献15

二级引证文献155

相关作者

相关机构

相关主题

浏览历史

不平衡数据集上的Relief特征选择算法 被引量：15

参考文献5

二级参考文献50

共引文献99

同被引文献149

引证文献15

二级引证文献155

相关作者

相关机构

相关主题

浏览历史

不平衡数据集上的Relief特征选择算法被引量：15