基于不一致近邻的模糊粗糙集特征选择

Fuzzy Rough Set Feature Selection Based on Inconsistent Nearest Neighbors

下载PDF

导出

摘要模糊粗糙集可突破经典粗糙集仅能处理离散数据的局限,有效对连续型数值进行特征选择。然而,模糊粗糙集以对象为中心计算,时间复杂度高,难以处理高维和大规模数据。为此,基于水平截集提出一种不一致近邻加速策略。该策略跟踪论域中每个对象的模糊近邻集,持续删减其中不影响计算的近邻,若对象的不一致近邻删减至空,则删减该对象,从而提高算法效率。同时,设计一种基于不一致近邻递减的属性重要度,可有效抑制冗余特征入选,提升效率及分类精度。通过理论证明,所提的加速策略及属性重要度不影响属性入选的次序。在此基础上,提出新的模糊粗糙集特征选择算法。在9个UCI和scikit数据集上进行验证,实验结果表明,该算法不仅有效缩短运行时间,并可取得较高的分类精度,相比FA-FSCE、AVDP和IV-FS-FRS-2算法,运行时间至少可缩短9.44%,尤其在高维和大规模数据上可缩短61.01%~99.54%,在支持向量机和K-近邻算法的分类精度上最高可分别提高11.20%和19.95%。 Fuzzy rough sets can break the limitation of classical rough sets that can only handle discrete data,effectively selecting features for continuous numerical values.However,they are object-centered and have high time complexity,rendering the handling of high-dimensional and large-scale data difficult.An inconsistent nearest neighbor acceleration strategy is proposed based on the horizontal cut set.This strategy tracks the fuzzy nearest neighbor set of each object in the domain,continuously pruning the nearest neighbors that do not affect the calculation.The object is pruned if the inconsistent nearest neighbors of the object are completely pruned,improving algorithm efficiency.At the same time,designing an attribute importance reduction based on inconsistent nearest neighbors can effectively suppress redundant feature selection,improving efficiency and classification accuracy.The proposed acceleration strategy and attribute importance do not affect the attribute selection's order.On this basis,a new fuzzy rough set feature selection algorithm is proposed.The experimental results on 9 UCI and scikit datasets show that the algorithm not only effectively reducing runtime but also achieving high classification accuracy.Compared with the FA-FSCE,AVDP,and IV-FS-FRS-2 algorithms,the running time of this algorithm can be reduced by at least 9.44%,especially on high-dimensional and large-scale datasets by 61.01%to 99.54%.The classification accuracy of Support Vector Machine(SVM)and K-Nearest Neighbor(KNN)can be improved by up to 11.20%and 19.95%,respectively.

作者赵洁叶文浩梁周扬陈建新董振宁 ZHAO Jie;YE Wenhao;LIANG Zhouyang;CHEN Jianxin;DONG Zhenning(School of Management,Guangdong University of Technology,Guangzhou 510520,Guangdong,China)

机构地区广东工业大学管理学院

出处《计算机工程》 CSCD 北大核心 2024年第1期110-119,共10页 Computer Engineering

基金国家自然科学基金(71871069,72271063)。

关键词模糊粗糙集特征选择水平截集不一致近邻属性重要度 fuzzy rough set feature selection level-set inconsistent nearest neighbors significance of attributes

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献5

1孙秉珍,巩增泰,焦永兰.基于模糊集截集的模糊粗糙集模型[J].计算机工程与应用,2009,45(8):47-49. 被引量：3
2李抒音,刘洋.权重模糊粗糙集的分类规则挖掘算法[J].计算机工程,2019,45(9):211-215. 被引量：5
3汪丽丽,邓丽,余玥,费敏锐.基于Spark的肿瘤基因混合特征选择方法[J].计算机工程,2018,44(11):1-6. 被引量：3
4陈良臣,高曙,刘宝旭,陶明峰.网络流量异常检测中的维数约简研究[J].计算机工程,2020,46(2):11-20. 被引量：15
5梁吉业,钱宇华,李德玉,胡清华.面向大数据的粒计算理论与方法研究进展[J].大数据,2016,2(4):13-23. 被引量：15

二级参考文献27

1应伟,王正欧,安金龙.一种基于改进的支持向量机的多类文本分类方法[J].计算机工程,2006,32(16):74-76. 被引量：28
2吴从忻马明.模糊分析学基础[M].北京：国防工业出版社,1991..
3Zadeh L A.Fuzzy sets[J].Information and Control, 1965,8 : 338-353.
4Pawlak Z.Rough sets[J].Intemational Journal of Computer and Information Sciences, 1982,11:341-356.
5刘应明,何家儒.模糊数学基础[M].成都:四川教育出版社,1992.
6曾黄麟.粗糙集理论及其应用[M].重庆：重庆大学出版社,1998..
7李建更,高志坤.随机森林:一种重要的肿瘤特征基因选择法[J].生物物理学报,2009,25(1):51-56. 被引量：15
8吴伟志.基于包含度的粗糙集模型[J].浙江海洋学院学报（自然科学版）,2000,19(4):311-315. 被引量：5
9汤健,孙春来,毛克峰,贾美英.基于主元分析和互信息维数约简策略的网络入侵异常检测[J].信息网络安全,2015(9):78-83. 被引量：7
10张清华,薛玉斌,王国胤.粗糙集的最优近似集[J].软件学报,2016,27(2):295-308. 被引量：32

共引文献36

1李发光,张振良,李早荣.环中模糊理想决定的模糊同余关系的性质[J].中国新技术新产品,2010(17):236-236.
2万明秀,叶安珊.基于粒计算的大数据处理技术探析[J].无线互联科技,2018,15(1):75-76. 被引量：4
3岳兆新,廖亨利,陈彬彬.粒理论及其应用于水利大数据分析的展望[J].水利信息化,2018(1):18-22.
4李晨阳.大数据环境下人工智能计算技术[J].电子技术与软件工程,2018,0(11):180-181. 被引量：3
5赵兹.信息不确定性的几种处理方法[J].山东工业技术,2018(13):201-201.
6张先韬.属性排序的粗糙集和统计方法研究[J].重庆理工大学学报（自然科学）,2018,32(9):163-169.
7许灿.基于粒计算的大数据处理研究[J].信息与电脑,2018,30(19):156-157. 被引量：2
8王开丽,张克生.面向FPGA云加速的粒计算研究现状[J].信息与电脑,2018,30(3):1-2.
9陈丽芳,代琪,付其峰.基于粒计算的极限学习机模型设计与应用[J].计算机科学,2018,45(10):59-63. 被引量：7
10陈丽芳,代琪,付其峰.基于模糊商空间的属性权重确定算法研究与实现[J].华北理工大学学报（自然科学版）,2019,41(4):109-116.

1张义宗,王磊,徐阳,王诚彪.一种序决策信息系统中的快速属性约简算法[J].成都理工大学学报（自然科学版）,2023,50(6):767-774.
2王雪,王立德,王彪,许书娴,王冲.基于系统调用序列的车载主机设备入侵检测方法研究[J].机车电传动,2023(6):106-113. 被引量：1

计算机工程

2024年第1期

浏览历史

内容加载中请稍等...

基于不一致近邻的模糊粗糙集特征选择

参考文献5

二级参考文献27

共引文献36

相关作者

相关机构

相关主题

浏览历史