基于正区域和投票式属性重要度的特征提取算法

A feature extraction algorithm based on positive region and voting attribute importance

下载PDF

导出

摘要高维数据集中的不相关或冗余信息导致特征提取计算复杂度较高的问题,已成为研究者关注的热点。邻域粗糙集模型具有通过删除大规模数据中的冗余信息来提高计算效率方面的优势,为进一步提升现有邻域粗糙集模型在处理连续型高维数据库的特征提取过程中的计算效率,提出一种基于正区域和投票式属性重要度的特征提取算法。该算法首先依据属性约简前后正区域不变的性质,以及属性约简与正区域内决策划分类的类内归并和类间区分之间的本质联系,改进了投票式属性重要度计算办法;然后从域间区分、类间区分以及类内区分三个方面,融入属性粒度阈值来评估条件属性重要度,以此减少不同分布密度的条件属性给投票结果带来的距离影响;最后,通过一次性投票的方式给出所有的条件属性重要度,将条件属性重要度计算从k维降至1维,以此降低计算的复杂度。实验分析验证了新提出的算法对于提高属性重要度计算效率效果显著,在实验的7个UCI测试数据集上的分类精度以及运行时间等方面表现良好。 Irrelevant or redundant information in high-dimensional data sets leads to high computational complexity of feature extraction,which has become the research hotspot.The neighborhood rough set model has the advantage of improving computational efficiency by deleting redundant information in largescale data.In order to further improve the computational efficiency of existing neighborhood rough set models in feature extraction of continuous high-dimensional databases,we propose a feature extraction algorithm based on positive region and voting attribute importance.Firstly,since the positive region stays invariable before and after attribute reduction,and the intra-class merging and inter-class differentiation of decision-making classes in positive region is essentially related to the attribute reduction,the algorithm improves the voting attribute importance calculation method,and then incorporates an attribute granularity threshold to evaluate the importance of conditional attributes from three aspects:inter-domain differentiation,inter-class differentiation and intra-class differentiation.Thus,the distance influence of conditional attributes with different distribution densities on voting results is reduced.Finally,the importance of all conditional attributes is provided by one-time voting,and the calculation of the importance of conditional attributes is reduced from k dimensions to one dimension,thus the complexity of the calculation is decreased.Experimental analysis shows that the proposed algorithm is effective in improving the efficiency of attribute importance calculation,and is superior to the existing algorithms in terms of classification accuracy and running time on seven UCI test data sets.

作者骆公志张尚蕾 LUO Gongzhi;ZHANG Shanglei(School of Management,Nanjing University of Posts and Telecommunications,Nanjing 210003,China)

机构地区南京邮电大学管理学院

出处《南京邮电大学学报（自然科学版）》北大核心 2024年第1期79-89,共11页 Journal of Nanjing University of Posts and Telecommunications：Natural Science Edition

基金国家自然科学基金(72171124) 江苏高校哲学社会科学研究重大项目(2021SJZDA129) 江苏省研究生科研创新计划(KYCX22-0884)资助项目。

关键词邻域粗糙集属性重要度正区域投票策略特征提取 neighborhood rough set attribute importance positive region voting strategy feature extraction

分类号 TP393 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献9

1汪力纯,刘水生.基于混合采样和特征选择的改进随机森林算法研究[J].南京邮电大学学报（自然科学版）,2022,42(1):81-89. 被引量：12
2余顺坤,闫泓序,杜诗悦,林依青.基于SC-RS的我国工业电力用户价值画像模型研究[J].中国管理科学,2022,30(3):106-116. 被引量：5
3唐鹏飞,张贤勇,莫智文.基于相对知识粒度的区间集决策信息表不确定性度量[J].南京理工大学学报,2023,47(1):117-125. 被引量：2
4彭潇然,刘遵仁,纪俊.基于样本类别的邻域粗糙集正域计算[J].计算机工程与应用,2018,54(20):115-121. 被引量：2
5王蓉,刘遵仁,纪俊.基于投票式属性重要度的快速属性约简算法[J].计算机科学,2018,45(7):197-201. 被引量：5
6李静,刘潇,王效俐.邻域粗糙集融合网格搜索组合分类器的理财决策知识获取研究[J].数据分析与知识发现,2019,3(1):85-94. 被引量：4
7王念,彭政红,崔莉.EasiFFRA:一种基于邻域粗糙集的属性快速约简算法[J].计算机研究与发展,2019,56(12):2578-2588. 被引量：7
8孙林,赵婧,徐久成,王欣雅.基于邻域粗糙集和帝王蝶优化的特征选择算法[J].计算机应用,2022,42(5):1355-1366. 被引量：5
9彭鹏,倪志伟,朱旭辉,夏平凡.基于改进二元萤火虫群优化算法和邻域粗糙集的属性约简方法[J].模式识别与人工智能,2020,33(2):95-105. 被引量：8

二级参考文献75

1冯建英,王博,吴丹丹,穆维松,田东.用户画像技术与其在农业领域应用研究进展[J].农业机械学报,2021,52(S01):385-395. 被引量：6
2张建华,刘仲英.知识获取与求精RS-GA策略[J].同济大学学报（自然科学版）,2004,32(6):822-826. 被引量：5
3胡清华,于达仁,谢宗霞.基于邻域粒化和粗糙逼近的数值属性约简[J].软件学报,2008,19(3):640-649. 被引量：288
4胡清华,赵辉,于达仁.基于邻域粗糙集的符号与数值属性快速约简算法[J].模式识别与人工智能,2008,21(6):732-738. 被引量：81
5刘勇,熊蓉,褚健.Hash快速属性约简算法[J].计算机学报,2009,32(8):1493-1499. 被引量：35
6谢邦彦.数据挖掘在理财产品营销中的应用——以CATI数据为例[J].统计与信息论坛,2009,24(10):91-96. 被引量：1
7赵冠华.基于邻域粗糙集属性约简的对偶约束式LS-SVM财务困境预测模型研究[J].运筹与管理,2011,20(3):132-139. 被引量：4
8陈昊,杨俊安,庄镇泉.变精度粗糙集的属性核和最小属性约简算法[J].计算机学报,2012,35(5):1011-1017. 被引量：68
9刘遵仁,吴耿锋.基于邻域粗糙模型的高维数据集快速约简算法[J].计算机科学,2012,39(10):268-271. 被引量：11
10陈玉明,吴克寿,谢荣生.基于相对知识粒度的决策表约简[J].山东大学学报（工学版）,2012,42(6):8-12. 被引量：9

共引文献40

1徐久成,孟祥茹,瞿康林,孙元豪,杨杰.基于模糊邻域相对依赖互信息的特征选择方法[J].模糊系统与数学,2023,37(1):121-135. 被引量：2
2林芷欣,刘遵仁,纪俊.基于Relief属性重要度的快速约简算法[J].青岛大学学报（自然科学版）,2019,32(3):8-13. 被引量：2
3肖淑梅,徐志仓,汪鹏程.合肥市农村地区理财产品营销影响因素的实证分析[J].巢湖学院学报,2020,22(2):32-40.
4李冬,蒋瑜,鲍杨婉莹.基于属性质量度的变精度邻域粗糙集属性约简[J].四川师范大学学报（自然科学版）,2020,43(4):560-568. 被引量：4
5林芷欣,刘遵仁,纪俊.基于k近邻属性重要度和相关系数的属性约简[J].计算机工程与设计,2020,41(9):2488-2494. 被引量：7
6谷甜甜,李德智,杨茜,蒋英.基于NRS-BP模型的商品住宅需求预测研究[J].工程管理学报,2020,34(5):154-158. 被引量：1
7孙林,赵婧,徐久成,薛占熬.基于改进帝王蝶优化算法的特征选择方法[J].模式识别与人工智能,2020,33(11):981-994. 被引量：11
8李法朝,任夜星,靳晨霞.基于双属性综合依赖度的属性约简方法研究[J].山西大学学报（自然科学版）,2020,43(4):795-802.
9苏强,侯校理,邹妮.基于机器学习组合优化方法的术后感染预测模型研究[J].数据分析与知识发现,2021,5(8):65-75. 被引量：3
10张清华,艾志华,张金镇.融合密度与邻域覆盖约简的分类方法[J].陕西师范大学学报（自然科学版）,2022,50(3):33-42.

1景治,张纯龙.基于经验模态分解和分类器集的滚动轴承故障诊断方法[J].工矿自动化,2023,49(S02):152-155.
2张欣蕊,万仁霞,岳晓冬,陈瑞典.基于测试代价的三支邻域属性约简算法[J].计算机应用研究,2024,41(3):836-841.
3朱凯,李凌霄,何宇楠.基于改进YOLOv8模型的PCB电路板缺陷检测方法研究[J].计算机科学与应用,2024,14(2):501-516.
4把推进中国式现代化作为最大的政治[J].新华文摘,2024(4):158-158.
5张建华,张淑唯,贺龙飞,李良辰.基于双维压缩与综合活性的案例知识进化研究[J].科技管理研究,2024,44(2):124-132.
6李艳芳,杜康,郑纪元,杭跃男.大概念视角下“生物与环境组成生态系统”一节复习课教学设计[J].生物学通报,2023,58(12):11-16.
7饶晗.中美欧生成式人工智能政策法规比较研究及启示[J].中阿科技论坛（中英文）,2024(3):157-162.
8张文竹,卜云,张俊,吴磊.服务语音智能质检系统设计与应用[J].电声技术,2023,47(11):93-96.
9刘星星,刘泽林,邓沛琦,杨青,汪金美,纪柯柯.基于SA-Apriori的道路事故风险评估研究[J].武汉理工大学学报（信息与管理工程版）,2024,46(1):1-6.
10张红梅.基于NAS架构的数字化档案云存储系统设计[J].办公室业务,2024(4):58-60.

南京邮电大学学报（自然科学版）

2024年第1期

浏览历史

内容加载中请稍等...

基于正区域和投票式属性重要度的特征提取算法

参考文献9

二级参考文献75

共引文献40

相关作者

相关机构

相关主题

浏览历史