软件缺陷预测中基于排序集成的特征选择方法被引量：4

Feature Selection Method Based on Sorting Integration in Software Defect Prediction

下载PDF

导出

摘要在软件缺陷预测中,缺陷数据集中往往存在冗余或不相关特征,需要对数据集进行特征选择.为了避免软件缺陷预测中常见的基于排序的特征选择方法的不稳定性,提出一种基于排序集成的特征选择方法.首先,分别执行相关系数、信息增益率和Relief F三种特征选择方法,得到特征排序序列,赋予每个特征一个权重,随后,将三种方法得到的每个特征的权重相加求和,作为该特征的总权重.最后,根据特征总权重对特征从高到低进行排序,并按照特征百分比从前往后依次选取特征.在实证研究中,以NASA的11个数据集为实验对象,采用逻辑回归算法构建预测模型,并采用AUC指标度量不同预测模型的分类性能.实验结果验证了基于排序集成的特征选择方法的有效性. There are often redundant or irrelevant features in defect data sets in the field of software defect prediction,and feature selection is required. A feature selection method based on sorting integration is proposed which can avoid the instability of the common sorting feature selection methods. Firstly,Correlation,GainRatio and ReliefF are used respectively to obtain the feature sorting sequence based on which each feature can obtain a weight. Subsequently,the weights of each feature obtained by the three methods are added up to obtain the total weight of the feature. Finally,the features are sorted from high to low according to the total weights of the features,and the features are selected according to the percentage of the feature. In the empirical study,11 data sets of NASA were used as experimental objects,and Logic Regression algorithm was used to construct the prediction model. Moreover,AUC metric was used to measure the classification performance of different prediction models. The experimental results show the effectiveness of the feature selection method based on sorting integration.

作者姜丽姜淑娟于巧 JIANG Li;JIANG Shu-juan;YU Qiao(School of Computer Science and Technology, China University of Mining and Technology ,Xuzhou 221116, China;School of Computer Science and Technology, Jiangsu Normal University, Xuzhou 221116, China)

机构地区中国矿业大学计算机科学与技术学院江苏师范大学计算机科学与技术学院

出处《小型微型计算机系统》 CSCD 北大核心 2018年第7期1410-1414,共5页 Journal of Chinese Computer Systems

基金国家自然科学基金项目(61673384 61502497)资助

关键词软件缺陷预测特征选择特征权重排序集成 software defect prediction feature selection feature weight sorting integration

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献3

1王丹丹,王青.基于演化数据的软件缺陷预测性能改进[J].软件学报,2016,27(12):3014-3029. 被引量：3
2刘望舒,陈翔,顾庆,刘树龙,陈道蓄.软件缺陷预测中基于聚类分析的特征选择方法[J].中国科学：信息科学,2016,46(9):1298-1320. 被引量：25
3于巧,姜淑娟,张艳梅,王兴亚,高鹏飞,钱俊彦.分类不平衡对软件缺陷预测模型性能的影响研究[J].计算机学报,2018,41(4):809-824. 被引量：29

二级参考文献56

1闫明松,周志华.代价敏感分类算法的实验比较[J].模式识别与人工智能,2005,18(5):628-635. 被引量：14
2Wang Q, Wu S J, Li M S. Software defect prediction. J Softw, 2008, 19:1565-1580.
3Hall T, Beecham S, Bowes D, et al. A systematic literature review on fault prediction performance in software engineering. IEEE Trans Softw Eng, 2012, 38:1276-1304.
4Yu S S, Zhou S G, Guan J H. Software engineering data mining: a survey. J Front Comput Sci Tech, 2012, 6:1-31.
5Chen X, Gu Q, Liu W S, et al. Survey of static software defect prediction. J Softw, 2016, 1:1-25.
6Ghotra B, McIntosh S, Hassan A E. Revisiting the impact of classification techniques on the performance of defect prediction models. In: Proceedings of the International Conference on Software Engineering, Firenze, 2015. 789 -800.
7Peters F, Menzies T, Layman L. LACE2: better privacy-preserving data sharing for cross project defect prediction. In: Proceedings of the International Conference on Software Engineering, Firenze, 2015. 801-811.
8Tantithamthavorn C, McIntosh S, Hassan A E, et al. The impact of mislabelling on the performance and interpretation of defect prediction models. In: Proceedings of the International Conference on Software Engineering, Firenze, 2015. 812-823.
9Jing X Y, Wu F, Dong X W, et M. Heterogeneous cross-company defect prediction by unified metric representation and CCA-based transfer learning. In: Proceedings of the International Symposium on Foundations of Software Engineering, Bergamo, 2015. 496-507.
10Nam J, Kim S. Heterogeneous defect prediction. In: Proceedings of the International Symposium on Foundations of Software Engineering, Bergamo, 2015. 508-519.

共引文献53

1周传华,徐文倩,朱俊杰.基于代价敏感卷积神经网络的集成分类算法[J].应用科学学报,2022,40(1):69-79. 被引量：6
2李村合,姜宇,李帅.基于不等距超平面距离的模糊支持向量机[J].计算机系统应用,2020(10):185-191. 被引量：6
3邓建国,张素兰,张继福,荀亚玲,刘爱琴.监督学习中的损失函数及应用研究[J].大数据,2020,6(1):60-80. 被引量：39
4王莉萍,陈翔,王秋萍,赵英全.基于Box-Cox转换的集成跨项目软件缺陷预测方法[J].计算机应用研究,2017,34(7):2023-2026. 被引量：3
5马子逸,马传香,刘瑞奇,余啸.面向软件缺陷个数预测的混合式特征选择方法[J].计算机应用研究,2018,35(2):487-492. 被引量：2
6李丽媛,江国华.一种面向软件缺陷预测的特征聚类选择方法[J].计算技术与自动化,2018,37(2):126-131. 被引量：3
7陈翔,王秋萍.基于代码修改的多目标有监督缺陷预测建模方法[J].计算机科学,2018,45(6):161-165. 被引量：1
8张肖,王黎明.一种半监督集成学习软件缺陷预测方法[J].小型微型计算机系统,2018,39(10):2138-2145. 被引量：7
9陈翔,沈宇翔,孟少卿,崔展齐,鞠小林,王赞.基于多目标优化的软件缺陷预测特征选择方法[J].计算机科学与探索,2018,12(9):1420-1433. 被引量：8
10倪超,陈翔,刘望舒,顾庆,黄启国,李娜.基于特征迁移和实例迁移的跨项目缺陷预测方法[J].软件学报,2019,30(5):1308-1329. 被引量：15

同被引文献34

1王青,伍书剑,李明树.软件缺陷预测技术[J].软件学报,2008,19(7):1565-1580. 被引量：149
2张希翔,李陶深.数据缺失条件下基于启发式构元的多元回归分析方法[J].计算机应用,2012,32(8):2202-2204. 被引量：3
3廖松有,张继福,刘爱琴.利用模糊熵约束的模糊C均值聚类算法[J].小型微型计算机系统,2014,35(2):379-383. 被引量：11
4马学俊.GSIS超高维变量选择[J].统计与信息论坛,2015,30(8):16-19. 被引量：10
5刘望舒,陈翔,顾庆,刘树龙,陈道蓄.软件缺陷预测中基于聚类分析的特征选择方法[J].中国科学：信息科学,2016,46(9):1298-1320. 被引量：25
6李一露,何鹏,李兵,马于涛.多粒度数据选择的跨项目缺陷预测方法[J].小型微型计算机系统,2017,38(9):1934-1939. 被引量：4
7陈翔,王莉萍,顾庆,王赞,倪超,刘望舒,王秋萍.跨项目软件缺陷预测方法研究综述[J].计算机学报,2018,41(1):254-274. 被引量：44
8刘望舒,陈翔,顾庆,刘树龙,陈道蓄.一种面向软件缺陷预测的可容忍噪声的特征选择框架[J].计算机学报,2018,41(3):506-520. 被引量：18
9吴成茂,白鹭.自适应特征选取的鲁棒模糊聚类分割算法[J].小型微型计算机系统,2018,39(8):1842-1848. 被引量：5
10薛参观,燕雪峰.基于改进深度森林算法的软件缺陷预测[J].计算机科学,2018,45(8):160-165. 被引量：24

引证文献4

1潘长安.基于加权马尔可夫链的试运行软件缺陷预测模型[J].巢湖学院学报,2021,23(3):55-60.
2黄燕,徐贤,虞慧群,杨星光.一种特征转移和域自适应的异质缺陷预测方法[J].小型微型计算机系统,2022,43(1):186-192. 被引量：1
3薛露宇,宋燕.一种具有缺失数据的无监督ReliefF特征选择算法[J].小型微型计算机系统,2023,44(7):1441-1448. 被引量：3
4刘文杰.基于mRMR-XGB-LS算法的信用评估分类模型[J].运筹与模糊学,2023,13(2):447-456.

二级引证文献4

1程凤伟,王文剑,张珍珍.面向高维小样本数据的层次子空间ReliefF特征选择算法[J].南京大学学报（自然科学版）,2023,59(6):928-936.
2程凤伟,常浩.面向非平衡数据的大间隔近邻Relief算法[J].山西大学学报（自然科学版）,2022,45(4):1014-1022. 被引量：1
3李莉,赵鑫,石可欣,苏仁嘉,任振康.结合特征对齐与实例迁移的跨项目缺陷预测[J].计算机应用研究,2023,40(10):3091-3099.
4孙林,丰昌武,陈雨生,胡一飞.基于样本全局相似度和Relief的缺失标记特征选择[J].昆明理工大学学报（自然科学版）,2024,49(2):39-48.

1魏法杰,都本正,田爽,李权葆.多品种小批量物料采购延迟交付预测[J].北京航空航天大学学报（社会科学版）,2018,31(3):78-83. 被引量：2
2宋湘燕,袁春旺.美国金融去监管新政及影响[J].中国金融,2018(12):85-87. 被引量：6
3黄林生,张庆,张东彦,林芬芳,徐超,赵晋陵.Relief-F筛选波段的小麦白粉病早期诊断研究[J].红外与激光工程,2018,47(5):210-217. 被引量：5
4王军涛.大型教学系统中的智能大数据关键特征估计方法[J].现代电子技术,2018,41(12):83-86. 被引量：3
5古秦弋,杨瑞娟,黄美荣,杨云飞,叶伟,李玥.ReliefF内容相似度的雷达情报按需分发[J].现代防御技术,2018,46(3):184-190. 被引量：4

小型微型计算机系统

2018年第7期

浏览历史

内容加载中请稍等...

软件缺陷预测中基于排序集成的特征选择方法被引量：4

参考文献3

二级参考文献56

共引文献53

同被引文献34

引证文献4

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

软件缺陷预测中基于排序集成的特征选择方法 被引量：4

参考文献3

二级参考文献56

共引文献53

同被引文献34

引证文献4

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

软件缺陷预测中基于排序集成的特征选择方法被引量：4