类不平衡稀疏重构度量学习软件缺陷预测被引量：3

Prediction of Defect of Class-imbalance Sparse Reconstruction Metric Learning Software

下载PDF

导出

摘要软件缺陷预测是提升软件质量的重要手段。为了改善缺陷预测性能,目前许多机器学习领域的最新成果已经引入到软件缺陷预测中。但是,软件缺陷预测数据通常存在类别分布不平衡的问题,这会影响预测效果。针对这个问题,提出了类不平衡稀疏重构距离度量学习软件缺陷预测方法。该方法首先在度量学习中加入代价敏感因素,学习距离度量特征矩阵并解决软件缺陷预测中分类错误代价不同的问题。其次,通过在目标函数中加入权重来进一步提高小类样本距离度量学习的准确性。最后,为了解决预测阶段数据集的类别不平衡问题,采用了改进加权KNN算法预测测试样本标签。在NASA软件缺陷预测标准数据集上的实验结果证明了该方法能提高召回率与F-measure值,改善分类性能。 Software defect prediction（ SDP） is an important method to improve the quality of software.Currently many latest results from machine learning has been applied to improve the performance of defect prediction.However,imbalance of class distribution usually exists in SDP dataset,which might affect the prediction performance.For this,we propose a novel software defect prediction method termed class-imbalance sparse reconstruction metric learning（ CSRML）.In CSRML,by introducing cost-sensitive factor into metric learning,a feature matrix of distance metric can be learned and the problem of different cost of misclassification can also be solved.And weight parameter is added in objective function to further improve the accuracy of the small class samples distance metric learning. Finally,improved weighted KNN（ IWKNN） method is employed to predict the label of test sample for tackling class imbalance in prediction phase.Experiment on the NASA SDP dataset demonstrates that the proposed method can improve the recall rate,F-measure value and classification performance.

作者史作婷吴迪荆晓远吴飞 SHI Zuo-ting;WU Di;JING Xiao-yuan;WU Fei(School of Computer Science,Nanjing University of Posts and Telecommunications,Nanjing 210003,China;State Key Laboratory of Software Engineering,School of Computer,Wuhan University,Wuhan 430072,China;School of Automation,Nanjing University of Posts and Telecommunications,Nanjing 210003,China)

机构地区南京邮电大学计算机学院武汉大学计算机学院软件工程国家重点实验室南京邮电大学自动化学院

出处《计算机技术与发展》 2018年第6期125-128,136,共5页 Computer Technology and Development

基金国家自然科学基金(61272273)

关键词软件缺陷预测类不平衡改进加权KNN 度量学习 software defect prediction class-imbalance IWKNN metric learning

分类号 TP31 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献4

1陈翔,贺成,王宇,管怀文.HFS:一种面向软件缺陷预测的混合特征选择方法[J].计算机应用研究,2016,33(6):1758-1761. 被引量：9
2缪林松.基于代价敏感神经网络算法的软件缺陷预测[J].电子科技,2012,25(6):75-78. 被引量：9
3王晴,荆晓远,朱阳平,吴飞,董西伟,程立.基于局部稀疏重构度量学习的软件缺陷预测[J].计算机技术与发展,2016,26(11):54-57. 被引量：1
4王超学,潘正茂,马春森,董丽丽,张涛.改进型加权KNN算法的不平衡数据集分类[J].计算机工程,2012,38(20):160-163. 被引量：26

二级参考文献51

1MENZIES T, GREENWALD J, FRANK A. Data mining static code attributes to learn defect predictors [ J ]. IEEE Transac- tion on Software Engineering,2007,32 ( 11 ) : 2 - 13.
2LESSMANN S, BAESENS B, MUES C, et al. Benchmarking classification models for software defect prediction: a pro- posed framework and novel findings [ J ]. IEEE Transactions on Software Engineering, 2008,4 ( 34 ) :485 - 496.
3KHOSHGOFFAAR T M, PANDYA A S, LANNING D L. Ap- plication of neural networks for predicting defects [ J]. An- nals of Software Engineering, 1995,1 ( 1 ) : 141 - 154.
4MENZIES T, DISTEFANO J, ORREGO A, et al. Assessing predictors of software defects [ C ]. In Proceedings of Work- shop on Predictive Software Models ,2004.
5PORTER A, SELBY R W. Evaluating techniques for genera- ting metric - based classification trees [ J ]. Journal of Sys- tems and Software, 1997,12 (2) : 166 - 173.
6BOEHM B W, PAPACCIO P N. Understanding and control- ling software costs [ J ]. IEEE Transactions on Software Engi- neering, 1988,14(10) : 1462 - 1477.
7BOEHM B W. Industrial software metrics top 10 list [J]. IEEE Software, 1987,4 (5) : 84 - 85.
8MALOOF M A. Learning when data sets are imbalanced and when costs are unequal and unknown [ C ]. Washington, DC : In Working Notes of the ICML'03 Workshop on Learning from Imbatanced Data Sets ,2003,8:328 -334.
9ZHOU Z H, LIU X Y. Training cost - sensitive neural net- works with methods addressing the class imbalance problem [ J]. IEEE Transactions on Knowledge and Data Engineer- ing,2006,18( 1 ) :63 -77.
10BREIMAN L,FRIEDMAN J H, OKSHEN R A, et al. Classifica- tion and regression trees [ M ]. Belmont, CA :Wadsworth, 1984.

共引文献41

1郑继栋.训练扎实指导有序──第十册《基础训练6》第五六七题教学设计[J].小学语文教学,2000(6):57-57.
2陈智敏,蒙祖强,林啟锋.基于改进KNN的话题跟踪算法[J].小型微型计算机系统,2014,35(8):1722-1725. 被引量：2
3何田中,周忠眉,黄再祥.基于选择度的分类规则学习算法[J].计算机工程,2014,40(8):179-182.
4尹丽英,赵捧未.基于语义网络社团划分的中文文本分类研究[J].图书情报工作,2014,58(19):124-128. 被引量：7
5岑巍.基于动态代价敏感的数据挖掘算法探讨[J].信息安全与技术,2014,5(11):26-28.
6何田中,黄再祥.基于多置信度的不平衡数据分类算法[J].闽南师范大学学报（自然科学版）,2014,27(4):26-30.
7万韩永,左家莉,万剑怡,王明文.基于样本重要性原理的KNN文本分类算法[J].江西师范大学学报（自然科学版）,2015,39(3):297-303. 被引量：6
8李克文,杨磊,刘文英,刘璐,刘洪太.基于RSBoost算法的不平衡数据分类方法[J].计算机科学,2015,42(9):249-252. 被引量：21
9陆海洋,荆晓远,董西伟,刘茜.基于代价敏感学习的软件缺陷预测方法[J].计算机技术与发展,2015,25(11):58-60. 被引量：1
10苏毅娟,孙可,邓振云,尹科军.基于LPP和l_(2,1)的KNN填充算法[J].广西师范大学学报（自然科学版）,2015,33(4):55-62.

同被引文献29

1林智勇,郝志峰,杨晓伟.不平衡数据分类的研究现状[J].计算机应用研究,2008,25(2):332-336. 被引量：46
2叶志飞,文益民,吕宝粮.不平衡分类问题研究综述[J].智能系统学报,2009,4(2):148-156. 被引量：72
3翟云,杨炳儒,曲武.不平衡类数据挖掘研究综述[J].计算机科学,2010,37(10):27-32. 被引量：37
4陶新民,童智靖,刘玉,付丹丹.基于ODR和BSMOTE结合的不均衡数据SVM分类算法[J].控制与决策,2011,26(10):1535-1541. 被引量：22
5付忠良.多标签代价敏感分类集成学习算法[J].自动化学报,2014,40(6):1075-1085. 被引量：23
6肖鹰,吴哲夫,张彤,王中友.一种基于特征选择的不平衡数据分类算法[J].集成技术,2016,5(1):68-74. 被引量：5
7Chao Han,Yun-Kun Tan,Jin-Hui Zhu,Yong Guo,Jian Chen,Qing-Yao Wu.Online Feature Selection of Class Imbalance via PA Algorithm[J].Journal of Computer Science & Technology,2016,31(4):673-682. 被引量：4
8段礼祥,郭晗,王金江.数据集不均衡下的设备故障程度识别方法研究[J].振动与冲击,2016,35(20):178-182. 被引量：14
9王海林,于倩,李彤,郁湧,明利,孙金文.基于CS-ANN的软件缺陷预测模型研究[J].计算机应用研究,2017,34(2):467-472. 被引量：6
10傅艺绮,董威,尹良泽,杜雨晴.基于组合机器学习算法的软件缺陷预测模型[J].计算机研究与发展,2017,54(3):633-641. 被引量：24

引证文献3

1曾路,汪浩.基于机器学习的虚拟仪器软件缺陷预测模型研究[J].自动化与仪器仪表,2020(5):59-62. 被引量：7
2王兵锐,张新刚,杨晓非.基于精简卷积神经网络的低分辨率乳腺癌识别[J].计算机技术与发展,2020,30(9):200-204.
3李艳霞,柴毅,胡友强,尹宏鹏.不平衡数据分类方法综述[J].控制与决策,2019,34(4):673-688. 被引量：164

二级引证文献171

1周传华,徐文倩,朱俊杰.基于代价敏感卷积神经网络的集成分类算法[J].应用科学学报,2022,40(1):69-79. 被引量：6
2杨志凯,扶兰兰,唐灿,王发明,倪昕东,陈度.基于MobileViT模型的小麦收获机喂入密度分类方法[J].农业机械学报,2023,54(S01):172-180.
3谭本艳,林玉洁.基于SMOTE-LR模型的上市公司失信风险评价研究[J].开发性金融研究,2023(3):17-27.
4穆伟蒙,宋燕,窦军.基于密度峰值聚类算法的自适应加权过采样算法[J].智能计算机与应用,2022,12(6):46-53. 被引量：1
5郑凌铭,舒胜文,陈彬,吴涵,黄建业,钱健.强台风环境下基于格点化和支持向量机的10 kV杆塔受损量预测方法[J].高电压技术,2020,46(1):42-51. 被引量：14
6易成岐,黄倩倩,王从余,张何灿,靳晓锟,王建冬.面向类不平衡问题的“职业举报人”识别方法[J].计算机工程与应用,2019,55(14):1-7. 被引量：2
7吴方君.静态软件缺陷预测研究进展[J].计算机科学与探索,2019,13(10):1621-1637. 被引量：13
8王利君,支志英,贾鹿,李伟.基于SCRF的抽油井结蜡预测方法优化研究[J].计算机科学,2019,46(S11):599-603. 被引量：2
9王晓晗,王韬,李雄伟,张阳,黄长阳.一种基于压缩边界Fisher分析的硬件木马检测方法[J].电子与信息学报,2019,41(12):3043-3050. 被引量：1
10董明刚,姜振龙,敬超.基于海林格距离和SMOTE的多类不平衡学习算法[J].计算机科学,2020,47(1):102-109. 被引量：10

1郇益斌,王丽君.基于训练集聚类的加权KNN算法研究[J].信息通信,2017,30(2):16-17. 被引量：2
2李佳丽,郭捷.基于强化深度特征融合的行人再识别算法研究[J].信息技术,2018,42(7):15-19. 被引量：3
3彭云聪,任心晴,石浩森.基于核加权KNN和多目标优化的众包平台定价系统设计[J].软件,2018,39(6):150-154. 被引量：2
4何晴,郭捷.非重叠域行人再识别算法研究[J].信息技术,2018,42(7):34-38. 被引量：2
5刘诚诚,姜瑛.基于紧密度的模糊加权kNN数据分类方法[J].应用科学学报,2018,36(4):679-688. 被引量：5
6吴嘉琪,景丽萍.基于集成人脸对距离学习的跨年龄人脸验证[J].模式识别与人工智能,2017,30(12):1114-1120. 被引量：3
7侯跃恩,李伟光.样本分块稀疏表示判决式目标跟踪[J].计算机应用研究,2018,35(8):2510-2513.
8孙晶晶,吴建兵.基于国内某OTA的软件测试缺陷分析对软件开发流程的思考[J].轻工科技,2018,34(6):86-87. 被引量：1
9张娜,张福星,王强,胡玲玲,桂江生.基于双向关系相似度函数学习的行人再识别[J].计算机系统应用,2018,27(5):33-40. 被引量：2
10邵冬华,施志刚,史军杰.二次近邻稀疏重构法及人脸识别[J].重庆邮电大学学报（自然科学版）,2017,29(6):844-850. 被引量：4

计算机技术与发展

2018年第6期

浏览历史

内容加载中请稍等...

类不平衡稀疏重构度量学习软件缺陷预测被引量：3

参考文献4

二级参考文献51

共引文献41

同被引文献29

引证文献3

二级引证文献171

相关作者

相关机构

相关主题

浏览历史

类不平衡稀疏重构度量学习软件缺陷预测 被引量：3

参考文献4

二级参考文献51

共引文献41

同被引文献29

引证文献3

二级引证文献171

相关作者

相关机构

相关主题

浏览历史

类不平衡稀疏重构度量学习软件缺陷预测被引量：3