结合欠抽样与集成的软件缺陷预测被引量：7

Software defects prediction based on under-sampling and ensemble algorithm

下载PDF

导出

摘要软件缺陷预测是提高测试效率、保证软件可靠性的重要途径。为了提高软件缺陷预测的准确率,提出一种结合欠抽样与决策树分类器集成的软件缺陷预测模型。考虑到软件缺陷数据的类不平衡特性,首先,通过数据的不平衡率确定抽样度,执行欠抽样实现数据的重新平衡;然后,采用Bagging随机抽样原理训练若干个决策树子分类器;最后,按照少数服从多数的原则生成预测模型。使用公开的NASA软件缺陷预测数据集进行了仿真实验。实验结果表明,与3种基准方法对比,所提模型在保证预报率的前提下,误报率(PF)降低了10%以上,综合评价指标均有显著提升。该模型的缺陷预测误报率较低,而且具有较高的预测准确率与稳定性。 Software defects prediction is considered as a means for the improvement of test efficiency and assurance of software reliability. To improve the accuracy of software defect prediction, a model based on under-sampling and decision tree ensemble algorithm was proposed. Firstly, taking into account class imbalance of software defect data, the random under-sampling technique was used to rebalance the data according to the imbalance rate. Then, several decision tree sub-classifiers were trained by using Bagging＇s random sampling. Finally, the defect prediction model was constructed based on majority rule. The experiments were carried out on the NASA MDP datasets. The experimental results show that, compared with three standard methods, the Probability of False alarm （PF） of the proposed model is reduced by 10% while ensuring probability of detection and the comprehensive evaluation index is improved significantly. It has low PF of defect prediction, and it is more effective and stable in software defects prediction practices.

作者李勇

机构地区南京航空航天大学计算机科学与技术学院新疆师范大学网络信息安全与舆情分析重点实验室

出处《计算机应用》 CSCD 北大核心 2014年第8期2291-2294,2310,共5页 journal of Computer Applications

基金新疆维吾尔自治区高校科研计划项目(XJEDU2012S28) 教育部人文社会科学研究青年基金资助项目(11YJC870014) 国家自然科学基金资助项目(61262065) 新疆师范大学重点实验室基金资助项目(WLYQ2012108)

关键词软件缺陷预测类不平衡数据欠抽样决策树集成算法 software defect prediction class imbalanced data under-sampling decision tree ensemble algorithm

分类号 TP311.5 [自动化与计算机技术—计算机软件与理论] TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献27

1CATAL C,DIRI B.A systematic review of software fault prediction studies [J].Expert Systems with Applications,2009,36(4):7346-7354.
2MENZIES T,GREENWALD J,FRANK A.Data mining static code attributes to learn defect predictors [J].IEEE Transactions on Software Engineering,2007,33(1):2-13.
3CATAL C,DIRI B.Investigating the effect of dataset size,metrics sets,and feature selection techniques on software fault prediction problem [J].Information Sciences,2009,179(8):1040-1058.
4ARISHOLM E,BRIAND L C,JOHANNESSEN E B.A systematic and comprehensive investigation of methods to build and evaluate fault prediction models [J].Journal of Systems and Software,2010,83(1):2-17.
5SHUO W,XIN Y.Relationships between diversity of classification ensembles and single-class performance measures [J].IEEE Transactions on Knowledge and Data Engineering,2013,25(1):206-219.
6MENZIES T,MILTON Z,TURHAN B,et al.Defect prediction from static code features:current results,limitations,new approaches [J].Automated Software Engineering,2010,17(4):375-407.
7MENZIES T,CAGLAYAN B,KOCAGUNELI E,et al.The promise repository of empirical software engineering data [EB/OL].[2014-01-05].http://promisedata.googlecode.com.
8HALSTEAD M H.Elements of software science(operating and programming systems series) [M].New York:Elsevier Science,1977:128.
9McCABE T J.A complexity measure [J].IEEE Transactions on Software Engineering,1976(4):308-320.
10KHOSHGOFTAAR T M,SELIYA N.Software quality classification modeling using the SPRINT decision tree algorithm [J].International Journal on Artificial Intelligence Tools,2003,12(3):207-225.

二级参考文献79

1郑恩辉,李平,宋执环.代价敏感支持向量机[J].控制与决策,2006,21(4):473-476. 被引量：33
2刘胥影,吴建鑫,周志华.一种基于级联模型的类别不平衡数据分类方法[J].南京大学学报（自然科学版）,2006,42(2):148-155. 被引量：23
3张靖,葛玮,郝克刚.软件度量中主成分分析方法的研究[J].计算机技术与发展,2006,16(12):144-147. 被引量：3
4WU Xin-dong,KUMAR V,QUINLAN J R,et al.Top 10 algorithms in data mining[J].Knowledge and Information Systems,2008,14(1):1-37.
5CHAWLA N V,JAPKOWICZ N,KOTCZ A.Editorial:special issue on learning from imbalanced data sets[J].ACM SIGKDD Explorations Newsletter,2004,6(1):1-6.
6HE Hai-bo,GARCIA E A.Learning from imbalanced data[J].IEEE Trans on Knowledge and Data Engineering,2009,21(9):1263-1284.
7TING K M.A comparative study of cost-sensitive boosting algorithms[C]//Proc of the 17th International Conference on Machine Learning.2000:983-990.
8FAN Wei,STOLFO S J,ZHANG Jun-xin,et al.AdaCost:misclassification cost-sensitive boosting[C]//Proc of the 16th International Conference on Machine Learning.1999:97-105.
9SUN Yan-min,KAMEL M S,WONG A K C,et al.Cost-sensitive boosting for classification of imbalanced data[J].Pattern Recognition,2007,40(12):3358-3378.
10GALAR M,FERNNDEZ A,BARRENCHEA E,et al.EUSBoost:enhancing ensembles for highly imbalanced data-sets by evolutionary undersampling[J].Pattern Recognition,2013,46(12):3460-3471.

共引文献83

1李村合,姜宇,李帅.基于不等距超平面距离的模糊支持向量机[J].计算机系统应用,2020(10):185-191. 被引量：6
2王洪坡,周红建,王洪雷.基于S曲线模型的航空装备嵌入式软件量化安全评估[J].计算机工程与科学,2014,36(3):469-474. 被引量：2
3李克文,刘洪太.基于时序数据的软件可靠性模型组合新方法[J].计算机应用,2014,34(A02):208-210. 被引量：5
4孟倩,马小平.基于粗糙集-支持向量机的软件缺陷预测[J].计算机工程与科学,2015,37(1):93-98. 被引量：6
5刘宁.一种两层结构集成的协同分类算法[J].微型电脑应用,2015,31(5):33-35.
6李勇.本科机器学习课程教改实践与探索[J].计算机教育,2015(13):63-66. 被引量：22
7王二威,吴祈宗.基于泛函网络的软件可靠性多模型综合预测方法[J].计算机科学,2015,42(10):175-179. 被引量：2
8闵行,褚晶辉,吕卫.组合降采样极限学习机[J].信息技术,2015,39(11):159-162.
9肖鹰,吴哲夫,张彤,王中友.一种基于特征选择的不平衡数据分类算法[J].集成技术,2016,5(1):68-74. 被引量：4
10孟芸,王喆.矩阵型多类代价敏感分类器模型[J].华东理工大学学报（自然科学版）,2016,42(1):119-124. 被引量：5

同被引文献29

1张华.面向软件缺陷检测的静态分析技术[J].潍坊学院学报,2008,8(2):8-11. 被引量：2
2蒋盛益,谢照青,余雯.基于代价敏感的朴素贝叶斯不平衡数据分类研究[J].计算机研究与发展,2011,48(S1):387-390. 被引量：21
3邬依林,李中华,毛宗源.自适应人工免疫算法在数据挖掘中的应用[J].计算机应用,2006,26(8):1943-1946. 被引量：9
4王青,伍书剑,李明树.软件缺陷预测技术[J].软件学报,2008,19(7):1565-1580. 被引量：147
5张栋,王勇,蔡立军.基于单类别学习的自适应数据流分类算法[J].西北工业大学学报,2010,28(5):713-717. 被引量：1
6姜慧研,宗茂,刘相莹.基于ACO-SVM的软件缺陷预测模型的研究[J].计算机学报,2011,34(6):1148-1154. 被引量：43
7王培,金聪,葛贺贺.面向软件缺陷预测的互信息属性选择方法[J].计算机应用,2012,32(6):1738-1740. 被引量：12
8周丹丹,李先国.基于静态检测工具的软件缺陷检测模型研究[J].计算机与现代化,2012(11):55-58. 被引量：2
9唐磊,李春平,杨柳.统计策略序列模式挖掘及其在软件缺陷预测中的应用[J].计算机科学,2013,40(5):164-167. 被引量：1
10曹莹,苗启广,刘家辰,高琳.AdaBoost算法研究进展与展望[J].自动化学报,2013,39(6):745-758. 被引量：255

引证文献7

1伍蔓,张建升,马传香,安格格,余啸.基于SSDBSCAN的跨项目缺陷预测数据筛选方法[J].湖北大学学报（自然科学版）,2017,39(5):550-557.
2李冉,周丽娟,王华.面向类不平衡数据集的软件缺陷预测模型[J].计算机应用研究,2018,35(9):2806-2810. 被引量：11
3简艺恒,余啸.基于数据过采样和集成学习的软件缺陷数目预测方法[J].计算机应用,2018,38(9):2637-2643. 被引量：8
4李勇,刘战东,张海军.跨项目软件缺陷预测方法研究综述[J].计算机技术与发展,2020,30(3):98-103.
5王诗博,李勇,米文博.结合随机属性与集成的软件缺陷预测算法[J].现代电子技术,2021,44(22):91-96.
6米文博,李勇,陈囿任.基于主动学习的跨项目软件缺陷预测方法[J].科学技术与工程,2022,22(32):14275-14281.
7朱朝阳,陈相舟,闫龙,张信明.基于主成分分析法的人工免疫识别软件缺陷预测模型研究[J].计算机科学,2017,44(S1):483-485. 被引量：6

二级引证文献21

1谈笑.基于Spark大数据平台的老年病风险预警模型[J].微型电脑应用,2020,36(2):71-74. 被引量：1
2罗康洋,王国强.L-SMOTE与SVM结合的不平衡数据集分类研究[J].计算机工程与应用,2019,55(17):55-62. 被引量：12
3吴方君.静态软件缺陷预测研究进展[J].计算机科学与探索,2019,13(10):1621-1637. 被引量：13
4柴海燕,丁霞,王凯风,谢立鹏.基于三层知识模型的软件缺陷管理系统[J].计算机测量与控制,2020,28(1):127-129. 被引量：4
5白首华,胡天彤.微型嵌入式软件静态缺陷预测系统优化设计[J].现代电子技术,2020,43(10):97-99. 被引量：4
6曾路,汪浩.基于机器学习的虚拟仪器软件缺陷预测模型研究[J].自动化与仪器仪表,2020(5):59-62. 被引量：7
7王海,江峰,杜军威,赵军.过采样与集成学习方法在软件缺陷预测中的对比研究[J].计算机与现代化,2020,0(6):83-88. 被引量：3
8徐作宁,雒兴刚,张忠良.基于分解策略处理多分类不均衡问题的方法[J].计算机应用研究,2020,37(8):2404-2408. 被引量：1
9李倩倩,牟永敏,赵晓永.基于随机森林算法的函数缺陷定位[J].科学技术与工程,2020,20(32):13278-13284. 被引量：5
10李莉,纪欣沅,宋嵩.回环软件缺陷数量预测模型[J].计算机工程与应用,2021,57(7):158-163. 被引量：3

1吴敏,张化朋,李雷.欠抽样和DEC相结合的不平衡数据分类算法[J].计算机技术与发展,2014,24(4):110-113. 被引量：3
2尹军梅,杨明,万建武.一种面向不平衡数据集的核Fisher线性判别分析方法[J].模式识别与人工智能,2010,23(3):414-420. 被引量：5
3杨明,尹军梅,吉根林.不平衡数据分类方法综述[J].南京师范大学学报（工程技术版）,2008,8(4):7-12. 被引量：28
4朱亚奇,邓维斌.一种基于不平衡数据的聚类抽样方法[J].南京大学学报（自然科学版）,2015,51(2):421-429. 被引量：5
5孙晓燕,张化祥,计华.基于AdaBoost的欠抽样集成学习算法[J].山东大学学报（工学版）,2011,41(4):91-94. 被引量：2
6陈思,郭躬德,陈黎飞.基于聚类融合的不平衡数据分类方法[J].模式识别与人工智能,2010,23(6):772-780. 被引量：28
7崇阳.云平台环境下动态密钥双向认证隐私保护算法[J].科技通报,2015,31(2):43-45.
8张枭山,罗强.一种基于聚类融合欠抽样的不平衡数据分类方法[J].计算机科学,2015,42(B11):63-66. 被引量：7
9熊冰妍,王国胤,邓维斌.基于样本权重的不平衡数据欠抽样方法[J].计算机研究与发展,2016,53(11):2613-2622. 被引量：42
10林森,徐鹏,刘琼.基于支持向量机的流量分类方法[J].计算机应用研究,2008,25(8):2488-2490. 被引量：6

计算机应用

2014年第8期

浏览历史

内容加载中请稍等...

结合欠抽样与集成的软件缺陷预测被引量：7

参考文献27

二级参考文献79

共引文献83

同被引文献29

引证文献7

二级引证文献21

相关作者

相关机构

相关主题

浏览历史

结合欠抽样与集成的软件缺陷预测 被引量：7

参考文献27

二级参考文献79

共引文献83

同被引文献29

引证文献7

二级引证文献21

相关作者

相关机构

相关主题

浏览历史

结合欠抽样与集成的软件缺陷预测被引量：7