基于不平衡数据集的软件缺陷预测被引量：7

Software defect prediction based on imbalanced datasets

下载PDF

导出

摘要为了解决数据的不平衡性这一问题,提出一种利用分布函数合成新样本的过抽样和随机向下抽样相结合的算法。算法对降维后的主成分进行分布函数拟合,然后利用分布函数生成随机数,并对生成的随机数进行筛选,最后与随机向下抽样相结合。实验所用数据取自NASA MDP数据集,并与经典的SMOTE+向下抽样方法进行对比,从G-mean和F-measure值可以看出,前者的预测结果明显优于后者,预测精度更高。 Inorder to solve the problem of data imbalance, this paper proposed a new sampling method based on the combination of over-sampling which used the distribution function to get the new sample and the random under-sampling. In this paper, it first reduced the dimension of the original dataset. Then, it could get the random values by fitting the distribution function of principal components. It filtered some random values by truncating and removal of noise samples. This over-sampling method would combine with random under-sampling to get the training sets and testing sets. In this paper, the datasets were from NASA MDP datasets and the results would be compared with SMOTE＋random under-sampling. It can draw the conclusion that the method using distribution function and random under-sampling is better than SMOTE＋random under-sampling by comparing the G-means and F-measure value.

作者张晓风张德平

机构地区南京航空航天大学计算机科学与技术学院

出处《计算机应用研究》 CSCD 北大核心 2017年第7期2027-2031,共5页 Application Research of Computers

基金国防重点项目资金资助项目(JCKY2016206B001) 国防一般资助项目(JCKY2014206C002)

关键词软件失效预测不平衡数据主成分分析分类回归树 software failure prediction imbalanced datasets principal component analysis classification regression tree

分类号 TP311.5 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献6

1李雄飞,李军,董元方,屈成伟.一种新的不平衡数据学习算法PCBoost[J].计算机学报,2012,35(2):202-209. 被引量：63
2李元菊.数据不平衡分类研究综述[J].现代计算机,2016,22(3):30-33. 被引量：6
3刘胥影,吴建鑫,周志华.一种基于级联模型的类别不平衡数据分类方法[J].南京大学学报（自然科学版）,2006,42(2):148-155. 被引量：23
4张银峰,郭华平,职为梅,范明.一种面向不平衡数据分类的组合剪枝方法[J].计算机工程,2014,40(6):157-161. 被引量：12
5徐丽丽,闫德勤.不平衡数据加权集成学习算法[J].微型机与应用,2015,34(23):7-10. 被引量：7
6常瑞花,慕晓冬,宋国军,张海静,尹宗润.不平衡数据的软件缺陷预测方法[J].火力与指挥控制,2012,37(5):56-59. 被引量：1

二级参考文献114

1凌晓峰,SHENG Victor S..代价敏感分类器的比较研究(英文)[J].计算机学报,2007,30(8):1203-1212. 被引量：35
2Bartlett P L, Traskin M. AdaBoost is consistent. Journal of Machine Learning Research, 2007, 8:2347-2368.
3Schapire R E. The convergence rate of AdaBoost [open prob lem]//Proceedings of the 23rd Conference on Learning Theo ry. Haifa, Israel, 2010.
4Japkowicz N. Learning from imbalanced data sets: A com parison of various strategies/ /Proceedings of the AAAI 2000 Workshop, 2000:10-15.
5Chawla N V, Japkowicz N, Kotcz A. Workshop on learning from imbalanced data sets//Proceedings of the ICML' 2003. Washington, DC, USA, 2003.
6Chawla N V, Japkowicz N, Kolez A. Editorial: Special issue on learning from imbalanced data sets. ACM SIGKDD Ex- plorations Newsletter, 2004, 6 (1) : 1-6.
7He Hai-Bo, Garcia E A. Learning from imbalanced data. IEEE Transactions on Knowledge and Data Engineering, 2009, 21(9): 1263-1284.
8Liu X Y, Zhou Z H. The influence of class imbalance on cost-sensitive learning: An empirical study//Proeeedings of the 6th International Conference on Data Mining(ICDM'06). Hong Kong, China, 2006 : 970-974.
9Wang B X, Japkowicz N. Boosting support vector machines for imbalanced data sets. Lecture Notes in Artificial Intelli- gence, 2008, 4994: 38-47.
10Ertekin S, Huang J, Bottou L, Giles L. Learning on the border: active learning in imbalanced data classification// Proceedings of the ACM Conference on Information and Knowledge Management. Lisbon, Portugal, 2007: 127-136.

共引文献101

1林舒杨,李翠华,江弋,林琛,邹权.不平衡数据的降采样方法研究[J].计算机研究与发展,2011,48(S3):47-53. 被引量：31
2辛宪会,叶秋果,滕惠忠,郭思海,李军,张靓,韩晓宏.小样本机器学习算法的特性分析与应用[J].海洋测绘,2007,27(3):16-19. 被引量：2
3廖志芳,陈宇宙,樊晓平,瞿志华.面向非平衡混合数据的改进计数最近邻分类算法[J].计算机工程与应用,2008,44(12):139-141. 被引量：2
4李艳,范明.基于基本显露模式的电子邮件分类与过滤技术[J].南京大学学报（自然科学版）,2008,44(5):544-550. 被引量：3
5胡军,王国胤.覆盖粒度空间的层次模型[J].南京大学学报（自然科学版）,2008,44(5):551-558. 被引量：20
6李颖新,姜远,周志华.基于基因表达谱的肿瘤样本分类规则提取[J].南京大学学报（自然科学版）,2009,45(5):613-619. 被引量：1
7李明方,张化祥,张雯,计华.不平衡数据集的神经网络阈值优化方法[J].计算机工程与应用,2010,46(20):168-171. 被引量：2
8邹权,郭茂祖,刘扬,王峻.类别不平衡的分类方法及在生物信息学中的应用[J].计算机研究与发展,2010,47(8):1407-1414. 被引量：26
9王璐,邱桃荣,何妞,刘萍.基于粗糙集和蚁群优化算法的特征选择方法[J].南京大学学报（自然科学版）,2010,46(5):487-493. 被引量：19
10郭丽娜,杨杨.一种基于模糊支持向量机软件模块缺陷检测算法[J].南京大学学报（自然科学版）,2012,48(2):221-227. 被引量：2

同被引文献53

1王青,伍书剑,李明树.软件缺陷预测技术[J].软件学报,2008,19(7):1565-1580. 被引量：149
2张栋,王勇,蔡立军.基于单类别学习的自适应数据流分类算法[J].西北工业大学学报,2010,28(5):713-717. 被引量：1
3周唯杰,王华伟,赵飞.基于贝叶斯网络的民航安全分析研究[J].航空计算技术,2011,41(1):44-47. 被引量：8
4陶新民,童智靖,刘玉,付丹丹.基于ODR和BSMOTE结合的不均衡数据SVM分类算法[J].控制与决策,2011,26(10):1535-1541. 被引量：22
5李澜.漆的世界——湖北省博物馆馆藏战国秦汉漆器[J].中国文物科学研究,2011(3):18-22. 被引量：2
6李天昀,许漫坤,葛临东.取邻抽取任意倍数采样率变换算法[J].数据采集与处理,2012,27(2):254-258. 被引量：12
7曹莹,苗启广,刘家辰,高琳.AdaBoost算法研究进展与展望[J].自动化学报,2013,39(6):745-758. 被引量：267
8李勇.结合欠抽样与集成的软件缺陷预测[J].计算机应用,2014,34(8):2291-2294. 被引量：7
9李向丽,耿鹏,邱保志.混合属性数据集的聚类边界检测技术[J].控制与决策,2015,30(1):171-175. 被引量：5
10张挺,杜奕,黄涛,李雪.一种基于并行SNESIM的空间数据重建方法[J].计算机研究与发展,2015,52(6):1431-1442. 被引量：2

引证文献7

1呙明辉.组态软件测试下电力系统程序缺陷检测仿真[J].计算机仿真,2018,35(12):325-328. 被引量：2
2霍小卫,刘江坡.可重构嵌入式软件缺陷优化预测仿真研究[J].计算机仿真,2018,35(8):443-447.
3倪晓梅,王华伟,洪骥宇,严晓婧.考虑不平衡数据的民航不安全事件分析[J].航空计算技术,2017,47(5):37-40. 被引量：4
4李冉,周丽娟,王华.面向类不平衡数据集的软件缺陷预测模型[J].计算机应用研究,2018,35(9):2806-2810. 被引量：11
5张岚斌,徐国庆,李澜.不平衡古漆器漆膜数据分类研究[J].软件导刊,2021,20(1):84-88. 被引量：1
6唐思均.基于优化SMOTE算法的非平衡大数据集分类研究[J].沈阳工程学院学报（自然科学版）,2021,17(3):71-76. 被引量：6
7姜明雪,杨有龙.基于密度峰值聚类和模糊支持度的boosting随机森林[J].南京大学学报（自然科学版）,2021,57(4):582-590. 被引量：2

二级引证文献26

1张明洁,王华伟,付强,于思璇.面向维修差错的民航不安全事件风险分析[J].武汉理工大学学报（信息与管理工程版）,2018,40(4):376-382. 被引量：2
2曹晓威,孙有朝.面向民航运营的组合安全评估方法[J].航空计算技术,2019,49(3):46-50. 被引量：2
3罗康洋,王国强.L-SMOTE与SVM结合的不平衡数据集分类研究[J].计算机工程与应用,2019,55(17):55-62. 被引量：12
4白首华,胡天彤.微型嵌入式软件静态缺陷预测系统优化设计[J].现代电子技术,2020,43(10):97-99. 被引量：4
5曾路,汪浩.基于机器学习的虚拟仪器软件缺陷预测模型研究[J].自动化与仪器仪表,2020(5):59-62. 被引量：7
6张华琛,李春华,陈宇航.基于增强虚拟现实的电力调度设备运行缺陷检测[J].信息技术,2020,44(6):158-161. 被引量：3
7徐作宁,雒兴刚,张忠良.基于分解策略处理多分类不均衡问题的方法[J].计算机应用研究,2020,37(8):2404-2408. 被引量：1
8孙殿阁.民用机场不安全事件分析专家系统构建研究[J].安全,2020,41(11):52-57. 被引量：2
9杨思狄,王亚玲.面向不均衡数据集的过抽样数学模型构建[J].计算机仿真,2021,38(5):472-476. 被引量：1
10李明捷,吕晨辉.运输航空地面事故征候风险评估方法研究[J].航空计算技术,2021,51(6):32-36.

1杨杰明,乔媛媛,王林,曲朝阳,刘海洋.基于流形排序的动态过抽样方法研究[J].计算机应用研究,2017,34(6):1659-1662. 被引量：2
2陆忠兴.递归函数生成的图形[J].电脑爱好者,1998(9):50-51.
3黄丽芳,方志军.基于多小波变换的医学图像压缩[J].计算机与现代化,2010(11):39-41.
4李丽娜,闫德勤,楚永贺.一种修正的模糊极限学习机[J].计算机应用与软件,2017,34(5):234-240.
5韩志艳,王健.基于不平衡支持向量数据描述的故障诊断算法[J].计算机工程,2017,34(5):156-162. 被引量：4
6刘君,黄燕琪,汪传忠.基于核最小距离鉴别投影的人脸识别算法[J].测试技术学报,2015,29(5):369-373.
7朱峰,陈莉.蚁群与遗传算法融合的聚类算法研究[J].西北大学学报（自然科学版）,2009,39(5):745-749. 被引量：11
8王森,杨克俭.基于双线性插值的图像缩放算法的研究与实现[J].自动化技术与应用,2008,27(7):44-45. 被引量：80
9姜琳颖,余东海,石鑫.基于加权极限学习机的肿瘤基因表达谱数据分类[J].东北大学学报（自然科学版）,2017,38(6):798-803. 被引量：4
10雷俊,王立辉,何芸倩,张智.适用于机器人视觉的图像分割方法[J].系统工程与电子技术,2017,39(7):1653-1659. 被引量：11

计算机应用研究

2017年第7期

浏览历史

内容加载中请稍等...

基于不平衡数据集的软件缺陷预测被引量：7

参考文献6

二级参考文献114

共引文献101

同被引文献53

引证文献7

二级引证文献26

相关作者

相关机构

相关主题

浏览历史

基于不平衡数据集的软件缺陷预测 被引量：7

参考文献6

二级参考文献114

共引文献101

同被引文献53

引证文献7

二级引证文献26

相关作者

相关机构

相关主题

浏览历史

基于不平衡数据集的软件缺陷预测被引量：7