软件缺陷数据集的数据质量优化

Data Quality Optimization of Software Defect Data Set

下载PDF

导出

摘要数据集的质量对软件缺陷预测模型的效果至关重要。针对传统数据集特征过多导致的学习速度较慢以及缺陷样本远少于无缺陷样本的类不平衡问题,提出一种基于主成分分析法(Principal Component Analysis,PCA)和数据加权增广的数据集优化方法:通过PCA方法对数据进行降维,有效去除了冗余数据,减少模型的学习时间,提高检测效率;通过数据加权增广方法,增加了有缺陷类在样本中所占的比例,有效提高了缺陷样本的识别率。 The quality of data sets is very important to the effect of software defect prediction model.Aiming at the problems of slow learning speed caused by too many features of traditional dataset and class imbalance caused by far fewer defect samples than non-defect samples,a data set optimization method based on principal component analysis(PCA)and data weighted augmentation is proposed:PCA method is used to reduce the dimension of the data,which can effectively remove the redundant data,reduce the learning time of the model and improve the detection efficiency.Through the method of data weighted enlargement,the proportion of the defective categories in the sample is increased,and the recognition rate of the defective samples is effectively improved.

作者李冰 LI Bing(Academy of Military Sciences, Beijing 100091, China)

机构地区军事科学院

出处《信息工程大学学报》 2022年第1期87-92,共6页 Journal of Information Engineering University

基金国家自然科学基金资助项目(61272041)。

关键词软件缺陷数据集数据优化主成分分析 software defect data set data optimization principal component analysis

分类号 TP311.5 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献2

1王青,伍书剑,李明树.软件缺陷预测技术[J].软件学报,2008,19(7):1565-1580. 被引量：149
2陈凯,邵培南.基于深度学习的软件缺陷预测模型[J].计算机系统应用,2021,30(1):29-37. 被引量：4

二级参考文献9

1陈火旺,王戟,董威.高可信软件工程技术[J].电子学报,2003,31(z1):1933-1938. 被引量：115
2张文浩,曹健.软件缺陷预防过程与方法[J].计算机工程,2004,30(B12):23-24. 被引量：4
3胡玉鹏,陈治平,林亚平,李军义.贝叶斯缺陷分析模型及其在软件测试中的应用[J].计算机应用,2005,25(4):808-810. 被引量：3
4刘宏伟,杨孝宗,岳晓光,曲峰.一个NHPP类软件可靠性增长模型框架[J].计算机工程与科学,2005,27(4):1-2. 被引量：4
5陈莉,刘海红,盛昌,陈威.可靠性增长模型和正交缺陷分类的结合及在过程定性分析中的应用[J].科学技术与工程,2005,5(14):963-966. 被引量：1
6郭树行,兰雨晴,金茂忠.软件构件的可信保证研究[J].计算机科学,2007,34(5):243-246. 被引量：14
7郭树行,兰雨晴,金茂忠.基于目标的软件可信性需求规约方法研究[J].计算机工程,2007,33(11):37-38. 被引量：3
8朱永春,徐红.一种基于历史数据的软件缺陷预测方法改进[J].北京航空航天大学学报,2003,29(10):947-950. 被引量：8
9蒋乐天,徐国治.软件缺陷及软件可靠性技术[J].计算机仿真,2004,21(2):141-144. 被引量：16

共引文献151

1郭肇强,周慧聪,刘释然,李言辉,陈林,周毓明,徐宝文.基于信息检索的缺陷定位:问题、进展与挑战[J].软件学报,2020(9):2826-2854. 被引量：14
2秦庆强,魏启国.结合软件开发过程的软件缺陷预测方法[J].计算机应用研究,2020,37(S02):210-213.
3左旭辉,李文泽.高效的小型软件项目的质量保障体系[J].计算机工程与设计,2009,30(9):2211-2212. 被引量：1
4吴超,许建平,陈丽容.基于生命周期的软件缺陷预测技术[J].计算机工程与设计,2009,30(12):2956-2959. 被引量：7
5李宁,李战怀.软件缺陷数据处理研究综述[J].计算机科学,2009,36(8):21-25. 被引量：11
6罗云锋,贲可荣.软件故障静态预测方法综述[J].计算机科学与探索,2009,3(5):449-459. 被引量：6
7王科欣,王胜利.基于贝叶斯网络技术的软件缺陷预测与故障诊断[J].微型电脑应用,2009(11):31-33. 被引量：5
8库燕,杨叶,李奇.基于COQUALMO的缺陷预测与校准工具的设计与实现[J].计算机工程与设计,2010,31(14):3185-3188.
9张垚,袁志海,江海燕.一种面向对象软件缺陷的早期预测方法[J].计算机技术与发展,2010,20(8):37-40. 被引量：5
10占济舟,周献中,赵佳宝,王建峰.基于失信因子的软件缺陷预测模型[J].中国管理科学,2010,18(6):89-96.

1朱旭阳,唐正宁.基于机器视觉的玉米头尾识别[J].轻工机械,2022,40(2):61-66. 被引量：3
2漆征鹏,周拥军.基于PCA方法的BIM构件重建与误差分析[J].粉煤灰综合利用,2022,36(2):1-9. 被引量：2
3李艳,郭劼,范斌.元学习的不确定性特征构建及初步分析[J].计算机应用,2022,42(2):343-348. 被引量：4
4褚洪佳,陈光化,汪凯旋.双重降维HOG结合SVM的快速手指静脉识别[J].红外技术,2022,44(3):262-267. 被引量：2
5陈飞,王斌,刘婷,张文静,高园晨,陈帝伊.基于时移多尺度注意熵和随机森林的水电机组故障诊断[J].水利学报,2022,53(3):358-368. 被引量：19
6张长伟,蒋淑霞,隆波,刘文,刘梦安.基于PCA-IPSO-INN的离心风机噪声预测[J].噪声与振动控制,2022,42(2):73-78.
7杨洁,罗天,李阳军.基于TOPSIS的无标签序贯三支决策模型[J].山东大学学报（理学版）,2022,57(3):41-48. 被引量：2
8王帅星,黄茜,王晓笋,巫世晶.WPT、PCA与SVM结合的滚动轴承故障程度诊断[J].机械设计与制造,2022(4):5-9. 被引量：5
9王进,徐巍,丁一,孙开伟,王利蕾.基于图嵌入和区域注意力的多标签文本分类[J].江苏大学学报（自然科学版）,2022,43(3):310-318. 被引量：15
10陈鹏芳,孟建军,李德仓,胥如迅.基于改进LSSVM模型的区域铁路货运量预测[J].铁道运输与经济,2022,44(2):59-65. 被引量：4

信息工程大学学报

2022年第1期

浏览历史

内容加载中请稍等...

软件缺陷数据集的数据质量优化

参考文献2

二级参考文献9

共引文献151

相关作者

相关机构

相关主题

浏览历史