基于堆叠降噪自编码器的跨项目软件缺陷数量预测方法

Cross-project Software Defect Number Prediction Method Based on Stacked Denoising Autoencoders

下载PDF

导出

摘要在软件缺陷预测技术应用中,需要预测的项目可能是一个全新的项目,或者需要预测的项目历史数据较为不足。一种解决方法是利用已有数据充足的项目(源项目)构建模型完成对新项目(目标项目)的预测,主要利用传统机器学习方法对源项目与目标项目进行特征迁移学习完成缺陷预测,但不同项目之间的数据存在较大的分布差异,同时传统机器方法学习到的特征表示能力很弱且缺陷预测性能较差。针对此问题,从深度学习出发提出一种基于堆叠降噪自编码器的跨项目缺陷预测方法,该方法结合堆叠降噪自编码器和最大均值差异距离,能够有效地提取源项目与目标项目可迁移的深层次特征表示,基于该特征可以训练出有效的缺陷数量预测模型。实验结果表明,在Relink数据集和AEEEM数据集上与经典的跨项目缺陷预测方法Burak过滤法、Peters过滤法、TCA以及TCA+进行比较,该方法在大多数情况下可取得最好的预测结果。 In the application of software defect prediction technology,the project to be predicted may be a brand new project,or the historical data of the project to be predicted is insufficient.One solution is to use a project(source project)with sufficient data to build a model to complete the prediction of a new project(target project),and mainly use traditional machine learning methods to perform feature transfer learning on the source project and the target project to complete defect prediction.There is a large difference in the distribution of data between different projects,and the feature representation ability learned by traditional machine methods is weak and the defect prediction performance is poor.In response to this problem,a cross-item defect prediction method based on stacked denoising autoencoders is proposed from the perspective of deep learning.This method combines stacked denoising autoencoders and maximum mean difference distance,which can effectively extract the transferable deeplevel feature representation of source items and target items,based on which an effective defect number prediction model can be trained.The experimental results show that compared with the classical cross-item defect prediction methods Burak filtering method,Peters filtering method,TCA and TCA+on Relink dataset and AEEEM dataset,this method achieves the best prediction results in most cases.

作者刘路瑶韩培胜 LIU Lu-yao;HAN Pei-sheng(School of Cryptography,University of Information Engineering,Zhengzhou 450000,China)

机构地区信息工程大学密码工程学院

出处《计算机与现代化》 2023年第4期32-38,46,共8页 Computer and Modernization

基金国家自然科学基金资助项目(61572517)。

关键词跨项目软件缺陷预测堆叠降噪自编码器最大均值差异距离深度特征表示 cross-project software defect prediction stacked denoising autoencoders maximum mean difference distance deep feature representation

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献7

1李叶飞,官国飞,葛崇慧,陈翔,倪超,钱柱中.FSDNP:针对软件缺陷数预测的特征选择方法[J].计算机工程与应用,2019,55(14):61-68. 被引量：9
2简艺恒,余啸.基于数据过采样和集成学习的软件缺陷数目预测方法[J].计算机应用,2018,38(9):2637-2643. 被引量：8
3陈曙,叶俊民,刘童.一种基于领域适配的跨项目软件缺陷预测方法[J].软件学报,2020,31(2):266-281. 被引量：13
4何吉元,孟昭鹏,陈翔,王赞,樊向宇.一种半监督集成跨项目软件缺陷预测方法[J].软件学报,2017,28(6):1455-1473. 被引量：17
5陈翔,王莉萍,顾庆,王赞,倪超,刘望舒,王秋萍.跨项目软件缺陷预测方法研究综述[J].计算机学报,2018,41(1):254-274. 被引量：42
6倪超,陈翔,刘望舒,顾庆,黄启国,李娜.基于特征迁移和实例迁移的跨项目缺陷预测方法[J].软件学报,2019,30(5):1308-1329. 被引量：14
7贾修一,张文舟,李伟湋,黄志球.基于变分自编码器的异构缺陷预测特征表示方法[J].软件学报,2021,32(7):2204-2218. 被引量：6

二级参考文献20

1蒋盛益,谢照青,余雯.基于代价敏感的朴素贝叶斯不平衡数据分类研究[J].计算机研究与发展,2011,48(S1):387-390. 被引量：21
2王青,伍书剑,李明树.软件缺陷预测技术[J].软件学报,2008,19(7):1565-1580. 被引量：148
3郁抒思,周水庚,关佶红.软件工程数据挖掘研究进展[J].计算机科学与探索,2012,6(1):1-31. 被引量：24
4李勇.结合欠抽样与集成的软件缺陷预测[J].计算机应用,2014,34(8):2291-2294. 被引量：7
5庄福振,罗平,何清,史忠植.迁移学习研究进展[J].软件学报,2015,26(1):26-39. 被引量：462
6戴翔,毛宇光.基于集成混合采样的软件缺陷预测研究[J].计算机工程与科学,2015,37(5):930-936. 被引量：10
7戴翔,毛宇光.跨机构的软件缺陷集成采样预测研究[J].小型微型计算机系统,2015,36(8):1700-1705. 被引量：4
8Duksan Ryu Jong-In Jang Jongmoon Baik.A Hybrid Instance Selection Using Nearest-Neighbor for Cross-Project Defect Prediction[J].Journal of Computer Science & Technology,2015,30(5):969-980. 被引量：10
9陈翔,顾庆,刘望舒,刘树龙,倪超.静态软件缺陷预测方法研究[J].软件学报,2016,27(1):1-25. 被引量：122
10毛发贵,李碧雯,沈备军.基于实例迁移的跨项目软件缺陷预测[J].计算机科学与探索,2016,10(1):43-55. 被引量：7

共引文献82

1陈曙,叶俊民,刘童.一种基于领域适配的跨项目软件缺陷预测方法[J].软件学报,2020,31(2):266-281. 被引量：13
2谈笑.基于Spark大数据平台的老年病风险预警模型[J].微型电脑应用,2020,36(2):71-74. 被引量：2
3杨慕升,石志华.深入剖析C++Builder中的文件拷贝方法[J].电脑编程技巧与维护,2000(5):32-33.
4武玉英,孙平,何喜军,蒋国瑞.基于迁移学习的新产品销量预测模型[J].系统工程,2018,36(6):124-132. 被引量：2
5李怀强,周扬.关于软件架构生命周期准确性预测仿真[J].计算机仿真,2018,35(6):308-312.
6霍小卫,刘江坡.可重构嵌入式软件缺陷优化预测仿真研究[J].计算机仿真,2018,35(8):443-447.
7张肖,王黎明.一种半监督集成学习软件缺陷预测方法[J].小型微型计算机系统,2018,39(10):2138-2145. 被引量：7
8刘树毅,翟晔,刘东升.融合多策略特征筛选的跨项目软件缺陷预测[J].计算机工程与应用,2019,55(8):53-58. 被引量：7
9刘树毅,翟晔,刘东升.基于域自适应神经网络的跨项目软件缺陷预测[J].计算机与数字工程,2019,47(4):869-872. 被引量：2
10倪超,陈翔,刘望舒,顾庆,黄启国,李娜.基于特征迁移和实例迁移的跨项目缺陷预测方法[J].软件学报,2019,30(5):1308-1329. 被引量：14

1赵春辉.浅析电子商务推动农村经济转型与发展[J].中文科技期刊数据库（全文版）经济管理,2022(8):8-11.
2刘晶,闵帆,宋国杰.基于DiWCSmSTL的跨项目软件缺陷预测[J].海南热带海洋学院学报,2023,30(2):51-61.
3李汇来,杨斌,于秀丽,唐晓梅.软件缺陷预测模型可解释性对比[J].计算机科学,2023,50(5):21-30. 被引量：3
4肖雪霞,陈一村.不同产地蘡薁的高效液相色谱指纹图谱研究[J].汕头大学医学院学报,2023,36(1):34-39. 被引量：1
5周鑫.ERAS护理在单孔胸腔镜肺癌根治术围术期中的应用价值分析[J].中文科技期刊数据库（全文版）医药卫生,2023(3):177-180.
6李瑞英,王昱锦,孔钰媛,吴春梅,姜赫,王馨玉,刘永皓,徐权,张冰倩,何晓颖.基于单片机和计算机语言自动破窗系统设计及应用[J].电子制作,2023,31(4):103-106.
7徐天宇,曹玮,苏艺博,王艳娇.基于LDA主题模型的雷达软件缺陷分类算法研究[J].雷达与对抗,2023,43(1):59-64. 被引量：1
8杨杰.变电站一键顺控建设方案及实施方法论述[J].中文科技期刊数据库（引文版）工程技术,2023(4):37-40.
9面向时空数据库的增量式更新生产质检一体化系统[J].测绘技术装备,2023,25(1).
10张晓丽.基于机器学习的中药材种类及产地鉴定模型分析[J].宁夏师范学院学报,2023,44(1):43-49. 被引量：1

计算机与现代化

2023年第4期

浏览历史

内容加载中请稍等...

基于堆叠降噪自编码器的跨项目软件缺陷数量预测方法

参考文献7

二级参考文献20

共引文献82

相关作者

相关机构

相关主题

浏览历史