基于特征选择和TrAdaBoost的跨项目缺陷预测方法被引量：4

Cross-project defect prediction method based on feature selection and TrAdaBoost

下载PDF

导出

摘要跨项目软件缺陷预测可以解决预测项目中训练数据较少的问题,然而源项目和目标项目通常会有较大的数据分布差异,这降低了预测性能。针对该问题,提出了一种基于特征选择和TrAdaBoost的跨项目缺陷预测方法(CPDP-FSTr)。首先,在特征选择阶段,采用核主成分分析法(KPCA)删除源项目中的冗余数据;然后,根据源项目和目标项目的属性特征分布,按距离选出与目标项目分布最接近的候选源项目数据;最后,在实例迁移阶段,通过采用评估因子改进的TrAdaBoost方法,在源项目中找出与目标项目中少量有标签实例分布相近的实例,并建立缺陷预测模型。以F1作为评价指标,与基于特征聚类和TrAdaBoost的跨项目软件缺陷预测(FeCTrA)方法以及基于多核集成学习的跨项目软件缺陷预测(CMKEL)方法相比,CPDP-FSTr的预测性能在AEEEM数据集上分别提高了5.84%、105.42%,在NASA数据集上分别提高了5.25%、85.97%,且其两过程特征选择优于单一特征选择过程。实验结果表明,当源项目特征选择比例和目标项目有类标实例比例分别为60%、20%时,所提CPDP-FSTr能取得较好的预测性能。 Cross-project software defect prediction can solve the problem of few training data in prediction projects.However,the source project and the target project usually have the large distribution difference,which reduces the prediction performance.In order to solve the problem,a new Cross-Project Defect Prediction method based on Feature Selection and TrAdaBoost(CPDP-FSTr)was proposed.Firstly,in the feature selection stage,Kernel Principal Component Analysis(KPCA)was used to delete redundant data in the source project.Then,according to the attribute feature distribution of the source project and the target project,the candidate source project data closest to the target project distribution were selected according to the distance.Finally,in the instance transfer stage,the TrAdaBoost method improved by the evaluation factor was used to find out the instances in the source project which were similar to the distribution of a few labeled instances in the target project,and establish a defect prediction model.Using F1 as the evaluation index,compared with the methods such as cross-project software defect prediction using Feature Clustering and TrAdaBoost(FeCTrA),Cross-project software defect prediction based on Multiple Kernel Ensemble Learning(CMKEL),the proposed CPDP-FSTr had the prediction performance improved by 5.84%and 105.42%respectively on AEEEM dataset,enhanced by 5.25%and 85.97%respectively on NASA dataset,and its two-process feature selection is better than the single feature selection process.Experimental results show that the proposed CPDP-FSTr can achieve better prediction performance when the source project feature selection proportion and the target project labeled instance proportion are 60%and 20%respectively.

作者李莉石可欣任振康 LI Li;SHI Kexin;REN Zhenkang(College of Information and Computer Engineering,Northeast Forestry University,Harbin Heilongjiang 150040,China)

机构地区东北林业大学信息与计算机工程学院

出处《计算机应用》 CSCD 北大核心 2022年第5期1554-1562,共9页 journal of Computer Applications

关键词跨项目缺陷预测特征选择核主成分分析实例迁移 TrAdaBoost cross-project defect prediction feature selection Kernel Principal Component Analysis(KPCA) instance transfer TrAdaBoost

分类号 TP311.5 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献5

1宫丽娜,姜淑娟,姜丽.软件缺陷预测技术研究进展[J].软件学报,2019,30(10):3090-3114. 被引量：47
2陈翔,王莉萍,顾庆,王赞,倪超,刘望舒,王秋萍.跨项目软件缺陷预测方法研究综述[J].计算机学报,2018,41(1):254-274. 被引量：44
3黄琳,荆晓远,董西伟.基于多核集成学习的跨项目软件缺陷预测[J].计算机技术与发展,2019,29(6):27-31. 被引量：5
4刘芳,高兴,周冰,邓娟.基于PCA-ISVM的软件缺陷预测模型[J].计算机仿真,2014,31(3):397-401. 被引量：6
5倪超,陈翔,刘望舒,顾庆,黄启国,李娜.基于特征迁移和实例迁移的跨项目缺陷预测方法[J].软件学报,2019,30(5):1308-1329. 被引量：14

二级参考文献30

1景涛,江昌海,胡德斌,白成刚,蔡开元.软件关联缺陷的一种检测方法[J].软件学报,2005,16(1):17-28. 被引量：23
2王华秋,曹长修.并行混沌粒子群优化研究及应用[J].计算机仿真,2005,22(11):98-101. 被引量：10
3K E Emam, O Laitenberger. Evaluating capture-recapture models with two inspectors[ J]. IEEE Transactions on Software Engineer- ing, 2001,27(9) :851-864.
4B Turhan, A Bener. A Multivariate Analysis of Static Code Attrib- utes for Defect Prediction [ C ]. Seventh International Conference on Quality Software, 2007: 231-237.
5L C Briand, et al. A comprehensive evaluation of capture-recapture models for estimating software defect content [ J ]. IEEE Transac- tions on Software Engineering, 2000,26 (6) :518-540.
6T Gyimothy, R Ference, L Siket. Empirical Validation of Object- Oriented Metrics on Open Source Software for Fault Prediction[ J]. IEEE Trans on Software Engineering, 2005,31 (10) :897-910.
7F Provost, T Fawcett. Robust Classification for Imprecise Environ- ments [ J ]. Machine Learning, 2001,42 ( 3 ) : 203 - 231.
8王青,伍书剑,李明树.软件缺陷预测技术[J].软件学报,2008,19(7):1565-1580. 被引量：149
9石剑飞,杨欣,秦玮,闫怀志.一种软件缺陷预测改进模型的研究[J].北京理工大学学报,2010,30(9):1074-1076. 被引量：1
10李乔,郑啸.云计算研究现状综述[J].计算机科学,2011,38(4):32-37. 被引量：432

共引文献94

1陈曙,叶俊民,刘童.一种基于领域适配的跨项目软件缺陷预测方法[J].软件学报,2020,31(2):266-281. 被引量：15
2贾燕华,李英梅.基于自适应聚类过采样的软件缺陷预测研究[J].哈尔滨师范大学自然科学学报,2023,39(2):45-50. 被引量：1
3王馨煜,崔艺凝,段盈盈.基于ExtraTree的软件缺陷预测方法研究[J].智能计算机与应用,2022,12(3):139-141.
4杨慕升,石志华.深入剖析C++Builder中的文件拷贝方法[J].电脑编程技巧与维护,2000(5):32-33.
5武玉英,孙平,何喜军,蒋国瑞.基于迁移学习的新产品销量预测模型[J].系统工程,2018,36(6):124-132. 被引量：2
6李国庆,尹洪胜.自动化软件质量优化检测仿真研究[J].计算机仿真,2017,34(3):369-372. 被引量：6
7薛参观.基于堆叠降噪稀疏自动编码器的软件缺陷预测[J].计算机与现代化,2018(5):65-69. 被引量：1
8周末,徐玲,杨梦宁,廖胜平,鄢萌.基于深度自编码网络的软件缺陷预测方法[J].计算机工程与科学,2018,40(10):1796-1804. 被引量：10
9刘树毅,翟晔,刘东升.融合多策略特征筛选的跨项目软件缺陷预测[J].计算机工程与应用,2019,55(8):53-58. 被引量：7
10刘树毅,翟晔,刘东升.基于域自适应神经网络的跨项目软件缺陷预测[J].计算机与数字工程,2019,47(4):869-872. 被引量：2

同被引文献46

1徐宇明,陈诚,熊赟,朱扬勇.APT-KNN:一种面向分类问题的高效缺失值填充算法[J].计算机应用与软件,2011,28(4):135-139. 被引量：11
2郭贤利,彭世恒,仇圣桃.BP神经网络在连铸板坯质量在线诊断中的应用[J].钢铁研究学报,2013,25(7):58-62. 被引量：6
3吕庆,刘月明,张振峰,刘颂.基于承钢生产数据预测烧结矿FeO含量[J].钢铁研究学报,2018,30(12):957-962. 被引量：21
4吕庆,黄宏虎,曹丽华,刘小杰,郄亚娜,丁海超.原矿中FeO含量对烧结矿的影响[J].烧结球团,2014,39(5):1-4. 被引量：2
5韩亚军,李太福,杨小强.基于Logistic映射相空间重构神经网络短期风电预测[J].实验技术与管理,2015,32(10):40-45. 被引量：3
6程铭,毋国庆,袁梦霆.基于迁移学习的软件缺陷预测[J].电子学报,2016,44(1):115-122. 被引量：23
7韩顺杰,齐冀樊,姜玉莲,尤文.基于主成分分析与遗传算法-支持向量机的喷溅预测方法[J].钢铁研究学报,2016,28(12):21-26. 被引量：7
8何吉元,孟昭鹏,陈翔,王赞,樊向宇.一种半监督集成跨项目软件缺陷预测方法[J].软件学报,2017,28(6):1455-1473. 被引量：17
9陈翔,王莉萍,顾庆,王赞,倪超,刘望舒,王秋萍.跨项目软件缺陷预测方法研究综述[J].计算机学报,2018,41(1):254-274. 被引量：44
10李冉,周丽娟,王华.面向类不平衡数据集的软件缺陷预测模型[J].计算机应用研究,2018,35(9):2806-2810. 被引量：11

引证文献4

1周长春,姜杰,李谦,朱海燕,李之军,鲁柳利.基于融合特征选择算法的钻速预测模型研究[J].钻探工程,2022,49(4):31-40. 被引量：5
2刘晶,闵帆,宋国杰.基于DiWCSmSTL的跨项目软件缺陷预测[J].海南热带海洋学院学报,2023,30(2):51-61.
3李莉,赵鑫,石可欣,苏仁嘉,任振康.结合特征对齐与实例迁移的跨项目缺陷预测[J].计算机应用研究,2023,40(10):3091-3099.
4惠佳豪,邢相栋,郑兆颖,王宇星,吕明.基于KPCA和Logistic-SSA-BP的烧结矿FeO含量预测[J].钢铁研究学报,2024,36(6):717-726.

二级引证文献5

1王亚飞,张占荣,刘华吉,姚震桐.基于模型融合的钻进参数识别岩石类型研究[J].钻探工程,2023,50(2):17-25. 被引量：4
2甘超,汪祥,王鲁朝,曹卫华,吴敏.基于区域多井数据优选与模型预训练的深部地质钻探过程钻速动态预测方法[J].钻探工程,2023,50(4):1-8. 被引量：1
3刘长晔,杨现禹,蔡记华,王韧,王建龙,代凡斐,郭万阳,蒋国盛,冯洋.基于机器学习的钻井液流变参数智能识别方法[J].煤田地质与勘探,2024,52(5):183-192.
4邓斌,王玲,何军,尹龙斌,蒋昌波,陈杰,伍志元.基于SSA-CNN模型的双排开孔圆筒防波堤透射系数预测[J].海洋学报,2024,46(4):122-132.
5郑江怀,吕卫东,王一朵,胡陈陈.基于Stacking算法的银行定期存款产品购买行为研究[J].应用数学进展,2022,11(9):6426-6435.

1胡启国,白熊,杜春超.基于KPCA-BLSTM的航空发动机多信息融合剩余寿命预测[J].航空工程进展,2022,13(3):157-163. 被引量：7
2汤怡佳,王丽侠,韩建民,于娟,叶荣华,姚鑫,曹小倩.基于BERT-PFMM的软件缺陷预测方法[J].浙江师范大学学报（自然科学版）,2022,45(3):291-299. 被引量：1
3刘玉利,王克朝,刘琳.基于机器学习的多光谱模糊图像降噪方法[J].激光杂志,2022,43(5):156-160. 被引量：2
4张鹏飞,岳建海,裴迪,焦静.基于KPCA和优化HMM的货车制动系统故障诊断[J].计算机仿真,2022,39(5):167-171. 被引量：3
5阙华坤,冯小峰,刘盼龙,郭文翀,李健,曾伟良,范竞敏.Grassberger熵随机森林在窃电行为检测的应用[J].计算机科学,2022,49(S01):790-794. 被引量：7
6邢颖,钱晓萌,管宇,章世豪,赵梦赐,林婉婷.一种采用对抗学习的跨项目缺陷预测方法[J].软件学报,2022,33(6):2097-2112. 被引量：5
7生龙,袁丽娜,武南南,姬少培.基于GSA与DE优化混合核ELM的网络异常检测模型[J].计算机工程,2022,48(6):146-153. 被引量：9
8路锦非.社会救助中的民众获得感、幸福感、安全感研究——基于上海浦东新区的实证调查[J].社会科学辑刊,2022(3):60-70. 被引量：5
9苏凯,张萱,付静.基于项目属性聚类及相似度优化的协同过滤算法[J].海军工程大学学报,2022,34(2):20-26. 被引量：4
10赵传武,吴子若,张玉环,郭伟.基于多时相遥感的鄂尔多斯市不透水面变化分析[J].测绘通报,2022(5):56-61. 被引量：2

计算机应用

2022年第5期

浏览历史

内容加载中请稍等...

基于特征选择和TrAdaBoost的跨项目缺陷预测方法被引量：4

参考文献5

二级参考文献30

共引文献94

同被引文献46

引证文献4

二级引证文献5

相关作者

相关机构

相关主题

浏览历史

基于特征选择和TrAdaBoost的跨项目缺陷预测方法 被引量：4

参考文献5

二级参考文献30

共引文献94

同被引文献46

引证文献4

二级引证文献5

相关作者

相关机构

相关主题

浏览历史

基于特征选择和TrAdaBoost的跨项目缺陷预测方法被引量：4