在软件缺陷预测过程中,训练集质量是影响预测结果的关键因素。近几年,训练集选择也成为跨项目缺陷预测和跨版本缺陷预测等场景下的研究热点。然而,现有研究大多针对单一预测场景,可能会在一定程度上影响训练集质量。基于跨项目缺陷预测...在软件缺陷预测过程中,训练集质量是影响预测结果的关键因素。近几年,训练集选择也成为跨项目缺陷预测和跨版本缺陷预测等场景下的研究热点。然而,现有研究大多针对单一预测场景,可能会在一定程度上影响训练集质量。基于跨项目缺陷预测和跨版本缺陷预测两个场景,从数据分布角度提出一种基于相似性度量的训练集推荐(similarity-based training set recommendation,STSR)方法。采用聚类将候选源项目与目标项目划分为相同个数的簇,计算簇心之间的欧氏距离衡量数据集的相似度,对目标项目进行抽样,计算候选源项目与抽样目标项目缺陷率的差值,并计算干扰类比率,最终实现训练集推荐。在PROMISE数据集的11个项目共40个版本上进行实验验证,采用F1和AUC指标评价STSR方法的性能。实验结果表明,与跨版本缺陷预测相比,STSR方法的F1更优,在AUC指标上两者相当;在时间代价方面,STSR方法的最长推荐时间为5.09 s,是可接受的。展开更多
为了在诸多新项目中快速找到用于迁移的最优参考项目,解决基于迁移学习的跨项目缺陷预测(Cross Project Defect Prediction,CPDP)应用中存在的由单源选择性偏差而导致的缺陷预测性能稳定性问题,提出了用于跨项目缺陷预测的双重初始权重...为了在诸多新项目中快速找到用于迁移的最优参考项目,解决基于迁移学习的跨项目缺陷预测(Cross Project Defect Prediction,CPDP)应用中存在的由单源选择性偏差而导致的缺陷预测性能稳定性问题,提出了用于跨项目缺陷预测的双重初始权重的代价敏感多源迁移学习模型(Double initial Weights and Cost Sensitive multi-Source Transfer Learning,DiWCSmSTL),采用多源替代单源从而减少选择偏差以获得更稳定的性能。本研究模型首先融合行业内不同的数据支持多源迁移;然后利用动态性能评估进行代价敏感的源项目选择以减少负迁移的影响;最后对所融合的数据设置双重初始权重以获得稳定的模型。在3个开源数据集上进行实验,结果表明:基于多源融合的预测模型比单源融合能够获得更稳定的性能;代价敏感和双重权重设置既能有效缩短缺陷预测模型生成时间,又能在曲线下面积(Area under the curve,AUC)和几何平均值(Geometric mean,G_(mean))指标上均取得改进。展开更多
文摘在软件缺陷预测过程中,训练集质量是影响预测结果的关键因素。近几年,训练集选择也成为跨项目缺陷预测和跨版本缺陷预测等场景下的研究热点。然而,现有研究大多针对单一预测场景,可能会在一定程度上影响训练集质量。基于跨项目缺陷预测和跨版本缺陷预测两个场景,从数据分布角度提出一种基于相似性度量的训练集推荐(similarity-based training set recommendation,STSR)方法。采用聚类将候选源项目与目标项目划分为相同个数的簇,计算簇心之间的欧氏距离衡量数据集的相似度,对目标项目进行抽样,计算候选源项目与抽样目标项目缺陷率的差值,并计算干扰类比率,最终实现训练集推荐。在PROMISE数据集的11个项目共40个版本上进行实验验证,采用F1和AUC指标评价STSR方法的性能。实验结果表明,与跨版本缺陷预测相比,STSR方法的F1更优,在AUC指标上两者相当;在时间代价方面,STSR方法的最长推荐时间为5.09 s,是可接受的。
文摘为了在诸多新项目中快速找到用于迁移的最优参考项目,解决基于迁移学习的跨项目缺陷预测(Cross Project Defect Prediction,CPDP)应用中存在的由单源选择性偏差而导致的缺陷预测性能稳定性问题,提出了用于跨项目缺陷预测的双重初始权重的代价敏感多源迁移学习模型(Double initial Weights and Cost Sensitive multi-Source Transfer Learning,DiWCSmSTL),采用多源替代单源从而减少选择偏差以获得更稳定的性能。本研究模型首先融合行业内不同的数据支持多源迁移;然后利用动态性能评估进行代价敏感的源项目选择以减少负迁移的影响;最后对所融合的数据设置双重初始权重以获得稳定的模型。在3个开源数据集上进行实验,结果表明:基于多源融合的预测模型比单源融合能够获得更稳定的性能;代价敏感和双重权重设置既能有效缩短缺陷预测模型生成时间,又能在曲线下面积(Area under the curve,AUC)和几何平均值(Geometric mean,G_(mean))指标上均取得改进。