在软件缺陷预测过程中,训练集质量是影响预测结果的关键因素。近几年,训练集选择也成为跨项目缺陷预测和跨版本缺陷预测等场景下的研究热点。然而,现有研究大多针对单一预测场景,可能会在一定程度上影响训练集质量。基于跨项目缺陷预测...在软件缺陷预测过程中,训练集质量是影响预测结果的关键因素。近几年,训练集选择也成为跨项目缺陷预测和跨版本缺陷预测等场景下的研究热点。然而,现有研究大多针对单一预测场景,可能会在一定程度上影响训练集质量。基于跨项目缺陷预测和跨版本缺陷预测两个场景,从数据分布角度提出一种基于相似性度量的训练集推荐(similarity-based training set recommendation,STSR)方法。采用聚类将候选源项目与目标项目划分为相同个数的簇,计算簇心之间的欧氏距离衡量数据集的相似度,对目标项目进行抽样,计算候选源项目与抽样目标项目缺陷率的差值,并计算干扰类比率,最终实现训练集推荐。在PROMISE数据集的11个项目共40个版本上进行实验验证,采用F1和AUC指标评价STSR方法的性能。实验结果表明,与跨版本缺陷预测相比,STSR方法的F1更优,在AUC指标上两者相当;在时间代价方面,STSR方法的最长推荐时间为5.09 s,是可接受的。展开更多
在近红外光谱PLS定量模型的建立过程中训练集样本的选取和潜变量数的确定是十分重要的。因此,该研究以橘叶中橙皮苷的含量检测为例,分别比较了random sampling(RS),Kennard-Stone(KS),duplex,sample set partitioning based on joint x-...在近红外光谱PLS定量模型的建立过程中训练集样本的选取和潜变量数的确定是十分重要的。因此,该研究以橘叶中橙皮苷的含量检测为例,分别比较了random sampling(RS),Kennard-Stone(KS),duplex,sample set partitioning based on joint x-y distance(SPXY)四种训练集样本的选取方法对模型的影响,以及留一交互验证法和蒙特卡罗法对潜变量数确定的影响。结果表明,SPXY法选取的训练集建立的模型优于其他三种方法,蒙特卡罗法能够较好地确定模型的潜变量数并有效地减少过拟合风险,所建模型的交互验证均方根,预测均方根及预测集相关系数分别为0.7681,0.7369,0.9752。展开更多
文摘在软件缺陷预测过程中,训练集质量是影响预测结果的关键因素。近几年,训练集选择也成为跨项目缺陷预测和跨版本缺陷预测等场景下的研究热点。然而,现有研究大多针对单一预测场景,可能会在一定程度上影响训练集质量。基于跨项目缺陷预测和跨版本缺陷预测两个场景,从数据分布角度提出一种基于相似性度量的训练集推荐(similarity-based training set recommendation,STSR)方法。采用聚类将候选源项目与目标项目划分为相同个数的簇,计算簇心之间的欧氏距离衡量数据集的相似度,对目标项目进行抽样,计算候选源项目与抽样目标项目缺陷率的差值,并计算干扰类比率,最终实现训练集推荐。在PROMISE数据集的11个项目共40个版本上进行实验验证,采用F1和AUC指标评价STSR方法的性能。实验结果表明,与跨版本缺陷预测相比,STSR方法的F1更优,在AUC指标上两者相当;在时间代价方面,STSR方法的最长推荐时间为5.09 s,是可接受的。
文摘在近红外光谱PLS定量模型的建立过程中训练集样本的选取和潜变量数的确定是十分重要的。因此,该研究以橘叶中橙皮苷的含量检测为例,分别比较了random sampling(RS),Kennard-Stone(KS),duplex,sample set partitioning based on joint x-y distance(SPXY)四种训练集样本的选取方法对模型的影响,以及留一交互验证法和蒙特卡罗法对潜变量数确定的影响。结果表明,SPXY法选取的训练集建立的模型优于其他三种方法,蒙特卡罗法能够较好地确定模型的潜变量数并有效地减少过拟合风险,所建模型的交互验证均方根,预测均方根及预测集相关系数分别为0.7681,0.7369,0.9752。