-
题名用于软件缺陷预测的集成模型
被引量:4
- 1
-
-
作者
胡梦园
黄鸿云
丁佐华
-
机构
浙江理工大学理学院
浙江理工大学图书馆多媒体大数据中心
浙江理工大学信息学院
-
出处
《计算机科学》
CSCD
北大核心
2019年第11期176-180,共5页
-
基金
国家自然科学基金项目(61751210,61572441)资助
-
文摘
软件缺陷预测的目的是有效地识别出有缺陷的模块。对于类别平衡数据,传统的分类器具有较好的预测效果,但当数据类别比例分布不均衡时,传统的分类器往往偏向于多数类,易使得少数类模块被误分。但是,真实的软件缺陷预测中的数据往往是类别不平衡的。为了处理软件缺陷中的这种类别不平衡问题,文中提出了基于改进的类权自适应、软投票与阈值移动的集成模型,该模型在不改变原始数据集的情况下,从训练阶段和决策阶段同时考虑处理类别不平衡的问题。首先,在类权值学习阶段,通过类权自适应学习得到不同类的最优权值;然后,在训练阶段,使用前一步得到的最优权值训练3个基分类器,并通过软集成的方法组合3个基分类器;最后,在决策阶段,根据阈值移动模型来做出决策,以得到最终预测类别。为了证明所提方法的有效性,实验采用NASA软件缺陷标准数据集和Eclipse软件缺陷标准数据集进行预测,并在相同的数据集上将其与近年提出的几种软件缺陷预测方法在召回率值Pd、假正例率值Pf和F 1度量值F-measure方面进行了对比。实验结果表明,所提方法的召回率Pd平均提高了0.09,在F 1度量值F-measure上平均提高了0.06。因此,文中提出的处理软件缺陷预测中类别不平衡问题的方法的整体性能优于其他软件缺陷预测方法,具有较好的预测效果。
-
关键词
软件缺陷预测
类权自适应
软投票
集成学习
软集成
阈值移动
-
Keywords
Software defect prediction
Class weighted self-adaptation
Soft voting
Ensemble learning
Soft ensemble
Threshold-moving
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-