面向软件缺陷预测的聚类欠采样集成方法被引量：3

Clustering-based under-sampling ensemble method for software defect prediction

下载PDF

导出

摘要为缓解类不平衡问题对预测模型性能的影响,提出一种基于聚类的欠采样集成方法 CBUE(cluster-based undersampling ensemble method)。对多数类进行聚类分析,根据聚类的结果分布(即每个簇的大小比例)有放回地选择N个多数类的子集,N个子集分别和所有的少数类实例组成N个新的训练集;根据N个训练集训练出N个分类器,按照少数服从多数的原则生成一个新的集成分类器对新的数据进行预测。CBUE以NASA数据集作为评测对象,以balance、G-mean和AUC为评测指标,实验结果表明,该方法在大部分情况下要优于5种经典的基准方法 (ROS、RUS、SMOTE、RF和NB)。 To alleviate the impact of class imbalanced problem on the performance of prediction model,a cluster-based under-sampling ensemble method （CBUE）was proposed.The majority was clustered.N subsets of the majority were selected accor-ding to the distribution of clustering result which reflected the ratio of every cluster.N subsets and all minority instances were united to compose new N training sets respectively.N classifiers were trained according to N training sets and a new ensemble classifier was constructed which predicted new data based on majority rule.NASA datasets were used as evaluation datasets,and the balance,G-mean and AUC were taken as evaluation indicators.Experimental results show that the method is superior to five classical methods （ROS,RUS,SMOTE,RF and NB）in most cases.

作者陆鹏程邱建林卞彩峰陈璐璐陈翔

机构地区南通大学电子信息学院南通大学计算机科学与技术学院

出处《计算机工程与设计》北大核心 2016年第7期1805-1810,1891,共7页 Computer Engineering and Design

基金国家自然科学基金项目(61202006 61272424) 计算机软件新技术国家重点实验室开放课题基金项目(KFKT2012B29) 江苏省自然科学基金项目(BK2010277) 江苏省科技创新基金项目(BC2013167) 江苏省高校自然科学基金项目(12KJB520014)

关键词类不平衡学习软件缺陷预测集成学习方法欠采样聚类 class imbalance learning software defect prediction ensemble learning method under-sampling clustering

分类号 TP311.5 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献18

1王青,伍书剑,李明树.软件缺陷预测技术[J].软件学报,2008,19(7):1565-1580. 被引量：149
2Hall T,Beecham S,Bowes D,et al.A systematic review of fault prediction performance in software engineering[J].IEEE Transactions on Software Engineering,2012,38(6):1276-1304.
3Arisholm E,Briand LC,Johannessen EB.A systematic and comprehensive investigation of methods to build and evaluate fault prediction models[J].Journal Systems and Software,2010,83(1):2-17.
4He Haibo,Garcia EA.Learning from imbalanced data[J].IEEE Transactions on Knowledge and Data Engineering,2009,21(9):1263-1284.
5Chen J,Liu S,Liu W,et al.A two-stage data preprocessing approach for software fault prediction[C]//8th International Conference on Software Security and Reliability,2014:20-29.
6Liu S,Chen X,Liu W,et al.FECAR:A feature selection framework for software defect prediction[C]//Computer Software and Applications Conference,IEEE 38th Annual,2014:426-435.
7García V,Sánchez JS,Mollineda RA.On the effectiveness of preprocessing methods when dealing with different levels of class imbalance[J].Knowledge-Based Systems,2012,25(1):13-21.
8Menzies T,Greenwald J,Frank A.Data mining static code attributes to learn defect predictors[J].IEEE Transactions on Software Engineering,2007,33(1):2-13.
9Jing XY,Ying S,Zhang ZW,et al.Dictionary learning based software defect prediction[C]//Proceedings of the International Conference on Software Engineering,2014:414-423.
10Wang Shuo,Yao Xin.Using class imbalance learning for software defect prediction[J].IEEE Transactions on Reliability,2013,62(2):434-443.

二级参考文献35

1陈火旺,王戟,董威.高可信软件工程技术[J].电子学报,2003,31(z1):1933-1938. 被引量：115
2张文浩,曹健.软件缺陷预防过程与方法[J].计算机工程,2004,30(B12):23-24. 被引量：4
3胡玉鹏,陈治平,林亚平,李军义.贝叶斯缺陷分析模型及其在软件测试中的应用[J].计算机应用,2005,25(4):808-810. 被引量：3
4刘宏伟,杨孝宗,岳晓光,曲峰.一个NHPP类软件可靠性增长模型框架[J].计算机工程与科学,2005,27(4):1-2. 被引量：4
5陈莉,刘海红,盛昌,陈威.可靠性增长模型和正交缺陷分类的结合及在过程定性分析中的应用[J].科学技术与工程,2005,5(14):963-966. 被引量：1
6郭树行,兰雨晴,金茂忠.软件构件的可信保证研究[J].计算机科学,2007,34(5):243-246. 被引量：14
7郭树行,兰雨晴,金茂忠.基于目标的软件可信性需求规约方法研究[J].计算机工程,2007,33(11):37-38. 被引量：3
8Monden A, Hayashi T, Shinoda S, et al. Assessing the cost effectiveness of fault prediction in acceptance testing[J].IEEE Transactions on Software Engineering, 2013, 39(10): 1345-1357.
9Catal C, Diri B. A systematic review of software fault pre- diction studies[J]. Expert Systems with Applications, 2009, 36(4): 7346-7354.
10Menzies T, Greenwald J, Frank A. Data mining static code attributes to learn defect predictors[J]. IEEE Transactions on Software Engineering, 2007, 33(1): 2-13.

共引文献158

1郭肇强,周慧聪,刘释然,李言辉,陈林,周毓明,徐宝文.基于信息检索的缺陷定位:问题、进展与挑战[J].软件学报,2020(9):2826-2854. 被引量：14
2秦庆强,魏启国.结合软件开发过程的软件缺陷预测方法[J].计算机应用研究,2020,37(S02):210-213.
3左旭辉,李文泽.高效的小型软件项目的质量保障体系[J].计算机工程与设计,2009,30(9):2211-2212. 被引量：1
4吴超,许建平,陈丽容.基于生命周期的软件缺陷预测技术[J].计算机工程与设计,2009,30(12):2956-2959. 被引量：7
5李宁,李战怀.软件缺陷数据处理研究综述[J].计算机科学,2009,36(8):21-25. 被引量：11
6罗云锋,贲可荣.软件故障静态预测方法综述[J].计算机科学与探索,2009,3(5):449-459. 被引量：6
7王科欣,王胜利.基于贝叶斯网络技术的软件缺陷预测与故障诊断[J].微型电脑应用,2009(11):31-33. 被引量：5
8库燕,杨叶,李奇.基于COQUALMO的缺陷预测与校准工具的设计与实现[J].计算机工程与设计,2010,31(14):3185-3188.
9张垚,袁志海,江海燕.一种面向对象软件缺陷的早期预测方法[J].计算机技术与发展,2010,20(8):37-40. 被引量：5
10占济舟,周献中,赵佳宝,王建峰.基于失信因子的软件缺陷预测模型[J].中国管理科学,2010,18(6):89-96.

同被引文献19

1杨智明,乔立岩,彭喜元.基于改进SMOTE的不平衡数据挖掘方法研究[J].电子学报,2007,35(B12):22-26. 被引量：31
2吴磊,房斌,刁丽萍,陈静,谢娜娜.融合过抽样和欠抽样的不平衡数据重抽样方法[J].计算机工程与应用,2013,49(21):172-176. 被引量：15
3李勇,刘战东,张海军.不平衡数据的集成分类算法综述[J].计算机应用研究,2014,31(5):1287-1291. 被引量：74
4朱亚奇,邓维斌.一种基于不平衡数据的聚类抽样方法[J].南京大学学报（自然科学版）,2015,51(2):421-429. 被引量：5
5戴翔,毛宇光.基于集成混合采样的软件缺陷预测研究[J].计算机工程与科学,2015,37(5):930-936. 被引量：10
6雷剑刚.不平衡网络入侵特征下的博弈检测仿真[J].计算机仿真,2015,32(9):307-310. 被引量：3
7赵永彬,陈硕,刘明,曹鹏.基于置信度代价敏感的支持向量机不均衡数据学习[J].计算机工程,2015,41(10):177-180. 被引量：8
8马春来,单洪,马涛,朱立新.一种基于CFSFDP改进算法的重要地点识别方法研究[J].计算机应用研究,2017,34(1):136-140. 被引量：5
9陈木生,卢晓勇.三种用于垃圾网页检测的随机欠采样集成分类器[J].计算机应用,2017,37(2):535-539. 被引量：8
10韩志艳,王健.基于不平衡支持向量数据描述的故障诊断算法[J].计算机工程,2017,34(5):156-162. 被引量：4

引证文献3

1张彤,李英梅.基于聚类和混合采样的软件缺陷预测研究[J].哈尔滨师范大学自然科学学报,2022,38(2):58-63.
2李国和,张腾,吴卫江,洪云峰,周晓明.面向机器学习的训练数据集均衡化方法[J].计算机工程与设计,2019,40(3):812-818. 被引量：12
3王军,吴文超,程勇.基于密度峰值的Adaboost算法[J].计算机工程与设计,2019,40(11):3136-3141. 被引量：3

二级引证文献15

1孙海铭,曹桐滔,代作晓,彭鹏.基于双通道图像的电力设备智能监测技术研究[J].激光与红外,2019,49(11):1338-1343. 被引量：24
2齐玉东,丁海强,赵锦超,孙明玮.基于biRNN的海军军械不均衡文本数据集处理方法[J].计算机与现代化,2019,0(12):21-26. 被引量：3
3王维嘉,孙亚运,孙洪亮,范强.基于多目标优化技术的多源异构数据分类研究[J].计算机与数字工程,2020,48(1):130-136. 被引量：9
4陈平平,耿笑冉,邹敏,谭定英.基于机器学习的文本情感倾向性分析[J].计算机与现代化,2020,0(3):77-81. 被引量：13
5管峻,毛保磊,刘慧英.利用单分类SVM算法检测Android应用程序[J].计算机系统应用,2021,30(6):148-153. 被引量：2
6胡玉杰,杜景林,董亚,滕达.基于改进AdaBoost-C4.5算法的降雨预测[J].现代电子技术,2021,44(14):6-10. 被引量：2
7王曙燕,侯则昱,孙家泽.面向深度学习的对抗样本差异性检测方法[J].计算机应用,2021,41(7):1849-1856. 被引量：1
8岳志强.基于机器学习算法的运动员训练效果评估研究[J].电子设计工程,2021,29(20):110-114. 被引量：5
9张益明,张繁昌,丁继才,王迪,牛聪.基于混合深度学习网络的致密砂岩甜点预测[J].石油物探,2021,60(6):995-1002. 被引量：6
10薛亚龙,刘梓泞.基于决策树算法的云数据情报侦查研究[J].山东警察学院学报,2021,33(6):107-117. 被引量：1

1邢胜,王晓兰,赵士欣,赵彦霞.改进的加权极速学习机[J].计算机科学,2017,44(4):275-280.
2缪志敏,潘志松,袁伟伟,赵陆文.一种新的基于SVDD的多类分类算法[J].计算机科学,2009,36(3):65-68. 被引量：4
3于化龙,祁云嵩,杨习贝,左欣.类不平衡模糊加权极限学习机算法研究[J].计算机科学与探索,2017,11(4):619-632. 被引量：7
4杜方.一种基于数据划分实现分布式SPARQL查询的方法[J].计算机应用与软件,2016,33(10):23-27. 被引量：1
5陈翔,陆凌姣,吉人,魏世鑫.SBFS:基于搜索的软件缺陷预测特征选择框架[J].计算机应用研究,2017,34(4):1105-1108. 被引量：6
6Tony Redmond 刘海蜀(译者).可信赖的收件人更新服务（RUS）[J].Windows IT Pro Magazine（国际中文版）,2006(5):61-64.
7Chang-Bin Xue,Xu-Ri Yao,Wen-Kai Yu,Xiao-Yong Guo,Long-Zhen Li,Xue-Feng Liu,Guang-Jie Zhai,Qing Zhao.Sub-Rayleigh imaging via undersampling scanning based on sparsity constraints[J].Chinese Physics B,2017,26(2):218-222.
8夏佩佩,张莉.不平衡数据学习算法在相似性学习中的应用[J].模式识别与人工智能,2014,27(12):1138-1146. 被引量：1
9苏攀,王熙照,李艳.基于不平衡学习的分类器博弈模型及其在中国象棋中的应用[J].计算机研究与发展,2011,48(5):841-847. 被引量：5
10陈雪松,李昊天,贾瑞成,孙立娜,卜广龙.一种基于混沌加密的DWT数字音频水印算法[J].计算机与现代化,2014(8):46-49. 被引量：2

计算机工程与设计

2016年第7期

浏览历史

内容加载中请稍等...

面向软件缺陷预测的聚类欠采样集成方法被引量：3

参考文献18

二级参考文献35

共引文献158

同被引文献19

引证文献3

二级引证文献15

相关作者

相关机构

相关主题

浏览历史

面向软件缺陷预测的聚类欠采样集成方法 被引量：3

参考文献18

二级参考文献35

共引文献158

同被引文献19

引证文献3

二级引证文献15

相关作者

相关机构

相关主题

浏览历史

面向软件缺陷预测的聚类欠采样集成方法被引量：3