基于改进Adaboost软件缺陷数据特征选择方法被引量：1

Feature selection method based on improved Adaboost for software defect prediction data

下载PDF

导出

摘要传统的Adaboost算法在处理软件缺陷数据时,面临两个问题:Adaboost未能考虑软件缺陷数据为不平衡数据,即无缺陷的样本数远远超过有缺陷的样本数;通过Adaboost选择出来的软件特征之间存在较大的相关性,这些特征会影响分类效果,影响预测结果。为此提出一种基于互信息及改进的Adaboost的集成算法MAboost。在NASA数据集上的实验结果表明,该算法对于软件缺陷数据具有较好的特征选择能力。 The traditional Adaboost algorithm of feature selection faces two problems in handling software defect prediction datasets,the first one is that imbalanced data namely samples of a class vastly outnumber the other class and the other is that high correlation among the selected features.In this situation,a feature selection method MAboost（mutual information and improved Adaboost based）was proposed to optimize the process.And the well-known NASA dataset was used for an empirical study to verify the competiveness of MAboost.

作者李克文邹晶杰 LIKe-wen ZOU Jing-jie(College of Computer and Communication Engineering, China University of Petroleum （East China）, Qingdao 266580,Chin)

机构地区中国石油大学(华东)计算机与通信工程学院

出处《计算机工程与设计》北大核心 2017年第11期3018-3022,3124,共6页 Computer Engineering and Design

基金山东省自然科学基金项目(ZR2013FL034)

关键词 ADABOOST 特征选择软件缺陷不平衡数据互信息 Adaboost feature selection software defect imbalanced data mutual information

分类号 TP3 [自动化与计算机技术—计算机科学与技术]

引文网络
相关文献

参考文献3

1付忠良.不平衡多分类问题的连续AdaBoost算法研究[J].计算机研究与发展,2011,48(12):2326-2333. 被引量：17
2曹莹,苗启广,刘家辰,高琳.AdaBoost算法研究进展与展望[J].自动化学报,2013,39(6):745-758. 被引量：267
3王青,伍书剑,李明树.软件缺陷预测技术[J].软件学报,2008,19(7):1565-1580. 被引量：149

二级参考文献32

1陈火旺,王戟,董威.高可信软件工程技术[J].电子学报,2003,31(z1):1933-1938. 被引量：115
2张文浩,曹健.软件缺陷预防过程与方法[J].计算机工程,2004,30(B12):23-24. 被引量：4
3胡玉鹏,陈治平,林亚平,李军义.贝叶斯缺陷分析模型及其在软件测试中的应用[J].计算机应用,2005,25(4):808-810. 被引量：3
4刘宏伟,杨孝宗,岳晓光,曲峰.一个NHPP类软件可靠性增长模型框架[J].计算机工程与科学,2005,27(4):1-2. 被引量：4
5陈莉,刘海红,盛昌,陈威.可靠性增长模型和正交缺陷分类的结合及在过程定性分析中的应用[J].科学技术与工程,2005,5(14):963-966. 被引量：1
6武勃,黄畅,艾海舟,劳世竑.基于连续Adaboost算法的多视角人脸检测[J].计算机研究与发展,2005,42(9):1612-1621. 被引量：66
7郭树行,兰雨晴,金茂忠.软件构件的可信保证研究[J].计算机科学,2007,34(5):243-246. 被引量：14
8郭树行,兰雨晴,金茂忠.基于目标的软件可信性需求规约方法研究[J].计算机工程,2007,33(11):37-38. 被引量：3
9Schapire R E. The strength of weak learnability [J]. Machine Learning, 1990, 5(2): 197-227.
10Freund Y, Schapire R E. A decision-theoretic generalization of on-line learning and an application to boosting [J]. Journal of Computer and System Sciences, 1997, 55(1): 119-139.

共引文献427

1郭肇强,周慧聪,刘释然,李言辉,陈林,周毓明,徐宝文.基于信息检索的缺陷定位:问题、进展与挑战[J].软件学报,2020(9):2826-2854. 被引量：14
2杨耿,张业明,侯金利,刘咏炫,鲁骏,周靖.高速公路图像识别技术应用探析[J].中国交通信息化,2022(S01):294-298. 被引量：1
3秦庆强,魏启国.结合软件开发过程的软件缺陷预测方法[J].计算机应用研究,2020,37(S02):210-213.
4谭朋柳,徐光勇,张露玉,王润庶.基于卷积神经网络和Adaboost的心脏病预测模型[J].计算机应用,2023,43(S01):19-25. 被引量：3
5董恩增,闫胜旭,佟吉钢.基于主动视觉的人脸检测与跟踪算法研究[J].系统仿真学报,2015,27(5):973-979. 被引量：7
6刘红芬,刘晓峰,张雪英,黄丽霞,王子中.改进的AdaBoost.M2-SVM在低信噪比语音识别中的应用[J].微电子学与计算机,2015,32(2):88-91. 被引量：1
7左旭辉,李文泽.高效的小型软件项目的质量保障体系[J].计算机工程与设计,2009,30(9):2211-2212. 被引量：1
8吴超,许建平,陈丽容.基于生命周期的软件缺陷预测技术[J].计算机工程与设计,2009,30(12):2956-2959. 被引量：7
9李宁,李战怀.软件缺陷数据处理研究综述[J].计算机科学,2009,36(8):21-25. 被引量：11
10罗云锋,贲可荣.软件故障静态预测方法综述[J].计算机科学与探索,2009,3(5):449-459. 被引量：6

同被引文献10

1蔡敏,牛斗.激光遥感信息数据低延时并行采集系统设计[J].激光杂志,2018,39(12):74-77. 被引量：2
2邓韬,林建辉,黄晨光,靳行,张敏.基于改进EEMD样本熵的高速列车滚子缺陷AE信号提取[J].振动与冲击,2017,36(16):148-154. 被引量：4
3张延旭,胡春潮,黄曙,冯善强,林冠强.基于Apriori算法的二次设备缺陷数据挖掘与分析方法[J].电力系统自动化,2017,41(19):147-151. 被引量：57
4费贤举,李虹,田国忠.基于特征加权理论的数据聚类算法[J].沈阳工业大学学报,2018,40(1):77-81. 被引量：40
5李阵,钮俊,王奎,辛园园.基于多特征权重分配的源代码搜索优化[J].计算机应用,2018,38(3):812-817. 被引量：6
6熊婷,梅毅.软件运行过程缺陷风险多目标控制仿真[J].计算机仿真,2018,35(6):313-316. 被引量：1
7孙俊若,叶波,汪圣利,刘畅.基于缺陷数据的雷达软件失效模式分析与应用[J].现代雷达,2018,40(6):85-90. 被引量：5
8李冉,周丽娟,王华.面向类不平衡数据集的软件缺陷预测模型[J].计算机应用研究,2018,35(9):2806-2810. 被引量：11
9周末,徐玲,杨梦宁,廖胜平,鄢萌.基于深度自编码网络的软件缺陷预测方法[J].计算机工程与科学,2018,40(10):1796-1804. 被引量：10
10朱朝阳,陈相舟,闫龙,张信明.基于主成分分析法的人工免疫识别软件缺陷预测模型研究[J].计算机科学,2017,44(S1):483-485. 被引量：6

引证文献1

1白凤凤.基于多特征权重分配的软件缺陷数据自适应提取方法[J].沈阳工业大学学报,2022,44(6):677-681. 被引量：1

二级引证文献1

1汪绍荣,黄卫春,宗波.基于流形学习降维的缺陷动态特征分类算法[J].计算机仿真,2023,40(11):475-479.

1梁武,苏燕.一种新的基于类内不平衡数据学习支持向量机算法[J].科技通报,2017,33(9):109-112. 被引量：2
2陈淑君,周永霞,方勇军.基于卷积神经网络的汽车型号识别[J].计算机应用与软件,2017,34(11):228-231. 被引量：4
3韦良芬.基于机器学习的软件缺陷预测技术研究[J].长春大学学报,2017,27(10):7-9. 被引量：3
4孙国栋,汤汉兵,林凯,张杨,赵大兴.基于多特征融合和BP-AdaBoost算法的列车关键零件故障自动识别[J].中国机械工程,2017,28(21):2588-2594. 被引量：9
5陈依云.数据挖掘技术在精准营销中的应用[J].中国科技信息,2017(20):27-28. 被引量：2
6程铃钫,杨天鹏,陈黎飞.不平衡数据的软子空间聚类算法[J].计算机应用,2017,37(10):2952-2957. 被引量：4
7张翕茜,李凤莲,张雪英,田玉楚.基于代价敏感混合分裂策略的多决策树算法[J].电子技术应用,2017,43(10):128-131. 被引量：6
8王骏涛,易叔海.基于机器学习算法构建手机恶意软件研判模型的研究[J].网络安全技术与应用,2017(9):49-50. 被引量：2
9程凯娜.上市公司内部控制缺陷数据分析与政策建议探讨[J].人力资源管理,2017(9):405-406. 被引量：1
10李为华,苏辉,郭华平.融合多特征和谱聚类集成的图像分割方法[J].信阳师范学院学报（自然科学版）,2017,30(4):638-641. 被引量：4

计算机工程与设计

2017年第11期

浏览历史

内容加载中请稍等...

基于改进Adaboost软件缺陷数据特征选择方法被引量：1

参考文献3

二级参考文献32

共引文献427

同被引文献10

引证文献1

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

基于改进Adaboost软件缺陷数据特征选择方法 被引量：1

参考文献3

二级参考文献32

共引文献427

同被引文献10

引证文献1

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

基于改进Adaboost软件缺陷数据特征选择方法被引量：1