基于多次随机欠采样和POSS方法的软件缺陷检测被引量：8

Random undersampling and POSS method for software defect prediction

导出

摘要为了解决因软件缺陷数据存在数据不平衡问题限制了分类器的性能,将POSS(pareto optimization for subset selection)特征选择算法和随机欠采样技术引入到软件缺陷检测中,并利用支持向量机(support vector machine,SVM)构建预测模型。试验结果表明,通过多次随机欠采样可以有效地解决软件缺陷数据不平衡问题,同时使用POSS方法对目标子集进行双向优化,从而提高分类的准确率,其结果要优于Relief、Fisher、M I(mutual information)特征选择算法。 In order to solve the problem of imbalance distribution in software defect prediction,POSS（ pareto optimization for subset selection） feature selection and random undersampling was applied in this paper,and SVMwas used to build the prediction model. The experimental results showed that the problem could be solved effectively by using multiple random undersampling,and the POSS method was treated subset selection as a bi-objective optimization,which could improve the accuracy of classification,the effectiveness of proposed method was verified by comparing with Relief、Fisher、MI（ mutual information）.

作者方昊李云

机构地区南京邮电大学计算机学院

出处《山东大学学报（工学版）》 CAS 北大核心 2017年第1期15-21,共7页 Journal of Shandong University（Engineering Science）

基金江苏省自然科学基金资助项目(BK20131378 BK20140885) 广西高校云计算与复杂系统重点实验室资助项目(15206)

关键词软件缺陷检测不平衡性数据采样特征选择 software defect prediction class imbalance data sampling feature selection

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献2

1姚旭,王晓丹,张玉玺,权文.特征选择方法综述[J].控制与决策,2012,27(2):161-166. 被引量：208
2徐燕,李锦涛,王斌,孙春明.基于区分类别能力的高性能特征选择方法[J].软件学报,2008(1):82-89. 被引量：83

二级参考文献55

1赵世奇,张宇,刘挺,陈毅恒,黄永光,李生.基于类别特征域的文本分类特征选择方法[J].中文信息学报,2005,19(6):21-27. 被引量：21
2苏金树,张博锋,徐昕.基于机器学习的文本分类技术研究进展[J].软件学报,2006,17(9):1848-1859. 被引量：389
3Li G-Z, Yang J Y. Feature selection for ensemble learning and its application[M]. Machine Learning in Bioinformatics, 2008: 135-155.
4Sheinvald J, Byron Dom, Wayne Niblack. A modelling approach to feature selection[J]. Proc of 10th Int Conf on Pattern Recognition, 1990, 6(1): 535-539.
5Cardie C. Using decision trees to improve case-based learning[C]. Proc of 10th Int Conf on Machine Learning. Amherst, 1993: 25-32.
6Modrzejewski M. Feature selection using rough sets theory[C]. Proc of the European Conf on Machine ,Learning. 1993: 213-226.
7Ding C, Peng H. Minimum redundancy feature selection from microarray gene expression data[J]. J of Bioinformatics and Computational Biology, 2005, 3(2): 185-205.
8Francois Fleuret. Fast binary feature selection with conditional mutual information[J]. J of Machine Learning Research, 2004, 5(10): 1531-1555.
9Kwak N, Choi C-H. Input feature selection by mutual information based on Parzen window[J]. IEEE Trans on Pattern Analysis and Machine Intelligence, 2002, 24(12): 1667-1671.
10Novovicova J, Petr S, Michal H, et al. Conditional mutual information based feature selection for classification task[C]. Proc of the 12th Iberoamericann Congress on Pattern Recognition. Valparaiso, 2007: 417-426.

共引文献286

1朱小培,位云朋,闫李,韩茜茜.基于多模态进化计算的特征选择策略[J].中原工学院学报,2021,32(4):71-76.
2赵小强,牟淼.基于变量分块的KDLV-DWSVDD间歇过程故障检测算法研究[J].仪器仪表学报,2021,42(2):244-256. 被引量：7
3唐易,陈奕希,喻洪流,石萍.一种面向下肢假肢的运动意图识别方法及验证[J].信息与控制,2023,52(5):598-606. 被引量：2
4赵洪,沈建忠,王俊,张骋,瞿青.基于客户画像与机器学习算法的电费回收风险预测模型及应用[J].微型电脑应用,2020,36(2):93-96. 被引量：12
5蒋月,Shaker ul Din,刘勇,张寅丹,刘巨峰,陆海霞.一种集成多分类器的面向地理对象遥感影像变化回溯分析方法[J].兰州大学学报（自然科学版）,2020(5):666-676. 被引量：1
6叶志伟,王巧,周雯,王明威,蔡婷,何其祎.进化计算在大规模高维特征选择中的应用综述[J].北方工业大学学报,2024,36(2):8-19.
7崔文岩,孟相如,李纪真,王明鸣,陈天平,王坤.基于粗糙集粒子群支持向量机的特征选择方法[J].微电子学与计算机,2015,32(1):120-123. 被引量：9
8高峰,张永奎.基于最大熵模型的不良文本识别[J].电脑开发与应用,2009,22(1):6-8.
9靖红芳,王斌,杨雅辉,徐燕.基于类别分布的特征选择框架[J].计算机研究与发展,2009,46(9):1586-1593. 被引量：18
10汪成亮,张硕果.通过确定邻近区域改进KNN文本分类[J].计算机系统应用,2009,18(11):56-59. 被引量：1

同被引文献84

1林智勇,郝志峰,杨晓伟.不平衡数据分类的研究现状[J].计算机应用研究,2008,25(2):332-336. 被引量：46
2郭黎,崔铁军,郑海鹰,张新慧.基于空间方向相似性的面状矢量空间数据匹配算法[J].测绘科学技术学报,2008,25(5):380-382. 被引量：25
3郝燕玲,唐文静,赵玉新,李宁.基于空间相似性的面实体匹配算法研究[J].测绘学报,2008,37(4):501-506. 被引量：109
4叶志飞,文益民,吕宝粮.不平衡分类问题研究综述[J].智能系统学报,2009,4(2):148-156. 被引量：72
5翟云,杨炳儒,曲武.不平衡类数据挖掘研究综述[J].计算机科学,2010,37(10):27-32. 被引量：37
6安晓亚,孙群,肖强,严薇.一种形状多级描述方法及在多尺度空间数据几何相似性度量中的应用[J].测绘学报,2011,40(4):495-501. 被引量：53
7陶新民,童智靖,刘玉,付丹丹.基于ODR和BSMOTE结合的不均衡数据SVM分类算法[J].控制与决策,2011,26(10):1535-1541. 被引量：22
8李澜.漆的世界——湖北省博物馆馆藏战国秦汉漆器[J].中国文物科学研究,2011(3):18-22. 被引量：2
9李雄飞,李军,董元方,屈成伟.一种新的不平衡数据学习算法PCBoost[J].计算机学报,2012,35(2):202-209. 被引量：64
10Hualong Yu 1,, Jun Ni 2 , Yuanyuan Dan 3 , Sen Xu 4 1. School of Computer Science and Engineering, Jiangsu University of Science and Technology, Zhenjiang 212003, China,2. Department of Radiology, Carver College of Medicine, The University of Iowa, Iowa City, IA 52242, USA,3. School of Biology and Chemical Engineering, Jiangsu University of Science and Technology, Zhenjiang 212003, China,4. School of Information Engineering, Yancheng Institute of Technology, Yancheng 224051, China.Mining and Integrating Reliable Decision Rules for Imbalanced Cancer Gene Expression Data Sets[J].Tsinghua Science and Technology,2012,17(6):666-673. 被引量：4

引证文献8

1马强.关于电子产品线路质量图像识别检测仿真[J].计算机仿真,2017,34(12):439-442. 被引量：1
2谭琦.监控组态软件运行实时性检测仿真研究[J].计算机仿真,2018,35(3):353-356. 被引量：5
3张岚斌,徐国庆,李澜.不平衡古漆器漆膜数据分类研究[J].软件导刊,2021,20(1):84-88. 被引量：1
4巩珂,王霞.针对不平衡数据的用户画像方法研究[J].现代计算机,2021,27(21):53-58. 被引量：2
5刘贺,郭黎,李豪,张婉晨,白翔天.面实体匹配的集成学习CatBoost方法[J].地球信息科学学报,2022,24(11):2198-2211. 被引量：2
6李慧芳,徐光浩,黄双喜.基于主动生成式过采样和深度堆叠网络的轴承故障诊断[J].计算机集成制造系统,2023,29(1):146-159. 被引量：5
7李丹,方泽仁,缪书唯,胡越,梁云嫣,贺帅.考虑训练样本分布不均衡的超短期风电功率概率预测[J].电网技术,2024,48(3):1133-1145. 被引量：1
8李艳霞,柴毅,胡友强,尹宏鹏.不平衡数据分类方法综述[J].控制与决策,2019,34(4):673-688. 被引量：172

二级引证文献188

1周传华,徐文倩,朱俊杰.基于代价敏感卷积神经网络的集成分类算法[J].应用科学学报,2022,40(1):69-79. 被引量：7
2李川,伍依凡,杨帅.不平衡分布的数据驱动故障诊断的研究进展[J].仪器仪表学报,2023,44(8):181-197. 被引量：6
3杨志凯,扶兰兰,唐灿,王发明,倪昕东,陈度.基于MobileViT模型的小麦收获机喂入密度分类方法[J].农业机械学报,2023,54(S01):172-180.
4孟广瑞,张璐,张仁生.煤矿安全监测系统数据传输一致性设计与实现[J].工矿自动化,2023,49(S01):36-38.
5谭本艳,林玉洁.基于SMOTE-LR模型的上市公司失信风险评价研究[J].开发性金融研究,2023(3):17-27.
6穆伟蒙,宋燕,窦军.基于密度峰值聚类算法的自适应加权过采样算法[J].智能计算机与应用,2022,12(6):46-53. 被引量：1
7郑凌铭,舒胜文,陈彬,吴涵,黄建业,钱健.强台风环境下基于格点化和支持向量机的10 kV杆塔受损量预测方法[J].高电压技术,2020,46(1):42-51. 被引量：15
8陈宇收.建筑智能化系统集成组态库设计[J].电子技术与软件工程,2018(18):175-175. 被引量：2
9易成岐,黄倩倩,王从余,张何灿,靳晓锟,王建冬.面向类不平衡问题的“职业举报人”识别方法[J].计算机工程与应用,2019,55(14):1-7. 被引量：2
10吴方君.静态软件缺陷预测研究进展[J].计算机科学与探索,2019,13(10):1621-1637. 被引量：13

1范彧.基于符号执行和数据挖掘的路径可达性检测研究[J].计算机与现代化,2013(3):74-77.
2张华.面向软件缺陷检测的静态分析技术[J].潍坊学院学报,2008,8(2):8-11. 被引量：2
3肇劲松.面向软件缺陷检测的静态分析技术[J].黑龙江科技信息,2009(2):88-89.
4张蕾,朱义鑫,徐春,于凯.基于字典学习的软件缺陷检测算法[J].计算机应用,2016,36(9):2486-2491. 被引量：2
5万兵.面向软件缺陷检测的静态分析技术[J].低碳世界,2013(05X):293-294.
6于安雷,皮德常.基于PSO-BP的软件缺陷预测模型[J].计算机工程与应用,2013,49(7):64-67. 被引量：6
7黄松,嵇孟雨,惠战伟,葛研.一种有效的静态缺陷函数检测框架[J].指挥信息系统与技术,2010,1(6):15-19.
8禹振,苏小红,王甜甜,马培军.C程序隐式规则自动提取与反例检测[J].电子学报,2013,41(2):248-254.
9刘芳,高兴,周冰,邓娟.基于PCA-ISVM的软件缺陷预测模型[J].计算机仿真,2014,31(3):397-401. 被引量：6
10王伟,刘渊,张春瑞,文平,谢家俊.上下文不一致性缺陷的检测[J].计算机科学,2015,42(S1):525-530.

山东大学学报（工学版）

2017年第1期

浏览历史

内容加载中请稍等...

基于多次随机欠采样和POSS方法的软件缺陷检测被引量：8

参考文献2

二级参考文献55

共引文献286

同被引文献84

引证文献8

二级引证文献188

相关作者

相关机构

相关主题

浏览历史

基于多次随机欠采样和POSS方法的软件缺陷检测 被引量：8

参考文献2

二级参考文献55

共引文献286

同被引文献84

引证文献8

二级引证文献188

相关作者

相关机构

相关主题

浏览历史

基于多次随机欠采样和POSS方法的软件缺陷检测被引量：8