基于采样的半监督支持向量机软件缺陷预测方法被引量：7

Software defect prediction using semi-supervised support vector machine with sampling

下载PDF

导出

摘要软件缺陷预测有助于提高软件开发质量,保证测试资源有效分配。针对软件缺陷预测研究中类标签数据难以获取和类不平衡分布问题,提出基于采样的半监督支持向量机预测模型。该模型采用无监督的采样技术,确保带标签样本数据中缺陷样本数量不会过低,使用半监督支持向量机方法,在少量带标签样本数据基础上利用无标签数据信息构建预测模型;使用公开的NASA软件缺陷预测数据集进行仿真实验。实验结果表明提出的方法与现有半监督方法相比,在综合评价指标F值和召回率上均优于现有方法;与有监督方法相比,能在学习样本较少的情况下取得相当的预测性能。 Software defect prediction is helpful to improve the quality of software and effectively allocate test resources.To tackle two practical yet important issues in software defect prediction:labeled data is hard to be collected and classimbalance,a sample based semi-supervised support vector machine method is proposed.This method uses an unsupervisedsample approach to sample a small percentage of modules to be tested and labeled,and this sample method canensure that the defect instances in training sets are not too few.Semi-supervised support vector machine algorithm usesfew labeled data combined with unlabeled to build predictor so that the model can exploit the information of unlabeleddata.In the evaluation on four NASA projects,the experimental results show that the proposed approach achieves comparableperformance compared with supervised learning models,but uses little defect information.Moreover,proposedmethod’s performance is better than other semi-supervised learning methods in terms of recall and F-measure.

作者廖胜平徐玲鄢萌 LIAO Shengping;XU Ling;YAN Meng(School of Software Engineering, Chongqing University, Chongqing 401331, China)

机构地区重庆大学软件学院

出处《计算机工程与应用》 CSCD 北大核心 2017年第14期161-166,共6页 Computer Engineering and Applications

基金国家自然科学重点基金(No.91118005) 重庆市研究生科研创新项目(No.CYS14008)

关键词软件缺陷预测半监督 SAFE 半监督支持向量机(S4VM) 类不平衡采样 software defect prediction semi-supervised Safe Semi-Supervised Support Vector Machines(S4VM) class imbalance sample

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献3

1王涛,李伟华,刘尊,史豪斌.基于支持向量机的软件缺陷预测模型[J].西北工业大学学报,2011,29(6):864-870. 被引量：14
2姜慧研,宗茂,刘相莹.基于ACO-SVM的软件缺陷预测模型的研究[J].计算机学报,2011,34(6):1148-1154. 被引量：44
3王培,金聪.遗传优化支持向量机在软件缺陷预测中的应用[J].电子测量技术,2012,35(2):126-129. 被引量：10

二级参考文献30

1Challagulla V U B, Bastani F B, I-Ling Yen, Paul R A. Empirical assessment of machine learning based software defect prediction techniques//Proceedings of the 10th IEEE International Workshop on Object-Oriented Real-Time Dependable Systems. Washington, DC, USA, 2005:263-270.
2Lyu Michael R. Handbook of Software Reliability Engineering. New York: IEEE Computer Society Press and McGrawHill Book Company, 1996.
3Khoshgoftaar Taghi M, Seliya Naeen. Tree-based software quality estimation models for fault predietion//Proeeedings of the 8th International Symposium on Software Metrics. Washington, 13(3, USA, 2002x 123-128.
4Stich Timothy Janes, Spoerre Julie K, Velasco Tomas. The application of artificial neural networks to monitoring and control of an induction hardening process. Journal of Industrial Technology, 2000, 16(1): 1-11.
5Ohlsson Niclas, Alberg Hans. Predicting fault-prone software modules in telephone switches. IEEE Transactions on Software Engineering, 1996, 22(12): 886-894.
6Khoshgoftaar Taghi M, Seliya Naeem. Software quantity classification modeling using the SPRINT decision tree algorithm//Proceedings of the 14th IEEE International Conference on Tools with Artificial Intelligence. Washington, DC, USA, 2002:365-367.
7Briand L C, Melo W L, Wust J. Assessing the applicability of fault-proneness models across object-oriented software projects. IEEE Transactions on Software Engineering, 2002, 28(7) : 706-720.
8Cortes Corinna, Vapnik Vladimir. Support-vector networks. Machine Learning, 1995, 20(3): 273-297.
9Dorigo M, Gambardella L M. Ant colony system: A cooperative learning approach to the traveling salesman problem. IEEE Transactions on Evolutionary Computation, 1997, 1(1): 53-66.
10Wang X H, Shu P, Cao Let al. A ROC curve method for performance evaluation of support vector machine with optimization strategy. Computer Science Technology and Applications, 2009, (2) :117-120.

共引文献57

1王培,金聪.遗传优化支持向量机在软件缺陷预测中的应用[J].电子测量技术,2012,35(2):126-129. 被引量：10
2夏亚梅,程渤,陈俊亮,孟祥武,刘栋.基于改进蚁群算法的服务组合优化[J].计算机学报,2012,35(2):270-281. 被引量：108
3乔辉,周雁舟,邵楠.基于学习向量量化神经网络的软件可靠性预测[J].计算机应用,2012,32(5):1436-1438. 被引量：2
4陈沅涛,徐蔚鸿,吴佳英.一种增量向量支持向量机学习算法[J].南京理工大学学报,2012,36(5):873-878. 被引量：7
5王亮,胡静涛.CMP过程多变量免疫预测R2R控制方法[J].仪器仪表学报,2012,33(11):2586-2593.
6于安雷,皮德常.基于PSO-BP的软件缺陷预测模型[J].计算机工程与应用,2013,49(7):64-67. 被引量：6
7郭伟.基于互信息的RBF神经网络结构优化设计[J].计算机科学,2013,40(6):252-255. 被引量：13
8吴晓萍,赵学靖,乔辉,刘东梅,王志.基于LASSO-SVM的软件缺陷预测模型研究[J].计算机应用研究,2013,30(9):2748-2751. 被引量：16
9尹然,丁晓明,李小亮,梅莹.基于SA-BP神经网络的软件缺陷预测模型的研究[J].西南师范大学学报（自然科学版）,2013,38(8):147-152. 被引量：16
10王斌,吴太文,胡培培.软件缺陷分类和分析研究[J].计算机科学,2013,40(9):16-20. 被引量：12

同被引文献47

1胡国胜,钱玲,张国红.支持向量机的多分类算法[J].系统工程与电子技术,2006,28(1):127-132. 被引量：33
2李一博,靳世久,孙立瑛,宋志东,张元凯.超声导波管道检测中导波模态及频率的选择[J].天津大学学报,2006,39(B06):143-147. 被引量：20
3姜哲.声场中声能量与传递[J].振动工程学报,1999,12(1):126-132. 被引量：3
4皋军,王士同,邓赵红.基于全局和局部保持的半监督支持向量机[J].电子学报,2010,38(7):1626-1633. 被引量：19
5段向阳,王永生,苏永生,张永祥.基于声压测量的离心泵空化监测[J].兵工学报,2010,31(9):1268-1273. 被引量：8
6牛罡,罗爱宝,商琳.半监督文本分类综述[J].计算机科学与探索,2011,5(4):313-323. 被引量：10
7尹芳黎,杨雁莹,王传栋,王士鹏.矩阵奇异值分解及其在高维数据处理中的应用[J].数学的实践与认识,2011,41(15):171-177. 被引量：20
8严谨,刘敬喜,张娟.埋地管道漏损检测的声传播特性研究[J].振动与冲击,2012,31(3):127-131. 被引量：6
9张付志,李勇.基于标签内特征词的OA期刊站点自动分类方法[J].小型微型计算机系统,2014,35(1):60-63. 被引量：2
10王晓峰,随婷婷.基于TIGA_S4VM改进算法的蛋白质序列识别方法[J].山东大学学报（工学版）,2014,44(1):1-6. 被引量：2

引证文献7

1李世祥,曹艳玲.粒子群优化在自然语言处理中的文本和情感分类研究（英文）[J].机床与液压,2018,46(24):150-155. 被引量：1
2Hua Wei,Chun Shan,Changzhen Hu,Huizhong Sun,Min Lei.Software Defect Distribution Prediction Model Based on NPE-SVM[J].China Communications,2018,15(5):173-182. 被引量：1
3李洋,冯早,黄国勇,朱雪峰.基于DT-CWT和S4VM的埋地排水管道堵塞故障识别研究[J].电子科技,2018,31(10):33-38. 被引量：3
4耿晓军.基于半监督支持向量机的期刊收稿系统自动分类方法[J].现代电子技术,2018,41(24):174-177. 被引量：1
5贺紫平,夏克文,潘用科,王莉.分支定界半监督SVM在油层识别中的应用[J].重庆邮电大学学报（自然科学版）,2019,31(4):563-570. 被引量：1
6白首华,胡天彤.微型嵌入式软件静态缺陷预测系统优化设计[J].现代电子技术,2020,43(10):97-99. 被引量：4
7张莹,朱丽娜.一种基于半监督集成学习的软件缺陷预测方法[J].计算机与数字工程,2023,51(10):2390-2394.

二级引证文献11

1方红帏,赵涛,佃松宜.基于三域特征提取和GS-SVM的ECG信号智能分类技术研究[J].四川大学学报（自然科学版）,2020,57(2):297-303. 被引量：9
2邢义通,周鸿博,李志鹏,张玉皓,胡志芳.阶次跟踪和双树复小波的轴承在非稳定运行时的故障诊断研究[J].机械科学与技术,2020,39(3):361-366. 被引量：7
3王鑫芸,王昊,邓三鸿,张宝隆.面向期刊选择的学术论文内容分类研究[J].数据分析与知识发现,2020,4(7):96-109. 被引量：10
4黄丹丹,费玉婷.嵌入式软件静态测试方法研究[J].科学与信息化,2020(28):31-31.
5王显龙,冯早,赵燕锋.一种面向管道堵塞不均衡样本集的主动学习方法[J].化工自动化及仪表,2021,48(3):222-231. 被引量：2
6赵燕锋,冯早,朱雪峰,伍林峰.复杂工况下基于时频图像和CNN-SVM的管道堵塞识别研究[J].电子测量与仪器学报,2021,35(2):161-170. 被引量：6
7闫岭岭,江峰,杜军威,杨爱光.基于混合采样与Random_Stacking的软件缺陷预测[J].计算机与现代化,2021(8):70-76. 被引量：2
8李亚奇.基于ASP.NET的嵌入式软件缺陷自动定位方法[J].信息与电脑,2022,34(23):4-6.
9顾风军.基于多核集成学习的静态软件安全漏洞识别[J].电子设计工程,2023,31(19):73-76. 被引量：1
10韩鹏军.软件系统漏洞预测技术分析[J].中国新通信,2023,25(16):37-39.

1郑韬,盛小丽.基于用户兴趣的智慧校园个性化推荐方法研究[J].浙江树人大学学报（自然科学版）,2017,17(1):15-19. 被引量：1
2邵雪梅,肖刚,祁辉,程辉.基于RBF神经网络的校园网络流量预测研究[J].新乡学院学报,2017,34(6):38-41. 被引量：4
3Shih-Wei Sun.Digit Recognition in Natural Scene Texts[J].Journal of Electronic Science and Technology,2017,15(2):199-206.
4张亚军,刘宗田,周文.基于深度信念网络的事件识别[J].电子学报,2017,45(6):1415-1423. 被引量：12
5关学忠,尹廷武,张璐.二维直方图模糊边缘检测算法[J].自动化技术与应用,2017,36(6):104-107.
6王娅,周海林,叶建兵,谭沈阳.梯度分层重构的彩色图像分水岭分割[J].中国图象图形学报,2017,22(6):807-814. 被引量：2
7徐伟,赵斌,吉根林.基于滑动窗口的微博时间线摘要算法[J].数据采集与处理,2017,32(3):523-532. 被引量：5
8闫小强,卢耀恩,娄铮铮,叶阳东.基于并行信息瓶颈的多语种文本聚类算法[J].模式识别与人工智能,2017,30(6):559-568. 被引量：2
9卢国斌,李晓宇,祖秉辉,董建军.基于EMD-MFOA-ELM的瓦斯涌出量时变序列预测研究[J].中国安全生产科学技术,2017,13(6):109-114. 被引量：8
10张军,王远强,朱新山.改进PSO优化神经网络的短时交通流预测[J].计算机工程与应用,2017,53(14):227-231. 被引量：14

计算机工程与应用

2017年第14期

浏览历史

内容加载中请稍等...

基于采样的半监督支持向量机软件缺陷预测方法被引量：7

参考文献3

二级参考文献30

共引文献57

同被引文献47

引证文献7

二级引证文献11

相关作者

相关机构

相关主题

浏览历史

基于采样的半监督支持向量机软件缺陷预测方法 被引量：7

参考文献3

二级参考文献30

共引文献57

同被引文献47

引证文献7

二级引证文献11

相关作者

相关机构

相关主题

浏览历史

基于采样的半监督支持向量机软件缺陷预测方法被引量：7