期刊文献+
共找到217篇文章
< 1 2 11 >
每页显示 20 50 100
改进的采样算法与无监督聚类相结合的软件缺陷预测模型
1
作者 石海鹤 周世文 +1 位作者 钟林辉 肖正兴 《江西师范大学学报(自然科学版)》 CAS 北大核心 2024年第3期301-310,共10页
该文首先在自适应综合过采样算法ADASYN(adaptive synthetic sampling)的基础上,考虑少数类内部不同密度簇之间的连接性问题,将与采样点距离为中等的点纳入新样本生成范围,改进得到T-ADASYN过采样优化算法,有效地增加了少数类内部不同... 该文首先在自适应综合过采样算法ADASYN(adaptive synthetic sampling)的基础上,考虑少数类内部不同密度簇之间的连接性问题,将与采样点距离为中等的点纳入新样本生成范围,改进得到T-ADASYN过采样优化算法,有效地增加了少数类内部不同密度簇的连接性,生成了分布更为均衡的数据集.然后使用基于连接的spectral clustering算法进行聚类预测操作,将过采样算法和无监督聚类相结合,提出一种新型实用的软件缺陷预测模型TA-SC(T-ADASYN+spectral clustering).以F-score为评价指标,spectral clustering为聚类模型进行验证.实验结果表明:改进的T-ADASYN过采样算法在公开的PROMISE数据集和NASA数据集上比常用的过采样算法均有6%的性能提升,且TA-SC模型在PROMISE和NASA 2个数据集上比常用聚类算法分别有3%和2%的性能提升. 展开更多
关键词 软件缺陷预测 类别不平衡 过采样算法 聚类算法 无监督学习
下载PDF
学习困难与泛化能力感知的软件缺陷预测过采样方法
2
作者 范洪旗 严远亭 +1 位作者 张以文 张燕平 《计算机集成制造系统》 EI CSCD 北大核心 2024年第8期2663-2671,共9页
软件缺陷数据的类别分布不平衡特点给软件缺陷预测任务带了巨大的挑战。合成过采样是解决这一问题最为主流的技术,但如何设计合适的采样策略避免因引入异常样本而导致的过度泛化风险,始终是软件缺陷预测过采样方法面临的难点。针对这一... 软件缺陷数据的类别分布不平衡特点给软件缺陷预测任务带了巨大的挑战。合成过采样是解决这一问题最为主流的技术,但如何设计合适的采样策略避免因引入异常样本而导致的过度泛化风险,始终是软件缺陷预测过采样方法面临的难点。针对这一问题,本文提出一种结合样本学习困难程度和合成泛化影响的过采样方法(GDOS)。具体来说,GDOS方法通过样本的局部先验概率和潜在合成方向上的样本分布信息衡量样本的安全系数与泛化系数,并以此度量样本的选择权重。通过抑制潜在过泛化区域的样本合成概率,给予相对安全的近邻合成方向更高的选择概率,为高质量样本的合成提供保障。在26个PROMISE数据集上的实验表明,GDOS在MCC、pd、pf、F-measure等指标上较于经典的采样方法和专门提出的软件缺陷预测采样方法均取得了更优的性能表现。 展开更多
关键词 软件缺陷预测 类别不平衡 过采样 过度泛化
下载PDF
基于前景理论的软件缺陷预测过采样方法
3
作者 徐彪 严远亭 张以文 《计算机集成制造系统》 EI CSCD 北大核心 2024年第8期2822-2831,共10页
在软件缺陷预测中,数据困难因子对预测性能的影响比类不平衡更为明显。然而,大多数现有软件缺陷预测过采样方法在解决类不平衡问题过程中,忽视了软件项目数据集固有的数据困难因子,从而导致预测性能不佳。针对上述问题,提出一种基于前... 在软件缺陷预测中,数据困难因子对预测性能的影响比类不平衡更为明显。然而,大多数现有软件缺陷预测过采样方法在解决类不平衡问题过程中,忽视了软件项目数据集固有的数据困难因子,从而导致预测性能不佳。针对上述问题,提出一种基于前景理论的过采样算法(POS)。POS同时考虑局部邻域中同类和异类样本的影响来评估少数类样本的学习难度,通过基于引力的策略构建同类收益和异类损失来刻画样本的前景值,并强调异类损失来计算少数类样本的采样权重,以此降低引入数据困难因子的风险,提高合成样本的质量,进一步提升预测性能。在NASA数据集上的实验结果表明,POS算法在AUC、balance和G-mean等性能指标上均有所提升,具有更好的缺陷预测性能。 展开更多
关键词 软件缺陷预测 类不平衡 数据困难因子 过采样 前景理论
下载PDF
基于联邦迁移的跨项目软件缺陷预测
4
作者 宋慧玲 李勇 张文静 《南京师大学报(自然科学版)》 CAS 北大核心 2024年第3期122-128,共7页
跨项目软件缺陷预测基于已标注的多源项目数据构建模型,可以解决软件历史数据不足和标注代价高的问题.但在传统跨项目缺陷预测中,源项目数据持有者为了保护软件数据的商业隐私,而导致的“数据孤岛”问题直接影响了跨项目预测的模型性能... 跨项目软件缺陷预测基于已标注的多源项目数据构建模型,可以解决软件历史数据不足和标注代价高的问题.但在传统跨项目缺陷预测中,源项目数据持有者为了保护软件数据的商业隐私,而导致的“数据孤岛”问题直接影响了跨项目预测的模型性能.本文提出基于联邦迁移的跨项目软件缺陷预测方法(FT-CPDP).首先,针对数据隐私泄露和项目间特征异构问题,提出基于联邦学习与迁移学习相结合的模型算法,打破各数据持有者间的“数据壁垒”,实现隐私保护场景下的跨项目缺陷预测模型.其次,在联邦通信过程中添加满足隐私预算的噪声来提高隐私保护水平,最后构建卷积神经网络模型实现软件缺陷预测.基于NASA软件缺陷预测数据集进行实验,结果表明与传统跨项目缺陷预测方法相比,本文提出的FT-CPDP方法在实现软件数据隐私保护的前提下,模型的综合性能表现较优. 展开更多
关键词 软件缺陷预测 联邦学习 迁移学习 差分隐私 卷积神经网络
下载PDF
面向可解释性的软件缺陷预测主动学习方法
5
作者 王越 李勇 张文静 《现代电子技术》 北大核心 2024年第20期101-108,共8页
针对软件缺陷预测中数据标注代价较高及深度学习模型缺乏可解释性的问题,提出一种面向可解释性的软件缺陷预测主动学习方法。首先,基于主动学习技术,通过样本选择策略从目标项目中筛选出不确定性高的样本进行专家标注,并将这些标注样本... 针对软件缺陷预测中数据标注代价较高及深度学习模型缺乏可解释性的问题,提出一种面向可解释性的软件缺陷预测主动学习方法。首先,基于主动学习技术,通过样本选择策略从目标项目中筛选出不确定性高的样本进行专家标注,并将这些标注样本放入源项目中以训练预测器。其次,利用领域知识对选定样本进行扰动,构建局部数据集,并通过线性模型在该数据集上模拟数据选择策略的行为,以实现模型的可解释性。实验结果显示:该方法在数据标注方面的指标性能要优于传统的主动学习基准方法;同时,在可解释性方面,该方法的RMSE指标也均低于LIME、全局代理模型以及RuleFit,能较好地解释“黑盒”模型。该方法不仅可以有效提高软件缺陷数据的标注效率,还可以实现模型的可解释性。 展开更多
关键词 软件缺陷预测 主动学习 可解释性 数据标注 数据选择策略 深度学习
下载PDF
工作量感知软件缺陷预测中偏斜分布的影响及测试评估方法
6
作者 郭育晨 朱晓燕 《西安交通大学学报》 EI CAS CSCD 北大核心 2024年第7期203-213,共11页
针对工作量感知软件缺陷预测中传统模型测试评估方法存在偏差这一问题,采用偏斜分布的偏度作为数值特征,研究了3种主要测试评估方法的测试集在工作量偏度的偏差和与其对应的估计误差,并基于偏度偏差较小的采样余量方法,提出一种改进方... 针对工作量感知软件缺陷预测中传统模型测试评估方法存在偏差这一问题,采用偏斜分布的偏度作为数值特征,研究了3种主要测试评估方法的测试集在工作量偏度的偏差和与其对应的估计误差,并基于偏度偏差较小的采样余量方法,提出一种改进方法——后采样方法,所提后采样方法能够保持测试集的类标签比例以避免生成无效测试集。研究结果表明:最常用的十折交叉验证方法偏度偏差最大,其估计误差也最大;与十折交叉验证相比,改进方法性能估计误差减少约4.9%~26.9%;与采样余量方法相比,改进方法不会产生无效测试集,并证明了减小测试集偏度偏差以减少估计误差的有效性。所提后采样方法为工作量感知软件缺陷预测提供了一种更可靠的测试评估方法,能够更准确地评估模型性能。 展开更多
关键词 软件缺陷预测 工作量感知 偏斜分布 测试评估方法
下载PDF
基于注意力和代价敏感的软件缺陷预测方法
7
作者 毛敬恩 周世健 +1 位作者 章树卿 樊鑫 《计算机测量与控制》 2024年第9期94-100,共7页
软件缺陷预测的目的是预先识别容易出现缺陷的代码模块以帮助软件质量保障团队适当的分配资源和人力;当前基于稳定学习的软件缺陷预测方法在特征提取过程中缺乏代码图像的全局信息,并忽视了不平衡数据对模型性能的影响;为了解决上述问题... 软件缺陷预测的目的是预先识别容易出现缺陷的代码模块以帮助软件质量保障团队适当的分配资源和人力;当前基于稳定学习的软件缺陷预测方法在特征提取过程中缺乏代码图像的全局信息,并忽视了不平衡数据对模型性能的影响;为了解决上述问题,文章提出了一种基于注意力和代价敏感的软件缺陷预测方法;该方法在SDP-SL的神经网络中增加了全局注意力模块,重点关注图像中和缺陷代码相关的特征,并将分类器的损失函数改进为代价敏感的损失函数,降低类不平衡对模型性能的影响;为了评估SDP-SLAC的性能,在PROMISE数据库中的10个开源Java项目上进行了多组比较实验;实验结果表明,SDP-SLAC方法可以有效提升缺陷预测模型的性能。 展开更多
关键词 软件缺陷预测 全局注意力 代价敏感 类不平衡 损失函数
下载PDF
基于加权复杂度的SMOTE算法及其在软件缺陷预测中的应用
8
作者 魏威 江峰 《计算机与数字工程》 2024年第5期1418-1422,1427,共6页
近年来,SMOTE被广泛应用于软件缺陷预测中不平衡数据的处理。然而,现有的SMOTE算法普遍忽视了不同样本的复杂度存在很大差异这一问题。事实上,在缺陷预测时样本的复杂度与其是否具有缺陷之间存在着密切的联系,因此,在进行过采样时,有必... 近年来,SMOTE被广泛应用于软件缺陷预测中不平衡数据的处理。然而,现有的SMOTE算法普遍忽视了不同样本的复杂度存在很大差异这一问题。事实上,在缺陷预测时样本的复杂度与其是否具有缺陷之间存在着密切的联系,因此,在进行过采样时,有必要利用样本的复杂度来辅助新样本的合成,从而提高缺陷预测的性能。如何度量样本的复杂度非常重要,论文在计算样本复杂度时充分考虑到每一个条件属性的权重,从而得到一种加权复杂度的概念。基于加权复杂度,提出一种新的SMOTE算法——WCP-SMOTE,并将其应用于软件缺陷预测。WCP-SMOTE算法首先利用粗糙集中的粒度决策熵来计算决策表中每个条件属性的重要性和权重;其次,通过对样本在所有属性上的取值进行加权求和,从而得到该样本的加权复杂度;第三,根据加权复杂度对少数类样本进行升序排序,并从头到尾对相邻的两个少数类样本求平均来不断地合成新的样本,直到获得一个平衡的数据集。在多个缺陷预测数据集上的实验表明,利用WCP-SMOTE算法来处理不平衡数据能够获得更好的软件缺陷预测性能。 展开更多
关键词 软件缺陷预测 不平衡数据 粗糙集 粒度决策熵 加权复杂度 SMOTE
下载PDF
基于PCA-Smote-XGBoost的软件缺陷预测研究
9
作者 曾子安 李英梅 《软件工程与应用》 2024年第3期346-357,共12页
随着软件系统的复杂性日益增加,软件缺陷预测成为了确保软件质量的重要手段。本研究提出了一种基于PCA-Smote-XGBoost的软件缺陷预测模型,旨在提高缺陷预测的准确性和效率。本文采用主成分分析(PCA)进行数据降维,保留95%的方差,以减少... 随着软件系统的复杂性日益增加,软件缺陷预测成为了确保软件质量的重要手段。本研究提出了一种基于PCA-Smote-XGBoost的软件缺陷预测模型,旨在提高缺陷预测的准确性和效率。本文采用主成分分析(PCA)进行数据降维,保留95%的方差,以减少特征数量并提取关键信息;利用Smote过采样方法解决数据不平衡问题;结合XGBoost算法构建预测模型,并通过实验验证模型的有效性。在软件缺陷预测常用数据集的十一个项目中,实验结果表明,该模型在软件缺陷预测方面相较于其他八种基准模型,具有最高的准确率ACC和F1,能够有效地辅助软件开发团队识别潜在的缺陷风险。 展开更多
关键词 软件缺陷预测 PCA SMOTE XGBoost
下载PDF
膜内麻雀优化ELM的软件缺陷预测算法
10
作者 唐宇 代琪 +1 位作者 杨梦园 陈丽芳 《北京航空航天大学学报》 EI CAS CSCD 北大核心 2024年第2期643-654,共12页
原始麻雀搜索算法存在寻优精度低、迭代后期容易陷入局部极值的问题,结合高效寻优性能的改进麻雀搜索算法和具有并行计算能力的膜计算,提出一种膜内麻雀优化算法(IMSSA)。在10个CEC2017测试函数上的实验结果表明,IMSSA具有更高的寻优精... 原始麻雀搜索算法存在寻优精度低、迭代后期容易陷入局部极值的问题,结合高效寻优性能的改进麻雀搜索算法和具有并行计算能力的膜计算,提出一种膜内麻雀优化算法(IMSSA)。在10个CEC2017测试函数上的实验结果表明,IMSSA具有更高的寻优精度。为进一步验证IMSSA的性能,使用IMSSA优化极限学习机(ELM)参数,提出一种膜内麻雀优化ELM(IMSSA-ELM)算法,并将其应用于软件缺陷预测领域。实验结果表明:在15个公开的软件缺陷数据集中,IMSSA-ELM算法预测性能在G-mean、MCC这2个评价指标下明显优于其他4种先进的对比算法,表明IMSSA-ELM算法具有更好的预测精度和稳定性,其实验结果在Friedman ranking和Holm’s post-hoc test非参数检验中具有明显的统计显著性。 展开更多
关键词 改进麻雀搜索算法 膜计算 极限学习机 优化算法 软件缺陷预测
下载PDF
基于TMFG生成拓扑图的软件缺陷预测图特征选择方法
11
作者 崔梦天 陈建英 徐智慧 《西南民族大学学报(自然科学版)》 CAS 2024年第4期418-427,共10页
软件缺陷预测是降低软件测试成本的重要手段,而特征选择则是其中关键的一环.然而,传统的特征选择算法局限于考虑特征之间的双边关系和两两特征的关联,而无法有效处理更为复杂的多边关系和多向交互等问题.为此,提出了一种基于TMFG的软件... 软件缺陷预测是降低软件测试成本的重要手段,而特征选择则是其中关键的一环.然而,传统的特征选择算法局限于考虑特征之间的双边关系和两两特征的关联,而无法有效处理更为复杂的多边关系和多向交互等问题.为此,提出了一种基于TMFG的软件缺陷预测图特征选择方法.该方法首先将拓扑图引入特征选择算法中,利用对称不确定性作为特征关联度,将特征表示为拓扑图的节点,构建特征全连接图.然后,通过TMFG去连边算法去除全连接图中的部分连边,并进行图聚类操作.接着,对每个聚类中的特征进行排序,并从每个类中选取特定数目的特征进行综合,得到最终的特征子集.最后,通过在Promise数据仓库中的数据集上进行对比实验,结果表明,所提出的方法在进一步优化特征选择选出的特征子集的质量方面取得了良好的效果,尤其在数据量较大的数据集中表现出更大的优势. 展开更多
关键词 软件缺陷预测 特征选择 拓扑图 社区检测算法 TMFG
下载PDF
基于多源特征门控融合的软件缺陷预测
12
作者 李英玲 巴依斯勒 +3 位作者 张禾 邵俊铭 王子翱 蔡牧昕 《西南民族大学学报(自然科学版)》 CAS 2024年第3期312-320,共9页
随着当前软件开发规模的增大和复杂度的不断提高,如何在保证效率的同时提高软件质量成为软件工程领域研究的重点和难点.软件缺陷预测是软件质量保障的重要研究方向,旨在帮助软件从业人员预测软件产品中潜在的缺陷模块,从而更有效地分配... 随着当前软件开发规模的增大和复杂度的不断提高,如何在保证效率的同时提高软件质量成为软件工程领域研究的重点和难点.软件缺陷预测是软件质量保障的重要研究方向,旨在帮助软件从业人员预测软件产品中潜在的缺陷模块,从而更有效地分配测试资源.已有研究主要提取软件特征来建立缺陷预测模型,但通常仅使用单一类型特征作为模型输入,并且缺乏特征的有效融合,导致缺陷预测的性能有待提高.提出了一种基于多源特征门控融合的软件缺陷预测方法(DP⁃GM),首先利用抽象语法树和词嵌入模型得到代码语义表示;然后,采用门控循环单元(GRU)对语义特征向量和传统特征向量进行特征提取;最后,利用门控机制融合多源特征来训练模型并进行软件缺陷预测.实验结果表明,与当前具有代表性的三个基线方法相比较,提出的方法在召回率和F1值分别高出最优基线方法35.3%和10.5%.因此,提出的方法可提升软件缺陷预测的准确性,帮助软件从业者提高开发效益. 展开更多
关键词 软件缺陷预测 多源特征融合 门控神经网络
下载PDF
基于数据集扩充的即时软件缺陷预测方法
13
作者 杨帆 夏鸿崚 《南通大学学报(自然科学版)》 CAS 2024年第1期58-65,共8页
即时软件缺陷预测针对项目开发与维护过程中的代码提交来预测是否会引入缺陷。在即时软件缺陷预测研究领域,模型训练依赖于高质量的数据集,然而已有的即时软件缺陷预测方法尚未研究数据集扩充方法对即时软件缺陷预测的影响。为提高即时... 即时软件缺陷预测针对项目开发与维护过程中的代码提交来预测是否会引入缺陷。在即时软件缺陷预测研究领域,模型训练依赖于高质量的数据集,然而已有的即时软件缺陷预测方法尚未研究数据集扩充方法对即时软件缺陷预测的影响。为提高即时软件缺陷预测的性能,提出一种基于数据集扩充的即时软件缺陷预测(prediction based on data augmentation,PDA)方法。PDA方法包括特征拼接、样本生成、样本过滤和采样处理4个部分。增强后的数据集样本数量充足、样本质量高且消除了类不平衡问题。将提出的PDA方法与最新的即时软件缺陷预测方法(JIT-Fine)作对比,结果表明:在JIT-Defects4J数据集上,F_(1)指标提升了18.33%;在LLTC4J数据集上,F_(1)指标仍有3.67%的提升,验证了PDA的泛化能力。消融实验证明了所提方法的性能提升主要来源于数据集扩充和筛选机制。 展开更多
关键词 数据增强 深度学习 即时软件缺陷预测 样本生成 类不平衡问题
下载PDF
基于贝叶斯网络集成的软件缺陷预测
14
作者 秦阳阳 张思鹏 +2 位作者 郑越 韩阳 陈丽芳 《华北理工大学学报(自然科学版)》 CAS 2024年第3期96-103,共8页
针对常用的软件缺陷预测模型缺乏可解释性及鲁棒性的问题,为了推断和理解软件缺陷预测中变量间的相关关系,研究了贝叶斯网络在软件缺陷预测中的应用方法,建立了贝叶斯网络软件缺陷预测模型及集成软件缺陷预测模型。使用数据离散化方法... 针对常用的软件缺陷预测模型缺乏可解释性及鲁棒性的问题,为了推断和理解软件缺陷预测中变量间的相关关系,研究了贝叶斯网络在软件缺陷预测中的应用方法,建立了贝叶斯网络软件缺陷预测模型及集成软件缺陷预测模型。使用数据离散化方法处理数据,采用贝叶斯网络结构学习算法确定网络结构及参数,并利用贝叶斯网络推断软件缺陷的概率分布;将贝叶斯网络与K近邻、决策树、逻辑回归等软件缺陷预测器以软投票的方式集成,建立集成软件缺陷预测模型;在6个公开的软件缺陷数据集上进行实验仿真。实验结果表明,与常用的集成软件缺陷预测模型相比所建立的基于贝叶斯网络的集成软件缺陷预测模型在F1、Recall、G-Mean评价指标上表现出了更好的预测性能。从因果分析的角度,为软件缺陷预测探索一条新的研究思路。 展开更多
关键词 软件缺陷预测 贝叶斯网络 集成学习 因果分析
下载PDF
基于极限学习机的软件缺陷预测分析研究
15
作者 徐舜 《信息记录材料》 2024年第2期75-77,共3页
软件测试是软件开发生命周期中最主要的阶段,它可以最大限度地减少软件的缺陷,软件缺陷预测是近几年来软件研究人员关注的一个领域。为了提高缺陷模型的准确性,本文提出使用极限学习机(extreme learning machine, ELM)算法来预测缺陷。... 软件测试是软件开发生命周期中最主要的阶段,它可以最大限度地减少软件的缺陷,软件缺陷预测是近几年来软件研究人员关注的一个领域。为了提高缺陷模型的准确性,本文提出使用极限学习机(extreme learning machine, ELM)算法来预测缺陷。首先,从Eclipse程序库中提取3个版本控制系统用作训练数据并做预处理;其次,使用ELM算法来训练模型;最后,使用一些指标进行性能预测。基于软件包的预测结果证明ELM适合跨版本缺陷预测。 展开更多
关键词 机器学习 软件缺陷预测 软件度量 软件质量检测
下载PDF
基于调优树的软件缺陷预测堆叠集成模型
16
作者 丁浩杰 《信息技术与信息化》 2024年第7期18-21,共4页
软件缺陷预测是一种利用机器学习技术自动识别软件中潜在缺陷的方法。与单一分类器相比,集成学习方法在软件缺陷预测的预测性能上表现出显著的优势。然而,以往的研究在软件缺陷预测中普遍采用集成模型,并使用其默认的超参数设置,这通常... 软件缺陷预测是一种利用机器学习技术自动识别软件中潜在缺陷的方法。与单一分类器相比,集成学习方法在软件缺陷预测的预测性能上表现出显著的优势。然而,以往的研究在软件缺陷预测中普遍采用集成模型,并使用其默认的超参数设置,这通常被视为次优选择。对此,提出了一种基于调优树的软件缺陷预测堆叠集成模型。对基于树的四种集成模型(随机森林、极度随机树、自适应提升和极致梯度提升)的超参数进行了网格搜索优化,随后将这些调优后的树类模型作为基分类器,通过堆叠的方式构建集成模型。实验结果表明,基于调优树的堆叠集成方法可以在F1值和AUC值两个度量上提升模型的预测性能。 展开更多
关键词 堆叠集成 随机森林 软件缺陷预测 超参数优化
下载PDF
开源软件缺陷预测方法综述 被引量:3
17
作者 田笑 常继友 +7 位作者 张弛 荣景峰 王子昱 张光华 王鹤 伍高飞 胡敬炉 张玉清 《计算机研究与发展》 EI CSCD 北大核心 2023年第7期1467-1488,共22页
开源软件缺陷预测通过挖掘软件历史仓库的数据,利用与软件缺陷相关的度量元或源代码本身的语法语义特征,借助机器学习或深度学习方法提前发现软件缺陷,从而减少软件修复成本并提高产品质量.漏洞预测则通过挖掘软件实例存储库来提取和标... 开源软件缺陷预测通过挖掘软件历史仓库的数据,利用与软件缺陷相关的度量元或源代码本身的语法语义特征,借助机器学习或深度学习方法提前发现软件缺陷,从而减少软件修复成本并提高产品质量.漏洞预测则通过挖掘软件实例存储库来提取和标记代码模块,预测新的代码实例是否含有漏洞,减少漏洞发现和修复的成本.通过对2000年至2022年12月软件缺陷预测研究领域的相关文献调研,以机器学习和深度学习为切入点,梳理了基于软件度量和基于语法语义的预测模型.基于这2类模型,分析了软件缺陷预测和漏洞预测之间的区别和联系,并针对数据集来源与处理、代码向量的表征方法、预训练模型的提高、深度学习模型的探索、细粒度预测技术、软件缺陷预测和漏洞预测模型迁移六大前沿热点问题进行了详尽分析,最后指出了软件缺陷预测未来的发展方向. 展开更多
关键词 软件缺陷预测 漏洞预测 机器学习 深度学习 度量元 语法语义分析
下载PDF
基于GAN数据增强的软件缺陷预测聚合模型 被引量:2
18
作者 徐金鹏 郭新峰 +1 位作者 王瑞波 李济洪 《计算机科学》 CSCD 北大核心 2023年第12期24-31,共8页
在软件缺陷预测任务中,通常基于C&K等静态软件特征数据集,使用机器学习分类算法来构建软件缺陷预测(SDP)模型。然而,大多数静态软件特征数据集中缺陷数较少,数据集的类不平衡问题较为严重,导致学习到的SDP模型的预测性能较差。文中... 在软件缺陷预测任务中,通常基于C&K等静态软件特征数据集,使用机器学习分类算法来构建软件缺陷预测(SDP)模型。然而,大多数静态软件特征数据集中缺陷数较少,数据集的类不平衡问题较为严重,导致学习到的SDP模型的预测性能较差。文中基于生成对抗网络(GAN),并利用FID得分筛选生成正例样本数据,增强正例样本量,然后在组块正则化m×2交叉验证(m×2BCV)框架下,通过众数投票法聚合多个子模型的结果,最终构成SDP模型。以PROMISE数据库下的20个数据集为实验数据集,采用随机森林算法构建SDP聚合模型。实验结果表明,与传统的随机上采样、SMOTE、随机下采样相比,所提SDP聚合模型的F1平均值分别提高了10.2%,5.7%,3.4%,且F1的稳定性也得到相应提高;所提SDP聚合模型在20个数据集的评测中,有17个F1值最高。从AUC指标来看,所提方法与传统的采样方法没有明显差异。 展开更多
关键词 生成对抗网络 数据增强 组块正则化交叉验证 软件缺陷预测 聚合模型
下载PDF
基于特征优选的软件缺陷预测集成学习方法 被引量:2
19
作者 卫梅特 任洪敏 《计算机仿真》 北大核心 2023年第7期331-336,共6页
软件缺陷预测已经成为软件工程领域一个重要的研究方向,目前对数据集处理的方法存在特征冗余、类不平衡和特征相关性低的情况,很大程度影响了软件缺陷预测模型的分类性能。针对以上问题,对NASA MDP数据集中8个数据子集的45943条特征向... 软件缺陷预测已经成为软件工程领域一个重要的研究方向,目前对数据集处理的方法存在特征冗余、类不平衡和特征相关性低的情况,很大程度影响了软件缺陷预测模型的分类性能。针对以上问题,对NASA MDP数据集中8个数据子集的45943条特征向量进行研究,提出了基于特征优选的软件缺陷预测集成学习方法。首先,通过合成少数类过采样技术(SMOTE)对少数类样本进行分析并根据少数类样本合成新样本添加到数据集中。然后,通过信息增益(IG)分析数据集的特征属性,并且根据分析结果对特征属性进行选择。最后,使用集成学习算法Stacking构建学习器,其中初级学习器是逻辑回归(LG)和决策树(J48)、次级学习器是朴素贝叶斯(NB),对模型进行十折交叉验证。结果表明,上述模型有效提升了分类性能,与近年基于Stacking构建学习器的结果进行对比,Accuracy平均提升4.65%、F-Measure平均提升5.25%和AUC平均提升11.3%。 展开更多
关键词 软件缺陷预测 过采样 信息增益 集成学习
下载PDF
基于生成式对抗网络的类不平衡软件缺陷预测过采样方法 被引量:1
20
作者 张恒伟 贾修一 《南京理工大学学报》 CAS CSCD 北大核心 2023年第2期174-182,共9页
为了解决软件缺陷预测中的类不平衡问题,该文提出了一种新颖的基于生成式对抗网络(Generative adversarial networks,GAN)的过采样方法。GAN网络能够充分利用样本分布的空间关系,挖掘出样本之间隐藏的一些关联信息,通过生成器和判别器... 为了解决软件缺陷预测中的类不平衡问题,该文提出了一种新颖的基于生成式对抗网络(Generative adversarial networks,GAN)的过采样方法。GAN网络能够充分利用样本分布的空间关系,挖掘出样本之间隐藏的一些关联信息,通过生成器和判别器交替优化的方式使得生成的新样本更加合理科学。在26个不平衡的数据集上进行了试验,并与一些过采样方法以及未采样的方法在8个分类器上进行了广泛比较。试验结果表明,该文方法在Precision、Recall、F-measure和G-mean上都取得了最好的效果。 展开更多
关键词 软件缺陷预测 类不平衡 过采样技术 生成式对抗网络
下载PDF
上一页 1 2 11 下一页 到第
使用帮助 返回顶部