期刊文献+
共找到27篇文章
< 1 2 >
每页显示 20 50 100
基于联合特征分布匹配的跨项目缺陷预测
1
作者 邱少健 陆璐 邹全义 《计算机工程与设计》 北大核心 2024年第1期204-211,共8页
为解决跨项目软件缺陷预测研究中存在的特征不完备和分类边界模糊问题,提出一种基于联合特征的双编码器分布匹配方法(DeDM-JF)。利用卷积神经网络提取代码中与缺陷有关的结构语义特征,将其与人为选取的Handcrafted特征结合,形成联合特征... 为解决跨项目软件缺陷预测研究中存在的特征不完备和分类边界模糊问题,提出一种基于联合特征的双编码器分布匹配方法(DeDM-JF)。利用卷积神经网络提取代码中与缺陷有关的结构语义特征,将其与人为选取的Handcrafted特征结合,形成联合特征;在此基础上,构建包含分布差异匹配层的双自编码器,学习跨项目全局和局部可迁移特征用于训练缺陷预测模型。面向软件缺陷数据仓库中的798对跨项目缺陷预测任务开展实验,与相关的跨项目缺陷预测方法比较,DeDM-JF方法预测的F-measure和MCC指标有明显提升。 展开更多
关键词 软件缺陷预测 项目缺陷预测 卷积神经网络 联合特征 自编码器 分布匹配 迁移学习
下载PDF
基于动态分布对齐和伪标签学习的跨项目缺陷预测
2
作者 高芹芹 凌松松 +1 位作者 于婕 于旭 《计算机系统应用》 2024年第8期40-50,共11页
跨项目缺陷预测(cross-project defect prediction,CPDP)已经成为软件工程和数据挖掘领域的一个重要研究方向,利用其他数据丰富项目的缺陷代码来建立预测模型,解决了模型构建过程中的数据不足问题.然而源项目和目标项目的代码文件之间... 跨项目缺陷预测(cross-project defect prediction,CPDP)已经成为软件工程和数据挖掘领域的一个重要研究方向,利用其他数据丰富项目的缺陷代码来建立预测模型,解决了模型构建过程中的数据不足问题.然而源项目和目标项目的代码文件之间存在的分布差异,导致跨项目预测效果不佳.大多数研究采用域适应方法来解决这一问题,但是现有的方法一方面只考虑了条件分布或边缘分布对缺陷预测的影响,忽视了其动态性;另一方面没有选择合适的伪标签.基于上述两个方面,本文提出了一种基于动态分布对齐和伪标签学习的跨项目缺陷预测方法(DPLD).具体来说,我们通过对抗域适应方法分别在域对齐和类别对齐模块中减小项目间的边缘分布差异和条件分布差异,并借助动态分布因子动态、定量地描述了两种分布的相对重要性.此外,本文也提出了一种伪标签学习方法,通过数据间的几何相似性来增强伪标签作为真实标签的准确性.本文在PROMISE数据集上进行了实验,Fmeasure和AUC的值分别提升了22.98%、15.21%,表明了本文方法在减小项目间分布差异、提升跨项目缺陷预测性能上的有效性. 展开更多
关键词 领域自适应 项目缺陷预测 条件分布 边缘分布 伪标签学习
下载PDF
结合特征对齐与实例迁移的跨项目缺陷预测
3
作者 李莉 赵鑫 +2 位作者 石可欣 苏仁嘉 任振康 《计算机应用研究》 CSCD 北大核心 2023年第10期3091-3099,共9页
为解决跨项目缺陷预测中源项目和目标项目分布差异较大的问题,提出了一种基于特征对齐和实例迁移的两阶段缺陷预测方法(FAIT)。首先,在特征对齐阶段,根据边缘概率分布进行特征的边缘分布对齐;然后,基于源项目和目标项目构建条件分布映... 为解决跨项目缺陷预测中源项目和目标项目分布差异较大的问题,提出了一种基于特征对齐和实例迁移的两阶段缺陷预测方法(FAIT)。首先,在特征对齐阶段,根据边缘概率分布进行特征的边缘分布对齐;然后,基于源项目和目标项目构建条件分布映射矩阵完成条件分布对齐;最后,在实例迁移阶段,通过改进了权重调整策略的TrAdaBoost方法构建跨项目缺陷预测模型。以F 1作为评价指标,当目标项目有标签实例比例为20%时,FAIT性能最佳,且两过程特征对齐优于单一过程特征对齐。此外,FAIT的预测性能在AEEEM和NASA数据集上分别提高了10.69%、15.04%。FAIT在一定程度上解决了源项目与目标项目的分布差异,能够取得较好的缺陷预测性能。 展开更多
关键词 项目缺陷预测 特征对齐 最大均值差异 实例迁移 TrAdaBoost
下载PDF
基于堆叠降噪自编码器的跨项目软件缺陷数量预测方法
4
作者 刘路瑶 韩培胜 《计算机与现代化》 2023年第4期32-38,46,共8页
在软件缺陷预测技术应用中,需要预测的项目可能是一个全新的项目,或者需要预测的项目历史数据较为不足。一种解决方法是利用已有数据充足的项目(源项目)构建模型完成对新项目(目标项目)的预测,主要利用传统机器学习方法对源项目与目标... 在软件缺陷预测技术应用中,需要预测的项目可能是一个全新的项目,或者需要预测的项目历史数据较为不足。一种解决方法是利用已有数据充足的项目(源项目)构建模型完成对新项目(目标项目)的预测,主要利用传统机器学习方法对源项目与目标项目进行特征迁移学习完成缺陷预测,但不同项目之间的数据存在较大的分布差异,同时传统机器方法学习到的特征表示能力很弱且缺陷预测性能较差。针对此问题,从深度学习出发提出一种基于堆叠降噪自编码器的跨项目缺陷预测方法,该方法结合堆叠降噪自编码器和最大均值差异距离,能够有效地提取源项目与目标项目可迁移的深层次特征表示,基于该特征可以训练出有效的缺陷数量预测模型。实验结果表明,在Relink数据集和AEEEM数据集上与经典的跨项目缺陷预测方法Burak过滤法、Peters过滤法、TCA以及TCA+进行比较,该方法在大多数情况下可取得最好的预测结果。 展开更多
关键词 项目软件缺陷预测 堆叠降噪自编码器 最大均值差异距离 深度特征表示
下载PDF
基于特征迁移和实例迁移的跨项目缺陷预测方法 被引量:15
5
作者 倪超 陈翔 +3 位作者 刘望舒 顾庆 黄启国 李娜 《软件学报》 EI CSCD 北大核心 2019年第5期1308-1329,共22页
在实际软件开发中,需要进行缺陷预测的项目可能是一个新启动项目,或者这个项目的历史训练数据较为稀缺.一种解决方案是利用其他项目(即源项目)已搜集的训练数据来构建模型,并完成对当前项目(即目标项目)的预测.但不同项目的数据集间会... 在实际软件开发中,需要进行缺陷预测的项目可能是一个新启动项目,或者这个项目的历史训练数据较为稀缺.一种解决方案是利用其他项目(即源项目)已搜集的训练数据来构建模型,并完成对当前项目(即目标项目)的预测.但不同项目的数据集间会存在较大的分布差异性.针对该问题,从特征迁移和实例迁移角度出发,提出了一种两阶段跨项目缺陷预测方法 FeCTrA.具体来说,在特征迁移阶段,该方法借助聚类分析选出源项目与目标项目之间具有高分布相似度的特征;在实例迁移阶段,该方法基于TrAdaBoost方法,借助目标项目中的少量已标注实例,从源项目中选出与这些已标注实例分布相近的实例.为了验证FeCTrA方法的有效性,选择Relink数据集和AEEEM数据集作为评测对象,以F1作为评测指标.首先,FeCTrA方法的预测性能要优于仅考虑特征迁移阶段或实例迁移阶段的单阶段方法;其次,与经典的跨项目缺陷预测方法 TCA+、Peters过滤法、Burak过滤法以及DCPDP法相比,FeCTrA方法的预测性能在Relink数据集上可以分别提升23%、7.2%、9.8%和38.2%,在AEEEM数据集上可以分别提升96.5%、108.5%、103.6%和107.9%;最后,分析了FeCTrA方法内的影响因素对预测性能的影响,从而为有效使用FeCTrA方法提供了指南. 展开更多
关键词 软件质量保障 软件缺陷预测 项目缺陷预测 迁移学习 特征迁移 实例迁移
下载PDF
基于多源数据的跨项目软件缺陷预测 被引量:7
6
作者 李勇 黄志球 +1 位作者 王勇 房丙午 《吉林大学学报(工学版)》 EI CAS CSCD 北大核心 2016年第6期2034-2041,共8页
跨项目(CP)的软件缺陷预测方法可以解决传统基于目标项目(WP)实现预测时要求有历史积累数据以及缺陷标注代价较高等问题。针对已有CP方法中存在的预测性能较低和可操作性较差等不足,提出了一种基于多源数据的跨项目软件缺陷预测方法。... 跨项目(CP)的软件缺陷预测方法可以解决传统基于目标项目(WP)实现预测时要求有历史积累数据以及缺陷标注代价较高等问题。针对已有CP方法中存在的预测性能较低和可操作性较差等不足,提出了一种基于多源数据的跨项目软件缺陷预测方法。首先获取与目标项目特征相似的多源项目为候选;然后以候选项目的软件模块引导训练数据的选择;最后基于朴素贝叶斯算法实现预测模型。采用真实的软件缺陷数据进行实验,结果表明该方法的性能优于传统的WP方法,可以代替WP方法用于软件工程实践。 展开更多
关键词 计算机软件 项目缺陷预测 多源项目数据 分级数据选择 朴素贝叶斯算法
下载PDF
跨项目软件缺陷预测方法研究综述 被引量:44
7
作者 陈翔 王莉萍 +4 位作者 顾庆 王赞 倪超 刘望舒 王秋萍 《计算机学报》 EI CSCD 北大核心 2018年第1期254-274,共21页
软件缺陷预测首先通过挖掘与分析软件历史仓库,从中抽取程序模块并进行类型标记.随后通过分析软件代码的内在复杂度或开发过程特征,设计出与软件缺陷存在强相关性的度量元,并对这些程序模块进行度量.最后借助特定的机器学习方法基于上... 软件缺陷预测首先通过挖掘与分析软件历史仓库,从中抽取程序模块并进行类型标记.随后通过分析软件代码的内在复杂度或开发过程特征,设计出与软件缺陷存在强相关性的度量元,并对这些程序模块进行度量.最后借助特定的机器学习方法基于上述数据构建出缺陷预测模型.因此该方法可以在项目开发的早期阶段,通过预先识别出项目内的可疑缺陷模块,达到优化测试资源分配的目的.但在实际软件开发场景中,需要进行缺陷预测的项目可能是一个新启动项目,或这个项目的历史训练数据比较稀缺.一种简单的解决方案是利用其他项目已经搜集的训练数据来构建缺陷预测模型.但不同项目之间因所处的应用领域、采用的开发流程、使用的编程语言、开发人员经验等并不相同,因此对应数据集间会存在较大的分布差异性并造成该方案的实际性能并不理想,因此如何通过有效迁移源项目的相关知识来为目标项目构建预测模型,吸引了国内外研究人员的关注,并将该问题称为跨项目软件缺陷预测问题.论文针对该问题进行了系统综述.根据预测场景的不同,将已有方法分为3类:基于有监督学习的方法、基于无监督学习的方法和基于半监督学习的方法.其中基于有监督学习的方法主要基于候选源项目集的程序模块来构建模型.这类方法根据源项目与目标项目采用的度量元是否相同又可以细分为同构跨项目缺陷预测方法和异构跨项目缺陷预测方法.针对前者,研究人员主要从度量元取值转换、实例选择和权重设置、特征映射和特征选择、集成学习、类不平衡学习等角度展开研究.而后者更具研究挑战性,研究人员主要基于特征映射和典型相关分析等方法展开研究.基于无监督学习的方法直接尝试对目标项目中的程序模块进行预测.这类方法假设在软件缺陷预测问题中,有缺陷模块的度量元取值存在高于无缺陷模块的度量元取值的倾向.因此研究人员主要基于聚类方法展开研究.而基于半监督学习的方法则会综合使用候选源项目集的程序模块和目标项目中的少量已标记模块来构建模型.这类方法通过尝试从目标项目中选出少量模块进行标记,以提高跨项目缺陷预测的性能.研究人员主要借助集成学习和TrAdaBoost方法展开研究.论文依次对每一类方法的已有研究成果进行了系统梳理和点评.随后论文进一步总结了跨项目缺陷预测研究中经常使用的性能评测指标和评测数据集,其统计结果可以辅助研究人员针对该问题进行合理的实验设计.最后总结全文,并分别从数据集搜集、数据集预处理、模型构建和评估、模型应用这4个维度对未来值得关注的研究方向进行了展望. 展开更多
关键词 经验软件工程 软件缺陷预测 项目软件缺陷预测 迁移学习 实证研究
下载PDF
一种采用对抗学习的跨项目缺陷预测方法 被引量:5
8
作者 邢颖 钱晓萌 +3 位作者 管宇 章世豪 赵梦赐 林婉婷 《软件学报》 EI CSCD 北大核心 2022年第6期2097-2112,共16页
跨项目缺陷预测(cross-project defect prediction, CPDP)已经成为软件工程数据挖掘领域的一个重要研究方向,它利用其他项目的缺陷代码来建立预测模型,解决了模型构建过程中的数据不足问题.然而源项目和目标项目的代码文件之间存在着数... 跨项目缺陷预测(cross-project defect prediction, CPDP)已经成为软件工程数据挖掘领域的一个重要研究方向,它利用其他项目的缺陷代码来建立预测模型,解决了模型构建过程中的数据不足问题.然而源项目和目标项目的代码文件之间存在着数据分布的差异,导致跨项目预测效果不佳.基于生成式对抗网络(generative adversarial network,GAN)中的对抗学习思想,在鉴别器的作用下,通过改变目标项目特征的分布,使其接近于源项目特征的分布,从而提升跨项目缺陷预测的性能.具体来说,提出的抽象连续生成式对抗网络(abstract continuous generative adversarial network, AC-GAN)方法包括数据处理和模型构建两个阶段:(1)首先将源项目和目标项目的代码转换为抽象语法树(abstract syntax tree,AST)的形式,然后以深度优先方式遍历抽象语法树得出节点序列,再使用连续词袋模型(continuous bag-of-words model,CBOW)生成词向量,依据词向量表将节点序列转化为数值向量;(2)处理后的数值向量被送入基于GAN网络结构的模型进行特征提取和数据迁移,然后使用二分类器来判断目标项目代码文件是否有缺陷. AC-GAN方法在15组源-目标项目对上进行了对比实验,实验结果表明了该方法的有效性. 展开更多
关键词 项目缺陷预测 生成式对抗网络 连续词袋模型 抽象语法树
下载PDF
基于Box-Cox转换的集成跨项目软件缺陷预测方法 被引量:3
9
作者 王莉萍 陈翔 +1 位作者 王秋萍 赵英全 《计算机应用研究》 CSCD 北大核心 2017年第7期2023-2026,2031,共5页
对跨项目缺陷预测问题展开了深入研究,在源项目实例选择时,考虑了三种不同的实例相似度计算方法,并发现这些方法的缺陷预测结果存在多样性,因此提出了一种基于Box-Cox转换的集成跨项目软件缺陷预测方法 BCEL。具体来说,基于不同的实例... 对跨项目缺陷预测问题展开了深入研究,在源项目实例选择时,考虑了三种不同的实例相似度计算方法,并发现这些方法的缺陷预测结果存在多样性,因此提出了一种基于Box-Cox转换的集成跨项目软件缺陷预测方法 BCEL。具体来说,基于不同的实例相似度计算方法,从候选集中选出不同的训练集;针对这些数据集,进行有针对性的Box-Cox转换,并借助特定分类方法构造出不同的基分类器,最后将这三个基分类器进行有效集成。基于实际项目的数据集,验证了BCEL方法的有效性,并深入分析了BCEL方法内的影响因素对缺陷预测性能的影响。 展开更多
关键词 软件缺陷预测 项目软件缺陷预测 集成学习 实证研究
下载PDF
基于分层数据筛选的跨项目缺陷预测方法 被引量:2
10
作者 赵宇 祝义 +1 位作者 于巧 陈小颖 《计算机工程与应用》 CSCD 北大核心 2021年第20期279-286,共8页
跨项目缺陷预测旨在解决传统的项目内缺陷预测的历史数据缺失,新项目初期缺乏训练数据等实际问题。然而,在跨项目缺陷预测中,不同项目之间以及实例之间的数据分布差异降低了其预测性能。针对这一问题,提出了基于分层数据筛选的跨项目缺... 跨项目缺陷预测旨在解决传统的项目内缺陷预测的历史数据缺失,新项目初期缺乏训练数据等实际问题。然而,在跨项目缺陷预测中,不同项目之间以及实例之间的数据分布差异降低了其预测性能。针对这一问题,提出了基于分层数据筛选的跨项目缺陷预测方法。该方法将训练数据的筛选过程分为项目层筛选和实例层筛选,从源数据集中选出与目标项目数据分布最接近的候选项目集,在候选项目集中选出与目标项目中实例相似度较高的训练数据集,最后在训练数据集上训练朴素贝叶斯模型。在PROMISE数据集进行实验对比。结果表明,与项目内缺陷预测比较,提出的分层数据筛选方法优于项目内缺陷预测,并且有效降低了训练数据和目标项目数据之间的差异性。 展开更多
关键词 项目缺陷预测 分层数据筛选 朴素贝叶斯模型
下载PDF
基于实例过滤与迁移的跨项目缺陷预测方法 被引量:1
11
作者 范贵生 刁旭炀 +1 位作者 虞慧群 陈丽琼 《计算机工程》 CAS CSCD 北大核心 2020年第8期197-202,209,共7页
在跨项目软件缺陷预测中,人工采集标注的原始数据集通常包含噪声数据,并且源项目与目标项目之间的数据存在较大的分布差异性。针对该问题,提出一种两阶段跨项目缺陷预测方法CLNI-KMM。在实例过滤阶段,基于CLNI算法过滤噪声实例。在实例... 在跨项目软件缺陷预测中,人工采集标注的原始数据集通常包含噪声数据,并且源项目与目标项目之间的数据存在较大的分布差异性。针对该问题,提出一种两阶段跨项目缺陷预测方法CLNI-KMM。在实例过滤阶段,基于CLNI算法过滤噪声实例。在实例迁移阶段,采用KMM算法调整源项目中实例的训练权重,并结合目标项目中的少量标注实例建立软件缺陷预测模型。实验结果表明,与经典的跨项目软件缺陷预测方法TCA、TNB和NNFilter相比,CLNI-KMM方法预测性能较优,并且具有较强的稳定性。 展开更多
关键词 项目缺陷预测 噪声数据 分布差异 实例过滤 实例迁移
下载PDF
基于主动学习的跨项目软件缺陷预测方法
12
作者 米文博 李勇 陈囿任 《科学技术与工程》 北大核心 2022年第32期14275-14281,共7页
通过软件缺陷预测可以有效地提高软件测试效率,保证软件产品的质量。针对新开发的项目面临训练数据不足,标注代价高以及源项目与目标项目的缺陷模式难以匹配的问题,提出了基于主动学习的跨项目软件缺陷预测方法。首先使用主动学习方法... 通过软件缺陷预测可以有效地提高软件测试效率,保证软件产品的质量。针对新开发的项目面临训练数据不足,标注代价高以及源项目与目标项目的缺陷模式难以匹配的问题,提出了基于主动学习的跨项目软件缺陷预测方法。首先使用主动学习方法对目标项目进行筛选标注,其次将得到的标签集与跨项目数据进行数据融合和模式匹配,最后构建跨项目软件缺陷预测模型。采用真实的软件缺陷数据进行实验,在保证预测率的前提下,曲线下面积(area under curve, AUC)能够达到0.692,与传统方法相比综合性能均有显著提升。结果表明:所提方法可以通过模式匹配有效提高跨项目软件缺陷预测模型的性能。 展开更多
关键词 软件缺陷预测 跨项目预测 主动学习 软件缺陷模式 朴素贝叶斯算法
下载PDF
基于特征选择和TrAdaBoost的跨项目缺陷预测方法 被引量:4
13
作者 李莉 石可欣 任振康 《计算机应用》 CSCD 北大核心 2022年第5期1554-1562,共9页
跨项目软件缺陷预测可以解决预测项目中训练数据较少的问题,然而源项目和目标项目通常会有较大的数据分布差异,这降低了预测性能。针对该问题,提出了一种基于特征选择和TrAdaBoost的跨项目缺陷预测方法(CPDP-FSTr)。首先,在特征选择阶段... 跨项目软件缺陷预测可以解决预测项目中训练数据较少的问题,然而源项目和目标项目通常会有较大的数据分布差异,这降低了预测性能。针对该问题,提出了一种基于特征选择和TrAdaBoost的跨项目缺陷预测方法(CPDP-FSTr)。首先,在特征选择阶段,采用核主成分分析法(KPCA)删除源项目中的冗余数据;然后,根据源项目和目标项目的属性特征分布,按距离选出与目标项目分布最接近的候选源项目数据;最后,在实例迁移阶段,通过采用评估因子改进的TrAdaBoost方法,在源项目中找出与目标项目中少量有标签实例分布相近的实例,并建立缺陷预测模型。以F1作为评价指标,与基于特征聚类和TrAdaBoost的跨项目软件缺陷预测(FeCTrA)方法以及基于多核集成学习的跨项目软件缺陷预测(CMKEL)方法相比,CPDP-FSTr的预测性能在AEEEM数据集上分别提高了5.84%、105.42%,在NASA数据集上分别提高了5.25%、85.97%,且其两过程特征选择优于单一特征选择过程。实验结果表明,当源项目特征选择比例和目标项目有类标实例比例分别为60%、20%时,所提CPDP-FSTr能取得较好的预测性能。 展开更多
关键词 项目缺陷预测 特征选择 核主成分分析 实例迁移 TrAdaBoost
下载PDF
基于迁移学习和过采样技术的跨项目克隆代码一致性维护需求预测
14
作者 欧阳鹏 陆璐 +1 位作者 张凡龙 邱少健 《计算机科学》 CSCD 北大核心 2020年第9期10-16,共7页
近年来,随着软件需求的不断增加,开发人员通过复用已有的代码向项目中引入了大量的克隆代码。随着软件版本的迭代和更新,克隆代码会发生变化,而克隆代码变化会导致额外的维护代价,并逐渐成为软件维护的负担。研究人员尝试利用机器学习... 近年来,随着软件需求的不断增加,开发人员通过复用已有的代码向项目中引入了大量的克隆代码。随着软件版本的迭代和更新,克隆代码会发生变化,而克隆代码变化会导致额外的维护代价,并逐渐成为软件维护的负担。研究人员尝试利用机器学习方法开展克隆代码一致性维护需求预测研究,通过预测克隆代码的变化是否会导致额外的维护代价,来帮助软件质量保障团队更有效地分配维护资源,从而提高工作效率并降低运维成本。然而,在软件开发的初期阶段,软件项目往往没有经过充分的演化,缺少历史数据用于构建有效的预测模型,因此跨项目克隆代码一致性维护需求预测方法被提出。文中以减少跨项目数据分布差异为切入点,提出了基于迁移学习和过采样技术的跨项目克隆代码一致性维护需求预测方法CPCCP+,旨在将测试集与数据集映射到核空间中,通过迁移主成分分析方法减小跨项目数据的分布差异,并对数据集的类不平衡问题进行处理,从而提高跨项目预测模型的性能。在实验数据集方面,选取了7个开源数据集,合计形成42组跨项目克隆代码一致性维护需求预测任务。将提出的方法与使用基分类器的方法进行比较,评估指标包含Precision,Recall和F-Measure。实验结果表明,CPCCP+能更有效地进行跨项目克隆代码一致性维护需求的预测。 展开更多
关键词 克隆代码 跨项目预测 一致性变化 迁移学习 过采样技术
下载PDF
跨项目软件缺陷预测方法研究综述
15
作者 李勇 刘战东 张海军 《计算机技术与发展》 2020年第3期98-103,121,共7页
软件缺陷预测是提高软件测试效率、保证软件可靠性的重要途径,已经成为目前实证软件工程领域的研究热点。在软件工程中,软件的开发过程或技术平台可能随时变化,特别是遇到新项目启动或旧项目重新开发时,基于目标项目数据的传统软件缺陷... 软件缺陷预测是提高软件测试效率、保证软件可靠性的重要途径,已经成为目前实证软件工程领域的研究热点。在软件工程中,软件的开发过程或技术平台可能随时变化,特别是遇到新项目启动或旧项目重新开发时,基于目标项目数据的传统软件缺陷预测方法无法满足实践需求。基于迁移学习技术采用其他项目中已经标注的软件数据实现跨项目的缺陷预测,可以有效解决传统方法的不足,引起了国内外研究者的极大关注,并取得了一系列的研究成果。首先总结了跨项目软件缺陷预测中的关键问题。然后根据迁移学习的技术特点将现有方法分为基于软件属性特征迁移和软件模块实例迁移两大类,并分析比较了常见方法的特点和不足。最后探讨了跨项目软件缺陷预测未来的发展方向。 展开更多
关键词 项目缺陷预测 迁移学习 软件属性特征 软件模块实例 模型训练
下载PDF
跨项目缺陷预测中训练数据选择方法 被引量:3
16
作者 王星 何鹏 +1 位作者 陈丹 曾诚 《计算机应用》 CSCD 北大核心 2016年第11期3165-3169,3187,共6页
跨项目缺陷预测(CPDP)利用来自其他项目的缺陷数据预测目标项目的缺陷情况,为解决以往缺陷预测方法面临的训练数据受限问题提供了一个新的视角。训练数据的质量将直接影响跨项目缺陷预测模型的性能,因此,需尽可能选择与目标项目更相似... 跨项目缺陷预测(CPDP)利用来自其他项目的缺陷数据预测目标项目的缺陷情况,为解决以往缺陷预测方法面临的训练数据受限问题提供了一个新的视角。训练数据的质量将直接影响跨项目缺陷预测模型的性能,因此,需尽可能选择与目标项目更相似的数据用于模型的训练。利用PROMISE提供的34个公开数据集,从训练数据选择方面,分析了四种典型的相似性度量方法对跨项目预测结果的影响以及各种方法之间的差异。研究结果表明:使用不同的相似性度量方法选出的训练数据质量不同,其中余弦相似性与相关系数两种方法效果更好,且最大改进比例达到6.7%;同时,根据目标项目的缺陷率,发现余弦相似性更适合于缺陷率高于0.25的项目。 展开更多
关键词 软件质量保证 缺陷预测 项目缺陷预测 相似性度量 数据选择
下载PDF
多粒度数据选择的跨项目缺陷预测方法 被引量:4
17
作者 李一露 何鹏 +1 位作者 李兵 马于涛 《小型微型计算机系统》 CSCD 北大核心 2017年第9期1934-1939,共6页
跨项目缺陷预测利用来自其它项目的数据预测目标项目的缺陷情况,为解决以往预测方法面临的训练数据受限问题提供了一个新的视角.训练数据的质量将直接影响预测模型的性能,尤其是在跨项目情境下.本文利用PROMISE提供的34个公开数据集,从... 跨项目缺陷预测利用来自其它项目的数据预测目标项目的缺陷情况,为解决以往预测方法面临的训练数据受限问题提供了一个新的视角.训练数据的质量将直接影响预测模型的性能,尤其是在跨项目情境下.本文利用PROMISE提供的34个公开数据集,从训练数据选择的粒度出发,以两种已有的单一粒度选择方法为基准,提出一种多粒度的训练数据选择方法,并分析了所提方法对跨项目缺陷预测的作用.实验结果表明:从多粒度角度选择训练实例,既可使预测结果的F-measure和G-measure分别提高了0.035(10.4%)和0.041(9.6%),还可减少实际用于训练的实例规模;同时,采用朴素贝叶斯分类器相比其他分类器的F-measure和G-measure可分别提高44.4%和59.2%,且在训练过程中若对实例进行加权处理,预测效果可再提高25.8%. 展开更多
关键词 软件质量保证 缺陷预测 项目缺陷预测 训练数据选择
下载PDF
基于实例迁移的跨项目软件缺陷预测 被引量:7
18
作者 毛发贵 李碧雯 沈备军 《计算机科学与探索》 CSCD 北大核心 2016年第1期43-55,共13页
跨项目软件缺陷预测是解决项目初期缺陷预测缺乏数据集的有效途径,但是项目间的差异性降低了预测准确率。针对这一问题,研究提出了基于实例迁移的跨项目缺陷预测方法。该方法采用迁移学习和自适应增强技术,从其他项目数据集中提取并迁... 跨项目软件缺陷预测是解决项目初期缺陷预测缺乏数据集的有效途径,但是项目间的差异性降低了预测准确率。针对这一问题,研究提出了基于实例迁移的跨项目缺陷预测方法。该方法采用迁移学习和自适应增强技术,从其他项目数据集中提取并迁移转化出与目标数据集关联性高的训练数据集,训练出更有效的预测模型。使用PROMISE数据集进行了对比实验,结果表明所提出的新方法有效避免了单源单目标缺陷预测两极分化问题,获得了更高的预测准确率和查全率;在目标项目数据集不足的情况下,能达到甚至超过数据集充足时项目内缺陷预测的预测效果。 展开更多
关键词 项目缺陷预测 迁移学习 基于实例的迁移 自适应增强
下载PDF
一种半监督集成跨项目软件缺陷预测方法 被引量:17
19
作者 何吉元 孟昭鹏 +2 位作者 陈翔 王赞 樊向宇 《软件学报》 EI CSCD 北大核心 2017年第6期1455-1473,共19页
软件缺陷预测方法可以在项目的开发初期,通过预先识别出所有可能含有缺陷的软件模块来优化测试资源的分配.早期的缺陷预测研究大多集中于同项目缺陷预测,但同项目缺陷预测需要充足的历史数据,而在实际应用中,可能需要预测项目的历史数... 软件缺陷预测方法可以在项目的开发初期,通过预先识别出所有可能含有缺陷的软件模块来优化测试资源的分配.早期的缺陷预测研究大多集中于同项目缺陷预测,但同项目缺陷预测需要充足的历史数据,而在实际应用中,可能需要预测项目的历史数据较为稀缺,或这个项目是一个全新项目.因此,跨项目缺陷预测问题成为当前软件缺陷预测领域内的一个研究热点,其研究挑战在于源项目与目标项目数据集间存在的分布差异性以及数据集内存在的类不平衡问题.受到基于搜索的软件工程思想的启发,提出了一种基于搜索的半监督集成跨项目软件缺陷预测方法 S^3EL.该方法首先通过调整训练集中各类数据的分布比例,构建出多个朴素贝叶斯基分类器;随后,利用具有全局搜索能力的遗传算法,基于少量已标记目标实例对上述基分类器进行集成,并构建出最终的缺陷预测模型.在Promise数据集及AEEEM数据集上与多个经典的跨项目缺陷预测方法(Burak过滤法、Peters过滤法、TCA+、CODEP及HYDRA)进行了对比.以F1值作为评测指标,结果表明:在大部分情况下,S^3EL方法可以取得最好的预测性能. 展开更多
关键词 项目软件缺陷预测 半监督学习 集成学习 遗传算法 朴素贝叶斯
下载PDF
融合多策略特征筛选的跨项目软件缺陷预测 被引量:7
20
作者 刘树毅 翟晔 刘东升 《计算机工程与应用》 CSCD 北大核心 2019年第8期53-58,65,共7页
针对跨项目软件缺陷预测过程中,软件缺陷数据存在无关信息或数据冗余等问题,提出融合多策略特征筛选的跨项目软件缺陷预测(cross-project software defect prediction based on Multi-Policy Feature Filtering,MPFF)方法。采用多策略... 针对跨项目软件缺陷预测过程中,软件缺陷数据存在无关信息或数据冗余等问题,提出融合多策略特征筛选的跨项目软件缺陷预测(cross-project software defect prediction based on Multi-Policy Feature Filtering,MPFF)方法。采用多策略筛选方法与过采样方法进行数据预处理;使用代价敏感的域自适应方法进行分类,分类过程使用少量已标记目标项目数据改善项目间分布差异;在AEEEM、NASA MDP及SOFTLAB数据集上进行了不同度量下预测实验。实验结果表明,在同构度量下MPFF方法相比Burank filter、Peters filter、TCA+和TrAdaBoost方法预测效果最佳。 展开更多
关键词 项目软件缺陷预测 无关信息 数据冗余 代价敏感 同构度量
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部