融合文本分布式表示的重复缺陷报告检测被引量：2

Duplicate bug report detection by combining distributed representations of documents

下载PDF

导出

摘要重复缺陷报告检测能够避免对描述同一缺陷的多份报告进行重复的任务分派和修复,可降低软件维护成本。为了进一步提高检测的准确率,提出一种融合文本分布式表示的重复缺陷报告检测方法。首先,基于大规模缺陷报告数据库训练Doc2Vec模型并抽取缺陷报告的分布式表示,将不同长度的缺陷报告编码为统一长度的稠密向量。接着,通过比较这些向量来计算不同缺陷报告的相似程度,将其作为一种新特征与重复缺陷报告检测过程常用的其它特征进行融合,并利用机器学习算法训练二元分类模型。在公开的Bugzilla重复缺陷报告数据集上的实验结果表明,相比于代表性方法D_TS,本文方法的F1值平均提升了2%,说明了新特征的有效性。 Duplicate bug report detection can avoid the repeated assignment and repair processes for multiple bug reports that describe the same bug,and thus greatly reduce the cost of software main-tenance.To improve the accuracy of detection,this paper proposes a duplicate bug report detection method by combining distributed representations of documents.Firstly,the Doc2Vec model is trained based on a large-scale defect report database,the distributed representations of bug reports are extracted,and the variable-sized bug reports are encoded into fixed-sized dense vectors.Secondly,the similarities between different bug reports are calculated by comparing their dense vectors,it is as a new feature and combined with traditional features commonly used in the process of duplicate bug report detection,and machine learning algorithm is used to train the binary classification model.Experimental results on public duplicate bug report datasets from Bugzilla show that,compared with the state of the art method D_TS,our method improves the F1 value by 2%on average,which indicates the effectiveness of the new feature.

作者曾杰贲可荣张献徐永士 ZENG Jie;BEN Ke-rong;ZHANG Xian;XU Yong-shi(College of Electronic Engineering,Naval University of Engineering,Wuhan 430033,China)

机构地区海军工程大学电子工程学院

出处《计算机工程与科学》 CSCD 北大核心 2021年第4期670-680,共11页 Computer Engineering & Science

关键词重复缺陷报告文本分布式表示 Doc2Vec模型机器学习算法 duplicate bug report distributed representations of documents Doc2Vec model machine learning algorithm

分类号 TP311.5 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献4

1李宁,李战怀,张利军.一种新的基于N-gram模型的重复软件缺陷报告检测方法[J].西北工业大学学报,2010,28(2):298-303. 被引量：2
2范道远,孙吉红,王炜,涂吉屏,何欣.融合文本与分类信息的重复缺陷报告检测方法[J].计算机科学,2019,46(12):192-200. 被引量：9
3陈俊洁,胡文翔,郝丹,熊英飞,张洪宇,张路.一种静态的编译器重复缺陷报告识别方法[J].中国科学：信息科学,2019,49(10):1283-1298. 被引量：2
4樊田田,许蕾,陈林.基于多目标优化算法NSGA-II推荐相似缺陷报告[J].计算机学报,2019,42(10):2175-2189. 被引量：13

二级参考文献11

1Anvik J,Hiew L,Murphy C C.Coping with an Open Bug Repository.Proceedings of the 2005 OOPSLA Workshop on Eclipse Technology Exchange,2005,35-39.
2Runeson P,Alexandersson M,Nyholm O.Detection of Duplicate Defect Reports Using Natural Language Processing.Proceedings of the 29th International Conference on Software Engineering,2007,499-510.
3Wang X Y,Zhang L,Xie T,Anvik J,Sun J.An Approach to Detecting Duplicate Bug Reports Using Natural Language and Execution Information.Proceedings of the 30th International Conference on Software Engineering,2008,461-470.
4Jalbert N,Weimer W.Automated Duplicate Detection for Bug Tracking System.Proceedings of the International Conference on Dependable Systems and Networks,2008,1-10.
5Hiew L.Assisted Detection of Duplicate Bug Reports.Master Degree Dissertation University of British Columbia,Canada,2006.
6Ko A J,Myers B A,Chau D H.A Linguistic Analysis of How People Describe Software Problems.Proceedings of the Visual Languages and HumaN-Centric Computing,2006,127-134.
7Firefox Defect Repository.https://bugzilla.mozilla.org.
8The Stanford Natural Language Processing Group.http://nlp.stanford.edu/software/lex-parser.shtml.
9黄小亮,郁抒思,关佶红.基于LDA主题模型的软件缺陷分派方法[J].计算机工程,2011,37(21):46-48. 被引量：11
10任永功,杨荣杰,尹明飞.基于特征权重与词间相关性的文本特征选择算法[J].计算机应用与软件,2012,29(9):33-36. 被引量：3

共引文献21

1郭怡,吴琼.基于改进NSGA-Ⅱ的异构无线网络并行调度模型及仿真研究[J].自动化与仪器仪表,2020(10):31-34. 被引量：1
2王之仓,李和成.采用多项式变异策略和分解方法的多目标进化算法[J].微电子学与计算机,2021,38(1):95-100. 被引量：4
3刘世平,刘武发.冲压车间调度的动态拥挤度NSGA-Ⅱ多目标优化方法[J].锻压技术,2021,46(1):76-82. 被引量：3
4尹春林,杨政.电科院MIS系统分析与改进[J].电力设备管理,2021(4):59-61.
5余笙,李斌,孙小兵,薄莉莉,周澄.知识驱动的相似缺陷报告推荐方法[J].计算机科学,2021,48(5):91-98.
6王帅,孙喜民,高亚斌,孙博.基于神经协同过滤的个性化商品推荐方法[J].信息技术,2021,45(6):143-147. 被引量：3
7周伟,沈中华.电动汽车复合电源参数的精英受控NSGA-Ⅱ算法优化[J].机械设计与制造,2021(8):188-193. 被引量：1
8张骞月,赵瑞莲,王微微.语义扩展连续查询的重复错误报告预测[J].计算机系统应用,2022,31(2):31-39.
9张珠让,周南.混合动力汽车能量管理的自适应交叉NSGA-Ⅱ优化[J].机械设计与制造,2022(2):213-218. 被引量：2
10梁正平,刘程,王志强,明仲,朱泽轩.基于存档和权值扩展的大规模多目标优化算法[J].计算机学报,2022,45(5):951-972. 被引量：8

同被引文献16

1李宁,李战怀,张利军.一种新的基于N-gram模型的重复软件缺陷报告检测方法[J].西北工业大学学报,2010,28(2):298-303. 被引量：2
2陈俊洁,胡文翔,郝丹,熊英飞,张洪宇,张路.一种静态的编译器重复缺陷报告识别方法[J].中国科学：信息科学,2019,49(10):1283-1298. 被引量：2
3范道远,孙吉红,王炜,涂吉屏,何欣.融合文本与分类信息的重复缺陷报告检测方法[J].计算机科学,2019,46(12):192-200. 被引量：9
4高俊婷,张丽萍,赵凤荣.基于聚类和关键词提取的软件缺陷分析方法[J].计算机工程与设计,2021,42(3):830-839. 被引量：6
5韩敏,李宇,韩冰.基于改进结构保持数据降维方法的故障诊断研究[J].自动化学报,2021,47(2):338-348. 被引量：14
6罗森林,苏霞,潘丽敏.稳健边界强化GMM-SMOTE软件缺陷检测方法[J].北京理工大学学报,2021,41(3):303-310. 被引量：4
7李经宇,杨静,孔斌,王灿,张露.基于注意力机制的多尺度车辆行人检测算法[J].光学精密工程,2021,29(6):1448-1458. 被引量：23
8邓艺璇,黄玉萍,黄周春.基于随机森林算法的电动汽车充放电容量预测[J].电力系统自动化,2021,45(21):181-188. 被引量：35
9方新怡,万晓霞,史硕,滕潇,于俊彦.基于稀疏表示的多光谱颜色数据降维方法研究[J].激光与光电子学进展,2021,58(22):539-545. 被引量：9
10孙兴亮,郝晓华,王建,赵宏宇,纪文政.基于光谱-环境随机森林回归模型的MODIS积雪面积比例反演研究[J].冰川冻土,2022,44(1):147-158. 被引量：7

引证文献2

1曾方,谢琪,崔梦天.一种融合D_BBAS方法的重复缺陷报告检测[J].计算机应用研究,2022,39(12):3736-3742.
2汪绍荣,黄卫春,宗波.基于流形学习降维的缺陷动态特征分类算法[J].计算机仿真,2023,40(11):475-479.

1高俊婷,张丽萍,赵凤荣.基于聚类和关键词提取的软件缺陷分析方法[J].计算机工程与设计,2021,42(3):830-839. 被引量：6
2刘忠妹,黎小清,杨春霞,陈桂良.实验室信息管理系统(LIMS)在农业检测实验室中的应用[J].中国标准化,2020(13):161-164. 被引量：6
3张函.基于深度学习技术的词语相关性计算在电商广告关键词选词中的应用[J].科学技术创新,2021(11):107-110.
4朱斌,陈磊,邬金萍.基于改进卷积神经网络结构的机器视觉室内定位算法[J].国外电子测量技术,2021,40(1):58-64. 被引量：6
5陈旸,杨帆,冯战涛.基于云计算及物联网技术的数字化矿山服务支持平台[J].山海经,2021(3):0350-0350.
6叶顺流.核电厂仪控系统研制阶段的FRACAS应用研究[J].科技创新导报,2021,18(1):38-42.
7赵辉,王开阳,江云松,高栋栋,李尚书,孟繁鑫.基于工厂模式的OSLC数据集成接口设计与实现[J].空间控制技术与应用,2021,47(2):73-79. 被引量：3

计算机工程与科学

2021年第4期

浏览历史

内容加载中请稍等...

融合文本分布式表示的重复缺陷报告检测被引量：2

参考文献4

二级参考文献11

共引文献21

同被引文献16

引证文献2

相关作者

相关机构

相关主题

浏览历史

融合文本分布式表示的重复缺陷报告检测 被引量：2

参考文献4

二级参考文献11

共引文献21

同被引文献16

引证文献2

相关作者

相关机构

相关主题

浏览历史

融合文本分布式表示的重复缺陷报告检测被引量：2