基于LDA-BERT重复缺陷报告检测模型研究被引量：1

Research on model of repeated defect report detection based on LDA-BERT

下载PDF

导出

摘要为解决当前软件缺陷报告库中经常存在着大量重复缺陷报告被提交的问题,提出了一种基于LDA-BERT的重复缺陷报告检测模型模型.首先,将潜在狄利克雷分配模型(LDA,Latent Dirichlet Allocation)模型输出向量同BERT(Bidirectional Encoder Representations from Transformers)模型输出向量连接成新的模型向量,目的是融合主题模型LDA对于主题识别的优势和BERT模型识别上下文语义优势;然后,为了保证在检测的精度的同时,缩短检测时间,提出了二级特征向量再检测方法,通过二次抽取特征向量,以达到检测的精度与时间上的平衡的问题;最后,将大型开源项目缺陷报告库作为实验数据集,对所提出的模型方法与同类模型进行实验比对,实验结果表明本模型的召回率、精度在实验数据集的TOP-2000等指标上分别达到61.35%、47.34%.与同类模型相比该模型提高的百分比分别是4.3%和5.2%.实验结果表明,与已有的方法相比,提出的模型对于重复缺陷报告检测是有效果的. There are a large number of duplicate defect reports being submitted in the software defect report database.In order to solve this problem,this paper proposed LDA-BERT,a model that connects LDA(latent Dirichlet allocation)model output vectors and BERT(Bidirectional Encoder Representations from Transformers)model output vectors into a new model vector.The aim was to integrate the advantages of topic model LDA for topic recognition and BERT model for contextual semantic recognition.The paper also proposed a two-stage feature vector redetection method to improve the detection accuracy and shorten the detection time.Finally,the experimental comparison between the proposed model method and similar models showed that the recall rate and accuracy of this model reached 61.35%and 47.34%respectively in TOP-2000 index,and the percentage improvement of this model compared with similar models was 4.3%and 5.2%respectively.The experimental results showed that the proposed model was effective for the detection of duplicate defect reports compared with the existing models.

作者崔梦天杨善矿袁启航 CUI Meng-tian;YANG Shan-kuang;YUAN Qi-hang(School of Computer Science and Engineering,Southwest Minzu University,Chengdu 610041,China)

机构地区西南民族大学计算机科学与工程学院

出处《西南民族大学学报（自然科学版）》 CAS 2023年第4期414-423,共10页 Journal of Southwest Minzu University(Natural Science Edition)

基金四川省科技计划项目(2023YFH0057) 科技部高端外国专家引进计划项目(G2022186003L)。

关键词 LDA模型 BERT模型重复缺陷报告检测 LDA model BERT model duplicate defect report detection

分类号 TP311.53 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献4

1ZHANG Jie,WANG XiaoYin,HAO Dan,XIE Bing,ZHANG Lu,MEI Hong.A survey on bug-report analysis[J].Science China(Information Sciences),2015,58(2):88-111. 被引量：8
2郑炜,王晓龙,陈翔,夏鑫,廖慧玲,刘程远,孙瑞阳.重复软件缺陷报告检测方法综述[J].软件学报,2022,33(6):2288-2311. 被引量：2
3姜玥,王帅,吴克奇,谢琪,崔梦天.基于量子免疫克隆BP算法的软件缺陷预测模型[J].西南民族大学学报（自然科学版）,2022,48(5):537-542. 被引量：2
4崔梦天,龙松林,赵城斌,吴克奇,姜玥,谢琪.基于量子粒子群混合烟花优化支持向量机的软件缺陷预测研究[J].西南民族大学学报（自然科学版）,2022,48(6):653-659. 被引量：5

二级参考文献22

1SI.XiaoSheng,HU ChangHua,ZHOU ZhiJie.Fault prediction model based on evidential reasoning approach[J].Science China(Information Sciences),2010,53(10):2032-2046. 被引量：8
2LI Wei,LINing.A formal semantics for program debugging[J].Science China(Information Sciences),2012,55(1):133-148. 被引量：4
3Jaweria Kanwal,Onaiza Maqbool.Bug Prioritization to Facilitate Bug Report Triage[J].Journal of Computer Science & Technology,2012,27(2):397-412. 被引量：3
4韩红超.量子粒子群BP神经网络在GNSS高程转换中的应用分析[J].测绘通报,2019(1):85-88. 被引量：5
5谢涛,张路,肖旭生,熊英飞,郝丹.Cooperative Software Testing and Analysis: Advances and Challenges[J].Journal of Computer Science & Technology,2014,29(4):713-723. 被引量：3
6ZHANG Jie,WANG XiaoYin,HAO Dan,XIE Bing,ZHANG Lu,MEI Hong.A survey on bug-report analysis[J].Science China(Information Sciences),2015,58(2):88-111. 被引量：8
7王男帅,薛静锋,胡昌振,单纯,李志强.基于遗传优化支持向量机的软件缺陷预测模型[J].中国科技论文,2015,10(2):159-163. 被引量：10
8张立仿,张喜平.量子遗传算法优化BP神经网络的网络流量预测[J].计算机工程与科学,2016,38(1):114-119. 被引量：40
9马振宇,张威,毕学军,金丽亚.基于优化PSO-BP算法的软件缺陷预测模型[J].计算机工程与设计,2016,37(2):413-417. 被引量：7
10朱朝阳,陈相舟,王志宏,张信明.基于粒子群优化SVM的面向对象软件缺陷预测模型[J].计算机应用,2017,37(A02):60-64. 被引量：7

共引文献13

1黄伟,林劼,江育娥.云环境下软件错误报告自动分类算法改进[J].计算机应用,2016,36(5):1212-1215.
2张燕飞,张春熙,李宇明,张蓉.DBugHelper:分布式系统Debug协助工具[J].华东师范大学学报（自然科学版）,2016(5):153-164.
3Zhifei CHEN,Wanwangying MA,Wei LIN,Lin CHEN,Yanhui LI,Baowen XU.A study on the changes of dynamic feature code when fixing bugs: towards the benefits and costs of Python dynamic features[J].Science China(Information Sciences),2018,61(1):165-182. 被引量：5
4郑炜,王晓龙,陈翔,夏鑫,廖慧玲,刘程远,孙瑞阳.重复软件缺陷报告检测方法综述[J].软件学报,2022,33(6):2288-2311. 被引量：2
5董夏磊,项正龙,吴泓润,汪鼎文,李元香.基于开发者多元特征的软件缺陷自动分派方法[J].计算机科学,2022,49(12):81-88.
6邢颖.基于可解释性人工智能的软件工程技术方法综述[J].计算机科学,2023,50(5):3-11. 被引量：5
7马艮娟,刘梅.大数据在计算机软件工程中的应用探讨[J].软件,2023,44(9):162-164. 被引量：2
8李金讯,冯永青,郭玮,许家伟,林树鸿,颜清.基于多模态关键校验算法的档案归档完整性研究及应用[J].电力大数据,2023,26(7):76-83.
9王曙敦,贺杰.基于改进支持向量机的LCD液晶屏气泡分类识别[J].山西电子技术,2023(6):1-4.
10王国峰,唐云善,徐立飞.基于数据流分析的Java空指针引用异常缺陷检测[J].计算机与数字工程,2023,51(10):2369-2374.

同被引文献6

1吴克奇,崔梦天,Mariani Manuel Sebastian,张翼成,谢琪,周绪川.面向软件缺陷数据的协同过滤抽样推荐算法[J].西南师范大学学报（自然科学版）,2021,46(11):46-55. 被引量：5
2孙林,施恩惠,司珊珊,徐久成.基于AP聚类和互信息的弱标记特征选择方法[J].南京师大学报（自然科学版）,2022,45(3):108-115. 被引量：6
3崔梦天,龙松林,赵城斌,吴克奇,姜玥,谢琪.基于量子粒子群混合烟花优化支持向量机的软件缺陷预测研究[J].西南民族大学学报（自然科学版）,2022,48(6):653-659. 被引量：5
4王大志,季焱晶,陈彦桦,王洪峰,黄敏.基于样本重叠与近似马尔可夫毯的特征选择算法[J].计算机应用研究,2023,40(3):725-730. 被引量：2
5田笑,常继友,张弛,荣景峰,王子昱,张光华,王鹤,伍高飞,胡敬炉,张玉清.开源软件缺陷预测方法综述[J].计算机研究与发展,2023,60(7):1467-1488. 被引量：3
6任晓莹,陈浩,刘玘晗,李紫璇,王淑琴.基于判别结构向量互补的集成特征选择方法[J].天津师范大学学报（自然科学版）,2023,43(4):57-63. 被引量：1

引证文献1

1崔梦天,陈建英,徐智慧.基于TMFG生成拓扑图的软件缺陷预测图特征选择方法[J].西南民族大学学报（自然科学版）,2024,50(4):418-427.

1张震.基于LDA的中小企业科技需求关键信息提取方法[J].电脑知识与技术,2023,19(2):16-19.
2李晋.一种简单的文本信息增强的声纹识别算法[J].长江信息通信,2023,36(5):9-12.
3倪铭远,邓宏涛,高望.基于图卷积神经网络的虚假新闻检测[J].计算机应用,2023,43(S01):49-55. 被引量：1
4李晋.一种结合帧级特征预测的多任务学习声纹确认方法[J].长江信息通信,2023,36(6):1-4.
5郑挺国,范馨月,靳炜,方匡南.通胀预期形成与信息黏性特征:基于媒体新闻视角[J].世界经济,2023,46(4):60-82. 被引量：4
6拓雨欣,薛涛.融合指针网络与关系嵌入的三元组联合抽取模型[J].计算机应用,2023,43(7):2116-2124. 被引量：2
7赵嘉昕,崔喆.面向法律判决文书的长文档抽取式文摘方法——BIGDCNN[J].计算机应用,2023,43(S01):67-74. 被引量：1
8寇戈,侯玉茹,李德奎.轨道交通故障信息分类算法优化研究[J].信息与电脑,2023,35(8):105-107.
9姜海斌,陈照春.多用户场景下基于MPVRT模型的体育视频传输模型研究[J].河北北方学院学报（自然科学版）,2023,39(7):23-28.
10王骞敏.国内电子陶瓷专利技术主题演化研究[J].中国陶瓷工业,2023,30(3):59-65. 被引量：1

西南民族大学学报（自然科学版）

2023年第4期

浏览历史

内容加载中请稍等...

基于LDA-BERT重复缺陷报告检测模型研究被引量：1

参考文献4

二级参考文献22

共引文献13

同被引文献6

引证文献1

相关作者

相关机构

相关主题

浏览历史

基于LDA-BERT重复缺陷报告检测模型研究 被引量：1

参考文献4

二级参考文献22

共引文献13

同被引文献6

引证文献1

相关作者

相关机构

相关主题

浏览历史

基于LDA-BERT重复缺陷报告检测模型研究被引量：1