基于预训练模型和多层次信息的代码坏味检测方法被引量：2

Code Smell Detection Approach Based on Pre-training Model and Multi-level Information

下载PDF

导出

摘要目前已有的代码坏味检测方法仅依赖于代码结构信息和启发式规则,对嵌入在不同层次代码中的语义信息关注不够,而且现有的代码坏味检测方法准确率还有进一步提升的空间.针对该问题,提出一种基于预训练模型和多层次信息的代码坏味检测方法DeepSmell,首先采用静态分析工具提取程序中的代码坏味实例和多层次代码度量信息,并对代码坏味实例进行标记;然后通过抽象语法树解析并获取源代码中与代码坏味相关的层次信息,将其中的文本信息与度量信息相结合生成数据样本;最后使用BERT预训练模型将文本信息转化为词向量,应用GRU-LSTM模型获取层次信息之间潜在的语义关系,并结合CNN模型与注意力机制检测代码坏味.在实验中,选取JUnit、Xalan和SPECjbb2005等24个大型实际应用程序构建训练集和测试集,并对特征依恋、长方法、数据类和上帝类等4种代码坏味进行检测.实验结果表明,DeepSmell与目前已有的检测方法相比在平均查全率和F1值上分别提高了9.3%和10.44%,同时保持了较高的查准率,DeepSmell可以有效地实现代码坏味检测. Most of the existing code smell detection approaches rely on code structure information and heuristic rules,while pay little attention to the semantic information embedded in different levels of code,and the accuracy of code smell detection approaches is not high.To solve this problem,this study proposes a novel approach DeepSmell based on a pre-trained model and multi-level metrics.Firstly,the static analysis tool is used to extract code smell instances and multi-level code metric information in the source program and mark these instances.Secondly,the level information that relate to code smells in the source code are parsed and obtained through the abstract syntax tree.The textual information composed of the level information is combined with code metric information to generate the data set.Finally,text information is converted into word vectors using the BERT pre-training model.The GRU-LSTM model is applied to obtain the potential semantic relationship among the identifiers,and the CNN model is combined with attention mechanism to code smell detection.The experiment tested four kinds of code smells including feature envy,long method,data class,and god class on 24 open source programs such as JUnit,Xalan,and SPECjbb2005.The results show that DeepSmell improves the average recall and F1 by 9.3%and 10.44%respectively compared with existing detection methods,and maintains a high level of precision at the same time.

作者张杨东春浩刘辉葛楚妍 ZHANG Yang;DONG Chun-Hao;LIU Hui;GE Chu-Yan(School of Information Science and Engineering,Hebei University of Science and Technology,Shijiazhuang 050018,China;School of Computer Science and Technology,Beijing Institute of Technology,Beijing 100081,China)

机构地区河北科技大学信息科学与工程学院北京理工大学计算机学院

出处《软件学报》 EI CSCD 北大核心 2022年第5期1551-1568,共18页 Journal of Software

基金国家自然科学基金(62172037) 河北省自然科学基金重点项目(18960106D) 河北省高等学校科学研究计划重点项目(ZD2019093)。

关键词代码坏味深度学习预训练模型抽象语法树多层次信息 code smell deep learning pre-trained model abstract syntax tree multi-level information

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献7

1马赛,董东.基于潜在语义分析的Large Class检测[J].计算机科学,2017,44(S1):495-498. 被引量：3
2王曙燕,张一权,孙家泽.基于BP神经网络的代码坏味检测[J].计算机工程,2020,46(10):216-222. 被引量：3
3张生栋,吴海涛,高建华.利用主轴因子法的严重性代码异味相关性分析[J].小型微型计算机系统,2021,42(4):853-860. 被引量：1
4孟繁祎,王莹,于海,朱志良.复杂软件系统的重构技术:现状、问题与展望[J].计算机科学,2020,47(12):1-10. 被引量：4
5张杨,邵帅,张冬雯.基于下推自动机的细粒度锁自动重构方法[J].软件学报,2021,32(12):3710-3727. 被引量：1
6王继娜,陈军华,高建华.基于排序损失的ECC多标签代码异味检测方法[J].计算机研究与发展,2021,58(1):178-188. 被引量：4
7卜依凡,刘辉,李光杰.一种基于深度学习的上帝类检测方法[J].软件学报,2019,30(5):1359-1374. 被引量：10

二级参考文献12

1廖兴,尹俊文,蔡放.基于Java语言的抽象语法树的创建与遍历[J].长沙大学学报,2004,18(4):50-53. 被引量：5
2王宁.浅析潜在语义分析的原理及其应用[J].新世纪图书馆,2007(5):67-70. 被引量：2
3王春枝.因子分析中公因子提取方法的比较与选择[J].内蒙古财经大学学报,2014,12(1):90-94. 被引量：10
4姜德迅,马培军,苏小红,王甜甜.代码坏味检测及重构的现状分析[J].智能计算机与应用,2014,4(3):23-27. 被引量：4
5吴楠,宋方敏,LI XiangDong.基于量子搜索的软件工程[J].中国科学：信息科学,2015,45(5):623-633. 被引量：5
6钟林辉,张能伟,侯长源,宗鸿雁.一种改进的基于层次聚类的软件重构技术研究[J].计算机工程与应用,2015,51(20):50-54. 被引量：10
7宋攀,景丽萍.基于神经网络探究标签依赖关系的多标签分类[J].计算机研究与发展,2018,55(8):1751-1759. 被引量：17
8王毅,冯小年,钱铁云,朱辉,周静.基于CNN和LSTM深度网络的伪装用户入侵检测[J].计算机科学与探索,2018,12(4):575-585. 被引量：21
9刘丽倩,董东.基于代价敏感集成分类器的长方法检测[J].计算机科学,2018,45(B11):497-500. 被引量：3
10卜依凡,刘辉,李光杰.一种基于深度学习的上帝类检测方法[J].软件学报,2019,30(5):1359-1374. 被引量：10

共引文献17

1卜依凡,刘辉,李光杰.一种基于深度学习的上帝类检测方法[J].软件学报,2019,30(5):1359-1374. 被引量：10
2王曙燕,张一权,孙家泽.基于BP神经网络的代码坏味检测[J].计算机工程,2020,46(10):216-222. 被引量：3
3孟繁祎,王莹,于海,朱志良.复杂软件系统的重构技术:现状、问题与展望[J].计算机科学,2020,47(12):1-10. 被引量：4
4赖德迪,罗智徽,马应龙.基于共现分析的分类器链标签序列优化方法[J].系统工程与电子技术,2021,43(9):2526-2534. 被引量：3
5谷志茹,胡久松,黄晓峰,黎朝晖,李军军.“车联网系统”课程教学方法研究[J].教育教学论坛,2021(32):156-159. 被引量：2
6陈禹樵,隋浩.浅谈设计模式在Android代码重构中的应用[J].信息记录材料,2021,22(8):90-92. 被引量：1
7王继文,吴毅坚,彭鑫.基于演化和语义特征的上帝类检测方法[J].计算机科学,2021,48(12):59-66.
8谷志茹,黄晓峰,胡久松,李军军.车联网系统线下一流课程建设研究[J].高教学刊,2022,8(5):26-28. 被引量：1
9苏珊,张杨,张冬雯.基于深度学习的耦合度相关代码坏味检测方法[J].计算机应用,2022,42(6):1702-1707.
10刘弋,吴毅坚,彭鑫,闫亚东.基于图模型和孤立森林的上帝类检测方法[J].软件学报,2022,33(11):4046-4060. 被引量：1

同被引文献40

1沐燕舟,王赞,陈翔,陈俊洁,赵静珂,王建敏.采用多目标优化的深度学习测试优化方法[J].软件学报,2022,33(7):2499-2524. 被引量：5
2何远,张玉清,张光华.基于黑盒遗传算法的Android驱动漏洞挖掘[J].计算机学报,2017,40(5):1031-1043. 被引量：20
3刘渊,杨永辉,张春瑞,王伟.一种基于遗传算法的Fuzzing测试用例生成新方法[J].电子学报,2017,45(3):552-556. 被引量：23
4李志博,李清宝,于磊,侯雪梅.基于划分的自适应随机测试综述[J].计算机科学,2019,46(3):19-29. 被引量：4
5谢网根,陈锦富,葛宏河,张祖法,曾智锋,周敏敏.基于覆盖率的面向对象软件自适应随机测试方法[J].江苏大学学报（自然科学版）,2019,40(3):313-319. 被引量：5
6马骅,聂长海,吴化尧.基于历史的云平台故障注入测试[J].计算机学报,2019,42(10):2281-2296. 被引量：6
7夏春艳,张岩,万里,宋妍,肖楠,郭冰.基于否定选择遗传算法的路径覆盖测试数据生成[J].电子学报,2019,47(12):2630-2638. 被引量：17
8张蔚瑶,张磊,毛建瓴,许智君,张玉军.未知协议的逆向分析与自动化测试[J].计算机学报,2020,43(4):653-667. 被引量：17
9王微微,李奕超,赵瑞莲,李征.Web应用前后端融合的遗传算法并行化测试用例生成[J].软件学报,2020,31(5):1314-1331. 被引量：17
10范书平,张岩,马宝英,万里,姚念民,宋妍.基于均衡优化理论的路径覆盖测试数据进化生成[J].电子学报,2020,48(7):1303-1310. 被引量：7

引证文献2

1李金讯,冯永青,郭玮,许家伟,林树鸿,颜清.基于多模态关键校验算法的档案归档完整性研究及应用[J].电力大数据,2023,26(7):76-83.
2李志博,李清宝,兰明敬.基于ART优化选择策略的遗传算法生成测试数据方法[J].计算机科学,2024,51(6):95-103.

1竺可沁,林珊玲,林志贤,郭太良.基于多层次特征提取的轻量级超分辨率重建算法[J].信息技术与网络安全,2022,41(5):38-44. 被引量：2
2赵康,查志华,李贺,吴杰.基于声振信号对称极坐标图像的苹果霉心病早期检测[J].农业工程学报,2021,37(18):290-298. 被引量：5
3钱群丽,刘星,姚春霞,李祥洲,廉亚丽,宋卫国.消费者对农产品质量安全网络舆情的响应研究--以2019年央视“3·15”曝光“化妆土鸡蛋”事件为例[J].上海农业学报,2022,38(2):129-135. 被引量：1
4魏杰.对小额诉讼程序改革的法理学审视[J].公民与法（检察版）,2022(1):52-54.
5胥子灵,刘春学,白彧颖,王玲.多期超额收益法评估数据资产价值——以M通信企业为例[J].中国资产评估,2022(3):73-80. 被引量：13
6赵保华,王志皓,陈连栋,任春卉,余发江,徐庆.电力物联网可信树形批量认证机制[J].中国电力,2022,55(5):149-157. 被引量：3
7苏韵,王娟.电商平台隐私信息敏感度对服务质量感知的影响[J].商业经济研究,2022(9):91-94.
8李川,聂熠文,刘军伟,孟凡钦,沈晓静.基于机器学习的多算法融合航迹稳健起始方法[J].空天防御,2022,5(1):20-24. 被引量：1
9贾雲博.信创国产化替代工程建设过程中若干典型问题的对策与研究[J].中外企业文化,2021(12):67-68. 被引量：8
10张瑞城,周念清,江思珉,夏学敏.ILUES算法融合ERT数据反演污染源参数与渗透系数场[J].同济大学学报（自然科学版）,2022,50(2):223-230. 被引量：3

软件学报

2022年第5期

浏览历史

内容加载中请稍等...

基于预训练模型和多层次信息的代码坏味检测方法被引量：2

参考文献7

二级参考文献12

共引文献17

同被引文献40

引证文献2

相关作者

相关机构

相关主题

浏览历史

基于预训练模型和多层次信息的代码坏味检测方法 被引量：2

参考文献7

二级参考文献12

共引文献17

同被引文献40

引证文献2

相关作者

相关机构

相关主题

浏览历史

基于预训练模型和多层次信息的代码坏味检测方法被引量：2