-
题名代码自然性及其应用研究进展
被引量:1
- 1
-
-
作者
陈浙哲
鄢萌
夏鑫
刘忠鑫
徐洲
雷晏
-
机构
信息物理社会可信服务计算教育部重点实验室(重庆大学)
重庆大学大数据与软件学院
Faculty of Information Technology
浙江大学计算机科学与技术学院
-
出处
《软件学报》
EI
CSCD
北大核心
2022年第8期3015-3034,共20页
-
基金
国家自然科学基金(62002034)
中央高校基本科研业务费(2020CDCGRJ072,2020CDJQYA021,2021CDJKYJH032)
+2 种基金
国防基础科研计划(WDZC20205500308)
中国博士后基金(2020M673137)
重庆市自然科学基金(cstc2020jcyj-bshX0114)。
-
文摘
代码自然性(code naturalness)研究是自然语言处理领域和软件工程领域共同的研究热点之一,旨在通过构建基于自然语言处理技术的代码自然性模型,以解决各种软件工程任务.近年来,随着开源软件社区中源代码和数据规模的不断扩大,越来越多的研究人员注重钻研源代码中蕴藏的信息,并且取得了一系列研究成果.但与此同时,代码自然性研究在代码语料库构建、模型构建和任务应用等环节面临许多挑战.鉴于此,从代码自然性技术的代码语料库构建、模型构建和任务应用等方面对近年来代码自然性研究及应用进展进行梳理和总结.主要内容包括:(1)介绍了代码自然性的基本概念及其研究概况;(2)归纳目前代码自然性研究的语料库,并对代码自然性模型建模方法进行分类与总结;(3)总结代码自然性模型的实验验证方法和模型评价指标;(4)总结并归类了目前代码自然性的应用现状;(5)归纳代码自然性技术的关键问题;(6)展望代码自然性技术的未来发展.
-
关键词
代码自然性
软件仓库挖掘
代码语言模型
-
Keywords
code naturalness
mining software repositories
code language model
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-
-
题名基于代码自然性的切片粒度缺陷预测方法
被引量:8
- 2
-
-
作者
张献
贲可荣
曾杰
-
机构
海军工程大学电子工程学院
-
出处
《软件学报》
EI
CSCD
北大核心
2021年第7期2219-2241,共23页
-
基金
国家安全重大基础研究计划(613315)。
-
文摘
软件缺陷预测是软件质量保障领域的一个活跃话题,它可以帮助开发人员发现潜在的缺陷并更好地利用资源.如何为预测系统设计更具判别力的度量元,并兼顾性能与可解释性,一直是人们致力于研究的方向.针对这一挑战,提出了一种基于代码自然性特征的缺陷预测方法——CNDePor.该方法通过正逆双向度量代码并利用质量信息对样本加权的方式改进语言模型,提高了模型所得交叉熵(CE)类度量元的缺陷判别力.针对粗粒度缺陷预测存在难以聚焦缺陷区域、代码审查成本高的不足,研究了一种新的细粒度缺陷预测问题——面向语句的切片级缺陷预测.在该问题上,设计了4种度量元,并在两类安全缺陷数据集上验证了度量元和CNDePor方法的有效性.实验结果表明,CE类度量元具有可学习性,它们蕴涵了语言模型从语料库中学习到的相关知识;改进的CE类度量元的判别力明显优于原始度量元和传统规模度量元;CNDePor方法较传统缺陷预测方法和已有的基于代码自然性的方法有显著优势,较先进的基于深度学习的方法具有可比性和更强的可解释性.
-
关键词
软件质量保障
缺陷预测
代码自然性
切片粒度
语言模型
交叉熵
深度学习
-
Keywords
software quality assurance
defect prediction
code naturalness
slice granularity
language model
cross-entropy
deep learning
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-