-
题名基于组合分类算法的源代码注释质量评估方法
被引量:6
- 1
-
-
作者
余海
李斌
王培霞
贾荻
王永吉
-
机构
中国科学院软件研究所互联网软件技术实验室
中国科学院大学
中国科学院软件研究所总体部
中国科学院软件研究所基础软件国家工程研究中心
-
出处
《计算机应用》
CSCD
北大核心
2016年第12期3448-3453,3467,共7页
-
基金
国家科技重大专项(2014ZX01029101-002)~~
-
文摘
源代码注释是软件的重要组成部分,研究者往往需要利用人工或自动化的方法产生分析注释,注释的质量评估也往往是通过人工来完成,这无疑是低效不客观的。为此,首先从注释的格式、语言形式、内容以及与代码相关度4个方面出发构建注释评估准则;进而,基于这一准则提出了一种基于组合分类算法的注释质量评估方法。该方法将机器学习以及自然语言处理技术引入到注释质量评估中来,利用分类算法将注释分为不合格、合格、良好、优秀四个等级。通过对基本分类算法的组合使用,使得评估效果进一步提高。组合分类算法的准确率和F1值较单独使用某一种分类算法提高20个百分点左右,除宏平均F1值外,各项指标都达到了70%以上。实验结果表明,所提方法能够很好地应用于注释质量评估。
-
关键词
源码注释
质量评估
文本分类
组合算法
自然语言处理
-
Keywords
source code comments
quality assessment
text classification
aggregation algorithm
natural language processing
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-