-
题名软件开发活动数据集的层次化、多版本化方法
被引量:2
- 1
-
-
作者
朱家鑫
周明辉
-
机构
北京大学信息科学技术学院软件研究所
高可信软件技术教育部重点实验室(北京大学)
中国科学院软件研究所软件工程技术研究开发中心
-
出处
《软件学报》
EI
CSCD
北大核心
2019年第7期2109-2123,共15页
-
基金
国家重点研发计划(2018YFB1004201)
国家自然科学基金(61432001,61825201)~~
-
文摘
随着开源软件的兴起及软件开发支撑工具的普及,Internet上积累了大量开放的软件开发活动数据,越来越多的实践者与研究者尝试从中获取提高软件开发效率和产品质量的洞察。为了提高数据分析的效率、方便分析结果的重现与对比,许多工作提出了构建与使用共享数据集。然而,现有软件开发活动数据集的构建过程可追溯性差、适用范围窄,对数据随时间、环境发生的变化欠考虑。这些不足直接威胁数据的质量及分析结果的有效性。针对该问题,提出一种层次化、多版本化的方法来构建与使用软件开发活动数据集。层次化是指在数据集中包括收集和后续处理所得的原始、中间和最终数据,建立数据集的可追溯性并扩展其适用范围。多版本化是指通过多种方式进行多次数据收集,使数据使用者能够观察到数据的变化,为数据质量及分析结果有效性的验证和提高创造条件。通过基于该方法构建的Mozilla问题追踪数据集进行示范,并验证了该方法能够帮助数据使用者高效地使用数据。
-
关键词
数据驱动的软件工程
软件开发活动数据
数据分析
数据质量
数据集
-
Keywords
data-driven software engineering
software development data
data analysis
data quality
dataset
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-