软件开发活动数据集的层次化、多版本化方法被引量：2

Multi-level and Multi-version Approach for Software Development Dataset

下载PDF

导出

摘要随着开源软件的兴起及软件开发支撑工具的普及,Internet上积累了大量开放的软件开发活动数据,越来越多的实践者与研究者尝试从中获取提高软件开发效率和产品质量的洞察。为了提高数据分析的效率、方便分析结果的重现与对比,许多工作提出了构建与使用共享数据集。然而,现有软件开发活动数据集的构建过程可追溯性差、适用范围窄,对数据随时间、环境发生的变化欠考虑。这些不足直接威胁数据的质量及分析结果的有效性。针对该问题,提出一种层次化、多版本化的方法来构建与使用软件开发活动数据集。层次化是指在数据集中包括收集和后续处理所得的原始、中间和最终数据,建立数据集的可追溯性并扩展其适用范围。多版本化是指通过多种方式进行多次数据收集,使数据使用者能够观察到数据的变化,为数据质量及分析结果有效性的验证和提高创造条件。通过基于该方法构建的Mozilla问题追踪数据集进行示范,并验证了该方法能够帮助数据使用者高效地使用数据。 With the fast development of open source software and wide application of development supporting tools, there have been a great many of open software development data on the Internet. To improve the software development efficiency and product quality, more and more practitioners and researchers attempt to obtain insights of software development from the data. To facilitate the data analyses and their reproduction and comparison, building and using shared datasets are proposed and practiced. However, the existing datasets are lack of traceability of dataset construction process, application scope, and consideration of data variation over time and with environment changes, which threat the data quality and analysis validity. To address these problems, an advanced approach is proposed for sharing and using the software development datasets. It constructs datasets with multiple levels and multiple versions. Through multiple levels, the datasets remain the raw data, intermediate data, and final data to possess data traceability. Meanwhile, by multiple versions, users can compare and observe the data variety to verify and improve data quality and analysis validity. Based on the previously constructed Mozilla issue tracking dataset, it is demonstrated that how to build and use multi-level and multi-version software development dataset and verified that the proposed approach can help users efficiently use the dataset.

作者朱家鑫周明辉 ZHU Jia-Xin;ZHOU Ming-Hui(Institute of Software, School of Electronics Engineering and Computer Science, Peking University, Beijing 100871, China;Key Laboratory of High Confidence Software Technologies of Ministry of Education (Peking University), Beijing 100871, China;Technology Center of Software Engineering, Institute of Software, Chinese Academy of Sciences, Beijing 100190, China)

机构地区北京大学信息科学技术学院软件研究所高可信软件技术教育部重点实验室(北京大学) 中国科学院软件研究所软件工程技术研究开发中心

出处《软件学报》 EI CSCD 北大核心 2019年第7期2109-2123,共15页 Journal of Software

基金国家重点研发计划(2018YFB1004201) 国家自然科学基金(61432001,61825201)~~

关键词数据驱动的软件工程软件开发活动数据数据分析数据质量数据集 data-driven software engineering software development data data analysis data quality dataset

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献4

1郭志懋,周傲英.数据质量和数据清洗研究综述[J].软件学报,2002,13(11):2076-2082. 被引量：270
2李建中,刘显敏.大数据的一个重要方面:数据可用性[J].计算机研究与发展,2013,50(6):1147-1162. 被引量：261
3丁小欧,王宏志,张笑影,李建中,高宏.数据质量多种性质的关联关系研究[J].软件学报,2016,27(7):1626-1644. 被引量：35
4魏秀莲,邓程君,孟庆翔.肉牛生产全程质量安全追溯体系国内外研究进展[J].饲料研究,2012,35(9):16-17. 被引量：1

二级参考文献184

1Aebi, D., Perrochon, L. Towards improving data quality. In: Sarda, N.L., ed. Proceedings of the International Conference on Information Systems and Management of Data. Delhi, 1993. 273～281.
2Wang, R.Y., Kon, H.B., Madnick, S.E. Data quality requirements analysis and modeling. In: Proceedings of the 9th International Conference on Data Engineering. Vienna: IEEE Computer Society, 1993. 670～677.
3Rahm, E., Do, H.H. Data cleaning: problems and current approaches. IEEE Data Engineering Bulletin, 2000,23(4):3～13.
4Galhardas, H., Florescu, D., Shasha, D., et al. AJAX: an extensible data cleaning tool. In: Chen, W.D., Naughton, J.F., Bernstein, P.A., eds. Proceedings of the 2000 ACM SIGMOD International Conference on Management of Data. Texas: ACM, 2000. 590.
5Hernandez, M.A., Stolfo, S.J. Real-World data is dirty: data cleansing and the merge/purge problem. Data Mining and Knowledge Discovery, 1998,2(1):9～37.
6Lee, M.L., Ling, T.W., Lu, H.J., et al. Cleansing data for mining and warehousing. In: Bench-Capon, T., Soda, G., Tjoa, A.M., eds. Database and Expert Systems Applications. Florence: Springer, 1999. 751～760.
7Monge, A.E. Matching algorithm within a duplicate detection system. IEEE Data Engineering Bulletin, 2000,23(4):14～20.
8Monge, A.E., Elkan, C. The field matching problem: algorithms and applications. In: Simoudis, E., Han, J.W., Fayyad, U., eds. Proceedings of the 2nd International Conference on Knowledge Discovery and Data Mining. Oregon: AAAI Press, 1996. 267～270.
9Savasere, A., Omiecinski, E., Navathe, S.B. An efficient algorithm for mining association rules in large databases. In: Dayal, U., Gray, P., Nishio, S., eds. Proceedings of the 21st International Conference on Very Large Data Bases. Zurich: Morgan Kaufmann, 1995. 432～444.
10Srikant, R., Agrawal, R. Mining Generalized Association Rules. In: Dayal, U., Gray, P., Nishio, S., eds. Proceedings of the 21st International Conference on Very Large Data Bases. Zurich: Morgan Kaufmann, 1995. 407～419.

共引文献553

1张安珍,李建中,高宏.基于符号语义的不完整数据聚集查询处理算法[J].软件学报,2020,31(2):406-420. 被引量：8
2梁莉莉,布瑞丰.非遗视频直播的技术逻辑及其潜在风险——基于抖音平台的“田野”观察[J].青海民族研究,2022,33(3):136-141. 被引量：7
3李垚周,李光明.分布式数据清洗系统设计[J].网络安全技术与应用,2020,0(2):60-62. 被引量：7
4杨超,袁翰青,王彬,苗占群,周兴华,石亚欣.基于三次卷积插值的电网负载热力图分析方法[J].科技通报,2020(2):69-73. 被引量：2
5赵彦军.金融数据治理中关于安全与质量的平衡性研究[J].黑龙江金融,2022(10):77-80. 被引量：1
6王利民,李硕硕,王学鑫,冯志江,司亚超,邓全才,吴永强.基于grubbs检验的中水压力数据清洗[J].河北建筑工程学院学报,2022,40(4):144-147.
7丁小欧,王宏志,靳贺霖,高猛.时序数据错误检测与修复研究综述[J].智能计算机与应用,2021,11(12):1-6. 被引量：5
8周力,张勃.向Oracle进行数据移植的方法[J].沈阳大学学报,2003,15(2):38-39. 被引量：3
9宋峥嵘,朴春梅.数据质量与数据清理浅谈[J].今日科苑,2009(17).
10毕锟,刘军.ETL系统的设计及其研究[J].软件导刊,2010,9(5):173-175. 被引量：9

同被引文献27

1李红蕾.构建图形图像数据集的方法概述[J].计算机产品与流通,2020,0(8):97-97. 被引量：3
2王春容,李道苹.区域卫生信息交换数据集的构建方法研究[J].医学信息学杂志,2009,30(10):10-13. 被引量：6
3刘晶晶,李斌.3D Studio Max软件与立体构成课程相结合的教学探索[J].大舞台,2011(1):169-170. 被引量：2
4杨国田,闫东.一种端到端的亚洲人脸数据集构建方法[J].科学技术创新,2019(2):88-89. 被引量：1
5孙巍,黄政,张学福.基于特征测度的领域分析文献数据集构建方法研究[J].数字图书馆论坛,2015(12):9-14. 被引量：3
6刘敏娟,张学福,颜蕴,陈露.基于期刊主题相似性的领域分析数据集构建:方法与实证[J].图书情报工作,2016,60(10):115-122. 被引量：9
7刘海池,王挺,唐晋韬,宁洪,魏登萍,刘培磊.Linked Data数据集的主题模型建立方法[J].东北师大学报（自然科学版）,2017,49(2):77-83. 被引量：1
8苏菊,冯劭华,彭顺苓.交叉学科文献数据集构建探讨——以海洋学科为例[J].情报探索,2018(2):123-129. 被引量：1
9梁海玲,汪倍贝.新时期计算机软件开发技术应用与发展趋势分析[J].电子元器件与信息技术,2018,2(11):23-25. 被引量：22
10蔡斌.基于软件工程技术在系统软件开发过程中的应用[J].电子元器件与信息技术,2019,3(1):22-25. 被引量：16

引证文献2

1法晓宇.基于devops的软件开发与项目管理[J].电子元器件与信息技术,2020,4(8):132-133. 被引量：4
2王颖.基于3D Studio Max的海地瓜数据集构建方法[J].信息与电脑,2021,33(5):44-46.

二级引证文献4

1王妍.CMMI和DevOps在软件开发和项目管理中的融合与应用[J].信息与电脑,2021,33(9):18-21.
2范明虎,徐勇,翟玲,刘丽冰.计算机软件工程项目管理探析[J].计算机应用文摘,2022,38(9):95-97.
3刘永清,韩泽华,马素玲,甘丽清,焦艳斌.标准数字化在软件研发业务中的实践[J].电子技术与软件工程,2022(11):62-66. 被引量：2
4徐慧,胡迎九.基于DevOps的项目持续交付方案[J].电子元器件与信息技术,2024,8(4):48-50. 被引量：1

1本刊编辑部.纪录片热点问题追踪[J].艺术评论,2019,0(5):36-36.
2倪光南.用软件创新发展数字经济[J].软件和集成电路,2019,0(5):55-55.
3陶西贵,李勇,黄自力,贾艺凡.国防工程效能评估支撑平台研究[J].防护工程,2018,37(5):46-50.
4王林,曹建华,王同景.基于AUTOSAR规范的BMS软件开发方法[J].上海汽车,2019,0(7):3-10. 被引量：3
5孙勇,阙华坤,林国营,蔡永智.基于计量自动化的主站移动监控平台研究[J].中国测试,2018,44(A01):156-159. 被引量：4
6刘文杰,江贺.软件缺陷报告严重性属性分析[J].计算机工程与应用,2019,55(14):48-53. 被引量：5
7李恒,王亮,任昱坤,张文君.大数据在反恐情报信息实践中的价值与应用[J].中国刑警学院学报,2019(3):55-63. 被引量：8
8尤长军.基于Qt的领域重用软件包研究[J].工业控制计算机,2019,32(6):6-8.

软件学报

2019年第7期

浏览历史

内容加载中请稍等...

软件开发活动数据集的层次化、多版本化方法被引量：2

参考文献4

二级参考文献184

共引文献553

同被引文献27

引证文献2

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

软件开发活动数据集的层次化、多版本化方法 被引量：2

参考文献4

二级参考文献184

共引文献553

同被引文献27

引证文献2

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

软件开发活动数据集的层次化、多版本化方法被引量：2