-
题名软件仓库挖掘领域:贡献者和研究热点
被引量:4
- 1
-
-
作者
江贺
陈信
张静宣
韩雪娇
徐秀娟
-
机构
大连理工大学软件学院
-
出处
《计算机研究与发展》
EI
CSCD
北大核心
2016年第12期2768-2782,共15页
-
基金
国家自然科学基金项目(61370144)
教育部新世纪优秀人才支持计划基金项目(NCET-13-0073)~~
-
文摘
随着时间的推移,软件不断地更新和演化,软件仓库中累积了海量的数据,如何有效地收集、组织、利用软件工程中涌现的软件大数据是一个至关重要的问题.软件仓库挖掘(mining software repositories,MSR)通过挖掘软件仓库中繁杂多变的数据中蕴含的知识来提高软件的质量和生产效率.虽然一些研究工作详细阐述了MSR的背景、历史和前景,但现有的研究工作并未系统地呈现MSR领域中最有影响力的作者、机构、国家以及最受欢迎的研究主题和主题变迁等领域知识.因此,结合已有的经典的文献分析框架和算法来分析MSR相关文献,并呈现一些MSR基本领域知识.为了实现MSR文献分析,建立了一个包含3个组件的MSR文献分析框架(MSR publication analysis framework,MSR-PAF),这3个组件分别被用来创建数据集、执行基础文献分析、实施合作模式分析.基础文献分析结果表明:最高产的作者、机构、国家?地区分别是Ahmed E.Hassan,University of Victoria和美国,最有影响力作者是Ahmed E.Hassan,最频繁的关键词是software maintenance.合作模式分析的结果显示Abram Hindle是MSR领域最活跃的作者,open source project和software maintenance是最流行的研究主题.
-
关键词
文献分析
合作模式分析
数据挖掘
软件仓库挖掘
大数据
-
Keywords
publication analysis
collaboration pattern analysis
data mining
mining software repositories
big data
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-
-
题名一种面向软件仓库挖掘的动态作业配置框架
- 2
-
-
作者
史殿习
尹刚
米海波
袁霖
王怀民
-
机构
国防科学技术大学计算机学院
-
出处
《计算机科学》
CSCD
北大核心
2011年第7期113-116,133,共5页
-
基金
国家863课题(2007AA010301)
国家自然科学基金项目(60903043)资助
-
文摘
构造面向软件仓库挖掘的数据中心,是目前软件工程领域的研究热点。软件仓库数据处理作业的执行时间差异明显、资源消耗大等特点为其作业配置带来诸多挑战。提出一种面向软件仓库挖掘的作业配置框架TrustieS-DC,该框架支持一种新型远程作业部署和服务模式,采用一种基于软件版本划分的动态作业配置算法以缩短长作业响应时间并提高系统资源利用率。基于Gnome项目SVN库的实验表明,TrustieSDC的性能和资源利用率与并行后的Alitheia相比有明显改进。
-
关键词
软件仓库挖掘
数据中心
作业配置
开发者贡献度
开发者网络
-
Keywords
Ming of software repositories
Data center
Job configuration
Developer contribution
Developer network
-
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
-
-
题名面向软件仓库挖掘的数据驱动特征提取方法
被引量:4
- 3
-
-
作者
李晓晨
江贺
任志磊
-
机构
大连理工大学软件学院
-
出处
《计算机科学》
CSCD
北大核心
2015年第9期159-164,共6页
-
基金
教育部新世纪优秀人才支持计划(NCET-13-0073)
国家自然科学基金(61175062
61370144)资助
-
文摘
在软件仓库挖掘领域,通常将软件工程任务转换成数据挖掘问题进行解决。领域特征的使用严重影响了软件任务的解决效果。然而,如何根据特定任务从软件仓库数据中提取有价值的特征,在软件仓库挖掘领域尚缺乏系统的研究。数据驱动特征提取方法是一种新的特征提取方法。对于给定的软件工程任务,该方法从任务的数据集中选取部分数据(如源代码、缺陷报告等),招募若干志愿者人工完成该任务,并要求志愿者说明在人工完成特定软件工程任务时所考虑的因素。通过分析这些因素,可以提取所需的领域特征。以缺陷报告摘要任务为例进行实验,结果表明新方法能够发现高效的领域特征,并取得比现有方法更好的预测效果。
-
关键词
软件仓库挖掘
数据驱动方法
特征提取
缺陷报告摘要
-
Keywords
Mining software repositories,Data driven approach,Feature extraction,Bug report summarization
-
分类号
TP311.5
[自动化与计算机技术—计算机软件与理论]
-
-
题名GitHub开源软件项目团队协作过程评价
- 4
-
-
作者
刘玉辉
王忠杰
-
机构
哈尔滨工业大学计算机科学与技术学院
-
出处
《智能计算机与应用》
2020年第1期307-311,共5页
-
文摘
随着开源软件的兴起,为了得到更好的锻炼提升,计算机相关专业教师鼓励学生在GitHub上进行项目团队协作。针对学生在GitHub上协作完成的项目,教师如何进行项目团队内成员的贡献度量,进而为学生课程任务做出公平、公正的评分则成为一个问题。本文主要从构建成员贡献行为指标模型、设计量化贡献计算方法和成员贡献可视化等方面进行软件仓库挖掘,结合SpringMVC、Hibernate和Extjs设计并实现了一款GitHub团队项目成员贡献评估Web应用系统。通过对比实际项目人工评估结果和系统评估结果,验证了所提方法的有效性。
-
关键词
软件仓库挖掘
GitHub
团队协作
贡献
WEB应用
-
Keywords
software warehouse mining
GitHub
team collaboration
contribution
Web application
-
分类号
TP311.5
[自动化与计算机技术—计算机软件与理论]
-
-
题名代码自然性及其应用研究进展
被引量:1
- 5
-
-
作者
陈浙哲
鄢萌
夏鑫
刘忠鑫
徐洲
雷晏
-
机构
信息物理社会可信服务计算教育部重点实验室(重庆大学)
重庆大学大数据与软件学院
Faculty of Information Technology
浙江大学计算机科学与技术学院
-
出处
《软件学报》
EI
CSCD
北大核心
2022年第8期3015-3034,共20页
-
基金
国家自然科学基金(62002034)
中央高校基本科研业务费(2020CDCGRJ072,2020CDJQYA021,2021CDJKYJH032)
+2 种基金
国防基础科研计划(WDZC20205500308)
中国博士后基金(2020M673137)
重庆市自然科学基金(cstc2020jcyj-bshX0114)。
-
文摘
代码自然性(code naturalness)研究是自然语言处理领域和软件工程领域共同的研究热点之一,旨在通过构建基于自然语言处理技术的代码自然性模型,以解决各种软件工程任务.近年来,随着开源软件社区中源代码和数据规模的不断扩大,越来越多的研究人员注重钻研源代码中蕴藏的信息,并且取得了一系列研究成果.但与此同时,代码自然性研究在代码语料库构建、模型构建和任务应用等环节面临许多挑战.鉴于此,从代码自然性技术的代码语料库构建、模型构建和任务应用等方面对近年来代码自然性研究及应用进展进行梳理和总结.主要内容包括:(1)介绍了代码自然性的基本概念及其研究概况;(2)归纳目前代码自然性研究的语料库,并对代码自然性模型建模方法进行分类与总结;(3)总结代码自然性模型的实验验证方法和模型评价指标;(4)总结并归类了目前代码自然性的应用现状;(5)归纳代码自然性技术的关键问题;(6)展望代码自然性技术的未来发展.
-
关键词
代码自然性
软件仓库挖掘
代码语言模型
-
Keywords
code naturalness
mining software repositories
code language model
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-
-
题名一种变粒度缺陷报告严重程度预测方法
- 6
-
-
作者
贾焱鑫
林浩
陈翔
濮雪莲
葛骅
-
机构
南通大学信息科学技术学院
南通大学经济与管理学院
-
出处
《南通大学学报(自然科学版)》
CAS
2022年第1期44-51,共8页
-
基金
国家自然科学基金青年科学基金项目(61202006)。
-
文摘
已有工作一般将缺陷报告严重程度预测问题建模为粗粒度分类问题(即二分类问题)或细粒度分类问题(即多分类问题),更细的预测粒度意味着对分类准确性提出更高的要求,因而预测性能通常会下降。通过有效利用粗粒度分类的高预测性能与细粒度分类更为精细的预测粒度,提出一种变粒度缺陷报告严重程度预测(variable granularity bug report severity prediction,VG-BSP)方法,VG-BSP方法首先对缺陷报告进行基于二分类的粗粒度划分,然后根据二分类的结果,选择对应的预测模型以预测出具体的严重程度(即基于多分类的细粒度划分)。为了验证VG-BSP方法的有效性,搜集了来自Eclipse的两个子项目JDT和CDT的缺陷报告和来自Mozilla项目的缺陷报告;并将VG-BSP方法与逻辑回归(logistic regression,LR)方法、K近邻(K-nearest neighbors,KNN)方法、决策树(decision tree,DT)方法、随机森林(random forest,RF)方法、支持向量机(support vector machine,SVM)方法等经典细粒度分类方法进行了对比。实验结果表明:基于macro-F1指标,VG-BSP方法的性能与已有的细粒度方法相比平均可提升19.6%。除此以外,使用LR分类算法和Spacy词向量可以使得VG-BSP方法取得最好的性能。
-
关键词
软件仓库挖掘
缺陷报告
严重程度预测
机器学习
-
Keywords
software repository mining
bug report
severity prediction
machine learning
-
分类号
TP311.5
[自动化与计算机技术—计算机软件与理论]
-