基于LDA和DBSCAN的软件多版本克隆群映射方法被引量：2

Clone group mapping method in multi-version based on LDA and DBSCAN

下载PDF

导出

摘要针对克隆群映射大多基于相邻版本对比,当克隆群在中期版本短暂消失,实现多版本间映射存在困难,提出一种基于LDA和DBSCAN的软件多版本克隆群映射方法。首先,对所有版本的克隆群进行预处理,获得克隆群文档集合;其次,根据贝叶斯信息准则选取合适主题数T,进行主题概率模型训练,将所有克隆群都表示成T个主题的概率分布向量;再次,计算克隆群之间的JS距离,利用DBSCAN算法将同源的克隆群聚成一簇;最后,对同簇的克隆群按版本先后排序,得到多版本克隆群映射结果。对五款开源软件83个版本进行了映射实验,结果表明查全率、查准率均在98%以上,为克隆代码分析、管理提供了有力支持。 The present study on clone group mapping is mostly based on adjacent version comparison. When clone group dis- appear temporary in medium term version, it is difficult to implement mapping between multiple versions. This paper proposed a clone group mapping method based on the LDA and DBSCAN. First of all, it preprocessed clone group of all versions, and acquired collections of clone document. Secondly, it selected suitable subject number T based on the Bayesian information cri- terion, then it trained a theme probability model, and all clone group could be described as the vector of T themes probability distribution. Thirdly, it computed JS distance between clone group, used DBSCAN algorithm to put the homologous clone group into a cluster. Finally, it sorted clone group of the same cluster according to order of versions, and obtained clone map- ping results of multiple versions. Mapping experiment was conducted on 5 open-source softwares over 83 versions. Results show that the recall and precision is over 98%, which provides a strong support for analysis and management of clone code.

作者葛广帅刘东升侯敏

机构地区内蒙古师范大学计算机与信息工程学院

出处《计算机应用研究》 CSCD 北大核心 2017年第2期481-486,共6页 Application Research of Computers

基金国家自然科学基金资助项目(61363017 61462071) 内蒙古自然科学基金资助项目(2014MS0613 2015MS0606) 内蒙古自治区高等学校科学研究项目(NJZY16045)

关键词克隆群映射软件演化 LDA DBSCAN 克隆代码 clone group mapping software evolution LDA DBSCAN clone code

分类号 TP311.54 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献5

1梅宏,王千祥,张路,王戟.软件分析技术进展[J].计算机学报,2009,32(9):1697-1710. 被引量：101
2涂颖,张丽萍,王春晖,侯敏,刘东升.基于软件多版本演化提取克隆谱系[J].计算机应用,2015,35(4):1169-1173. 被引量：10
3张瑞霞,张丽萍,王春晖,侯敏.基于主题建模技术的克隆群映射方法[J].计算机工程与设计,2015,36(6):1524-1529. 被引量：11
4尹丽丽,张丽萍,王春晖,涂颖,刘东升.基于潜在狄利克雷分配模型预测克隆代码不一致变化的可能性[J].计算机应用,2014,34(6):1788-1791. 被引量：3
5钱雨村,彭国军,王滢,梁玉.恶意代码同源性分析及家族聚类[J].计算机工程与应用,2015,51(18):76-81. 被引量：18

二级参考文献125

1董志强,肖新光,张栗伟.编码心理学分析病毒同源性[J].信息安全与通信保密,2005(8):55-59. 被引量：9
2Shaw M. Truth Vs. knowledge: The difference between what a component does and what we know it does//Proeeedings of the 8th International Workshop Software Specification and Design. Budapest, Hungary, 1996: 181- 185.
3Binkley David. Source code analysis: A road map//Proceedings of the Future of Software Engineering. Minneapolis, MN, USA, 2007:104 -119.
4Dwyer Matthew B, Hatcliff John, Robby, Pasareanu Corina S, Visser Willem. Formal software analysis emerging trends in software model cheeking//Proceedings of the Future of Software Engineering. Minneapolis, MN, USA, 2007: 120- 136.
5Flemming Nielson, Hanne Riis Nielson, Chris Hankin. Principles of Program Analysis. Berlin, Germany: Springer Verlag, 2005.
6Jackson Daniel, Rinard Martin. Software analysis: A roadmap//Proceedings of the Future of Software Engineering. Limerick, Ireland, 2000:133-145.
7Aho Alfred V, Sethi Ravi, Ullman Jeffrey D. Compilers: Principles, Techniques, and Tools. New Jersey, USA: Addison-Wesley, 1986.
8Clarke E M, Jr Grumberg O, Peled D A. Model Checking, Cambridge, MA: MIT Press, 2000.
9Ball T, Rajamani S K. Automatically validating temporal safety properties of interfaces//Dwyer M B ed. Proceedings of the 8th SPIN Workshop. LNCS 2057. Springer, 2001:103-122.
10Chen H, Wagner D A. MOPS: An infrastructure for examining security properties of software//Proceedings of the 9th ACM Conference on Computer and Communications Security. Washengton, DC, USA, 2002:235-244.

共引文献128

1贾立鹏,王凤英,姜倩玉.基于多特征融合和集成学习的恶意代码检测研究[J].中国科技论文在线精品论文,2021(2):168-176. 被引量：1
2沈昌祥,张焕国,王怀民,王戟,赵波,严飞,余发江,张立强,徐明迪.可信计算的研究与发展[J].中国科学：信息科学,2010,40(2):139-166. 被引量：253
3张引,陈敏,廖小飞.大数据应用的现状与展望[J].计算机研究与发展,2013,50(S2):216-233. 被引量：377
4SHEN ChangXiang,ZHANG HuanGuo,WANG HuaiMin,WANG Ji,ZHAO Bo,YAN Fei,YU FaJiang,ZHANG LiQiang,XU MingDi.Research on trusted computing and its development[J].Science China(Information Sciences),2010,53(3):405-433. 被引量：38
5易彤.面向对象设计中软件度量学:回顾与热点[J].计算机应用研究,2011,28(2):427-434. 被引量：7
6钟浩,张路,梅宏.软件库调用规约挖掘[J].软件学报,2011,22(3):408-416. 被引量：4
7周国富,孙韵秋,蔡宇.CCNeter:C程序代码Petri网自动建模工具[J].计算机科学,2011,38(5):96-101. 被引量：2
8崔展齐,王林章,李宣东.一种目标制导的混合执行测试方法[J].计算机学报,2011,34(6):953-964. 被引量：18
9王环环,詹永照,陈锦富.可信软件分析与测试研究进展[J].计算机应用研究,2011,28(7):2401-2406. 被引量：8
10吴强.Web服务的分析、测试与验证[J].软件导刊,2011,10(7):12-14.

同被引文献9

1史庆庆,孟繁军,张丽萍,刘东升.克隆代码技术研究综述[J].计算机应用研究,2013,30(6):1617-1623. 被引量：13
2涂颖,张丽萍,王春晖,侯敏,刘东升.基于软件多版本演化提取克隆谱系[J].计算机应用,2015,35(4):1169-1173. 被引量：10
3张瑞霞,张丽萍,王春晖,侯敏.基于主题建模技术的克隆群映射方法[J].计算机工程与设计,2015,36(6):1524-1529. 被引量：11
4张久杰,王春晖,张丽萍,侯敏,刘东升.基于Token编辑距离检测克隆代码[J].计算机应用,2015,35(12):3536-3543. 被引量：13
5张久杰,翟晔,王春晖,张丽萍,刘东升.基于版本间克隆映射的演化模式识别及谱系构建[J].计算机应用,2016,36(7):2021-2030. 被引量：4
6王欢,张丽萍,闫盛,刘东升.克隆代码有害性预测中的特征选择模型[J].计算机应用,2017,37(4):1135-1142. 被引量：2
7刘冬瑞,刘东升,张丽萍,侯敏,王春晖.基于贝叶斯网络预测克隆代码质量[J].计算机科学,2017,44(4):165-168. 被引量：4
8葛广帅,刘东升,张丽萍,侯敏.基于图模型的克隆代码演化痕迹构建及模式识别[J].计算机工程,2017,34(5):47-54. 被引量：3
9折蓉蓉,张丽萍,侯敏,闫盛.基于决策树推荐克隆重构的方法[J].计算机应用,2018,38(7):2037-2043. 被引量：3

引证文献2

1葛广帅,闫盛,刘东升,张丽萍.基于演化模式克隆代码Bugs倾向性分析[J].计算机工程与应用,2018,54(13):59-66.
2折蓉蓉,张丽萍.基于软件演化历史识别并推荐重构克隆的方法[J].计算机科学,2019,46(8):224-232. 被引量：1

二级引证文献1

1欧阳鹏,陆璐,张凡龙,邱少健.基于迁移学习和过采样技术的跨项目克隆代码一致性维护需求预测[J].计算机科学,2020,47(9):10-16.

1储岳中.一类基于贝叶斯信息准则的k均值聚类算法[J].安徽工业大学学报（自然科学版）,2010,27(4):409-412. 被引量：15
2赵凯,史长琼,张理阳.基于聚类分析的P2P流量识别[J].长沙理工大学学报（自然科学版）,2010,7(3):58-62. 被引量：3
3蓝色网游《远征OL》评测[J].大众软件,2010(11):69-69.
4白志杰,李弼程,彭天强.基于BIC的新闻视频近似重复帧检测方法[J].计算机应用,2009,29(6):1694-1695.
5邸若海,高晓光,郭志高.基于改进BIC评分的贝叶斯网络结构学习[J].系统工程与电子技术,2017,39(2):437-444. 被引量：10
6刘洋,郭天慧.浅谈ISO／IEC 17020标准新旧版本对比[J].中国认证认可,2013(6):68-68.
7许明,韩军伟,郭雷,尹文杰.利用模型选择确定视觉词袋模型中词汇数目[J].计算机工程与应用,2011,47(31):148-150. 被引量：3
8于俊清,胡小强,孙凯.改进的音频混合分割方法[J].计算机辅助设计与图形学学报,2010,22(7):1174-1181. 被引量：4
9郭鹏,李乃祥,刘同海.基于进化MCMC的DBN学习算法[J].计算机工程,2011,37(10):143-145.
10谭立球,夏利民,谷士文.基于信息瓶颈算法的图像分割[J].计算机工程,2008,34(18):215-216.

计算机应用研究

2017年第2期

浏览历史

内容加载中请稍等...

基于LDA和DBSCAN的软件多版本克隆群映射方法被引量：2

参考文献5

二级参考文献125

共引文献128

同被引文献9

引证文献2

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

基于LDA和DBSCAN的软件多版本克隆群映射方法 被引量：2

参考文献5

二级参考文献125

共引文献128

同被引文献9

引证文献2

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

基于LDA和DBSCAN的软件多版本克隆群映射方法被引量：2