程序代码相似度检测技术的研究与实现

Research on and Application of Techniques of Test for Similarity of Program Codes

下载PDF

导出

摘要针对传统相似度算法应用在程序设计课程作业检测中精度较低这一问题,通过研究最长公共子序列等算法,发现其优缺点,在分析的基础上,结合结构度量技术和属性技术两种技术,提出一种性能较好的程序相似度计算方法。方法首先对源程序进行初步处理,将程序中的注释语句和空格删除,再次确定常用元素及常用结构,然后利用Lex统计、抽取程序元素;利用开源代码ucc生成语法树,之后抽取相应的语法结构;最后生成特征向量,并计算代码相似度。实验结果表明该方法比最长公共子序列算法精度提高了10.6%。 To solve the problem of the low precision of testing for similarity of program codes in traditional ways,this thesis proposes an improved technique to make such a test on the combination of technology of attribute counting and that of structure calculation through studying and comparing several different methods of calculating the Longest Common Subsequence.Firstly,source program is processed primarily,annotation statements and spaces are deleted,and common elements and structures get confirmation; next,statistics are made by means of Lex,program elements are extracted,and abstract syntax trees get to be generated using UCC; then,grammar structures are extracted; lastly,eigenvector is produced and the similarity can get calculated.The experimental result shows that the new method is 10.6 percent more precise than those of calculating the Longest Common Subsequence.

作者卫军超耿楠

机构地区西北农林科技大学信息工程学院

出处《电脑知识与技术（过刊）》 2017年第2X期39-40,共2页 Computer Knowledge and Technology

基金西安交通工程学院校级教改项目(编号:150006B)

关键词属性计数法结构度量技术相似度度量 attribute counting structure measurement similarity measurement

分类号 TP311.1-4 [自动化与计算机技术—计算机软件与理论] G642 [文化科学—高等教育学]

引文网络
相关文献

参考文献2

1古平,张锋,周海涛.一种程序源代码相似度度量方法[J].计算机工程,2012,38(6):37-39. 被引量：7
2郑凯,欧阳林艳,林强,刘芳冰.LCS算法与编辑距离算法的研究[J].信息通信,2015,28(5):22-23. 被引量：5

二级参考文献10

1Baker B S, Giancarlo R. Sparse Dynamic Programming for Lon- gest Common Subsequence from Fragments[J]. Journal of Algorithms, 2002, 42(2): 231-254.
2Kamiya T, Kusumoto S, Inoue K. CCFinder: A Multilinguistic Token-based Code Clone Detection System for Large Scale Source Code[J]. IEEE Trans. on Software Engineering, 2002, 28(7): 654-670.
3Schleimer S, Wilkerson D S, Aiken A. Winnowing: Local Algo- rithms for Document Fingerprinting[C]//Proc. of ACM SIGMOD International Conference on Management of Data. San Diego, California, USA: [s. n.], 2003.
4Jones E L. Metrics Based Plagiarism Monitoring[J]. Journal of Computing Sciences in Colleges, 2001, 16(4): 253-261.
5Chilowicz M, Duris E, Roussel G. Syntax Tree Fingerprinting for Source Code Similarity Detection[C]//Proc. of ICPC'09. Vancouver, Canada: [s. n.], 2009.
6Yang Suying, Wang Xin. A Visual Domain Recognition Method Based on Function Mode for SourceCode Plagiarism[C]//Proc. of the 3rd Internatioaai Symposium on Intelligent Information Technology and Security Informatics. Jinggangshan, China: [s. n.], 2010.
7Karp R M, Rabin M O. Efficient Randomized Pattern-matching Algorithms[J]. IBM Journal of Research and Development, 1987, 31 (2): 249-260.
8曹孟春,陈凯明.一种用于反编译代码与源代码的比较算法[J].计算机工程,2009,35(4):38-40. 被引量：3
9于海英.字符串相似度度量中LCS和GST算法比较[J].电子科技,2011,24(3):101-103. 被引量：18
10牛永洁,张成.多种字符串相似度算法的比较研究[J].计算机与数字工程,2012,40(3):14-17. 被引量：37

共引文献9

1谷春英,张顺利.改进指纹和LSC加权的恶意程序代码相似度估计算法[J].科学技术与工程,2013,21(10):2871-2874. 被引量：1
2赵明洪,张太红,王正敏.Python程序代码相似度检测[J].现代计算机,2014,20(23):30-32.
3曹海英,元元.程序代码抄袭检测中串匹配算法的研究[J].信息安全与技术,2015,6(2):34-36. 被引量：2
4王克朝,王甜甜,苏小红,马培军.基于频繁闭合序列模式挖掘的学生程序雷同检测[J].吉林大学学报（工学版）,2015,45(4):1260-1265. 被引量：1
5张华,周学权,张淼,郑宏珍,初佃辉.相似度检测技术在计算机实验教学中的应用研究[J].电子技术与软件工程,2017(21):144-145.
6卫军超,耿楠.程序代码相似度检测技术的研究与实现[J].信息与电脑,2017,29(3):99-101.
7杨冠泽,单维锋.地震前兆大数据可视化相似度评价技术研究[J].防灾科技学院学报,2020,22(3):42-46.
8舒新峰,贾敬霞,何孝敏,付稳稳.面向语句分值的C程序静态评分方法[J].计算机工程与设计,2021,42(5):1331-1338.
9黄莉,黄巧薇,孙杰文,刘志峰.基于最大公共序列毕业论文选题查重策略研究[J].科技经济导刊,2017(27):156-156. 被引量：1

1浅谈近似数[J].小学教学设计（英语）,2007,0(2Z):29-29.
2张震林.科技论文英文注释语句中的省略问题[J].编辑学报,2006,18(6):424-426.
3朱莉,刘志强.在认数的过程中培养数感——“100以内数的认识”教材解读及教学建议[J].小学数学教育,2017,0(Z2):36-38.
4崔卫国,徐锐.用DIS系统验证玻意耳定律实验的误差分析[J].物理实验,2008,28(9):19-20. 被引量：3
5龙莉,文鲜.认识一种新刻度的游标卡尺[J].中学物理教学参考,2004,33(6):42-42.
6英国高等教育治理范式变革的诠释[J].国内高等教育教学研究动态,2011(15):4-4.
7UCC Confucius Institute Holds the National Day Reception in Celebration of the 62nd Anniversary of the Founding of the People~ Republic of China[J].海外华文教育动态,2011(11):155-155.
8孙小刚,唐谦,张世免.“材料成型检测技术”课程教学改革研究[J].教育现代化（电子版）,2017(23):41-42. 被引量：1
9李菠,孟立凡,李晶,刘春美,黄广炎.探测低慢小目标的高精度时间间隔测量方法[J].科学技术与工程,2017,17(16):248-253. 被引量：8
10白冰,蒋青青,唐礼忠.工科专业“有限单元法及程序设计”课程改革新思路[J].理工高教研究,2009,28(5):136-140. 被引量：4

电脑知识与技术（过刊）

2017年第2X期

浏览历史

内容加载中请稍等...

程序代码相似度检测技术的研究与实现

参考文献2

二级参考文献10

共引文献9

相关作者

相关机构

相关主题

浏览历史