基于词嵌入的源码相似度研究被引量：1

Research on Source Code Similarity Based on Word Embedding

下载PDF

导出

摘要源码相似性度量是代码推荐、缺陷监测、代码搜索等很多软件工程领域任务的基础工作。传统的源码相似性度量方法主要利用统计方法从代码的结构属性、文本特性两方面进行度量,缺乏对代码的语义相似性研究。为解决此类问题,在词嵌入基础上提出结合TF-IDF和Word2vec的向量空间模型,利用向量间距离衡量代码间的相似性,融合代码的语义信息和统计信息。实验结果表明,相比于传统基于统计的方法,该模型效果提高了15%。 Source code similarity measurement is the basis of code recommendation,defect monitoring,code search and many other tasks in the field of software engineering.Traditional source code similarity measurement methods mainly use statistical methods to measure from both the structural properties of the cod e and textual properties,but lack research on code semantic similarity.In order to solve such problems,a vector space model combining TF-IDF and Word2vec is proposed on the basis of word embedding,using inter-vector distance to measure the similarity between codes,and the model integrates the semantic and statistical information of codes.The experimental results show that the model is 15% more effective than the traditional statistics-based approach.

作者钱程谢春丽王梦琦权雷 QIAN Cheng;XIE Chun-li;WANG Meng-qi;QUAN Lei(School of Wisdom Education,Jiangsu Normal University,Xuzhou 221116,China;Department of Computer Science&Technology,Jiangsu Normal University,Xuzhou 221116,China)

机构地区江苏师范大学智慧教育学院江苏师范大学计算机科学与技术学院

出处《软件导刊》 2021年第7期97-101,共5页 Software Guide

基金国家自然科学基金项目(61502212) 江苏省高等学校大学生创新创业训练计划项目(201910320134Y) 2019年第一批谷歌支持教育部产学合作协同育人项目(2e317703-2af0-4ecb-ba7c-35e290356017)。

关键词 N-GRAM TF-IDF Word2Vec 词嵌入代码相似度 N-gram TF-IDF Word2Vec word embedding code similarity

分类号 TP301 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献7

1李宇霞,孙永奇,闫茹,朱卫国.基于CNN图像识别与语义可靠性的路径搜索方法[J].计算机工程,2021,47(1):255-263. 被引量：10
2武永亮,赵书良,李长镜,魏娜娣,王子晏.基于TF-IDF和余弦相似度的文本分类方法[J].中文信息学报,2017,31(5):138-145. 被引量：101
3尹陈,吴敏.N-gram模型综述[J].计算机系统应用,2018,27(10):33-38. 被引量：22
4姜涛,陆阳,张洁,洪建.无监督分词算法在新词识别中的应用[J].小型微型计算机系统,2020,41(4):888-892. 被引量：2
5林江豪,周咏梅,阳爱民,陈锦.基于语义相似度的情感特征向量提取方法[J].计算机科学,2017,44(10):296-301. 被引量：3
6薛炜明,侯霞,李宁.一种基于word2vec的文本分类方法[J].北京信息科技大学学报（自然科学版）,2018,33(1):71-75. 被引量：16
7陈秋远,李善平,鄢萌,夏鑫.代码克隆检测研究进展[J].软件学报,2019,30(4):962-980. 被引量：19

二级参考文献29

1高洁,吉根林.文本分类技术研究[J].计算机应用研究,2004,21(7):28-30. 被引量：36
2朱嫣岚,闵锦,周雅倩,黄萱菁,吴立德.基于HowNet的词汇语义倾向计算[J].中文信息学报,2006,20(1):14-20. 被引量：327
3牛强,王志晓,陈岱,夏士雄.基于支持向量机的Web文本分类方法[J].微电子学与计算机,2006,23(9):102-104. 被引量：19
4苏金树,张博锋,徐昕.基于机器学习的文本分类技术研究进展[J].软件学报,2006,17(9):1848-1859. 被引量：389
5黄昌宁,赵海.中文分词十年回顾[J].中文信息学报,2007,21(3):8-19. 被引量：250
6柳位平,朱艳辉,栗春亮,向华政,文志强.中文基础情感词词典构建方法研究[J].计算机应用,2009,29(10):2875-2877. 被引量：86
7张海军,史树敏,朱朝勇,黄河燕.中文新词识别技术综述[J].计算机科学,2010,37(3):6-10. 被引量：39
8陶富民,高军,王腾蛟,周凯.面向话题的新闻评论的情感特征选取[J].中文信息学报,2010,24(3):37-43. 被引量：16
9杨鼎,阳爱民.一种基于情感词典和朴素贝叶斯的中文文本情感分类方法[J].计算机应用研究,2010,27(10):3737-3739. 被引量：44
10黄轩,李熔烽.博客语料的新词发现方法[J].现代电子技术,2013,36(2):144-146. 被引量：17

共引文献166

1胡媛敏,张寿明.基于信息论的TF-IDF算法在文本分类中的应用研究[J].中国水运（下半月）,2021,21(12):31-33. 被引量：6
2高原,施元磊,张蕾,曹天奕,冯筠.基于游记文本的游客游览行程重构[J].数据分析与知识发现,2020,4(2):165-172. 被引量：5
3洪海蓝,李文林,杨涛,李玥,梅文静.基于知识图谱的海洋中药智能问答系统的设计与实现[J].世界科学技术-中医药现代化,2023(6):1935-1941. 被引量：4
4张兆滨,王素格,陈鑫,赵琳玲,王典.阅读理解中观点类问题的扩展研究[J].中文信息学报,2020(6):89-96. 被引量：2
5梁瑶,谢春丽,王文捷.基于图嵌入的代码相似性度量[J].计算机科学,2022,49(S02):801-806. 被引量：4
6马心儒,丁伟.用户行为数据统计的案例分析[J].电子技术（上海）,2021,50(8):180-181.
7邢月晗,郑岩.语音转录后文本的中文拼写纠错模型[J].电子测量技术,2023,46(6):57-61.
8董芷艺,谢章伟,崔展齐.基于开发者模型的问题修复者推荐方法[J].北京信息科技大学学报（自然科学版）,2019,34(3):64-67.
9邬明强,张奎.结合TFIDF方法与Skip-gram模型的文本分类方法研究[J].电子技术与软件工程,2018(6):162-163. 被引量：1
10汪一百,陈实,叶剑锋.利用深度学习的文本相似度计算方法[J].湘潭大学自然科学学报,2018,40(2):104-107. 被引量：4

同被引文献15

1严娇,马静,房康.基于融合共现距离的句法网络下文本语义相似度计算[J].数据分析与知识发现,2019,3(12):93-100. 被引量：3
2王永智,滕至阳,王鹏,聂江涛.基于LSA和SVM的文本分类模型的研究[J].计算机工程与设计,2009,30(3):729-731. 被引量：10
3张玉芳,朱俊,熊忠阳.改进的概率潜在语义分析下的文本聚类算法[J].计算机应用,2011,31(3):674-676. 被引量：14
4G.R.BRINDHA,P.SWAMINATHAN,B.SANTHI.Performance analysis of new word weighting procedures for opinion mining[J].Frontiers of Information Technology & Electronic Engineering,2016,17(11):1186-1198. 被引量：2
5吴勇,刘钰峰.基于相关度的局部潜在语义分析算法研究[J].控制工程,2017,24(8):1701-1706. 被引量：9
6李楠,陶宏才.一种新的融合BM25与文本特征的新闻摘要算法[J].成都信息工程大学学报,2018,33(2):113-118. 被引量：9
7张晓宇,王永滨,吴林.基于文本加权词共现的跨语言文本相似度分析[J].软件导刊,2020,19(2):92-95. 被引量：2
8付聪,李六武,杨振国,刘文印.基于自学习近邻图策略的短文本匹配方法[J].计算机应用研究,2020,37(6):1697-1701. 被引量：5
9陈乐乐,黄松,孙金磊,惠战伟,吴开舜.基于BM25算法的问题报告质量检测方法[J].清华大学学报（自然科学版）,2020,60(10):829-836. 被引量：9
10史敏,罗建,蔡丽君.基于专利说明书语义分析的潜在竞争对手识别研究[J].情报学报,2020,39(11):1171-1181. 被引量：16

引证文献1

1陈乐,王超群,邹全,王丹,朱喜楠.基于综合相似度的短文本匹配算法研究[J].软件导刊,2023,22(7):71-78. 被引量：3

二级引证文献3

1靳亚宾,邓驰,郝继强,杨泽崇,陈晓东.基于要素及语义相似性双路召回的预案库匹配系统设计[J].计算机与网络,2024,50(3):206-210.
2张志强,张丽,周晓清,王伟钧,黎忠文.一种多视角新闻信息快速检索方法[J].现代电子技术,2024,47(18):57-64.
3万轶轩,张福安,章永龙.基于知识图谱的产业链大数据平台设计与实现[J].现代计算机,2024,30(15):97-103.

1丁雪儿.基于执行匹配的轻量级代码语义搜索方法[J].无线通信技术,2020,29(4):19-24.
2林兴磊.封建时代日英世俗贵族相似性研究[J].视界观,2021(12):0287-0289.
3赵瑞丹,朱旭.基于爬虫技术和语义分析的网络舆情采集系统设计[J].电子设计工程,2021,29(14):56-60. 被引量：6
4杨粟,欧阳智,杜逆索.基于相关度距离的无监督并行哈希图像检索[J].计算机应用,2021,41(7):1902-1907. 被引量：5
5席建成,王陆舰.文化异质性影响制造业出口的机制及效应研究[J].科学学研究,2021,39(7):1208-1218. 被引量：5
6郑微,赵鹏,张永宏,赵艳.宏基因组测序技术分析原发性肝癌患者肠道菌群特征[J].中华实验和临床感染病杂志（电子版）,2021,15(3):149-157. 被引量：11

软件导刊

2021年第7期

浏览历史

内容加载中请稍等...

基于词嵌入的源码相似度研究被引量：1

参考文献7

二级参考文献29

共引文献166

同被引文献15

引证文献1

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

基于词嵌入的源码相似度研究 被引量：1

参考文献7

二级参考文献29

共引文献166

同被引文献15

引证文献1

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

基于词嵌入的源码相似度研究被引量：1