期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
一种基于语义相似的中文文档抄袭检测方法
1
作者 胡布焕 张晶 张凌 《深圳大学学报(理工版)》 EI CAS CSCD 北大核心 2020年第S01期107-111,共5页
为解决在文本抄袭行为中由于避开检测而对文本内容进行的一些同义词替换、文本释义等操作问题,提出了一种基于语义相似计算的中文文档抄袭检测方法,将文档以句子为单位切分,利用word2vec模型将句子中的词语表示为词向量的形式,作为卷积... 为解决在文本抄袭行为中由于避开检测而对文本内容进行的一些同义词替换、文本释义等操作问题,提出了一种基于语义相似计算的中文文档抄袭检测方法,将文档以句子为单位切分,利用word2vec模型将句子中的词语表示为词向量的形式,作为卷积神经网络(convolutional neural net-work,CNN)的输入,使用卷积神经网络提取和筛选句子的特征,计算句子对之间的差异,输出句子对的相似度,相似度高的句子对视为抄袭.利用大型可公开的腾讯云文本相似数据集检测试学生作业的抄袭情况,结果表明,传统的移动窗口指纹特征提取法虽然能够较为准确地找出两个文档中相同的片段,但是对于语义相似的文本容易受到噪声影响,提出的基于语义相似计算方法能够发现文档中语义相似的部分. 展开更多
关键词 计算机科学 自然语言处理 抄袭检测 语义相似度 词向量表示
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部