基于句子相似度的论文抄袭检测模型研究被引量：9

Study on model for plagiarism-detection of scientific papers based on sentence similarity

下载PDF

导出

摘要提出一种基于句子相似度的论文抄袭检测模型。利用局部词频指纹算法对大规模文档进行快速检测,找出疑似抄袭文档。根据最长有序公共子序列算法计算句子间的相似度,并标注抄袭细节,给出抄袭依据。在标准中文数据集SOGOU-T上进行的实验表明,该模型具有较强的局部信息挖掘能力,在一定程度上克服了现有的论文抄袭检测算法精度不高的缺点。 A new model for plagiarism-identification of scientific papers based on sentence similarity is presented.Large-scale texts are quickly detected with Local Word-Frequency Fingerprin（tLWFF） to find suspected plagiarism ones.Sentence similari-ty is computed according to the Longest Sorted Common Subsequence（LSCS） between source texts and destination texts.The algorithm can mark plagiarism details,and show evidence.The identification experiments on the SOGOU-T database are done with this model.The results show it has higher information mining capacity,and partly overcomes the shortage of low-er precision on existing plagiarism-identification of scientific papers.

作者冷强奎秦玉平王春立

机构地区渤海大学信息科学与工程学院大连海事大学信息科学技术学院

出处《计算机工程与应用》 CSCD 北大核心 2011年第24期199-201,共3页 Computer Engineering and Applications

基金国家自然科学基金(No.60603023) 辽宁省教育厅重点实验室项目(No.LS2010180)~~

关键词句子相似度抄袭检测局部词频最长有序公共子序列 sentence similarity plagiarism-detection local word-frequency Longest Sorted Common Subsequence（LSCS）

分类号 TP181 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献10

1史彦军,滕弘飞,金博.抄袭论文识别研究与进展[J].大连理工大学学报,2005,45(1):50-57. 被引量：36
2Zobel J,Moffat A.Exploring the similarity space[J].Sigir Forum, 1998,32( 1 ) : 8-34.
3Chodorow L M, Miller G A.Using corpus statistics and WordNet relations for sense identification[J].Computational Linguistics, 1998, 24( 1 ) : 147-165.
4李彬,刘挺,秦兵,李生.基于语义依存的汉语句子相似度计算[J].计算机应用研究,2003,20(12):15-17. 被引量：127
5Li Yujian, Liu Bo.A normalized Levenshtein distance metric[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2007,29(6) : 1091-1095.
6金博,史彦军,滕弘飞.基于篇章结构相似度的复制检测算法[J].大连理工大学学报,2007,47(1):125-130. 被引量：28
7Hirschberg D S.Algorithms for the longest common subsequence problem[J].Journal of the ACM, 1977,24( 1 ) :664-675.
8林贤明,李堂秋,陈毅东.句子相似度的动态规划求解及改进[J].计算机工程与应用,2004,40(35):64-65. 被引量：6
9Zhang H P,Yu H K,Xiong D Y,et al.HHMM-based Chinese lexical analyzer ICTCLAS[C]//Annual Meeting of the ACL, 2003, 17:184-187.
10秦玉平,李祥纳,王秀坤,王春立.基于超球支持向量机的类增量学习算法研究[J].计算机科学,2008,35(8):116-118. 被引量：8

二级参考文献64

1刘海涛.依存语法和机器翻译[J].语言文字应用,1997(3):91-95. 被引量：43
2董振东,董强.面向信息处理的词汇语义研究中的若干问题[J].语言文字应用,2001(3):27-32. 被引量：36
3郭艳华,周昌乐.一种汉语语句依存关系网协动生成方法研究[J].杭州电子工业学院学报,2000,20(4):24-32. 被引量：11
4史彦军,滕弘飞,金博.抄袭论文识别研究与进展[J].大连理工大学学报,2005,45(1):50-57. 被引量：36
5唐发明,王仲东,陈绵云.支持向量机多类分类算法研究[J].控制与决策,2005,20(7):746-749. 被引量：90
6孔锐,张冰.一种快速支持向量机增量学习算法[J].控制与决策,2005,20(10):1129-1132. 被引量：31
7张曦煌,须文波.基于增量学习的超球支持向量机设计[J].计算机工程与应用,2006,42(13):66-68. 被引量：2
8张翔,肖小玲,徐光祐.基于样本之间紧密度的模糊支持向量机方法[J].软件学报,2006,17(5):951-958. 被引量：84
9朱美琳,杨佩.基于支持向量机的多分类增量学习算法[J].计算机工程,2006,32(17):77-79. 被引量：11
10张永,迟忠先,闫德勤.一种新的模糊补偿多类支持向量机[J].计算机科学,2006,33(12):152-155. 被引量：7

共引文献186

1贾善崇,周兰江,张建安,周枫.融入多特征的汉-老双语对齐方法[J].中国水运（下半月）,2020,20(3):78-80. 被引量：2
2张嵩,杨晓明,田露.基于语义相似度计算的航天标准关联度评价[J].南京航空航天大学学报,2021,53(S01):153-156. 被引量：3
3余正涛,邓锦辉,韩露,毛存礼,郑志蕴,郭剑毅.受限域FAQ中文问答系统研究[J].计算机研究与发展,2007,44(z2):388-393. 被引量：6
4赵蔚.已发论文检测分析报告的权重系数设定[J].浙江海洋学院学报（人文科学版）,2012,29(2):100-103. 被引量：1
5耿艳辉,王立新,朱晓华.期刊同行评议研究综述[J].编辑之友,2015(5):48-52. 被引量：13
6秦兵,刘挺,李生.基于局部主题判定与抽取的多文档文摘技术[J].自动化学报,2004,30(6):905-910. 被引量：10
7马治国,李晓鸣.学术论文剽窃的认定及法律责任[J].西安交通大学学报（社会科学版）,2005,25(4):68-73. 被引量：11
8龚如义.学术论文署名失范、违规、侵权的分析及应对[J].四川教育学院学报,2006,22(1):27-29. 被引量：21
9于凤,郑德权,赵铁军,李生.基于上下文多元信息的文档相似度计算研究[J].哈尔滨工程大学学报,2006,27(B07):397-402. 被引量：2
10陈旺,金博,滕弘飞,史彦军,张艳.面向高校师生的应用文CAW系统研究[J].计算机工程与应用,2006,42(26):204-207. 被引量：2

同被引文献83

1韦永壮,袁春风,黄宜华.CCDet:一种高效的大规模中文重复网页检测方法[J].计算机研究与发展,2013,50(S2):140-152. 被引量：4
2林贤明,李堂秋,陈毅东.句子相似度的动态规划求解及改进[J].计算机工程与应用,2004,40(35):64-65. 被引量：6
3史彦军,滕弘飞,金博.抄袭论文识别研究与进展[J].大连理工大学学报,2005,45(1):50-57. 被引量：36
4费洪晓,康松林,朱小娟,谢文彪.基于词频统计的中文分词的研究[J].计算机工程与应用,2005,41(7):67-68. 被引量：68
5金博,史彦军,滕弘飞.基于语义理解的文本相似度算法[J].大连理工大学学报,2005,45(2):291-297. 被引量：80
6刘维,陈崚.最长公共子序列的快速算法及其并行实现[J].计算机应用,2006,26(6):1422-1424. 被引量：6
7程金宏,刘东升.程序代码相似度自动度量技术研究综述[J].内蒙古师范大学学报（自然科学汉文版）,2006,35(4):457-461. 被引量：13
8杨思春.一种改进的句子相似度计算模型[J].电子科技大学学报,2006,35(6):956-959. 被引量：34
9金博,史彦军,滕弘飞.基于篇章结构相似度的复制检测算法[J].大连理工大学学报,2007,47(1):125-130. 被引量：28
10金振蓉.学术不端文献检测系统研制成功[N].光明日报,2009-03-17(6).

引证文献9

1王晓英,靳力,王晓青,黄维通.基于序列匹配的作业相似度检测系统[J].计算机工程,2012,38(24):53-56. 被引量：9
2周群芳.相似专利检测研究[J].现代图书情报技术,2012(11):60-64. 被引量：3
3房德安.计算机程序抄袭检测系统的设计方案分析[J].黑龙江科技信息,2013(6):94-94. 被引量：3
4周小平,王佳,马晓轩.基于VSM的电子作业反抄袭系统的设计与实现[J].实验技术与管理,2013,30(3):109-111. 被引量：2
5王永新,王秋芬,梁道雷.一种高效LCS算法[J].南阳理工学院学报,2013,5(6):61-64. 被引量：5
6郭冬梅.基于状态压缩的最长公共上升子序列快速算法[J].计算机技术与发展,2014,24(5):40-43. 被引量：2
7许鑫,谷俊,袁丰平,周群芳.面向专利本体的语义检索分析系统的设计与实现[J].图书情报工作,2014,58(9):96-104. 被引量：7
8金标,赵萌萌,吴国华.一种用于文本抄袭检测的特征提取算法[J].计算机应用研究,2018,35(9):2781-2784. 被引量：4
9王宇,夏丽丽,何颖刚.基于SSM框架的高校毕业论文管理系统的设计与实现[J].电子技术与软件工程,2021(22):26-29. 被引量：3

二级引证文献38

1李成龙,冯凯,麻哲.基于动态规划的文本查重算法实现[J].数字技术与应用,2013,31(8):115-115.
2陈颖,李芳,吴英杰.面向技术解决方案的专利分析方法及其应用效果[J].中华医学图书情报杂志,2014,23(4):18-23. 被引量：1
3张星,刘帅.基于空间向量的电子作业相似度检测的设计与实现[J].福建电脑,2014,30(2):125-126. 被引量：1
4张淑娟.计算机程序抄袭检测系统的设计方案研究[J].吉林广播电视大学学报,2014(4):75-76. 被引量：3
5张洁,鱼先锋.基于直觉模糊聚类的电子作业抄袭检测研究[J].计算机与现代化,2014(6):106-110. 被引量：1
6白伟,田娟,李凤英.基于无线的电子作业本系统设计[J].价值工程,2014,33(22):217-218.
7刘晓静,王晓英.基于项目导向的数据结构与算法课程教学研究与实践[J].微型电脑应用,2014,30(9):48-50. 被引量：10
8陈逸夫,刘吉强.移动应用特征提取算法研究[J].信息网络安全,2014(10):18-23.
9刘晓静,王晓英,张玉安,黄建强,刘志强.以创新人才培养为目标的数据结构实验教学改革[J].实验技术与管理,2014,31(11):184-187. 被引量：41
10陈逸夫,刘吉强.移动应用特征提取算法研究[J].信息网络安全,2015(1):45-50. 被引量：1

1秦玉平,冷强奎,王秀坤,王春立.基于局部词频指纹的论文抄袭检测算法[J].计算机工程,2011,37(6):193-194. 被引量：10
2王晓英,靳力,王晓青,黄维通.基于序列匹配的作业相似度检测系统[J].计算机工程,2012,38(24):53-56. 被引量：9
3声音[J].中国远程教育,2009(14):9-9.
4薛云,傅俊橦,李杰进,王杜齐,邝秋华,张美珍,肖化.基于公共子序列的OPSM双聚类算法[J].华南师范大学学报（自然科学版）,2015,47(4):165-171. 被引量：1
5贾红健.代码对比与动态规划[J].电脑编程技巧与维护,2017(3):28-28.
6魏大庆,欧阳俊林.基于数据挖掘的网络入侵检测模型研究[J].四川理工学院学报（自然科学版）,2006,19(5):59-61. 被引量：3
7万巍,李俊.一种基于状态划分的僵尸网络检测模型研究[J].科研信息化技术与应用,2012,3(2):19-24. 被引量：1
8黄永晨.基于粗糙集和偏最小二乘法的网络入侵检测模型研究[J].数字化用户,2013(5):72-72.
9董航,李祺,董枫,彭勇,徐国爱.Android运行时恶意行为检测模型研究[J].北京邮电大学学报,2014,37(3):58-61. 被引量：6
10牛夏牧,丁江华,黄文军.基于免疫原理的网络入侵检测模型研究[J].微计算机信息,2009(9):53-55. 被引量：2

计算机工程与应用

2011年第24期

浏览历史

内容加载中请稍等...

基于句子相似度的论文抄袭检测模型研究被引量：9

参考文献10

二级参考文献64

共引文献186

同被引文献83

引证文献9

二级引证文献38

相关作者

相关机构

相关主题

浏览历史

基于句子相似度的论文抄袭检测模型研究 被引量：9

参考文献10

二级参考文献64

共引文献186

同被引文献83

引证文献9

二级引证文献38

相关作者

相关机构

相关主题

浏览历史

基于句子相似度的论文抄袭检测模型研究被引量：9