-
题名一种基于段落词频统计的论文抄袭判定算法
被引量:12
- 1
-
-
作者
赵俊杰
胡学钢
-
机构
合肥工业大学
安徽财经大学
-
出处
《计算机技术与发展》
2009年第4期231-233,238,共4页
-
基金
教育部社科研究基金青年项目(07JC870006)
安徽财经大学教研重点项目(ACJYZD200914)
-
文摘
解决论文抄袭的判定问题不但可以减轻审稿人员的工作负担,而且对于提高学术论文质量、净化学术领域、防止学术腐败都有很重要的意义。从抄袭的定义和法律规定出发,在分析比较国内外主要的论文抄袭判定方法基础上,提出存在的问题和改进策略,然后给出一种基于段落词频统计的论文抄袭判定算法。此算法不但可以检测出抄袭者成段抄袭的情况,而且可以检测出段落中语句顺序改变、段落内容压缩和扩充的情况,若疑似抄袭还可以将抄袭论文和被抄袭论文的相似内容输出,方便用户进一步审查。
-
关键词
抄袭判定
词频统计
段落相似度
中文分词
-
Keywords
plagiarism judgment
word- frequency statistics
similarity between paragraphs
Chinese text segment
-
分类号
TP301.6
[自动化与计算机技术—计算机系统结构]
-
-
题名基于段落相似度的论文抄袭判定
被引量:2
- 2
-
-
作者
赵俊杰
谢飞
-
机构
合肥工业大学
-
出处
《电脑与电信》
2008年第8期22-23,35,共3页
-
基金
2007年度国家教育部人文社科研究基金青年项目
研究方向:07JC870006
+1 种基金
安徽财经大学教研重点项目
研究方向:ACJYZD200914
-
文摘
从抄袭的定义和法律规定出发,在分析比较国内外主要的论文抄袭判定方法基础上,提出存在的问题和改进策略,最后给出一种基于段落相似度的论文抄袭判定算法。此算法可以检测出抄袭者将论文的段落顺序打乱或者将段落文字打乱重新组合的情况,并将确认抄袭和疑似抄袭的抄袭论文和原论文的相应内容输出,方便用户进一步审查。
-
关键词
抄袭判定
段落相似度
向量空间模型
TFIDF
-
Keywords
plagiarism judgrnent
similarity between paragraphs
vector space model
TFIDF
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
N533
[自然科学总论]
-
-
题名基于语言模型和特征分类的抄袭判定
被引量:2
- 3
-
-
作者
李惠
刘颖
-
机构
清华大学中国语言文学系
-
出处
《计算机工程》
CAS
CSCD
2013年第5期230-234,共5页
-
基金
国家自然科学基金资助项目"基于语用信息的交互行为与语言特征的建模研究"(61171114)
-
文摘
信息时代作者版权的保护问题已受到越来越多的关注。针对部分小说存在的文本大面积相似问题,提出基于语言模型和特征分类的方法。统计文本二元~六元的语言模型并且绘制拓扑图,通过计算重合概率和词性比来分析词语的重合程度和语法信息,在此基础上利用主成分分析和随机森林的方法,进行分类判别。机器学习的结果表明,该方法能够有效地鉴别小说是否存在抄袭现象。
-
关键词
抄袭判定
语言模型
语法信息
主成分分析
随机森林
分类
-
Keywords
plagiarism judgment
language model
grammatical information
Principal Component Analysis(PCA)
randomforest
classification
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-
-
题名初探科技期刊学术不端论文的判定
被引量:3
- 4
-
-
作者
魏秀菊
赵光磊
-
机构
农业部规划设计研究院
中国农业工程学会
<农业工程学报>编辑部
北京食品研究所
<食品科学>编辑部
-
出处
《中国科技资源导刊》
CSSCI
2010年第5期6-10,共5页
-
文摘
通过分析《农业工程学报》防范学术不端论文的实践及取得的成效,论述了学术期刊抵制不端论文的重要性和期刊的责任。鉴于目前我国相关政策及管理体制的缺失,建议政府及管理机构加强学术规范的基础性建设,促进学术团体组织制定行业或领域的学术规范,实现科技期刊出版业与学术界的互动。文章重点研究了论文的文本重复率与抄袭的关系,得出文本重复率是判定论文是否有抄袭问题的参考指标,而不能作为唯一依据。判定论文是否抄袭,应采取定量、定性相结合的方法,特别要关注研究对象、研究方法和研究结果等论文的主体部分内容是否重复,同时考虑不同学科领域、同一领域不同类型的论文的允许重复率的差别。
-
关键词
不端论文
防范
科技期刊出版
文献重复率
抄袭判定
-
Keywords
plagiarized submissions, sci-tech journal publishing, text repetition rate, judging plagiarism
-
分类号
G237.5
[文化科学]
-