摘要
该文介绍了一种基于字符串匹配的中文文本抄袭检测方法——k-grams算法,并指出了选取常用语句降低了其判别的准确性。提出了利用基于统计的中文分词技术实现对k-grams算法的改良。实验结果表明改良后的算法判断抄袭的准确性得到了提高。
该文介绍了一种基于字符串匹配的中文文本抄袭检测方法——k-grams算法,并指出了选取常用语句降低了其判别的准确性。提出了利用基于统计的中文分词技术实现对k-grams算法的改良。实验结果表明改良后的算法判断抄袭的准确性得到了提高。
出处
《杭州电子科技大学学报(自然科学版)》
2010年第5期117-120,共4页
Journal of Hangzhou Dianzi University:Natural Sciences
基金
浙江省科技计划重点资助项目(C31066)
浙江工商大学校级学生创新重点资助项目(1120XJ1709198)
关键词
抄袭检查
中文文本
中文分词
plagiarism checking
Chinese document
Chinese word segmentation