基于数字指纹的文献相似度检测研究被引量：7

Literature Similarity Detection Based on Digital Fingerprint

导出

摘要针对中文文献抄袭检测提出了一种基于汉语词频的文本数字指纹,通过对具有参考性的语料库进行词频和字频统计形成一个hash词表,然后基于最大熵原理为任意长度的文本生成一个基于词频特征的文本数字指纹,对于任意两篇文献可以通过计算对应的两个数字指纹的Hamming距离来得到一个相似度的估计。通过使用维基百科zhwiki-20121129-all-titles语料库构建hash词表,对情报学领域4种核心期刊进行实验,结果表明这种数字指纹对常见的抄袭情况都能很好地识别和检测,具有很强的鲁棒性。 As a copyright protection technique, digital fingerprint has been a hot research area. This paper proposed a digital fingerprinting algorithm for text based on Chinese words frequency. A frequency list is built through statistics on word frequency and character frequency in a document repository. With this frequency list a digital fingerprint for text of any length can be generated based on the principle for maximum entropy. To get an estimation of the similarity for two texts a Hamming distance can be calculated for the two corresponding digital fingerprint. We build a hash table based on zhwiki-20121129-all-titles corpus and with this table experiment on four core journals. The result shows that normal ways of plagiarism can be detected by this robust fingerprinting algorithm.

作者白如江王晓笛王效岳

机构地区山东理工大学科技信息研究所

出处《图书情报工作》 CSSCI 北大核心 2013年第15期88-95,共8页 Library and Information Service

基金国家社会科学基金项目"学术文献‘意抄’检测研究"(项目编号:12CTQ032) 山东省自然科学基金项目"大规模学术文献并行处理与语义分类研究"(项目编号:ZR2011GL025)研究成果之一

关键词数字指纹抄袭检验最大熵原理 digital fingerprint plagiarism detection principle of maximum entropy

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献27

1Salton G. Cluster search strategies and the optimization of retrieval effectiveness [ M ]//The SMART Retrieval System. Englewood Cliffs : Prentice Hall, 1971:223 - 242.
2Shivakumar N, Garcia-Molina H. SCAM: A copy detection mechanism for digital documents[ C]. 2nd International Conference in Theory and Practice of Digital Libraries. 1995.
3Deerwester S, Dumais S T, Furnas G W, et al. Indexing by latent semantic analysis [ J ]. Journal of the AmerifcanSociety for Information Science, 1990, 41 (6) : 391 -407.
4Finkel R A, Zaslavsky A, Monostori K A N, et al. Signature extraction for overlap detection in documents [ J ]. Australian Computer Science Communications, 2002, 24( 1 ) : 59 -64.
5刁力力,王丽坤,陆玉昌,石纯一.计算文本相似度阈值的方法[J].清华大学学报（自然科学版）,2003,43(1):108-111. 被引量：18
6金博,史彦军,滕弘飞.基于语义理解的文本相似度算法[J].大连理工大学学报,2005,45(2):291-297. 被引量：79
7郭武斌,周宽久,苏振魁.基于词序方法的文本相似度计算模型[J].情报学报,2008,27(6):857-862. 被引量：7
8吴江宁,刘巧凤.基于最大公共子图的文本相似度算法研究[J].情报学报,2010,29(5):785-791. 被引量：8
9黄承慧,印鉴,侯昉.一种结合词项语义信息和TF-IDF方法的文本相似度量方法[J].计算机学报,2011,34(5):856-864. 被引量：212
10王晋,孙涌,王璁玮.基于领域本体的文本相似度算法[J].苏州大学学报（工科版）,2011,31(3):13-17. 被引量：7

二级参考文献144

1叶菲,罗景青,俞志富.一种改进的并行处理SVM学习算法[J].微电子学与计算机,2009,26(2):40-43. 被引量：6
2晋耀红.基于语境框架的文本相似度计算[J].计算机工程与应用,2004,40(16):36-39. 被引量：26
3周昭涛,卜东波,程学旗.文本的图表示初探[J].中文信息学报,2005,19(2):36-43. 被引量：17
4程玉柱,孙星明,黄华军.一种新的基于混沌映射的文本零水印算法[J].计算机应用,2005,25(12):2753-2754. 被引量：15
5吴胜远.一种汉语分词方法[J].计算机研究与发展,1996,33(4):306-311. 被引量：49
6于凤,郑德权,赵铁军,李生.基于上下文多元信息的文档相似度计算研究[J].哈尔滨工程大学学报,2006,27(B07):397-402. 被引量：2
7姜韶华,党延忠,宣照国.无词典抽词的RMMFS和BMMFS方法及其比较研究[J].情报学报,2006,25(4):499-503. 被引量：5
8苏金树,张博锋,徐昕.基于机器学习的文本分类技术研究进展[J].软件学报,2006,17(9):1848-1859. 被引量：378
9Levenshtein V I. Binary codes capable of correcting spurious insertions and deletions of ones (orginal in Russian) [ C ]. Russian Problemy Peredachi informatsii, 1965,12-25.
10Yianilos P. The Like It intelligent string comparison facility [ R]. NEC Institute Tech Report 97-093, 1997.

共引文献673

1杨一,邹昀瑾.以机器学习应对信息“爆炸”时代:公共管理研究的降维可视化探析[J].中国行政管理,2021(1):105-113. 被引量：11
2杨捷,范美位,罗成臣,张思路.面向电力工单文本的服务失误识别[J].云南大学学报（自然科学版）,2020,42(S02):32-37. 被引量：1
3周绶泉,咸雯雯,石慧.基于多特征和混沌加密的零水印算法[J].计算机系统应用,2022,31(12):147-158.
4贺金龙,付立军,姚郑,吕鹏飞,黄徐胜.基于网格LSTM混合算法的地质领域用户意图识别[J].计算机系统应用,2020(10):44-52. 被引量：1
5赵增涛,张豪,余益龙.应用于电网资产模型搜索的交叉权积文本相似度计算方法[J].水利水电技术（中英文）,2020,51(S02):209-214.
6孙红,黎铨祺,赵娜.基于双层树状支持向量机的观点挖掘与倾向分析[J].智能计算机与应用,2021,11(3):44-47. 被引量：3
7王帅,张黎明,李玉,秦如贞,张启航.运用奇异值分解的矢量地理数据零水印算法[J].测绘科学,2022,47(11):196-203. 被引量：2
8景旻,任娜,朱长青,周子宸.一种基于距离分区的BIM模型零水印算法[J].北京邮电大学学报,2019,42(5):100-106. 被引量：2
9王鹏,郑贵省,郭强,贾蓓.基于网络爬虫的民用运力数据获取[J].军事交通学院学报,2020,22(1):87-90. 被引量：1
10戴祖旭,洪帆.基于词性标记文法的文本信息隐藏算法[J].四川大学学报（工程科学版）,2007,39(S1):97-101. 被引量：2

同被引文献69

1刘云峰,齐欢,Xiang’en Hu,Zhiqiang Cai.潜在语义分析权重计算的改进[J].中文信息学报,2005,19(6):64-69. 被引量：19
2秦新国.基于句子相似度的文档复制检测算法研究[J].现代图书情报技术,2007(11):63-66. 被引量：9
3Apache spark [ EB/OL ]. [ 2015 - 03 - 18]. http://spark, a-pache. org.
4Si A, Leong H V,Lau R W H. Check: A document plagiarism de-tection system [ C ] //Proceedings of the 1997 ACM Symposium onApplied Computing. New York: ACM, 1997 : 70 -77.
5Schleimer S, Wilkerson D S,Aiken A. Winnowing: Local algo-rithms for document fingerprinting [ C ] //Proceedings of the 2003ACM SIGMOD International Conference on Management of Data.New York:ACM, 2003: 76 -85.
6Roul R K,Mittal S,Joshi P. Efficient approach for near duplicatedocument detection using textual and conceptual based techniques[M ] // Advanced Computing, Networking and Informatics -Volume1. Springer International Publishing, 2014 : 195 -203.
7Luo Xi, Najjar W, Hristidis V. Efficient near-duplicate documentdetection using FPGAs [ C ]//Big Data, 2013 IEEE InternationalConference on. Silicon Valley : IEEE, 2013 : 54-61.
8Monostori K, Zaslavsky A, Schmidt H. Parallel and distributeddocument overlap detection on the Web [ M ] //Applied ParallelComputing. New Paradigms for HPC in Industry and Academia.London:Springer-Verlag London, 2001 : 206 -214.
9Apache Hadoop. Hadoop [ EB/OL]. [2015 -03 - 18]. http://hadoop. apache, org.
10ApacheStorm. Storm[ EB/OL]. [2015 - 03 - 18 ]. http://storm.apache, org.

引证文献7

1刘文龙,李晖,金东勋.数字指纹生成方案及关键算法研究[J].信息网络安全,2015(2):66-70. 被引量：7
2卓可秋,童国平,虞为.一种基于Spark的论文相似性快速检测方法[J].图书情报工作,2015,59(11):134-142. 被引量：2
3张艳飞,王菁,韩燕波.基于数字指纹的智能终端缓存一致性技术的研究[J].小型微型计算机系统,2017,38(1):40-43. 被引量：4
4江霞.我国学术期刊识别伪作者的方法[J].传播与版权,2017(1):42-44.
5崔彤彤,崔荣一.基于潜在语义分析的文本指纹提取方法[J].中文信息学报,2018,32(5):74-79. 被引量：7
6亚森·艾则孜,艾山·吾买尔,阿力木江·艾沙.基于分级匹配的维吾尔语文档相似性计算及剽窃检测方法[J].计算机应用研究,2019,36(6):1731-1736.
7江霞.广东省医药卫生期刊论文责任编辑信息公开状况研究[J].科技传播,2016,8(13):41-42. 被引量：2

二级引证文献21

1陈晓,赵晶玲.大数据处理中混合型聚类算法的研究与实现[J].信息网络安全,2015(4):45-49. 被引量：30
2张艳飞,王菁,韩燕波.基于数字指纹的智能终端缓存一致性技术的研究[J].小型微型计算机系统,2017,38(1):40-43. 被引量：4
3孙学宏,冯紫芬,宋立志.基于脉搏生理特征的无线体域网密钥分发技术[J].计算机应用研究,2017,34(3):883-887. 被引量：3
4江霞.我国学术期刊识别伪作者的方法[J].传播与版权,2017(1):42-44.
5江霞.从信息意识与职业实践的契合点中寻找论文选题--撰写编辑学论文的体会[J].编辑学报,2017,29(3):296-298. 被引量：7
6宋利民,宋晓锐.一种基于混合加密的数据安全传输方案的设计与实现[J].信息网络安全,2017(12):6-10. 被引量：15
7黄思颖,蔡桂兰,徐凯,江和松,邱舟强,陈平华.基于SolrCloud的分布式科技项目查重系统[J].科技管理研究,2018,38(7):236-242. 被引量：4
8向永谦,宋智琪,王天宇.一种基于双明文的数据对称加密算法[J].信息网络安全,2018,0(7):69-78. 被引量：7
9孙煜华.企业信息系统高质量元数据管理[J].计算机与数字工程,2019,47(3):593-597. 被引量：2
10许冠军.基于激光图像分析的残缺指纹提取技术[J].激光杂志,2019,40(4):78-82. 被引量：1

1刘娇,崔荣一,赵亚慧,张振国.跨语言文献相似度的分析方法[J].延边大学学报（自然科学版）,2016,42(2):151-155. 被引量：2
2唐海周,冯江华,胡志坤.一种基于区域综合特征的车牌定位方法[J].微计算机信息,2010,26(22):181-183. 被引量：1
3李蓉蓉,李鸣.计算机信息处理的字表建立和字频统计[J].南方冶金学院学报,2005,26(1):29-31. 被引量：2
4陈丹.Dreamweaver中的表格制作[J].辽宁工程技术大学学报（自然科学版）,2004,23(z1):94-95.
5李向阳,苗壮.自由文本信息抽取技术[J].情报科学,2004,22(7):815-821. 被引量：23
6姜贤塔,陈根才.利用字频统计及机器学习的自动文摘方法[J].杭州大学学报（自然科学版）,1997,24(3):220-225. 被引量：5
7熊国萍,唐敏.智能型文本过滤的创新模式与系统设计[J].电脑知识与技术,2010,6(4X):3277-3278.
8唐坚刚,熊国萍.自适应不良网页过滤模式的研究与实践[J].计算机工程与设计,2008,29(20):5324-5326. 被引量：1
9张树波,赖剑煌.车牌定位和分割的一种综合方法[J].中山大学学报（自然科学版）,2004,43(2):126-128. 被引量：12
10黄一龙,李培峰,朱巧明.中文事件相关性语料库构建及识别方法[J].计算机工程与科学,2015,37(12):2306-2311. 被引量：4

图书情报工作

2013年第15期

浏览历史

内容加载中请稍等...

基于数字指纹的文献相似度检测研究被引量：7

参考文献27

二级参考文献144

共引文献673

同被引文献69

引证文献7

二级引证文献21

相关作者

相关机构

相关主题

浏览历史

基于数字指纹的文献相似度检测研究 被引量：7

参考文献27

二级参考文献144

共引文献673

同被引文献69

引证文献7

二级引证文献21

相关作者

相关机构

相关主题

浏览历史

基于数字指纹的文献相似度检测研究被引量：7