一种用于中文文本查重的双因子相似度算法被引量：5

A Double Criteria Similarity Algorithm for Duplication Check of Chinese Texts

下载PDF

导出

摘要为了提高搜索引擎的检索效率以及加强知识产权保护,结合汉语语言学以及自然语言处理的研究成果,提出了一种用于中文文本查重的算法。通过引入"动词中心词"的概念,扩展停用词的范围,将文本中的部分动词组成动词序列作为文本特征串,结合串匹配算法,计算出中文文本间语法相似性。同时根据IFIDF方法提取文本特征并进行权重计算,计算出中文文本间的语义相似性。结合文本间语法相似性和语义相似性得到文章的相似度,可以判断两篇中文内容的相似性,有效地进行重稿检测。 In order to improve the efficiency of search engine and protect intellectual property,this paper proposes a new duplication check algorithm for Chinese texts through integrating research result of Chinese linguistics with nature language processing.Through introducing the concept of ＂taking verbs as headwords＂,the paper first extends the scope of ＂stop words＂,so as to take verb sequences in a text as strings of feature code,which may,with string matching algorithms,be used to calculate the grammatical similarity between different Chinese texts.At the same time,through the extraction of the features of Chinese texts and weight calculation by TFIDF,the semantic similarity between different Chinese texts would be arrived at.With the grammatical similarity and semantic similarity values resulted from the above calculation,people can get the value of similarity and perform duplication text detection in a more effective way.

作者刘小军赵栋姚卫东

机构地区中国航天工程咨询中心

出处《计算机仿真》 CSCD 2007年第12期312-314,共3页 Computer Simulation

关键词语法相似性语义相似性重稿检测 Grammatical similarity Semantic similarity Duplication check

分类号 TP301.6 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献4

1鲍军鹏,沈钧毅,刘晓东,宋擒豹.自然语言文档复制检测研究综述[J].软件学报,2003,14(10):1753-1760. 被引量：69
2Ricardo Baeza-Yates,Berthier Ribeiro-Nero.现代信息检索[M]. 北京:机械工业出版社,2004.1—7.
3Mehmed Kantardzic.数据挖掘-概念、模型、方法和算法.闪四清,等译[M].北京;清华大学出版社,2003,104-106.
4P L rechelt,G Malpohl,M Philippsen.Finding plagiarism among a set of programs with Jplag[J].Journal of Universal Computer Science,2002,8(11),1016-1038.

二级参考文献2

1卢汉清,孔维新,廖明,马颂德.基于内容的视频信号与图像库检索中的图像技术[J].自动化学报,2001,27(1):56-59. 被引量：30
2宋擒豹,沈钧毅.数字商品非法复制和扩散的监测机制[J].计算机研究与发展,2001,38(1):121-125. 被引量：38

共引文献71

1卢小康,王小华,王荣波.一种句子级别的中文文本复制检测方法[J].杭州电子科技大学学报（自然科学版）,2009,29(6):45-48. 被引量：1
2王雯,廖祥忠.数字图像作品抄袭鉴定研究[J].大连理工大学学报,2011,51(S1):98-101.
3白广慧,连浩,刘悦,程学旗.网页查重技术在企业数据仓库中的应用[J].计算机应用,2005,25(7):1713-1715. 被引量：3
4金博,史彦军,滕弘飞.中文文档复制检测系统研究[J].计算机工程,2005,31(19):79-81. 被引量：9
5陈杰,孙忠贵,王玲.基于SOFM网络的快速信息检索[J].情报科学,2006,24(2):255-258.
6金博,史彦军,滕弘飞.基于篇章结构相似度的复制检测算法[J].大连理工大学学报,2007,47(1):125-130. 被引量：28
7连浩,刘悦,许洪波,程学旗.改进的基于布尔模型的网页查重算法[J].计算机应用研究,2007,24(2):36-39. 被引量：7
8邓爱萍,徐国梁,肖奔.基于串匹配方法的源代码复制检测技术研究[J].科学技术与工程,2007,7(10):2251-2254. 被引量：9
9耿崇,薛德军.中文文档复制检测方法研究[J].现代图书情报技术,2007(6):33-37. 被引量：4
10易彤,徐升华,万常选,吴方君.抄袭剽窃论文识别研究综述[J].情报学报,2007,26(4):567-573. 被引量：7

同被引文献22

1韦永壮,袁春风,黄宜华.CCDet:一种高效的大规模中文重复网页检测方法[J].计算机研究与发展,2013,50(S2):140-152. 被引量：4
2孙木楠,史志俊.基于粒子群优化算法的结构模型修改[J].振动工程学报,2004,17(3):350-353. 被引量：18
3金博,史彦军,滕弘飞.基于语义理解的文本相似度算法[J].大连理工大学学报,2005,45(2):291-297. 被引量：80
4连浩,刘悦,许洪波,程学旗.改进的基于布尔模型的网页查重算法[J].计算机应用研究,2007,24(2):36-39. 被引量：7
5陈君波,叶庆卫,周宇,曹小华.一种新的混合变异粒子群算法[J].计算机工程与应用,2007,43(7):59-61. 被引量：13
6黄昌宁,赵海.中文分词十年回顾[J].中文信息学报,2007,21(3):8-19. 被引量：250
7Natsuki H, Hitoshi I. Particle Swarm Optimization with Gassian Mutation[C]//Proc. of IEEE Swarm Intelligence Symposium. [S. l.]: IEEE Press. 2003: 72-79.
8Yi Da, Ge Xiurun. An Improved PSO-based ANN with Simulated Annealing Technique[J]. Neurocomputing, 2005, 63(11): 527-533.
9王涛,樊孝忠,林培光,陈康.基于复杂特征集的剽窃检测[J].北京理工大学学报,2008,28(2):129-133. 被引量：2
10徐其华.基于JSP+MYSQL在线考试系统的设计[J].中国科教创新导刊,2008(10):208-209. 被引量：5

引证文献5

1金希茜,孟志青.中文文本相似度在商业网络中的应用[J].商场现代化,2009(29):38-39.
2叶庆卫,武冬星,周宇,王晓东.基于粒子群优化的文档子内容查重算法[J].计算机工程,2011,37(20):203-205.
3杨威,张莹鑫,薛二虎.智能在线考试系统的设计与实现[J].长春师范大学学报,2017,36(4):26-30. 被引量：5
4金哲凡,俞定国,林生佑,周忠成.基于音位的网络盗版文本查重方法[J].山东农业大学学报（自然科学版）,2017,48(3):467-471.
5周黎.试分析在线考试系统的发展现状与研究[J].计算机产品与流通,2017,0(11):222-222. 被引量：1

二级引证文献6

1王景,刘四顺.基于信息化考试分析系统对提高教学质量的研究[J].智慧健康,2020(11):27-29.
2高姝睿.人工智能在教育领域的应用研究[J].软件导刊.教育技术,2018,17(1):6-8. 被引量：10
3彭顺生,赵莉,方丽.基于B/S模式的NCRE学习平台设计与实现[J].软件导刊.教育技术,2018,17(11):25-28. 被引量：2
4谭聪.基于COM技术的考试专用计算机智能判断系统设计[J].现代电子技术,2018,41(24):110-113.
5刘涛,蔡杰.基于C/S架构的装备故障数据管理系统设计[J].设备管理与维修,2021(9):131-134. 被引量：3
6韦昌法,曾亚妮.数理逻辑考试及自动阅卷系统设计与实现[J].现代信息科技,2021,5(10):141-143. 被引量：1

1蒋佳洲.基于SolrCloud的分布式相似性检测系统[J].海峡科技与产业,2016,29(10):79-83.
2杨凯峰,张毅坤,李燕.基于文档频率的特征选择方法[J].计算机工程,2010,36(17):33-35. 被引量：27
3张含.AOL再战中国的悬念[J].数字商业时代,2006(6):24-25.
4赵青.美国站制中文内容进军香港网络世界[J].北京电子,1998(9):61-61.
5李澎,谭雪清.RFID与条码，争与不争[J].自动识别技术与应用,2005(4):18-28.
6王志军.利用函数巧妙提取英文和中文内容[J].电脑知识与技术（经验技巧）,2015,0(1):45-45.
7李成龙,冯凯,麻哲.基于动态规划的文本查重算法实现[J].数字技术与应用,2013,31(8):115-115.
8科尔摩根：网站改版，丰富的中文内容上线[J].伺服控制,2011(5):12-12.
9李东亮.为IE做一下“个人卫生”[J].电脑采购,2002,0(7):27-28.
10钟福金.过滤级服务发现中不同本体间概念匹配算法[J].内江师范学院学报,2008,23(8):42-45.

计算机仿真

2007年第12期

浏览历史

内容加载中请稍等...

一种用于中文文本查重的双因子相似度算法被引量：5

参考文献4

二级参考文献2

共引文献71

同被引文献22

引证文献5

二级引证文献6

相关作者

相关机构

相关主题

浏览历史

一种用于中文文本查重的双因子相似度算法 被引量：5

参考文献4

二级参考文献2

共引文献71

同被引文献22

引证文献5

二级引证文献6

相关作者

相关机构

相关主题

浏览历史

一种用于中文文本查重的双因子相似度算法被引量：5