文本相似性在抄袭问题中的应用研究被引量：2

The Application Research of TextSimilarity on Plagiarism

下载PDF

导出

摘要 Internet的高速增长同时带动了信息的高速增长,这些信息基本是以文本形式保存的。文本信息的特点是无结构,即便有也是极其有限的结构。文本相似性是文本挖掘研究的一个重点也是一个难点。从文本特征得到文本相似性信息是本文的主要研究方向。本文采用了PHP+MYSQL的开发环境对文本相似性的计算过程进行了模拟。计算过程采用的是余弦相似度和Jaccard相似度这两种基于向量内积的方法。在实验过程中通过对文本特征的操作来判断文本之间是否相似,另外还实现了将文本转化为简单的字符串集合进行比较来判断文本是否相似的方法。 Internet＇s rapid growth also driven the rapid growth of information, The information is saved as the text form basicly. Text characterized by unstructured, even if there is also a very limited structure. Text similarity is a key area of text mining also is a difficult area. Obtaining text similarity from the text features is the main research directions of this paper. In this paper,we use the PHP ＋ MYSQL development environment to simulate on text similarity calculation process. Calculation process using two methods based on vector inner product, the cosine similarity and the jaccard similarity. During the experiment ,we use the text features to find the difference from texts. On the other hand, we have sueeessed on changing the text into a collection of simple string to compare the different text.

作者丁智斌霍豫宗杜念

机构地区华北科技学院基础部广发银行股份有限公司

出处《华北科技学院学报》 2013年第1期91-95,共5页 Journal of North China Institute of Science and Technology

关键词文本挖掘文本相似性文本特征 web content mining web recommendation of classification text classification

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献7

1Ronen Feldman, James Sanger. The Text Mining Handbook [ M ]. 1st. Beijing: Posts & Telecom Press, 2009.
2Bing Liu. Web Mining [ M ]. 1st. Beijing: Tsing- hua,2009.
3苗夺谦,卫志华.中文文本信息处理的原理与应用[M].第1版.北京:清华大学出版社.2007.
4宋炜,张铭.语义网简明教程[M].第1版.北京:高等教育出版社,2004.
5费小栋,赵克,李亚涛,刘靖.名词聚类在自然语言处理系统中的应用[J].计算机工程与科学,2009,31(8):133-136. 被引量：1
6袁正午,李玉森,张雪英.基于属性的文本相似度计算算法改进[J].计算机工程,2009,35(17):4-6. 被引量：6
7董振东,董强.面向信息处理的词汇语义研究中的若干问题[J].语言文字应用,2001(3):27-32. 被引量：35

二级参考文献16

1董振东.语义关系的表达和知识系统的建造[J].语言文字应用,1998(3):79-85. 被引量：58
2陈小荷.一个面向工程的语义分析体系[J].语言文字应用,1998(2):73-78. 被引量：11
3张普.中文信息处理专题研究主持人的话[J].语言文字应用,2000(2):40-41. 被引量：5
4李广原,冯嘉礼.基于属性坐标的文本信息检索模型[J].广西科学院学报,2005,21(4):225-227. 被引量：1
5van Eijek J,Kamp H. Representing Discourse in Context[M] ffJohan B, Aliceeds Meds. Handbook of Logic and Language. MIT Press, 1997:178-237.
6Dean T, Allen J, Alomonos Y, et al. Artificial Intelligence: Theory and Practice [M]. Publishing House of Electronies Industry, 2002:489- 537.
7[美]Allen J.自然语言理解[M].第二版.刘群,张华平,骆卫华,等译.北京:电子工业出版社,2005.
8[美]Jurafsky D,Martin JH.自然语言处理综论[M].冯志伟,孙乐译.北京:电子工业出版社,2005.
9搜狗实验室文本分类语料库[Z].(2008-10-20).http://www.sogou.com/labs/dl/c.html.
10董振东.逻辑语义及其在机译中的应用[J].中国的机器翻译,1984,.

共引文献39

1王东波.基于规则的单层单标记联合结构自动识别[J].文教资料,2008(9):29-31. 被引量：6
2史彦军,滕弘飞,金博.抄袭论文识别研究与进展[J].大连理工大学学报,2005,45(1):50-57. 被引量：36
3李晋霞.面向计算机的“V_双+N_双”结构类型研究[J].语言文字应用,2002(4):69-76. 被引量：5
4于红.现代汉语义征研究述评[J].江海学刊,2005(3):220-224.
5叶鹰,陈潇肖,胡蒙蒙.新兴信息技术导向下的情报学发展走向[J].图书情报知识,2006,23(3):59-64. 被引量：2
6刘焘,贾君枝.中文信息处理中的语义关系表示探析[J].现代图书情报技术,2006(10):25-29. 被引量：4
7林宇丹.政府对“问题广告”要加强引导[J].中国广告,2006(12):118-119.
8吴洁,罗贝,曹存根,邵志清.网页文本中部分关系知识的获取与验证[J].华东理工大学学报（自然科学版）,2006,32(11):1310-1317.
9周莹.Web语义网中教学资源库自动分类系统[J].山东省农业管理干部学院学报,2007,23(2):170-171. 被引量：1
10周莹.基于Web语义的教学资源库编目研究[J].天津电大学报,2007,11(1):28-30.

同被引文献8

1王晓英,靳力,王晓青,黄维通.基于序列匹配的作业相似度检测系统[J].计算机工程,2012,38(24):53-56. 被引量：9
2张广庆,葛唯益,贺成龙.基于Simhash的海量相似文档快速搜索优化方法[J].指挥信息系统与技术,2015,6(2):61-65. 被引量：7
3陈春玲,陈琳,熊晶,余瀚.基于Simhash算法的重复数据删除技术的研究与改进[J].南京邮电大学学报（自然科学版）,2016,36(3):85-91. 被引量：15
4胡维华,鲍乾,李柯.结合汉明距离及语义的文本相似度量方法研究[J].杭州电子科技大学学报（自然科学版）,2016,36(3):36-41. 被引量：6
5郑义成,莫钦华,王海鸿.基于ElasticSearch的海量AIS数据存储方法[J].指挥信息系统与技术,2016,7(3):76-81. 被引量：15
6魏涛,孟方园,袁平,殷锋.开源搜索引擎Elasticsearch和Solr对比和分析[J].现代计算机,2018,24(4):58-61. 被引量：10
7姜雪,万正景,梁燕,陶以政.基于语义指纹的海量文本快速相似检测算法研究[J].电脑知识与技术,2016,12(12X):175-177. 被引量：3
8郝胜男,赵领杰.一种基于ElasticSearch的推荐系统架构[J].电脑知识与技术,2017,13(12X):230-232. 被引量：2

引证文献2

1李成龙,冯凯,麻哲.基于动态规划的文本查重算法实现[J].数字技术与应用,2013,31(8):115-115.
2晋晓琳,张树武,刘杰.基于分布式架构的海量文本快速相似度检测研究[J].中国传媒大学学报（自然科学版）,2019,26(1):39-44.

1孙慧.输入法为何受到搜索公司如此青睐?[J].通信世界,2007(15A):10-10.
2杨威,朱福喜.基于聚类融合的标题文本聚类方法[J].计算机工程与应用,2015,51(15):129-133. 被引量：2
3甄志龙,于非,王海鹃.有监督保局索引的文本表示方法[J].通化师范学院学报,2010,31(8):40-41.
4冯中慧,何亮,王栋.基于新的成员选择方法的聚类融合算法[J].微电子学与计算机,2016,33(11):25-29. 被引量：3
5程金宏,刘东升.程序代码相似度自动度量技术研究综述[J].内蒙古师范大学学报（自然科学汉文版）,2006,35(4):457-461. 被引量：13
6张瑞,王继奎,郭娟娟.基于本体的自适应网站研究[J].科技传播,2010,2(16):204-204.
7孙宇.一种基于Jaccard相似度的社团发现方法[J].电子技术与软件工程,2016(3):20-20. 被引量：4
8张建勋,吴建国.一种高效海量字符串集合的模式匹配算法[J].计算机工程与应用,2004,40(13):93-96.
9王洪亚,吴西送,任建军,赵银龙.分布式平台下MinHash算法研究与实现[J].智能计算机与应用,2014,4(6):44-46. 被引量：5
10吕夏.文本转化为语音的VC++编程方法[J].计算机应用,2001,21(7):87-88. 被引量：1

华北科技学院学报

2013年第1期

浏览历史

内容加载中请稍等...

文本相似性在抄袭问题中的应用研究被引量：2

参考文献7

二级参考文献16

共引文献39

同被引文献8

引证文献2

相关作者

相关机构

相关主题

浏览历史

文本相似性在抄袭问题中的应用研究 被引量：2

参考文献7

二级参考文献16

共引文献39

同被引文献8

引证文献2

相关作者

相关机构

相关主题

浏览历史

文本相似性在抄袭问题中的应用研究被引量：2