一种基于随机n-Grams的文本相似度计算方法被引量：8

A Novel Approach for Text Similarity Computing Based on Random n-Grams

下载PDF

导出

摘要文本相似度计算广泛应用于抄袭检测、自动问答系统、文本聚类等文本应用领域，然而传统的方法往往不具有语言无关性，且要花费大量的时间分析提取文档的特征项。针对目前相关方法的诸多不足，提出了一种基于随机n—Grams（Randomn—Gram，记为R-Gram）的长文本相似度算法，该算法具备语言无关性，且可以充分利用短n—Gram的细粒度检测特性和长n—Gram的高效检测特性。实验结果表明：基于R—Gram的文本相似度算法具有快速、操作简单、精度调控灵活等优点，在长文本相似度计算中具有良好的应用价值。 Text similarity computing is widely used in many text applications such as plagiarism detection, automatic question answering system and text clustering. However, most traditional methods for computing text similarity are dependent on a special language and spend much time on analyzing and extracting of feature items. In view of the shortages of traditional methods, a novel algorithm based on Random n-Grams （R-Gram） with language independence for long text is proposed, which can make full use of fine-grained characteristics of short n-Grams and high efficiency characteristics of long n-Grams. The results strongly suggest that text similarity algorithm based on R-Gram have the advantages of fast speed, easy operation and flexibility. As a bonus, it is beneficial for text similarity computing for lung texts.

作者王贤明胡智文谷琼

机构地区温州大学瓯江学院湖北文理学院数学与计算机科学学院

出处《情报学报》 CSSCI 北大核心 2013年第7期716-723,共8页 Journal of the China Society for Scientific and Technical Information

基金国家自然科学基金项目(61172084) 浙江省自然科学基金项目(Y1100137) 乐清市科技项目(2011R003)

关键词文本相似度评价函数集合 N-GRAM R-Gram text similarity, evaluation function, set, n-Gram, R-Gram

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献23

1Antonio Si,Hong Va Leong,Rynson W. H. Lau. CHECK:A Document Plagiarism Detection System [ C]. //Proceedings of ACM Symposium for Applied Computing,1997.
2韩冰,林鸿飞.基于语义结构的科技论文抄袭检测[J].情报学报,2010,29(3):517-523. 被引量：2
3Jankowitz H T. Detecting plagiarism in student pascalprograms[ J]. The Computer Journal,1988 ,31(1) :1-8.
4Gitchell D, Tran N. A utility for detecting similarity incomputer programs [ C]. // Proceedings of 30th SCGCSETechnical Symposium,New Orleans, USA. 1998.
5鲍军鹏,沈钧毅,刘晓东,宋擒豹.自然语言文档复制检测研究综述[J].软件学报,2003,14(10):1753-1760. 被引量：69
6曹玉娟,牛振东,赵堃,彭学平.基于概念和语义网络的近似网页检测算法[J].软件学报,2011,22(8):1816-1826. 被引量：15
7宋玲,马军,连莉,张志军.文档相似度综合计算研究[J].计算机工程与应用,2006,42(30):160-163. 被引量：40
8Wan X. Beyond topical similarity : a structural similaritymeasure for retrieving highly similar documents [ J].Knowledge and Information Systems, 2006, 15 ( 1 ):55-73.
9李彬,刘挺,秦兵,李生.基于语义依存的汉语句子相似度计算[J].计算机应用研究,2003,20(12):15-17. 被引量：126
10杨思春.一种改进的句子相似度计算模型[J].电子科技大学学报,2006,35(6):956-959. 被引量：34

二级参考文献67

1刘海涛.依存语法和机器翻译[J].语言文字应用,1997(3):91-95. 被引量：43
2郭艳华,周昌乐.一种汉语语句依存关系网协动生成方法研究[J].杭州电子工业学院学报,2000,20(4):24-32. 被引量：11
3张璠.多种策略改进朴素贝叶斯分类器[J].微机发展,2005,15(4):35-36. 被引量：11
4衣英楠,马军.数字文档管理系统的设计与实现[J].山东大学学报（理学版）,2005,40(2):62-66. 被引量：1
5刘静,尹存燕,陈家骏.一种规则和贝叶斯方法相结合的文本自动分类策略[J].计算机应用研究,2005,22(7):84-86. 被引量：7
6黄友平,史忠植.基于信息几何构建朴素贝叶斯分类器[J].通讯和计算机（中英文版）,2005,2(2):1-6. 被引量：1
7车万翔等.面向依存文法分析的搭配抽取方法研究[A]..全国第六届计算语言学联合学术会议[C].,2001..
8穗志方俞士汶.基于骨架依存树的语句相似度计算模型[A]..中文信息处理国际会议(ICCIP''98)[C].,1998..
9[1]T.W. Yan and H. Garcia- Molina. Duplicate removal in information dissemination. In Proceedings of the 21st International Conference on Very Large Data Bases(VLDB' 95) ,66 - 77,San Francisco,Ca., USA,September 1995. Morgan Kaufmann Publishers, Inc.
10[2]Narayanan Shivakumar and Hector Garcia- Molina. SCAM: a copy detection mechanism for digital documents. In Proceedings of 2nd International Conference in Theory and Practice of Digital Libraries (DL'95) ,Austin, Texas,June 1995.

共引文献319

1贾善崇,周兰江,张建安,周枫.融入多特征的汉-老双语对齐方法[J].中国水运（下半月）,2020,20(3):78-80. 被引量：2
2张嵩,杨晓明,田露.基于语义相似度计算的航天标准关联度评价[J].南京航空航天大学学报,2021,53(S01):153-156. 被引量：3
3李茂胜,王天一.基于多特征融合的羊养殖问句相似度评价方法[J].智能计算机与应用,2021,11(12):22-27.
4谢蕙,秦杰.基于元搜索的网页消重方法研究[J].计算机系统应用,2008,17(8):94-96. 被引量：5
5姚新波,马治坤.基于特征串的网页去重算法[J].科技信息,2008(28). 被引量：3
6曹传东,郭理.一种基于文本抽取的网页正文去重算法[J].科技信息,2009(1):102-103. 被引量：1
7余正涛,邓锦辉,韩露,毛存礼,郑志蕴,郭剑毅.受限域FAQ中文问答系统研究[J].计算机研究与发展,2007,44(z2):388-393. 被引量：6
8卢小康,王小华,王荣波.一种句子级别的中文文本复制检测方法[J].杭州电子科技大学学报（自然科学版）,2009,29(6):45-48. 被引量：1
9王雯,廖祥忠.数字图像作品抄袭鉴定研究[J].大连理工大学学报,2011,51(S1):98-101.
10谢瑶兵.基于特征串的网页文本并行去重算法[J].微电子学与计算机,2015,32(2):69-72. 被引量：2

同被引文献159

1刘云菁,张紫怡,张敏.财务与会计领域的文本分析研究:回顾与展望[J].会计与经济研究,2021(1):3-22. 被引量：11
2宋建波,冯晓晴.关键审计事项信息含量与公司债券发行定价——基于文本相似度视角[J].会计研究,2022(3):174-191. 被引量：19
3林建浩,陈良源,罗子豪,张一帆.央行沟通有助于改善宏观经济预测吗?——基于文本数据的高维稀疏建模[J].经济研究,2021,56(3):48-64. 被引量：24
4张启蕊,张凌,董守斌,谭景华.训练集类别分布对文本分类的影响[J].清华大学学报（自然科学版）,2005,45(S1):1802-1805. 被引量：26
5张磊,周明,黄昌宁,潘海华.中文文本自动校对[J].语言文字应用,2001(1):19-26. 被引量：23
6黄发良,钟智.用于分类的支持向量机[J].广西师范学院学报（自然科学版）,2004,21(3):75-78. 被引量：14
7陈笑蓉,秦进,汪维家,陆汝占.中文文本校对技术的研究与实现[J].计算机科学,2003,30(11):53-55. 被引量：6
8孙微微,刘才兴,田绪红.训练集容量对决策树分类错误率的影响研究[J].计算机工程与应用,2005,41(10):159-161. 被引量：6
9张宁,贾自艳,史忠植.使用KNN算法的文本分类[J].计算机工程,2005,31(8):171-172. 被引量：96
10张仰森,曹元大,俞士汶.基于规则与统计相结合的中文文本自动查错模型与算法[J].中文信息学报,2006,20(4):1-7. 被引量：33

引证文献8

1牛华勇,窦一轩,夏晓雪.国内外财经文本分析研究综述[J].语料库语言学,2022,9(2):81-95.
2施恒利,刘亮亮,王石,符建辉,张再跃,曹存根.汉字种子混淆集的构建方法研究[J].计算机科学,2014,41(8):229-232. 被引量：7
3李湘东,巴志超,黄莉.基于语料信息度量的文本分类性能影响研究[J].情报杂志,2014,33(9):157-162. 被引量：5
4王贤明,谷琼,胡智文.基于R-Grams的文本聚类方法[J].计算机应用,2015,35(11):3130-3134. 被引量：1
5葛文镇,刘柏嵩,王洋洋,赵福青.基于层级类别信息的标题自动分类研究[J].计算机应用研究,2016,33(7):2030-2033. 被引量：6
6俞婷婷,徐彭娜,江育娥,林劼.基于改进的Jaccard系数文档相似度计算方法[J].计算机系统应用,2017,26(12):137-142. 被引量：25
7和志强,王梦雪,马宁,陈萌.短文本聚类方法研究综述[J].河北省科学院学报,2021,38(5):34-40. 被引量：3
8王贤明,潘佳玲,胡智文.AR-Grams:一种应用于网络舆情热点发现的文本聚类方法[J].中国传媒大学学报（自然科学版）,2021,28(5):59-65. 被引量：2

二级引证文献49

1王寒茹,张仰森.文本相似度计算研究进展综述[J].北京信息科技大学学报（自然科学版）,2019,34(1):68-74. 被引量：10
2谭学清,张磊,周通,罗琳.一种基于聚类密度的文本分类算法研究[J].图书馆学研究,2016(13):74-83.
3刘亮亮,曹存根.基于局部上下文特征的组合的中文真词错误自动校对研究[J].计算机科学,2016,43(12):30-35. 被引量：8
4李湘东,高凡,丁丛.LDA模型下不同分词方法对文本分类性能的影响研究[J].计算机应用研究,2017,34(1):62-66. 被引量：9
5张磊.文本分类及分类算法研究综述[J].电脑知识与技术,2016,12(12):225-226. 被引量：11
6高元,刘柏嵩.基于集成学习的标题分类算法研究[J].计算机应用研究,2017,34(4):1004-1007. 被引量：9
7高森,严曙,崔超远,孙丙宇,汪六三.基于联合分类器过滤噪声的微博主题发现[J].计算机系统应用,2018,27(1):132-136. 被引量：3
8李伟,汪廷华,郑惠宁.基于特征族群语义扩散核的半监督农业文本分类[J].赣南师范大学学报,2018,39(3):66-71. 被引量：2
9龚永罡,汪昕宇,付俊英,王蕴琪.面向新媒体领域的错别字自动校对[J].信息技术与信息化,2018(10):73-75. 被引量：3
10黄涛,戴淑敏,成二丽.一种地方志资源的混合推荐模型[J].国家图书馆学刊,2018,27(2):14-19. 被引量：5

1李连,朱爱红,苏涛.一种改进的基于向量空间文本相似度算法的研究与实现[J].计算机应用与软件,2012,29(2):282-284. 被引量：35
2袁晓峰.一种基于HNC理论的文本相似度算法[J].计算机时代,2014(11):40-41.
3张金美,舒希勇.基于基尼系数的n-grams特征约简加权算法[J].淮阴工学院学报,2016,25(1):25-28.
4邱云飞,刘世兴,林明明,邵良杉.基于相关性及语义的n-grams特征加权算法[J].模式识别与人工智能,2015,28(11):992-1001. 被引量：2
5贾惠娟.一种改进的文本相似度算法在政务系统中的应用[J].信息技术与信息化,2016(7):49-52. 被引量：3
6邱云飞,刘世兴,魏海超,邵良杉.W-POS语言模型及其选择与匹配算法[J].计算机应用,2015,35(8):2210-2214. 被引量：3
7邱云飞,刘世兴,邵良杉.基于字矩阵交运算的n-grams特征选择加权算法[J].计算机工程与应用,2016,52(22):86-92. 被引量：1
8黄贤英,刘英涛,饶勤菲.一种基于公共词块的英文短文本相似度算法[J].重庆理工大学学报（自然科学）,2015,29(8):88-93. 被引量：7
9詹永照,谢志峰,毛启容.协同学习环境中感知本体的构建方法[J].江苏大学学报（自然科学版）,2007,28(2):164-167. 被引量：4
10郐媛媛.基于语义的文本相似度算法研究[J].计算机光盘软件与应用,2014,17(9):302-303. 被引量：2

情报学报

2013年第7期

浏览历史

内容加载中请稍等...

一种基于随机n-Grams的文本相似度计算方法被引量：8

参考文献23

二级参考文献67

共引文献319

同被引文献159

引证文献8

二级引证文献49

相关作者

相关机构

相关主题

浏览历史

一种基于随机n-Grams的文本相似度计算方法 被引量：8

参考文献23

二级参考文献67

共引文献319

同被引文献159

引证文献8

二级引证文献49

相关作者

相关机构

相关主题

浏览历史

一种基于随机n-Grams的文本相似度计算方法被引量：8