一种基于公共词块的英文短文本相似度算法被引量：7

Similarity Algorithm Based on Common Chunks Between English Short Texts

下载PDF

导出

摘要短文本相似度计算是自然语言处理方面的研究热点,传统基于词项的文本相似度算法只考虑了词项因素,忽略了词序对短文本相似性的影响。为此提出了一种基于公共词块的短文本相似度计算方法,综合考虑了词项和词序因素,将基于词项重合的重叠相似度算法与公共词块间的词序相似度算法相结合,并采用自适应的加权组合方式得到短文本相似度值。实验结果显示:与传统算法相比,该算法在稳定性和F值方面都具有较好的结果。 It is short text similarity computation that has been the focus of the natural language pro- cessing. Only the words are considered in the traditional text similarity algorithm based on the terms, with words order ignored. A new method based on common chunks was presented to calculate the short text similarity, which considers the number and the sequence of the same words. The similarity of the short texts was gotten through making automatic coefficient between the similarity based on the same words and the similarity based on the order of the same words. The simulation results show that, compared with conventional similarity algorithms, the presented algorithm has a better performance in the stability and the harmonic-mean towards the precision and the recall.

作者黄贤英刘英涛饶勤菲

机构地区重庆理工大学计算机科学与工程学院

出处《重庆理工大学学报（自然科学）》 CAS 2015年第8期88-93,共6页 Journal of Chongqing University of Technology：Natural Science

基金国家自然科学基金资助项目(61173184) 重庆市教委科技计划项目(KJ100821) 重庆理工大学研究生创新基金资助项目(YCX2014227)

关键词短文本词序公共词块相似度算法 short text words order common chunks similarity algorithm

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献14

1华秀丽,朱巧明,李培峰.语义分析与词频统计相结合的中文文本相似度量方法研究[J].计算机应用研究,2012,29(3):833-836. 被引量：41
2林小俊,张猛,暴筱,李军,吴玺宏.基于概念网络的短文本分类方法[J].计算机工程,2010,36(21):4-6. 被引量：9
3金春霞,周海岩.动态向量的中文短文本聚类[J].计算机工程与应用,2011,47(33):156-158. 被引量：10
4赵小谦,郑彦,储海庆.概念树在短文本语义相似度上的应用[J].计算机技术与发展,2012,22(6):159-162. 被引量：4
5路荣,项亮,刘明荣,杨青.基于隐主题分析和文本聚类的微博客中新闻话题的发现[J].模式识别与人工智能,2012,25(3):382-387. 被引量：67
6郑斐然,苗夺谦,张志飞,高灿.一种中文微博新闻话题检测的方法[J].计算机科学,2012,39(1):138-141. 被引量：84
7孙建旺,吕学强,张雷瀚.基于语义与最大匹配度的短文本分类研究[J].计算机工程与设计,2013,34(10):3613-3618. 被引量：18
8Yuhua H, David McI~an, Zuhair A. Bandar, et al. Sen- tence Similarity Based on Semantic Nets and Corpus Sta- tistics [ J ]. Knowledge and Data Engineering, 2006, 18 (8) :1138 - 1150.
9IslamA, Inkpen D. Semantic Text Similarity Using Cor- put-based Word Similarity and String Similarity[ J]. ACM Transactions on Knowledge Discovery from Data, 2008 (2) :1o.
10朱征宇,孙俊华.改进的基于《知网》的词汇语义相似度计算[J].计算机应用,2013,33(8):2276-2279. 被引量：58

二级参考文献89

1张瑞霞,肖汉.基于知网的词图构造[J].华北水利水电学院学报,2008(3):53-56. 被引量：6
2王细薇,樊兴华,赵军.一种基于特征扩展的中文短文本分类方法[J].计算机应用,2009,29(3):843-845. 被引量：36
3邹纲,刘洋,刘群,孟遥,于浩,西野文人,亢世勇.面向Internet的中文新词语检测[J].中文信息学报,2004,18(6):1-9. 被引量：59
4骆卫华,于满泉,许洪波,王斌,程学旗.基于多策略优化的分治多层聚类算法的话题发现研究[J].中文信息学报,2006,20(1):29-36. 被引量：38
5樊兴华,孙茂松.一种高性能的两类中文文本分类方法[J].计算机学报,2006,29(1):124-131. 被引量：70
6余刚,裴仰军,朱征宇,陈华月.基于词汇语义计算的文本相似度研究[J].计算机工程与设计,2006,27(2):241-244. 被引量：25
7荀恩东,颜伟.基于语义网计算英语词语相似度[J].情报学报,2006,25(1):43-48. 被引量：41
8刘华.一种快速获取领域新词语的新方法[J].中文信息学报,2006,20(5):17-23. 被引量：14
9李峰,李芳.中文词语语义相似度计算——基于《知网》2000[J].中文信息学报,2007,21(3):99-105. 被引量：105
10黄果,周竹荣.基于领域本体的概念语义相似度计算研究[J].计算机工程与设计,2007,28(10):2460-2463. 被引量：67

共引文献270

1余本功,曹雨蒙,陈杨楠,杨颖.基于nLD-SVM-RF的短文本分类研究[J].数据分析与知识发现,2020,4(1):111-120. 被引量：9
2张平.运动与心脏的重塑[J].中国运动医学杂志,2000,19(1):76-80. 被引量：13
3黄玲,陈智铨,黄修志.活血化淤中药保胎10例观察[J].实用中医药杂志,2000,16(2):10-10. 被引量：2
4张瑞霞,杨国增,闫新庆.基于知网的汉语普通未登录词语义分析模型[J].计算机应用与软件,2012,29(8):126-130. 被引量：4
5蒋盛益,麦智凯,庞观松,吴美玲,王连喜.微博信息挖掘技术研究综述[J].图书情报工作,2012,56(17):136-142. 被引量：28
6杜华.文字云图的英语阅读教学设计与实践——以文字云图工具Wordle为例[J].现代教育技术,2012,22(9):65-69. 被引量：17
7赵文清,侯小可.基于词共现图的中文微博新闻话题识别[J].智能系统学报,2012,7(5):444-449. 被引量：30
8杨天平,朱征宇.使用概念描述的中文短文本分类算法[J].计算机应用,2012,32(12):3335-3338. 被引量：7
9唐晓波,王洪艳.基于潜在语义分析的微博主题挖掘模型研究[J].图书情报工作,2012,56(24):114-119. 被引量：31
10潘大庆.基于层次聚类的微博敏感话题检测算法研究[J].广西民族大学学报（自然科学版）,2012,18(4):56-59. 被引量：5

同被引文献42

1于津凯,王映雪,陈怀楚.一种基于N-Gram改进的文本特征提取算法[J].图书情报工作,2004,48(8):48-50. 被引量：17
2董振东,董强.知网和汉语研究[J].当代语言学,2001,3(1):33-44. 被引量：56
3李峰,李芳.中文词语语义相似度计算——基于《知网》2000[J].中文信息学报,2007,21(3):99-105. 被引量：105
4郭庆琳,李艳梅,唐琦.基于VSM的文本相似度计算的研究[J].计算机应用研究,2008,25(11):3256-3258. 被引量：101
5邓宏光.论商标侵权的判断标准--兼论《中华人民共和国商标法》第52条的修改[J].法商研究,2010,27(1):46-53. 被引量：44
6魏纪林,胡神松,李明星.关于我国企业商标战略措施的基本思考[J].知识产权,2010,20(5):49-53. 被引量：4
7刘振鹿,王大玲,冯时,张一飞,方东昊.一种基于LDA的潜在语义区划分及Web文档聚类算法[J].中文信息学报,2011,25(1):60-65. 被引量：19
8黄承慧,印鉴,侯昉.一种结合词项语义信息和TF-IDF方法的文本相似度量方法[J].计算机学报,2011,34(5):856-864. 被引量：212
9徐戈,王厚峰.自然语言处理中主题模型的发展[J].计算机学报,2011,34(8):1423-1436. 被引量：231
10赵卫中,马慧芳,李志清,史忠植.一种结合主动学习的半监督文档聚类算法[J].软件学报,2012,23(6):1486-1499. 被引量：30

引证文献7

1魏霖静,练智超,王联国,侯振兴.基于词条与语意差异度量的文档聚类算法[J].计算机科学,2016,43(12):229-233. 被引量：1
2黄贤英,谢晋,龙姝言.基于公共词块及N-gram模型的问句相似度算法[J].重庆理工大学学报（自然科学）,2017,31(10):175-179. 被引量：7
3翟东升,蔡文浩,张杰,李振飞.改进的中文商标语义相似度计算方法研究[J].数据分析与知识发现,2017,1(11):19-28.
4王维建.基于公共块“补偿-对称”模型的微博文本相似度计算[J].通信技术,2018,51(8):1924-1930.
5郭涛,霸元婕,李绍昂.基于公共词集对长篇小说相似度的研究[J].软件工程,2018,21(10):11-13.
6周福星,陈秀真,马进,李生红.一种融合标签语义的微博热点话题挖掘方法[J].计算机工程,2019,45(10):283-287. 被引量：3
7胡婷.基于话题决策模型的英文文本切题度计算方法研究[J].自动化技术与应用,2024,43(4):60-62.

二级引证文献11

1陈鸣,杜庆治,邵玉斌,龙华.基于音形码的汉字相似度比对算法[J].信息技术,2018,42(11):73-75. 被引量：6
2周昊,沈庆宏.基于改进音形码的中文敏感词检测算法[J].南京大学学报（自然科学版）,2020,56(2):270-277. 被引量：6
3王留洋,俞扬信,陈伯伦,章慧.基于共识和分类改善文档聚类的识别信息方法[J].计算机应用,2020,40(4):1069-1073. 被引量：6
4王鑫,傅强,王林,徐大为,王昊奋.知识图谱可视化查询技术综述[J].计算机工程,2020,46(6):1-11. 被引量：22
5邓凯凯,陆向艳,阮开栋,许欣,刘峻.基于语境分类与遗传算法的微博情感分析方法[J].软件导刊,2021,20(1):178-184. 被引量：1
6王贤明,潘佳玲,胡智文.AR-Grams:一种应用于网络舆情热点发现的文本聚类方法[J].中国传媒大学学报（自然科学版）,2021,28(5):59-65. 被引量：2
7刘泽,徐潇洁,邵波.基于多策略混合问答系统模型的图书馆咨询机器人的设计与应用[J].新世纪图书馆,2022(5):43-49. 被引量：7
8鲍治国,王海安,胡士伟,马西锋.基于内容相似度的相关性评分算法对比分析研究[J].电子测试,2022,36(19):52-55.
9李伊仝,王红斌,程良.融入新闻标题信息的新闻文本与评论的语义相似度计算方法[J].吉林大学学报（理学版）,2022,60(6):1399-1406.
10董婧,程波,陈静锐.基于OBE理念的机器学习课程实验教学案例设计[J].曲靖师范学院学报,2023,42(3):103-109. 被引量：2

1李连,朱爱红,苏涛.一种改进的基于向量空间文本相似度算法的研究与实现[J].计算机应用与软件,2012,29(2):282-284. 被引量：35
2袁晓峰.一种基于HNC理论的文本相似度算法[J].计算机时代,2014(11):40-41.
3贾惠娟.一种改进的文本相似度算法在政务系统中的应用[J].信息技术与信息化,2016(7):49-52. 被引量：3
4郐媛媛.基于语义的文本相似度算法研究[J].计算机光盘软件与应用,2014,17(9):302-303. 被引量：2
5张佩云,陈传明,黄波.基于子树匹配的文本相似度算法[J].模式识别与人工智能,2014,27(3):226-234. 被引量：13
6黄贤英,李沁东,刘英涛.结合词性的短文本相似度算法及其在文本分类中的应用[J].电讯技术,2017,57(1):78-82. 被引量：11
7周丽杰,于伟海,郭成.基于改进的TF-IDF方法的文本相似度算法研究[J].泰山学院学报,2015,37(3):18-22. 被引量：10
8金博,史彦军,滕弘飞.基于语义理解的文本相似度算法[J].大连理工大学学报,2005,45(2):291-297. 被引量：79
9黄炜.文本相似度计算在企业信息检索中的应用[J].科学技术与工程,2011,11(15):3571-3575.
10王贤明,胡智文,谷琼.一种基于随机n-Grams的文本相似度计算方法[J].情报学报,2013,32(7):716-723. 被引量：8

重庆理工大学学报（自然科学）

2015年第8期

浏览历史

内容加载中请稍等...

一种基于公共词块的英文短文本相似度算法被引量：7

参考文献14

二级参考文献89

共引文献270

同被引文献42

引证文献7

二级引证文献11

相关作者

相关机构

相关主题

浏览历史

一种基于公共词块的英文短文本相似度算法 被引量：7

参考文献14

二级参考文献89

共引文献270

同被引文献42

引证文献7

二级引证文献11

相关作者

相关机构

相关主题

浏览历史

一种基于公共词块的英文短文本相似度算法被引量：7