文本相似度计算方法研究综述被引量：75

A Review of Text Similarity Approaches

导出

摘要【目的/意义】文本相似度计算是自然语言处理中的一项基础性研究,通过总结和分析文本相似度计算的经典方法和当前最新的研究成果,完善对文本相似度计算方法的系统化研究,以便于快速学习和掌握文本相似度计算方法。【方法/内容】对过去20年的文本相似度计算领域的经典文献进行整理,分析不同计算方法的基本思想、优缺点,总结每种计算方法的侧重点和不同方向上最新的研究进展。【结果/结论】从表面文本相似度计算方法和语义相似度计算方法两方面进行阐述,形成较为全面的分类体系,其中语义相似度计算方法中的基于语料库的方法是该领域最为主要的研究方向。【Purpose/significance】Text similarity calculation is a basic research in natural language processing. Through summing up and analyzing the classical methods of text similarity calculation and the latest research results, we improve the systematic research on text similarity algorithms, so as to quickly learn and grasp the text similarity calculation methods.【Method/process】We collate the classical literature in the field of text similarity algorithms in the past 20 years, and analyze the basic ideas, advantages and disadvantages of different computing methods, and summarizes the emphasis of each method and the latest research progress in different directions.【Result/conclusion】The surface text similarity calculation method and semantic similarity calculation method were discussed to form a more comprehensive classification system. Corpus-based approach to semantic similarity calculation is the most important research direction in this field.

作者王春柳杨永辉邓霏赖辉源 WANG Chun-liu;YANG Yong-hui;DENG Fei;LAI Hui-yuan(Institute of Computer Application,China Academy of Engineering Physics,Mianyang 621000,China)

机构地区中国工程物理研究院计算机应用研究所

出处《情报科学》 CSSCI 北大核心 2019年第3期158-168,共11页 Information Science

基金国防基础科研计划重点项目(JCKY2016212B004)

关键词文本相似度语义相似度语料库 text similarity semantic similarity sorpus-based review

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献12

1闫红,李付学,周云.基于HowNet句子相似度的计算[J].计算机技术与发展,2015,25(11):53-57. 被引量：10
2尹坤,尹红风,杨燕,贾真.基于SimRank的百度百科词条语义相似度计算[J].山东大学学报（工学版）,2014,44(3):29-35. 被引量：9
3詹志建,梁丽娜,杨小平.基于百度百科的词语相似度计算[J].计算机科学,2013,40(6):199-202. 被引量：20
4陈宏朝,李飞,朱新华,马润聪.基于路径与深度的同义词词林词语相似度计算[J].中文信息学报,2016,30(5):80-88. 被引量：28
5高国强,黄吕威,陈丰钰.使用网络搜索引擎计算汉语词汇的语义相似度[J].计算机技术与发展,2014,24(7):84-87. 被引量：4
6陈二静,姜恩波.文本相似度计算方法研究综述[J].数据分析与知识发现,2017,1(6):1-11. 被引量：69
7陈海燕.基于搜索引擎的词汇语义相似度计算方法[J].计算机科学,2015,42(1):261-267. 被引量：21
8张硕望,欧阳纯萍,阳小华,刘永彬,刘志明.融合《知网》和搜索引擎的词汇语义相似度计算[J].计算机应用,2017,37(4):1056-1060. 被引量：16
9吴克介,王家伟.基于知网与搜索引擎的词汇语义相似度计算[J].计算机与现代化,2018(4):90-94. 被引量：6
10Ahmad Fayez S. Althobaiti.Comparison of Ontology-Based Semantic-Similarity Measures in the Biomedical Text[J].Journal of Computer and Communications,2017,5(2):17-27. 被引量：1

二级参考文献177

1董振东.语义关系的表达和知识系统的建造[J].语言文字应用,1998(3):79-85. 被引量：58
2梅立军,周强,臧路,陈祖舜.知网与同义词词林的信息融合研究[J].中文信息学报,2005,19(1):63-70. 被引量：28
3张涛,杨尔弘.基于上下文词语同现向量的词语相似度计算[J].电脑开发与应用,2005,18(3):41-43. 被引量：7
4吴健,吴朝晖,李莹,邓水光.基于本体论和词汇语义相似度的Web服务发现[J].计算机学报,2005,28(4):595-602. 被引量：218
5郑家恒,卢娇丽.关键词抽取方法的研究[J].计算机工程,2005,31(18):194-196. 被引量：41
6章志凌,虞立群,陈奕秋,罗海飞,邵晓敏.基于Corpus库的词语相似度计算方法[J].计算机应用,2006,26(3):638-640. 被引量：17
7杨思春.一种改进的句子相似度计算模型[J].电子科技大学学报,2006,35(6):956-959. 被引量：34
8秦春秀,赵捧未,刘怀亮.词语相似度计算研究[J].情报理论与实践,2007,30(1):105-108. 被引量：30
9李峰,李芳.中文词语语义相似度计算——基于《知网》2000[J].中文信息学报,2007,21(3):99-105. 被引量：105
10黄果,周竹荣,周亭.基于领域本体的语义相似度计算研究[J].计算机工程与科学,2007,29(5):112-117. 被引量：21

共引文献299

1龚丽娟,王昊,张紫玄,朱立平.Word2Vec对海关报关商品文本特征降维效果分析[J].数据分析与知识发现,2020,4(2):89-100. 被引量：6
2吴汉东,李安.网络版权治理的算法技术与算法规则[J].网络法律评论,2020,20(1):78-101. 被引量：8
3谢红.基于词频比的改进Jaccard系数文本相似度计算[J].内江科技,2021,42(8):27-28. 被引量：8
4裴培,丁雪晶.基于本体的语义相似度计算综述[J].合肥学院学报（综合版）,2020(5):68-74. 被引量：2
5廖振.利用相似度分析方法缩短变电站端子箱、机构箱内驱潮装置故障排查时间[J].电气开关,2020,0(1):81-85.
6康锋,张会巍.论文查重的技术原理、局限及其合理应用[J].编辑学报,2023,35(3):288-294. 被引量：2
7徐智威.基于《知网》的词语相似度计算算法研究[J].包装世界,2018,0(4):101-102.
8晋耀红.基于语境框架的文本相似度计算[J].计算机工程与应用,2004,40(16):36-39. 被引量：26
9周如旗.基于扩展Petri网的文本分类模型[J].电脑与信息技术,2005,13(4):7-9.
10于凤,郑德权,赵铁军,李生.基于上下文多元信息的文档相似度计算研究[J].哈尔滨工程大学学报,2006,27(B07):397-402. 被引量：2

同被引文献702

1徐林明,李美娟.动态综合评价中的数据预处理方法研究[J].中国管理科学,2020,0(1):162-169. 被引量：47
2丁晟春,俞沣洋,李真.网络舆情潜在热点主题识别研究[J].数据分析与知识发现,2020,4(2):29-38. 被引量：4
3曹瑞琴,杨丽兵.高校图书馆专题展览服务研究[J].图书馆建设,2020(S01):169-172. 被引量：10
4台钰莹,王乐春,杨东波.元数据标准登记系统平台构建——以文物行业为例[J].图书馆建设,2019,0(S01):15-19. 被引量：4
5谢红.基于词频比的改进Jaccard系数文本相似度计算[J].内江科技,2021,42(8):27-28. 被引量：8
6裴培,丁雪晶.基于本体的语义相似度计算综述[J].合肥学院学报（综合版）,2020(5):68-74. 被引量：2
7胡雨晴,纪明宇,王晨龙.基于依存句法的句子相似度计算方法[J].智能计算机与应用,2020(4):113-118. 被引量：2
8樊雅莉,唐先平.中医“痛风”源流考[J].吉林中医药,2009,29(2):176-178. 被引量：16
9任振球.特大自然灾害预测研究的科学方法论[J].地球信息科学,2000,2(2):1-5. 被引量：9
10董振东.语义关系的表达和知识系统的建造[J].语言文字应用,1998(3):79-85. 被引量：58

引证文献75

1严娇,马静,房康.基于融合共现距离的句法网络下文本语义相似度计算[J].数据分析与知识发现,2019,3(12):93-100. 被引量：3
2周婷玮.基于共现网络与情感分析的多平台消费者评论主题比较研究[J].知识管理论坛,2023(2):79-91. 被引量：2
3赵增涛,张豪,余益龙.应用于电网资产模型搜索的交叉权积文本相似度计算方法[J].水利水电技术（中英文）,2020,51(S02):209-214.
4吴汉东,李安.网络版权治理的算法技术与算法规则[J].网络法律评论,2020,20(1):78-101. 被引量：8
5杜小虎,吴宏明,易子博,李莎莎,马俊,余杰.文本对抗样本攻击与防御技术综述[J].中文信息学报,2021,35(8):1-15. 被引量：5
6谢红.基于词频比的改进Jaccard系数文本相似度计算[J].内江科技,2021,42(8):27-28. 被引量：8
7康锋,张会巍.论文查重的技术原理、局限及其合理应用[J].编辑学报,2023,35(3):288-294. 被引量：2
8张骥,张红梅,邵华,郑紫尧,李亮玉.基于全景数字仿真的变电站一键顺控测试技术[J].高电压技术,2023,49(S01):128-134. 被引量：1
9刘旭东,苏马婧,朱广宇.基于自然语言处理的多源情报分析系统的研究与设计[J].信息技术与网络安全,2019,38(5):17-21. 被引量：7
10何宏,廖巍,唐林丰,刘勋寒.基于文本相似度算法的融合推荐系统的设计与实现[J].科技资讯,2019,17(28):6-8. 被引量：2

二级引证文献265

1魏太琛,刘敏榕,陈振标.高校专利可转化性与转化金额影响因素对比研究及其对高校专利分级管理的启示[J].知识管理论坛,2023(2):92-103.
2周婷玮.基于共现网络与情感分析的多平台消费者评论主题比较研究[J].知识管理论坛,2023(2):79-91. 被引量：2
3冯建英,石岩,王博,穆维松.基于聚类分析的数据挖掘技术及其农业应用研究进展[J].农业机械学报,2022,53(S01):201-212. 被引量：7
4任娇菡,肖尤丹.中国科学院被质押专利现状、问题与对策研究[J].科技促进发展,2022,18(7):854-863.
5焦利敏,刘泽超,顾子谦,金轮,胡亚欣,王生泽,刘冬阳.智能家电语音交互能力测试语料库建设的研究[J].家电科技,2022(S01):130-134.
6吴旭敏,罗颖,粟丹倪.在线教育增强互动性和教学可持续性的方法实践研究[J].设计艺术研究,2021(2):72-76. 被引量：2
7焦和平.算法私人执法对版权公共领域的侵蚀及其应对[J].法商研究,2023,40(1):187-200. 被引量：11
8李茂胜,王天一.基于多特征融合的羊养殖问句相似度评价方法[J].智能计算机与应用,2021,11(12):22-27.
9罗杭垠,王秋艳.短视频平台影视作品二次创作的版权侵权现象研究[J].传媒论坛,2022,5(24):63-66. 被引量：5
10卢俊.“SPOC+雨课堂”翻转课堂的生态化教学模式构建与评价[J].长春大学学报,2022,32(4):104-108. 被引量：1

1牛冬函.既然选择就要无悔[J].文理导航（教育研究与实践）,2019,0(3):215-215.
2张辉.为什么有些知识你学不到[J].经营者,2018,32(9):105-107.
3米爱琴.提高读书意识,实现快乐阅读——以部编一年级语文教材为例[J].新课程,2019,0(1):91-91. 被引量：1
4叶俊民,黄朋威,罗达雄,王志锋,陈曙.一种基于HIN的学习资源推荐算法研究[J].小型微型计算机系统,2019,40(4):726-732. 被引量：10
5李书影.论《人性的污秽》的战争创伤书写[J].淮北师范大学学报（哲学社会科学版）,2018,39(2):76-79. 被引量：2
6何喜军,张婷婷,武玉英,蒋国瑞.供需匹配视角下基于语义相似聚类的技术需求识别模型[J].系统工程理论与实践,2019,39(2):476-485. 被引量：15
7严伟.电子游戏参与公共治理的思考:基于赫伊津哈的游戏论视角[J].新闻研究导刊,2018,9(15):50-51.
8魏兵.热播女性叙事电视剧中女性形象的偏移表现与生成分析[J].当代电视,2019(3):44-48. 被引量：4
9崔景伟,侯连华,朱如凯,李士祥,吴松涛.鄂尔多斯盆地延长组长_7页岩层段岩石热导率特征及启示[J].石油实验地质,2019,41(2):280-288. 被引量：9
10蒋南平,郑万军.中国农村人口贫困变动研究——基于多维脱贫指数测度[J].经济理论与经济管理,2019,39(2):78-88. 被引量：21

情报科学

2019年第3期

浏览历史

内容加载中请稍等...

文本相似度计算方法研究综述被引量：75

参考文献12

二级参考文献177

共引文献299

同被引文献702

引证文献75

二级引证文献265

相关作者

相关机构

相关主题

浏览历史

文本相似度计算方法研究综述 被引量：75

参考文献12

二级参考文献177

共引文献299

同被引文献702

引证文献75

二级引证文献265

相关作者

相关机构

相关主题

浏览历史

文本相似度计算方法研究综述被引量：75